Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Two-Step Data Augmentation for Masked Face Detection and Recognition: Turning Fake Masks to Real
Yan Yang,George Bebis,Mircea Nicolescu
Main category: cs.CV
TL;DR: 提出两阶段生成式数据增强框架,结合规则掩码变形与GAN图像转换,解决口罩人脸检测识别中的数据稀缺和分布偏移问题。
- Motivation: 口罩人脸检测与识别面临数据稀缺和分布偏移的挑战,需要生成更真实的口罩人脸样本来增强训练数据。
- Method: 两阶段方法:1) 规则基础的口罩变形;2) 使用GAN进行无配对图像到图像转换。引入非口罩保留损失和随机噪声注入来稳定训练并增强样本多样性。
- Result: 相比纯规则变形方法,该方法在质量上有持续改进,并补充了现有GAN方法如IAMGAN。实验验证了所提组件的有效性。
- Conclusion: 该生成式数据增强框架能有效生成真实口罩人脸样本,为面向人脸识别任务的数据中心化增强提供了未来改进方向。
[2] Seeing Beyond Words: Self-Supervised Visual Learning for Multimodal Large Language Models
Davide Caffagni,Sara Sarto,Marcella Cornia,Lorenzo Baraldi,Pier Luigi Dovesi,Shaghayegh Roohi,Mark Granroth-Wilding,Rita Cucchiara
Main category: cs.CV
TL;DR: JARVIS是一个受JEPA启发的自监督视觉增强框架,通过集成I-JEPA学习范式到MLLMs训练中,利用冻结的视觉基础模型作为编码器,训练LLM早期层作为预测器,从图像中学习结构和语义规律,提升MLLMs的视觉推理能力。
- Motivation: 当前多模态大语言模型(MLLMs)在基础视觉推理任务上能力有限,主要因为:1)视觉理解主要从文本描述中学习,这是主观且不完整的监督信号;2)多模态指令调优规模远小于纯文本预训练,导致模型过度依赖语言先验而忽视视觉细节。
- Method: 提出JARVIS框架,将I-JEPA学习范式集成到标准视觉语言对齐流程中。使用冻结的视觉基础模型作为上下文和目标编码器,训练LLM的早期层作为预测器,从图像中学习结构和语义规律,不依赖语言监督。
- Result: 在标准MLLM基准测试上的广泛实验表明,JARVIS能持续提升不同LLM家族在视觉中心基准上的性能,且不会降低多模态推理能力。
- Conclusion: JARVIS通过自监督视觉增强有效解决了MLLMs过度依赖语言先验的问题,提升了视觉推理能力,为MLLMs的视觉理解提供了更稳健的基础。
[3] City Navigation in the Wild: Exploring Emergent Navigation from Web-Scale Knowledge in MLLMs
Dwip Dalal,Utkarsh Mishra,Narendra Ahuja,Nebojsa Jojic
Main category: cs.CV
TL;DR: 本文提出了稀疏接地视觉导航任务和CityNav基准,用于评估多模态大语言模型在真实城市环境中的顺序决策能力,并提出了Verbalization of Path方法显著提升导航成功率。
- Motivation: 当前基于多模态大语言模型的具身智能体评估基准过于语言中心化或依赖模拟环境,缺乏对实际复杂场景中知识密集型推理能力的测试,需要构建更贴近真实世界挑战的评估框架。
- Method: 提出了稀疏接地视觉导航任务,并构建了CityNav基准,涵盖四个全球城市,要求智能体仅依靠视觉输入和多模态推理在50+决策点进行顺序导航。为解决现有方法表现不佳的问题,提出了Verbalization of Path方法,通过从MLLMs中提取显式认知地图来增强导航能力。
- Result: 实验表明,当前最先进的多模态大语言模型和标准推理技术在CityNav基准上表现显著不足,而提出的Verbalization of Path方法能够大幅提升导航成功率。
- Conclusion: 稀疏接地视觉导航任务揭示了当前MLLMs在真实世界知识密集型推理方面的局限性,提出的Verbalization of Path方法通过显式认知地图的构建有效提升了导航性能,为开发更实用的具身智能体提供了重要方向。
[4] R4: Retrieval-Augmented Reasoning for Vision-Language Models in 4D Spatio-Temporal Space
Tin Stribor Sohn,Maximilian Dillitzer,Jason J. Corso,Eric Sax
Main category: cs.CV
TL;DR: R4是一个无需训练的检索增强推理框架,为视觉语言模型提供结构化、终身记忆的4D时空知识库,通过语义、空间和时间检索提升动态环境中的推理能力。
- Motivation: 受人类在四维时空感知和推理能力的启发,希望让视觉语言模型具备构建持久结构化内部表示的能力,以支持回忆过去事件、推断未观察状态和上下文相关推理。
- Method: R4框架持续构建4D知识数据库,将对象级语义描述锚定在度量空间和时间中,形成持久世界模型。推理时,自然语言查询被分解为语义、空间和时间键来检索相关观察,并集成到VLM的推理中。
- Result: 在具身问答和导航基准测试中,R4在时空信息检索和推理方面显著优于基线方法,展示了无需训练即可实现情景和协作推理的能力。
- Conclusion: R4为动态环境中的具身4D推理提供了新范式,通过结构化终身记忆系统增强了视觉语言模型的时空推理能力。
[5] The Perceptual Observatory Characterizing Robustness and Grounding in MLLMs
Tejas Anvekar,Fenil Bardoliya,Pavan K. Turaga,Chitta Baral,Vivek Gupta
Main category: cs.CV
TL;DR: 论文提出了The Perceptual Observatory框架,用于系统评估多模态大语言模型的感知能力,超越传统准确率指标,关注模型在扰动下的鲁棒性、归因保真度和推理能力。
- Motivation: 当前多模态大语言模型发展迅速,但大多数模型家族仅扩展语言组件而重用相同的视觉编码器,这引发了对模型进步是否真正源于视觉基础能力还是依赖互联网规模文本知识的担忧。现有评估方法过于强调最终任务准确率,忽略了鲁棒性、归因保真度和受控扰动下的推理能力。
- Method: 提出The Perceptual Observatory框架,通过多个垂直维度评估MLLMs:1) 简单视觉任务(如人脸匹配、文本视觉理解);2) 局部到全局理解(如图像匹配、网格指向游戏、属性定位)。每个维度使用真实数据集(人脸和文字),并通过像素级增强和基于扩散的风格化幻觉进行系统性扰动。
- Result: 该框架超越了排行榜准确率,能够深入分析MLLMs在扰动下如何保持感知基础和关系结构,为分析当前和未来模型的优势和弱点提供了原则性基础。
- Conclusion: The Perceptual Observatory为评估多模态大语言模型的感知能力提供了系统化框架,能够更全面地评估模型的视觉基础能力,揭示模型在扰动下的表现,为未来模型开发提供重要指导。
[6] Seeing is Believing (and Predicting): Context-Aware Multi-Human Behavior Prediction with Vision Language Models
Utsav Panchal,Yuchen Liu,Luigi Palmieri,Ilche Georgievski,Marco Aiello
Main category: cs.CV
TL;DR: CAMP-VLM是一个基于视觉语言模型的框架,通过视觉上下文特征和场景图的空间感知来预测多人在第三人称视角下的行为,在合成和真实数据上表现优异。
- Motivation: 现有研究主要关注单人在第一人称视角下的行为预测,但许多机器人应用需要从第三人称视角理解多人的行为,目前缺乏相关的数据集和方法。
- Method: 提出CAMP-VLM框架,结合视觉输入的上下文特征和场景图的空间感知;使用光真实感模拟器生成合成数据进行微调;采用监督微调(SFT)和直接偏好优化(DPO)进行训练。
- Result: CAMP-VLM在预测准确率上比最佳基线方法提升高达66.9%,并在合成和真实世界序列上都表现出良好的泛化能力。
- Conclusion: CAMP-VLM通过结合视觉语言模型、上下文特征和空间感知,有效解决了多人在第三人称视角下的行为预测问题,为机器人应用提供了重要支持。
[7] From Words to Wavelengths: VLMs for Few-Shot Multispectral Object Detection
Manuel Nkegoum,Minh-Tan Pham,Élisa Fromont,Bruno Avignon,Sébastien Lefèvre
Main category: cs.CV
TL;DR: 本文探索使用视觉语言模型进行少样本多光谱目标检测,通过适配Grounding DINO和YOLO-World处理多光谱输入,在FLIR和M3FD基准上显著优于专用多光谱模型。
- Motivation: 多光谱目标检测在自动驾驶和监控等安全敏感应用中至关重要,但标注数据稀缺限制了深度检测器的训练。文本类别信息可以作为有价值的语义监督源,视觉语言模型在计算机视觉中的成功激发了其在少样本多光谱检测中的潜力探索。
- Method: 适配两种代表性的VLM检测器(Grounding DINO和YOLO-World)处理多光谱输入,提出有效机制整合文本、视觉和热模态信息,在多光谱图像基准上进行实验验证。
- Result: VLM检测器在少样本场景下表现出色,显著优于使用可比数据训练的专用多光谱模型,在全监督设置下也达到竞争性或更优结果。大规模VLM学习的语义先验能有效迁移到未见的光谱模态。
- Conclusion: 视觉语言模型为数据高效的多光谱感知提供了强大途径,其语义先验能有效迁移到多光谱领域,在少样本和全监督场景下均表现优异。
[8] Are vision-language models ready to zero-shot replace supervised classification models in agriculture?
Earl Ranario,Mason J. Earles
Main category: cs.CV
TL;DR: 农业视觉语言模型基准测试显示,当前VLMs在农业分类任务上表现远低于专用监督模型,不适合作为独立诊断系统,但可作为辅助组件。
- Motivation: 评估视觉语言模型在农业决策支持中的可靠性,了解其在实际农业分类任务中的表现,为农业AI应用提供参考。
- Method: 在AgML集合的27个农业分类数据集(162个类别)上基准测试开源和闭源VLMs,比较零样本性能与监督基线(YOLO11),使用多项选择和开放式提示策略,并应用LLM语义判断。
- Result: VLMs显著落后于监督基线;最佳VLM(Gemini-3 Pro)多项选择准确率约62%,开放式提示准确率低于25%;语义判断可提升开放式准确率;开源模型Qwen-VL-72B表现最佳;植物/杂草分类比病虫害识别更容易。
- Conclusion: 当前现成VLMs不适合作为独立农业诊断系统,但可作为辅助组件,需配合约束界面、明确标签本体和领域感知评估策略。
[9] Eyes on the Grass: Biodiversity-Increasing Robotic Mowing Using Deep Visual Embeddings
Lars Beckers,Arno Waes,Aaron Van Campenhout,Toon Goedemé
Main category: cs.CV
TL;DR: 提出基于视觉感知和自适应决策的机器人割草框架,通过深度特征空间分析识别和保护视觉多样性植被斑块,选择性停用割草刀片来主动提升花园生物多样性。
- Motivation: 传统被动式野化方法效果有限,需要主动干预来将生态价值低的单一草坪转变为促进城市生物多样性的活跃生物群落。
- Method: 使用在PlantNet300K上预训练的ResNet50网络提取生态有意义的嵌入特征,通过全局偏差度量估计生物多样性(无需物种级监督),驱动选择性割草算法动态切换割草和保护行为。
- Result: 嵌入空间分散度与专家生物多样性评估高度相关,验证了深度视觉多样性作为生态丰富度代理的可行性,以及所提割草决策方法的有效性。
- Conclusion: 该系统能将生态价值低的单一草坪转变为促进城市生物多样性的活跃生物群落,广泛采用此类系统将显著提升城市生物多样性。
[10] CoVAR: Co-generation of Video and Action for Robotic Manipulation via Multi-Modal Diffusion
Liudi Yang,Yang Bai,George Eskandar,Fengyi Shen,Mohammad Altillawi,Dong Chen,Ziyuan Liu,Abhinav Valada
Main category: cs.CV
TL;DR: 提出一种从图像和关节状态生成视频-动作对的方法,通过扩展预训练视频扩散模型并引入跨模态交互机制,解决机器人策略学习中动作标注缺乏的问题。
- Motivation: 现有方法要么采用两阶段管道限制了跨模态信息共享,要么依赖单模态扩散模型无法充分利用预训练视频知识,需要一种能自动提供动作标注并充分利用视频数据的方法。
- Method: 1) 扩展预训练视频扩散模型,增加并行专用动作扩散模型以保留预训练知识;2) 引入桥接注意力机制实现有效跨模态交互;3) 设计动作细化模块将粗略动作转换为低分辨率数据集的精确控制。
- Result: 在多个公共基准和真实世界数据集上的评估表明,该方法能生成更高质量的视频、更准确的动作,显著优于现有基线方法。
- Conclusion: 该方法为利用大规模视频数据进行机器人学习提供了一个可扩展的框架,克服了动作标注缺乏的问题,实现了更好的跨模态信息共享。
[11] Driving in Corner Case: A Real-World Adversarial Closed-Loop Evaluation Platform for End-to-End Autonomous Driving
Jiaheng Geng,Jiatong Du,Xinyu Zhang,Ye Li,Panqu Wang,Yanjun Huang
Main category: cs.CV
TL;DR: 提出一个用于端到端自动驾驶的闭环评估平台,通过对抗性交互生成真实世界中的安全关键角点案例,以评估模型在极端情况下的性能
- Motivation: 安全关键角点案例在现实世界中难以收集,但对评估端到端自动驾驶至关重要。现有对抗性评估方法主要针对简化仿真环境中的模型,而针对真实世界端到端自动驾驶的对抗性评估研究较少
- Method: 1) 基于流匹配的真实世界图像生成器,根据交通环境信息高效稳定地生成真实驾驶图像;2) 高效的对抗性周围车辆策略,模拟具有挑战性的交互并创建当前自动驾驶系统难以处理的角点案例;3) 闭环评估平台将两者结合,评估各种在真实数据上训练的端到端模型
- Result: 平台能够高效生成逼真的驾驶图像。通过评估UniAD和VAD等端到端模型,基于对抗性策略的平台能够评估测试模型在角点案例中的性能下降,有效检测模型的潜在问题
- Conclusion: 该平台能够有效检测端到端自动驾驶模型的潜在安全问题,有助于提升自动驾驶的安全性和鲁棒性,为真实世界自动驾驶系统的评估提供了有效工具
[12] FOD-Diff: 3D Multi-Channel Patch Diffusion Model for Fiber Orientation Distribution
Hao Tang,Hanyu Liu,Alessandro Perelli,Xi Chen,Chao Li
Main category: cs.CV
TL;DR: 提出3D多通道补丁扩散模型,从低角度分辨率扩散MRI预测高角度分辨率纤维方向分布,通过FOD补丁适配器、体素级条件协调模块和SH注意力模块提升性能。
- Motivation: 单壳层低角度分辨率dMRI估计FOD精度有限,而多壳层高角度分辨率dMRI需要长时间扫描,限制了临床应用。扩散模型在从LAR-FOD估计HAR-FOD方面有潜力,但由于FOD中球谐系数数量庞大,高效生成HAR-FOD具有挑战性。
- Method: 提出3D多通道补丁扩散模型预测HAR-FOD:1) 设计FOD补丁适配器,引入先验脑解剖知识实现更高效的基于补丁的学习;2) 引入体素级条件协调模块增强模型的全局理解;3) 设计SH注意力模块有效学习球谐系数的复杂相关性。
- Result: 实验结果表明,该方法在HAR-FOD预测方面取得最佳性能,优于其他最先进方法。
- Conclusion: 提出的3D多通道补丁扩散模型能够有效从LAR-FOD预测HAR-FOD,通过创新的架构设计解决了球谐系数数量庞大带来的挑战,在性能和效率上都表现出色。
[13] Auto-Vocabulary 3D Object Detection
Haomeng Zhang,Kuan-Chuan Peng,Suhas Lohit,Raymond A. Yeh
Main category: cs.CV
TL;DR: AV3DOD提出了一种自动词汇3D目标检测方法,无需用户指定类别,通过2D视觉语言模型生成语义候选,在定位和语义质量上达到SOTA。
- Motivation: 现有开放词汇3D目标检测方法在训练和推理时仍需用户指定类别,限制了其真正开放性和实用性。作者希望实现完全自动化的3D目标检测,无需任何用户输入即可生成检测对象的类别名称。
- Method: 提出AV3DOD框架:1)引入语义评分(SS)评估生成类名的质量;2)利用2D视觉语言模型通过图像描述、伪3D框生成和特征空间语义扩展来生成丰富的语义候选。
- Result: 在ScanNetV2和SUNRGB-D数据集上达到SOTA性能:定位(mAP)和语义质量(SS)均最优。在ScanNetV2上比SOTA方法CoDA提升3.48整体mAP,SS相对提升24.5%。
- Conclusion: AV3DOD首次实现了真正自动化的3D目标检测,无需用户指定类别,通过创新的语义生成框架在定位精度和语义质量上都取得了显著提升。
[14] LAPX: Lightweight Hourglass Network with Global Context
Haopeng Zhao,Marsha Mariya Kappan,Mahdi Bamdad,Francisco Cruz
Main category: cs.CV
TL;DR: LAPX:基于Hourglass网络和自注意力机制的人体姿态估计轻量级模型,在保持高精度的同时实现边缘设备实时推理
- Motivation: 现有SOTA姿态估计模型参数量大、计算成本高;现有轻量级模型要么不适合边缘设备部署,要么因过度简化设计导致精度受限
- Method: 基于LAP工作改进,采用Hourglass网络架构,引入自注意力模块捕获全局上下文信息,优化阶段设计和轻量级注意力模块
- Result: 在MPII和COCO基准数据集上取得有竞争力的结果,仅需230万参数,并实现实时性能,适合边缘设备部署
- Conclusion: LAPX在模型大小、计算效率和精度之间取得了良好平衡,验证了其在边缘设备上的适用性
[15] Collimator-assisted high-precision calibration method for event cameras
Zibin Liu,Shunkun Liang,Banglei Guan,Dongcai Tan,Yang Shang,Qifeng Yu
Main category: cs.CV
TL;DR: 提出了一种基于闪烁星点图案准直仪的事件相机标定方法,用于解决长距离高精度测量场景下的几何标定难题
- Motivation: 事件相机作为新型仿生视觉传感器具有高动态范围和高时间分辨率等优势,但其几何标定(特别是内参和外参确定)在长距离测量场景中仍面临重大挑战
- Method: 使用带有闪烁星点图案的准直仪,首先基于准直仪球面运动模型线性求解相机参数,然后通过非线性优化对这些参数进行高精度细化
- Result: 在不同条件下的全面真实世界实验中,该方法在准确性和可靠性方面始终优于现有的事件相机标定方法
- Conclusion: 提出的基于准直仪闪烁星点图案的事件相机标定方法有效解决了长距离高精度测量需求,为事件相机在精密测量应用中的实际部署提供了可靠的技术支持
[16] TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times
Jintao Zhang,Kaiwen Zheng,Kai Jiang,Haoxu Wang,Ion Stoica,Joseph E. Gonzalez,Jianfei Chen,Jun Zhu
Main category: cs.CV
TL;DR: TurboDiffusion是一个视频生成加速框架,通过注意力加速、步数蒸馏和量化等技术,将端到端扩散生成速度提升100-200倍,同时保持视频质量。
- Motivation: 当前视频生成模型计算成本高、推理速度慢,限制了实际应用。需要开发高效的加速框架来提升扩散模型的生成效率。
- Method: 采用三种主要技术:1) 注意力加速:使用低比特SageAttention和可训练稀疏线性注意力;2) 步数蒸馏:采用rCM进行高效步数蒸馏;3) W8A8量化:将模型参数和激活量化为8位以加速线性层并压缩模型。
- Result: 在多个视频生成模型上实验,在单个RTX 5090 GPU上实现100-200倍的加速,同时保持可比的视频质量。
- Conclusion: TurboDiffusion是一个有效的视频生成加速框架,显著提升了扩散模型的推理效率,为实际应用提供了可行的解决方案。
[17] Flexible Camera Calibration using a Collimator System
Shunkun Liang,Banglei Guan,Zhenbao Yu,Dongcai Tan,Pengju Sun,Zibin Liu,Qifeng Yu,Yang Shang
Main category: cs.CV
TL;DR: 提出了一种基于准直仪系统的相机标定新方法,利用角度不变性约束将6自由度相对运动简化为3自由度纯旋转运动,实现了无需相机运动的单图像标定
- Motivation: 相机标定是摄影测量和3D视觉应用中的关键步骤,传统方法需要复杂的标定环境和相机运动,需要更灵活、快速的标定解决方案
- Method: 设计准直仪系统提供可靠可控的标定环境,利用准直仪系统的光学几何特性引入角度不变性约束,证明标定目标与相机之间的相对运动符合球面运动模型,提出基于球面运动约束的多图像闭式线性求解器和两图像最小求解器,以及基于角度不变性约束的单准直仪图像标定算法
- Result: 在合成和真实世界实验中验证了准直仪系统标定的可行性,证明该方法优于现有基线方法
- Conclusion: 提出的准直仪相机标定方法通过角度不变性约束简化了标定过程,实现了无需相机运动的灵活快速标定,为准直仪系统在相机标定中的应用提供了新思路
[18] Interaction-via-Actions: Cattle Interaction Detection with Joint Learning of Action-Interaction Latent Space
Ren Nakagawa,Yang Yang,Risa Shinoda,Hiroaki Santo,Kenji Oyama,Fumio Okura,Takenao Ohkawa
Main category: cs.CV
TL;DR: 提出CattleAct方法,通过将牛群互动行为分解为个体动作组合,利用对比学习在预训练动作潜空间上微调,实现从单张图像自动检测放牧牛群的行为互动
- Motivation: 智能畜牧管理需要自动检测牛群行为互动(如发情检测),但现有研究主要针对人类互动检测,牛群互动检测面临缺乏全面行为数据集的挑战,因为放牧牛群的互动是罕见事件
- Method: 首先从大规模牛群动作数据集学习动作潜空间,然后通过对比学习在预训练潜空间上微调,嵌入罕见互动行为,构建统一动作和互动潜空间,并开发集成视频和GPS输入的实用系统
- Result: 在商业规模牧场上的实验表明,该方法相比基线方法实现了准确的互动检测,并开发了可用的实现系统
- Conclusion: CattleAct通过数据高效的方法解决了牛群互动检测的挑战,为智能畜牧管理提供了实用解决方案,特别是在检测罕见互动事件方面表现出色
[19] ResDynUNet++: A nested U-Net with residual dynamic convolution blocks for dual-spectral CT
Ze Yuan,Wenbin Li,Shusen Zhao
Main category: cs.CV
TL;DR: 提出了一种结合迭代方法和深度学习模型的双能CT混合重建框架,包含知识驱动和数据驱动两个互补模块,使用OPMT快速生成中间解,再用ResDynUNet++网络进行精炼。
- Motivation: 双能CT重建面临通道不平衡和界面附近大伪影等挑战,需要开发更有效的重建方法来提高图像质量和准确性。
- Method: 提出混合重建框架:1) 知识驱动模块使用OPMT技术从投影数据重建基物质图像的中间解;2) 数据驱动模块引入ResDynUNet++网络,基于UNet++架构,用残差动态卷积块替换标准卷积,结合动态卷积的自适应特征提取和残差连接的稳定训练。
- Result: 在合成体模和真实临床数据集上的广泛实验验证了该方法的有效性和优越性能,能够产生干净准确的双能CT重建结果。
- Conclusion: 提出的混合重建框架成功整合了知识驱动和数据驱动方法的优势,通过OPMT的快速收敛和ResDynUNet++的精细优化,有效解决了双能CT重建中的挑战,实现了高质量的重建结果。
[20] SegGraph: Leveraging Graphs of SAM Segments for Few-Shot 3D Part Segmentation
Yueyang Hu,Haiyong Jiang,Haoxuan Song,Jun Xiao,Hao Pan
Main category: cs.CV
TL;DR: 提出SegGraph框架,通过构建SAM分割图来聚合2D基础模型知识到3D部件分割,解决现有方法忽略几何结构或SAM高质量分组线索的问题。
- Motivation: 现有few-shot 3D部件分割方法在将2D基础模型知识聚合到3D时存在问题:要么忽略3D特征学习的几何结构,要么忽视SAM提供的高质量分组线索,导致欠分割和部件标签不一致。
- Method: 提出SegGraph方法:1) 构建分割图,节点表示SAM分割片段,边捕捉空间关系(重叠/相邻);2) 每个节点自适应调制2D基础模型特征,通过图神经网络传播学习全局几何结构;3) 使用视角方向加权融合将片段特征映射到3D点,减少低质量片段的贡献,保持片段内语义一致性。
- Result: 在PartNet-E数据集上,SegGraph方法比所有竞争基线至少提升6.9% mIoU。特别在小部件和部件边界上表现优异,展示了优越的几何理解能力。
- Conclusion: SegGraph通过显式学习SAM分割掩码中的几何特征,有效解决了2D基础模型知识到3D的聚合问题,为few-shot 3D部件分割提供了新思路。
[21] C-DGPA: Class-Centric Dual-Alignment Generative Prompt Adaptation
Chao Li,Dasha Hu,Chengyang Li,Yuming Jiang,Yuncheng Shen
Main category: cs.CV
TL;DR: C-DGPA提出了一种基于类别中心的双对齐生成提示适应方法,通过双分支架构同时优化边际分布对齐和条件分布对齐,以解决视觉语言模型在无监督域适应中的领域差异问题。
- Motivation: 现有的提示调优策略主要关注边际分布对齐,但忽略了条件分布差异,导致类原型错位和语义判别性下降等关键问题。需要一种能同时处理两种分布差异的方法来提升视觉语言模型在无监督域适应中的性能。
- Method: 提出C-DGPA:类别中心双对齐生成提示适应方法。采用双分支架构:1)边际分布对齐分支使用动态对抗训练框架来桥接边际分布差异;2)条件分布对齐分支引入类映射机制,通过标准化语义提示理解和防止源域过度依赖来对齐条件分布差异。
- Result: 在OfficeHome、Office31和VisDA-2017数据集上的广泛实验验证了C-DGPA的优越性,在所有基准测试中都取得了新的最先进结果。
- Conclusion: C-DGPA通过协同优化的双对齐策略,有效地将领域知识整合到提示学习中,确保了领域不变且语义可判别的表示,显著提升了视觉语言模型在无监督域适应任务中的性能。
[22] Towards Closing the Domain Gap with Event Cameras
M. Oltan Sevinc,Liao Wu,Francisco Cruz
Main category: cs.CV
TL;DR: 事件相机在自动驾驶中比传统相机更能应对光照条件变化带来的域差异问题,特别是在昼夜光照差异场景下表现更稳定。
- Motivation: 传统相机在端到端驾驶中面临域差异问题,当训练数据条件与部署环境不匹配时性能大幅下降,特别是昼夜光照差异带来的域差异问题。
- Method: 提出使用事件相机作为传统相机的替代方案,事件相机能够在不同光照条件下保持性能,无需额外调整。
- Result: 事件相机在不同光照条件下保持更一致的性能,其域偏移惩罚通常与灰度帧相当或更小,在跨域场景中提供更优的基准性能。
- Conclusion: 事件相机是解决自动驾驶中光照条件域差异问题的有效替代方案,能够在不需额外调整的情况下保持跨域性能一致性。
[23] Avatar4D: Synthesizing Domain-Specific 4D Humans for Real-World Pose Estimation
Jerrin Bright,Zhibo Wang,Dmytro Klepachevskyi,Yuhao Chen,Sirisha Rambhatla,David Clausi,John Zelek
Main category: cs.CV
TL;DR: Avatar4D是一个可迁移的合成人体运动数据集生成管道,提供对身体姿态、外观、相机视角和环境背景的细粒度控制,无需人工标注,特别针对体育领域创建了Syn2Sport数据集。
- Motivation: 现有方法主要关注日常通用动作,灵活性有限,而特定领域(如体育)需要专门的人类动作和运动模式数据集,这些数据难以获取且标注成本高。
- Method: 开发了Avatar4D管道,能够生成高保真4D(随时间变化的3D几何)人体运动序列,控制身体姿态、外观、相机视角和环境背景,并创建了Syn2Sport体育合成数据集。
- Result: 在Syn2Sport上评估了多个最先进的姿态估计模型,展示了其在监督学习、零样本迁移到真实数据和跨体育泛化方面的有效性,并验证了合成数据与真实数据在特征空间的对齐程度。
- Conclusion: Avatar4D展示了无需依赖特定领域真实数据即可生成可扩展、可控且可迁移的人类数据集的能力,为特定领域任务提供了新的数据解决方案。
[24] Visual Alignment of Medical Vision-Language Models for Grounded Radiology Report Generation
Sarosij Bose,Ravi K. Rajendran,Biplob Debnath,Konstantinos Karydis,Amit K. Roy-Chowdhury,Srimat Chakradhar
Main category: cs.CV
TL;DR: VALOR提出了一种基于强化学习的后对齐框架,通过两阶段训练提升医学视觉语言模型在放射学报告生成中的视觉对齐和临床准确性,显著减少幻觉并提高事实准确性。
- Motivation: 当前医学视觉语言模型在放射学报告生成中存在视觉与语言表征跨模态对齐不足的问题,导致幻觉现象严重。现有方法依赖大规模标注数据、昂贵的任务特定偏好数据或检索方法,但未能有效解决跨模态对齐问题。
- Method: 提出VALOR方法:1)使用基于强化学习的后对齐框架,采用组相对近端优化(GRPO);2)两阶段训练:第一阶段通过文本奖励改进Med-VLM以鼓励临床精确术语,第二阶段将文本基础模型的视觉投影模块与疾病发现对齐,引导注意力到诊断任务最相关的图像区域。
- Result: 在多个基准测试上的广泛实验表明,VALOR显著提高了事实准确性和视觉对齐性,在报告生成方法上实现了显著的性能提升,优于现有最先进方法。
- Conclusion: VALOR通过强化学习后对齐框架有效解决了医学视觉语言模型在放射学报告生成中的跨模态对齐问题,提高了生成的临床准确性和视觉基础性,为自动化医疗工作流程提供了更可靠的解决方案。
[25] Open Ad-hoc Categorization with Contextualized Feature Learning
Zilin Wang,Sangwoo Mo,Stella X. Yu,Sima Behpour,Liu Ren
Main category: cs.CV
TL;DR: OAK模型通过引入可学习的上下文标记,结合CLIP的图像-文本对齐目标和GCD的视觉聚类目标,实现了自适应视觉场景分类,在多个数据集上达到SOTA性能,并生成可解释的显著性图。
- Motivation: AI代理需要自适应视觉场景分类能力来处理变化的任务。与固定的通用类别不同,临时类别是为特定目标动态创建的。研究开放临时分类问题:给定少量标记样本和大量未标记数据,目标是发现底层上下文并通过语义扩展和视觉聚类来扩展临时类别。
- Method: 基于临时类别和通用类别依赖相似感知机制的洞察,提出OAK模型:在冻结的CLIP输入中引入少量可学习的上下文标记,同时优化CLIP的图像-文本对齐目标和GCD的视觉聚类目标。
- Result: 在Stanford和Clevr-4数据集上,OAK在准确率和概念发现方面达到最先进水平,包括在Stanford Mood上获得87.4%的新类别准确率,比CLIP和GCD高出50%以上。OAK生成可解释的显著性图,关注手部(动作)、面部(情绪)和背景(位置)。
- Conclusion: OAK模型通过结合图像-文本对齐和视觉聚类,实现了自适应和可泛化的分类,同时提供可解释的显著性图,增强了透明度和可信度,为AI代理的适应性视觉场景分类提供了有效解决方案。
[26] Enhanced 3D Shape Analysis via Information Geometry
Amit Vishwakarma,K. S. Subrahamanian Moosath
Main category: cs.CV
TL;DR: 提出基于信息几何的3D点云形状分析框架,将点云表示为统计流形上的高斯混合模型,并引入具有理论上界保证的改进对称KL散度,解决了传统几何度量和现有KL近似方法的数值不稳定问题。
- Motivation: 三维点云在多个领域有重要应用,但点云比较面临挑战:传统几何度量(如Hausdorff和Chamfer距离)无法捕捉全局统计结构且对异常值敏感,而现有的高斯混合模型KL散度近似可能产生无界或数值不稳定的值。
- Method: 1) 证明高斯混合模型空间构成统计流形;2) 提出改进对称KL散度(MSKL),具有理论上界保证,确保所有GMM比较的数值稳定性;3) 将点云表示为统计流形上的高斯混合模型。
- Result: 在人体姿态识别(MPI-FAUST数据集)和动物形状比较(G-PCD数据集)的实验中,MSKL提供了稳定且单调变化的数值,直接反映几何变化,性能优于传统距离和现有KL近似方法。
- Conclusion: 提出的信息几何框架为3D点云形状分析提供了理论基础,MSKL散度解决了传统方法的局限性,为点云比较提供了数值稳定且几何意义明确的度量标准。
[27] Learning High-Quality Initial Noise for Single-View Synthesis with Diffusion Models
Zhihao Zhang,Xuejun Yang,Weihua Liu,Mouquan Shen
Main category: cs.CV
TL;DR: 提出EDN框架,通过编码器-解码器网络将随机高斯噪声转换为高质量初始噪声,提升单视图新视角合成模型的生成质量
- Motivation: 基于扩散模型的单视图新视角合成模型虽然能生成新视角图像,但缺乏专门学习高质量初始噪声的框架。现有方法中某些高质量初始噪声能带来更好的生成结果,但如何从随机噪声中获得这种高质量噪声仍是一个挑战
- Method: 1. 设计离散化欧拉反演方法,将图像语义信息注入随机噪声,构建随机噪声与高质量噪声的配对数据集;2. 提出基于编码器-解码器网络的学习框架,直接转换随机噪声为高质量噪声
- Result: EDN框架可无缝集成到SV3D、MV-Adapter等多种NVS模型中,在多个数据集上实现显著的性能提升
- Conclusion: 通过专门学习高质量初始噪声的EDN框架,有效提升了单视图新视角合成模型的生成质量,具有很好的通用性和实用性
[28] Image Compression Using Singular Value Decomposition
Justin Jiang
Main category: cs.CV
TL;DR: SVD低秩矩阵近似用于图像压缩,但效果不如JPEG等标准格式,在低误差时压缩后文件甚至可能比原图更大
- Motivation: 图像在互联网中占比大,高效压缩对减少存储和带宽需求很重要。研究探索SVD和低秩矩阵近似在图像压缩中的应用潜力。
- Method: 使用奇异值分解和低秩矩阵近似进行图像压缩,评估相对Frobenius误差和压缩比,应用于灰度图像和多通道图像以测试通用性。
- Result: 低秩近似能产生视觉上相似的图像,但在相同误差水平下,压缩效率始终不如JPEG、JPEG2000和WEBP等标准格式。在低容忍误差下,SVD压缩表示甚至可能超过原图大小。
- Conclusion: SVD低秩近似方法在实际图像压缩中不如行业标准编解码器有竞争力,不适合实际应用。
[29] ARMFlow: AutoRegressive MeanFlow for Online 3D Human Reaction Generation
Zichen Geng,Zeeshan Hayder,Wei Liu,Hesheng Wang,Ajmal Mian
Main category: cs.CV
TL;DR: ARMFlow是一个基于MeanFlow的自回归框架,用于实时生成3D人体反应动作,解决了高保真度、实时推理和自回归适应性三大挑战。
- Motivation: 现有方法无法同时满足3D人体反应生成的三个关键需求:高动作保真度、实时推理能力以及在线场景的自回归适应性。需要一种能够兼顾这三方面性能的解决方案。
- Method: 提出ARMFlow框架,包含因果上下文编码器和基于MLP的速度预测器。引入Bootstrap Contextual Encoding (BSCE)训练方法,使用生成的历史而非真实历史进行编码,减少自回归生成中的误差累积。还提出了离线变体ReMFlow。
- Result: ARMFlow在InterHuman和InterX数据集上的单步在线生成性能超过现有在线方法40%以上(FID指标),同时仅使用部分序列条件就能达到离线SOTA性能。ReMFlow在离线方法中达到最佳性能且推理速度最快。
- Conclusion: ARMFlow通过全局上下文编码器增强语义对齐、单步推理实现高精度低延迟、BSCE减少累积误差,成功解决了在线3D人体反应生成的关键限制,在保真度、速度和适应性方面均取得显著改进。
[30] AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection
Satya Narayana Panda,Vaishnavi Kukkala,Spandana Iyer
Main category: cs.CV
TL;DR: 开发了一个结合临床图像和家族史数据的多模态AI框架,用于提高皮肤病诊断准确性,特别是遗传性皮肤病
- Motivation: 全球皮肤病影响19亿人,但准确诊断面临挑战,因为专科医生有限且临床表现复杂。家族史对皮肤病易感性和治疗反应有重要影响,但在诊断过程中常被忽视。需要AI系统整合家族史数据和临床影像来增强诊断
- Method: 开发了多模态AI框架,结合深度学习图像分析和结构化临床数据(包括详细家族史模式)。使用可解释的卷积神经网络集成临床决策树,纳入遗传风险因素。方法包括在不同医疗环境中进行前瞻性临床试验验证
- Result: 整合家族史数据的AI系统显示出更高的诊断准确性,特别是对黑色素瘤、银屑病和特应性皮炎等遗传性皮肤病。专家反馈表明有改善早期检测和个性化推荐的潜力
- Conclusion: 该框架设计用于整合到临床工作流程中,同时通过可解释AI机制保持可解释性。计划进行正式临床试验验证AI辅助诊断与传统临床评估的对比
[31] Semi-Supervised Multi-View Crowd Counting by Ranking Multi-View Fusion Models
Qi Zhang,Yunfei Gong,Zhidan Xie,Zhizi Wang,Antoni B. Chan,Hui Huang
Main category: cs.CV
TL;DR: 提出两种基于多视图融合模型排序的半监督多视角人群计数框架,通过约束不同视图数量下的预测或不确定性来减少对标注数据的需求
- Motivation: 多视角人群计数能解决大场景中的严重遮挡问题,但多视角数据收集和标注困难,现有数据集规模有限。需要减少对标注数据的依赖
- Method: 1) 基于预测排序:约束较少相机视图的预测不大于较多视图的预测;2) 基于不确定性排序:约束较多视图的模型不确定性不大于较少视图的不确定性。两种方法都以半监督方式引入训练
- Result: 实验表明提出的多视图模型排序方法相比其他半监督计数方法具有优势
- Conclusion: 通过引入多视图融合模型的排序约束,可以在有限标注数据下有效提升多视角人群计数的性能
[32] Pixel Super-Resolved Fluorescence Lifetime Imaging Using Deep Learning
Paloma Casteleiro Costa,Parnian Ghapandar Kashani,Xuhui Liu,Alexander Chen,Ary Portes,Julien Bec,Laura Marcu,Aydogan Ozcan
Main category: cs.CV
TL;DR: 基于深度学习的像素超分辨率框架FLIM_PSR_k,通过条件生成对抗网络实现荧光寿命成像显微镜图像5倍超分辨率重建,显著提高成像速度和质量。
- Motivation: 荧光寿命成像显微镜(FLIM)具有强大的代谢和分子对比能力,但临床应用中受到长像素驻留时间和低信噪比的限制,导致分辨率与速度之间存在严格权衡。
- Method: 提出FLIM_PSR_k框架,采用条件生成对抗网络(cGAN)进行多通道像素超分辨率重建,能够从像素尺寸增加5倍的输入数据中重建高分辨率FLIM图像。
- Result: 在患者来源的肿瘤组织样本盲测中,FLIM_PSR_k可靠地实现了k=5的超分辨率因子,输出图像的空间带宽积提高了25倍,揭示了低分辨率输入中丢失的精细结构特征。
- Conclusion: FLIM_PSR_k通过提高FLIM的有效空间分辨率,推动了寿命成像向更快、更高分辨率和硬件灵活的实现方式发展,更好地支持FLIM在转化医学中的应用。
[33] TextEditBench: Evaluating Reasoning-aware Text Editing Beyond Rendering
Rui Gui,Yang Wan,Haochen Han,Dongxing Mao,Fangming Liu,Min Li,Alex Jinpeng Wang
Main category: cs.CV
TL;DR: 本文提出了TextEditBench,一个专注于图像中文本区域编辑的评估基准,强调需要推理的编辑场景,并引入语义期望(SE)这一新评估维度来衡量模型在文本编辑中的语义一致性和跨模态对齐能力。
- Motivation: 文本渲染已成为视觉生成中最具挑战性的前沿领域,但图像中的文本编辑仍未被充分探索。现有方法需要生成清晰可读的字符,同时保持语义、几何和上下文的一致性,这需要新的评估框架来推动该领域发展。
- Method: 提出了TextEditBench评估基准,专注于图像中的文本中心区域。基准不仅包含基本的像素操作,更强调需要推理的编辑场景,要求模型理解物理合理性、语言意义和跨模态依赖。同时引入了语义期望(SE)这一新评估维度。
- Result: 对最先进的编辑系统进行广泛实验发现,虽然当前模型能够遵循简单的文本指令,但在上下文相关推理、物理一致性和布局感知集成方面仍存在困难。TextEditBench为评估这些能力提供了新的测试平台。
- Conclusion: TextEditBench通过专注于长期被忽视但基础的文本编辑能力,为推进文本引导的图像编辑和多模态生成中的推理建立了新的测试基准,填补了该领域的评估空白。
[34] GFLAN: Generative Functional Layouts
Mohamed Abouagour,Eleftherios Garyfallidis
Main category: cs.CV
TL;DR: GFLAN是一个两阶段生成框架,将平面图生成分解为拓扑规划和几何实现,通过卷积网络分配房间中心点,再通过图神经网络回归房间边界。
- Motivation: 现有深度学习方法难以捕捉建筑推理:拓扑关系优先于几何实例化、功能约束通过邻接网络传播、局部连接决策形成流通模式。需要统一处理组合搜索、几何约束满足和功能设计需求。
- Method: 两阶段分解:阶段A使用具有双编码器的卷积架构,分离不变空间上下文和演化布局状态,通过离散概率图在建筑轮廓内顺序分配房间中心点;阶段B构建连接房间节点和边界顶点的异构图,应用Transformer增强的图神经网络联合回归房间边界。
- Result: 论文未提供具体实验结果,但方法旨在解决传统方法在捕捉建筑推理方面的局限性,提供更原则性的平面图合成方法。
- Conclusion: GFLAN通过显式分解为拓扑规划和几何实现,为平面图生成提供了更原则性的框架,能够更好地捕捉建筑推理过程,解决传统方法在组合搜索、几何约束和功能需求方面的挑战。
[35] MACL: Multi-Label Adaptive Contrastive Learning Loss for Remote Sensing Image Retrieval
Amna Amir,Erchan Aptoula
Main category: cs.CV
TL;DR: MACL提出多标签自适应对比学习,通过标签感知采样、频率敏感加权和动态温度缩放,解决遥感图像检索中语义重叠、标签不平衡和复杂共现模式问题,在多个基准数据集上优于现有对比学习方法。
- Motivation: 遥感图像多标签检索面临三大挑战:1)土地覆盖类别间的语义重叠;2)高度不平衡的标签分布;3)复杂的类别间共现模式。这些因素使得传统对比学习方法难以获得平衡且可靠的表示。
- Method: 提出多标签自适应对比学习(MACL),包含三个关键组件:1)标签感知采样策略,考虑类别语义关系;2)频率敏感加权机制,平衡常见和稀有类别;3)动态温度缩放,适应不同类别的表示难度。
- Result: 在DLRSD、ML-AID和WHDLD三个基准数据集上的实验表明,MACL持续优于基于对比损失的基线方法,有效缓解语义不平衡问题,在大规模遥感档案中提供更可靠的检索性能。
- Conclusion: MACL通过自适应对比学习框架成功解决了遥感图像多标签检索中的语义不平衡挑战,为大规模遥感档案的可靠检索提供了有效解决方案,代码和预训练模型将在接受后开源。
[36] PixelArena: A benchmark for Pixel-Precision Visual Intelligence
Feng Liang,Sizhe Cheng,Chenqi Yi
Main category: cs.CV
TL;DR: PixelArena提出使用语义分割任务来客观评估多模态大语言模型的细粒度生成能力,发现Gemini 3 Pro Image在零样本设置下能生成高保真语义掩码,展现出前所未有的视觉智能和在新图像生成任务中的真正泛化能力。
- Motivation: 当前多模态大语言模型的图像生成基准主要关注美学质量,而非细粒度生成能力。需要一种客观方法来评估模型在像素精度上的生成智能。
- Method: 提出PixelArena基准,使用语义分割任务来评估模型的细粒度生成能力。通过零样本设置测试模型生成语义掩码的能力,并进行定性和定量比较分析。
- Result: Gemini 3 Pro Image展现出新兴的图像生成能力,能在零样本设置下生成高保真语义掩码,表现出前所未有的视觉智能和在新任务中的真正泛化能力。研究还展示了失败案例。
- Conclusion: 这些发现不仅标志着该领域的令人兴奋进展,还为未来多模态、推理、可解释性和基准测试相关研究提供了见解。
[37] LaverNet: Lightweight All-in-one Video Restoration via Selective Propagation
Haiyu Zhao,Yiwen Shan,Yuanbiao Gou,Xi Peng
Main category: cs.CV
TL;DR: LaverNet:一个轻量级全合一视频修复网络,仅362K参数,通过选择性传播降解无关特征解决时间变化降解问题
- Motivation: 现有全合一视频修复方法在处理时间变化降解时面临两个挑战:1) 降解会主导时间建模,使模型关注伪影而非视频内容;2) 当前方法依赖大模型掩盖底层困难
- Method: 提出轻量级网络LaverNet,引入新颖的传播机制,选择性传输降解无关特征跨帧传播,避免降解对时间建模的影响
- Result: LaverNet参数量不到现有模型的1%,但在多个基准测试中达到可比甚至更优的性能
- Conclusion: 通过LaverNet证明,紧凑网络也能实现强大的全合一视频修复,解决了时间变化降解带来的挑战
[38] Ridge Estimation-Based Vision and Laser Ranging Fusion Localization Method for UAVs
Huayu Huang,Chen Chen,Banglei Guan,Ze Tan,Yang Shang,Zhang Li,Qifeng Yu
Main category: cs.CV
TL;DR: 提出基于岭估计的融合定位方法,结合序列图像场景信息和激光测距高精度,在有限观测条件下提高定位精度和鲁棒性。
- Motivation: 无人机搭载多种传感器跟踪测量目标时,在远距离、小交会角、大倾角等有限条件下,传统最小二乘估计存在设计矩阵列向量多重共线性问题,导致病态问题和稳定性差。
- Method: 采用基于岭估计的融合定位方法,结合序列图像的丰富场景信息和激光测距的高精度优势,通过岭估计缓解有限观测条件下的多重共线性问题。
- Result: 实验结果表明,该方法相比基于单一信息的地面定位算法获得更高定位精度,岭估计的引入有效增强了鲁棒性,特别是在有限观测条件下。
- Conclusion: 岭估计融合定位方法能有效解决有限观测条件下的多重共线性问题,提高无人机多传感器目标定位的精度和鲁棒性。
[39] QUIDS: Quality-informed Incentive-driven Multi-agent Dispatching System for Mobile Crowdsensing
Nan Zhou,Zuxin Li,Fanhang Man,Xuecheng Chen,Susu Xu,Fan Dang,Chaopeng Hong,Yunhao Liu,Xiao-Ping Zhang,Xinlei Chen
Main category: cs.CV
TL;DR: QUIDS系统通过质量感知的激励机制,在非专用车载移动群智感知中联合优化覆盖度和可靠性,提升信息质量38%,降低地图重建误差39-74%
- Motivation: 解决非专用车载移动群智感知系统中信息质量优化的挑战,包括感知覆盖度、感知可靠性和车辆动态参与度之间的相互关联问题
- Method: 提出QUIDS系统,引入聚合感知质量指标整合覆盖度和可靠性,开发相互辅助信念感知车辆调度算法估计可靠性并在不确定性下分配激励
- Result: 在真实世界部署中,QUIDS将ASQ提升38%(相比无调度)和10%(相比最先进方法),地图重建误差降低39-74%
- Conclusion: 通过联合优化覆盖度和可靠性的质量感知激励机制,QUIDS实现了低成本高质量的城市监控,适用于交通和环境感知等智慧城市场景
[40] Collaborative Edge-to-Server Inference for Vision-Language Models
Soochang Song,Yongjune Kim
Main category: cs.CV
TL;DR: 提出一个协作的边缘到服务器视觉语言模型推理框架,通过选择性重传策略减少通信成本,同时保持推理精度。
- Motivation: 传统部署中,边缘设备将原始图像传输到服务器进行VLM推理,但调整图像大小以适应视觉编码器输入分辨率会丢失细粒度细节,导致精度下降。
- Method: 设计两阶段框架:第一阶段服务器在全局图像上推理,利用VLM内部注意力识别感兴趣区域,计算输出令牌的最小熵作为置信度;若最小熵超过阈值,则请求边缘设备发送RoI的细节保留局部图像;第二阶段服务器结合全局和局部图像进行精炼推理。
- Result: 在多个VLM架构上的实验表明,该框架显著减少了通信成本,同时保持了推理精度。
- Conclusion: 提出的协作边缘到服务器推理框架通过选择性重传策略,在减少通信开销的同时维持了视觉语言模型的推理准确性。
[41] GMODiff: One-Step Gain Map Refinement with Diffusion Priors for HDR Reconstruction
Tao Hu,Weiyu Zhou,Yanjie Tu,Peng Wu,Wei Dong,Qingsen Yan,Yanning Zhang
Main category: cs.CV
TL;DR: GMODiff:基于增益图的一步扩散框架,用于多曝光HDR重建,通过条件引导的增益图估计任务,在单步去噪中实现高质量HDR重建,比传统LDM方法快100倍。
- Motivation: 预训练的潜在扩散模型(LDMs)在低层视觉任务中显示出强大的感知先验,但直接应用于HDR重建面临三个挑战:8位潜在压缩导致的动态范围有限、多步去噪的高推理成本、以及生成性质导致的内容幻觉。
- Method: 将HDR重建重新定义为条件引导的增益图估计任务,增益图编码扩展的动态范围但保持与LDR图像相同的位深度。从信息丰富的基于回归的估计初始化去噪过程,而非纯噪声,实现单步去噪。利用回归先验引导LDM的去噪过程和潜在解码,抑制幻觉同时保持结构准确性。
- Result: GMODiff在性能上优于多个最先进方法,并且比之前的LDM-based方法快100倍。
- Conclusion: GMODiff通过增益图驱动的单步扩散框架,有效解决了LDM在HDR重建中的动态范围限制、计算成本和内容幻觉问题,实现了高效高质量的HDR重建。
[42] EverybodyDance: Bipartite Graph-Based Identity Correspondence for Multi-Character Animation
Haotian Ling,Zequn Chen,Qiuying Chen,Donglin Di,Yongjia Ma,Hao Li,Chen Wei,Zhulin Tao,Xun Yang
Main category: cs.CV
TL;DR: EverybodyDance:通过身份匹配图解决多角色动画中的身份对应问题,确保角色位置交换时身份一致性
- Motivation: 单角色动画已取得显著进展,但扩展到多角色场景(特别是涉及位置交换时)面临挑战,核心问题在于确保参考帧和生成帧之间正确的身份对应关系
- Method: 提出身份匹配图(IMG)将角色建模为加权完全二分图,使用掩码查询注意力计算边权重,将身份对应正确性形式化为图结构度量,并采用身份嵌入引导、多尺度匹配策略和预分类采样等针对性策略
- Result: 在身份对应评估基准上的广泛实验表明,EverybodyDance在身份对应正确性和视觉保真度方面显著优于现有最先进基线方法
- Conclusion: EverybodyDance为多角色动画中的身份对应问题提供了系统性解决方案,通过图结构建模和针对性优化策略,有效解决了角色位置交换时的身份一致性挑战
[43] Factorized Video Generation: Decoupling Scene Construction and Temporal Synthesis in Text-to-Video Diffusion Models
Mariam Hassan,Bastien Van Delft,Wuyang Li,Alexandre Alahi
Main category: cs.CV
TL;DR: 提出Factorized Video Generation (FVG),将文本到视频生成分解为推理、构图和时序合成三阶段,通过LLM重写提示、T2I生成锚定帧、视频模型专注动画化,显著提升视频生成质量与效率。
- Motivation: 当前最先进的文本到视频扩散模型在生成复杂场景和遵循逻辑时序指令方面仍经常失败,许多错误源于模型无法构建语义正确或逻辑一致的初始帧。
- Method: 提出Factorized Video Generation (FVG)管道,将文本到视频生成分解为三个阶段:1) 推理阶段:使用LLM重写视频提示,仅描述初始场景,解决时序歧义;2) 构图阶段:使用T2I模型从新提示合成高质量、构图正确的锚定帧;3) 时序合成阶段:微调的视频模型专注于动画化场景并遵循提示。
- Result: 在T2V CompBench基准测试中达到新的最先进水平,在VBench2上显著提升所有测试模型的性能。视觉锚定技术可将采样步骤减少70%而不损失性能,大幅提升采样速度。
- Conclusion: Factorized Video Generation为更高效、鲁棒和可控的视频合成提供了一条简单而实用的路径,通过任务分解解决了当前文本到视频生成的关键问题。
[44] Adaptive Frequency Domain Alignment Network for Medical image segmentation
Zhanwei Li,Liang Li,Jiawan Zhang
Main category: cs.CV
TL;DR: 提出AFDAN网络,通过频域对齐解决医学图像分割数据稀缺问题,在白癜风和视网膜血管分割任务上取得SOTA性能
- Motivation: 医学图像分割需要高质量标注数据,但人工标注耗时耗力导致数据稀缺,需要有效的跨域知识迁移方法
- Method: 提出自适应频域对齐网络AFDAN,包含对抗域学习模块、源-目标频域融合模块和空间-频域集成模块,在频域进行特征对齐
- Result: 在新构建的VITILIGO2025数据集上达到90.9% IoU,在DRIVE视网膜血管分割基准上达到82.6% IoU,超越现有SOTA方法
- Conclusion: AFDAN通过频域特征对齐有效缓解医学图像分割数据稀缺问题,在多个任务上验证了其优越性能
[45] Using Gaussian Splats to Create High-Fidelity Facial Geometry and Texture
Haodi He,Jihun Yu,Ronald Fedkiw
Main category: cs.CV
TL;DR: 提出一种基于高斯泼溅的3D人脸重建方法,从少量未标定图像构建统一的人脸表示,支持标准图形管线使用
- Motivation: 解决从少量未标定人脸图像构建统一3D表示的问题,使高质量高斯泼溅表示能够兼容标准图形管线
- Method: 利用高斯泼溅构建3D表示,通过分割标注对齐语义区域,软约束到三角网格表面,将高斯泼溅转换为纹理空间神经纹理,使用可重光照模型分离纹理和光照
- Result: 仅需11张图像即可重建中性姿态人脸,获得可用于标准图形管线的三角网格和高分辨率反照率纹理,支持文本驱动的资产创建
- Conclusion: 该方法成功将高斯泼溅表示与标准图形管线集成,实现了从少量图像重建高质量3D人脸资产,为文本驱动资产创建提供了有效解决方案
[46] BrepLLM: Native Boundary Representation Understanding with Large Language Models
Liyuan Deng,Hao Guo,Yunpeng Bai,Yongkang Dai,Huaxi Huang,Yilei Shi
Main category: cs.CV
TL;DR: BrepLLM:首个让大语言模型直接处理原始3D边界表示数据的框架,通过两阶段训练解决3D几何与自然语言模态鸿沟问题
- Motivation: 当前基于token序列的大语言模型不适合直接处理包含复杂几何和拓扑信息的3D边界表示模型,存在模态鸿沟问题
- Method: 采用两阶段训练:1) 跨模态对齐预训练:通过自适应UV采样将Brep转为图表示,设计分层BrepEncoder提取特征,用对比学习对齐全局token与文本嵌入;2) 多阶段LLM微调:集成预训练BrepEncoder到LLM,通过三阶段渐进训练对齐节点token序列
- Result: 构建了包含269,444个Brep-文本问答对的Brep2Text数据集,在3D物体分类和描述生成任务上达到最先进性能
- Conclusion: BrepLLM成功实现了大语言模型对原始3D边界表示数据的解析和推理,有效桥接了结构化3D几何与自然语言之间的模态鸿沟
[47] CountZES: Counting via Zero-Shot Exemplar Selection
Muhammad Ibraheem Siddiqui,Muhammad Haris Khan
Main category: cs.CV
TL;DR: CountZES:一种无需训练、通过零样本示例选择进行物体计数的框架,通过三阶段协同方法解决零样本物体计数中示例选择不准确的问题。
- Motivation: 零样本物体计数(ZOC)面临挑战:现有方法要么依赖开放词汇检测器产生多实例候选,要么使用随机补丁采样无法准确描绘物体实例,需要更精确的示例选择方法。
- Method: 提出CountZES框架,包含三个协同阶段:1)检测锚定示例(DAE)精炼开放词汇检测以隔离精确单实例示例;2)密度引导示例(DGE)通过密度驱动自监督范式识别统计一致且语义紧凑的示例;3)特征共识示例(FCE)通过特征空间聚类增强视觉一致性。
- Result: 在多样化数据集上的实验表明,CountZES在ZOC方法中表现出优越性能,并能有效泛化到自然、航拍和医学等多个领域。
- Conclusion: CountZES通过三阶段协同方法实现了平衡文本基础、计数一致性和特征代表性的多样化示例集,为复杂场景中的零样本物体计数提供了有效的训练免费解决方案。
[48] Geometric Disentanglement of Text Embeddings for Subject-Consistent Text-to-Image Generation using A Single Prompt
Shangxun Li,Youngjung Uh
Main category: cs.CV
TL;DR: 提出一种无需训练的方法,通过几何视角精炼文本嵌入来抑制不需要的语义,解决多图像生成中的主体一致性和文本对齐问题
- Motivation: 现有文本到图像扩散模型在生成多张图像时难以保持主体一致性,限制了视觉叙事应用。现有方法需要模型微调或图像条件,计算成本高且需要针对每个主体进行优化
- Method: 提出一种简单有效的无需训练方法,从几何角度解决语义纠缠问题,通过精炼文本嵌入来抑制不需要的语义
- Result: 大量实验证明,该方法在主体一致性和文本对齐方面显著优于现有基线方法
- Conclusion: 该方法提供了一种计算效率高的解决方案,能够有效提升文本到图像模型在多图像生成中的主体一致性和文本对齐性能
[49] Prime and Reach: Synthesising Body Motion for Gaze-Primed Object Reach
Masashi Hatano,Saptarshi Sinha,Jacob Chalk,Wei-Hong Li,Hideo Saito,Dima Damen
Main category: cs.CV
TL;DR: 论文提出了一种基于扩散模型的人类运动生成方法,专注于视线引导的抓取/放置动作生成,并在多个公开数据集上进行了训练和评估。
- Motivation: 人类运动生成是一个具有挑战性的任务,需要模仿自然的人类行为。本文特别关注视线引导的物体抓取/放置行为,即从远处发现目标物体/位置(视线引导),然后接近并到达目标位置的动作序列。
- Method: 1. 从五个公开数据集(HD-EPIC、MoGaze、HOT3D、ADT、GIMO)中整理出23.7K个视线引导的人类运动序列;2. 预训练一个基于文本条件的扩散运动生成模型;3. 在整理的数据集上,以目标姿态或位置为条件进行微调;4. 引入新的评估指标,包括"到达成功率"和新提出的"引导成功率"。
- Result: 在最大的数据集HD-EPIC上,当以目标物体位置为条件时,模型达到了60%的引导成功率和89%的到达成功率。
- Conclusion: 该方法能够生成模仿自然人类运动的视线引导抓取/放置动作,通过新提出的评估指标验证了生成动作的自然性和有效性。
[50] SNOW: Spatio-Temporal Scene Understanding with World Knowledge for Open-World Embodied Reasoning
Tin Stribor Sohn,Maximilian Dillitzer,Jason J. Corso,Eric Sax
Main category: cs.CV
TL;DR: SNOW是一个无需训练、与骨干网络无关的4D场景理解框架,通过将VLM语义与点云几何和时序一致性结合,构建可查询的4D场景图作为世界模型。
- Motivation: 自主机器人系统需要动态环境的时空理解,但视觉语言模型缺乏3D几何和时序动态的grounding,而几何感知又缺乏语义信息。需要统一的方法来整合语义、几何和时序信息。
- Method: 处理同步的RGB图像和3D点云,使用HDBSCAN聚类生成物体级提议,指导SAM2分割。通过提出的STEP编码产生多模态token,捕获局部语义、几何和时序属性。这些token逐步集成到4D场景图中,轻量级SLAM后端提供全局空间锚定。
- Result: 在多个基准测试中,SNOW实现了精确的4D场景理解和空间grounded推理,在多个设置中达到新的SOTA性能。
- Conclusion: 结构化4D先验对于具身推理和自主机器人至关重要,SNOW通过整合VLM语义与几何和时序信息,为机器人提供了可查询的统一世界模型。
[51] StageVAR: Stage-Aware Acceleration for Visual Autoregressive Models
Senmao Li,Kai Wang,Salman Khan,Fahad Shahbaz Khan,Jian Yang,Yaxing Wang
Main category: cs.CV
TL;DR: StageVAR:针对视觉自回归模型(VAR)的阶段感知加速框架,通过分析不同生成阶段的重要性差异,在保持早期关键步骤完整的同时,对后期细节优化步骤进行剪枝或近似,实现高效加速。
- Motivation: 传统VAR模型在大规模步骤下计算复杂度和运行时间急剧增加。现有加速方法依赖手动步骤选择,忽视了生成过程中不同阶段的重要性差异,需要更系统化的加速方案。
- Method: StageVAR通过分析发现早期步骤对语义和结构一致性至关重要,而后期步骤主要细化细节。基于此,提出即插即用的加速策略,利用后期计算的语义无关性和低秩特性进行剪枝或近似,无需额外训练。
- Result: StageVAR实现了高达3.4倍的加速,在GenEval上仅下降0.01,在DPG上下降0.26,一致优于现有加速基线。
- Conclusion: 阶段感知设计是高效视觉自回归图像生成的有力原则,StageVAR通过系统分析不同生成阶段的重要性,实现了显著加速而保持生成质量。
[52] Guiding Perception-Reasoning Closer to Human in Blind Image Quality Assessment
Yuan Li,Yahan Yu,Youyuan Lin,Yong-Hao Yang,Chenhui Chu,Shin'ya Nishida
Main category: cs.CV
TL;DR: 该论文提出了一种基于强化学习的方法,让模型通过人类评估数据学习人类感知-推理过程,实现盲图像质量评估中的人类化、自洽推理能力。
- Motivation: 人类通过感知-推理级联过程评估图像质量,结合感官线索和隐式推理形成自洽判断。现有盲图像质量评估模型缺乏这种人类化的推理能力,需要开发能够模仿人类感知-推理过程并具有自洽推理能力的模型。
- Method: 首先收集捕捉人类感知-推理多个方面的人类评估数据。然后采用强化学习,使用人类标注作为奖励信号,引导模型学习人类化感知和推理。为了获得自洽推理能力,设计了奖励机制,让模型能够仅从自生成的描述中推断图像质量。
- Result: 在通用指标(Pearson和Spearman相关系数)上,模型性能与最先进的盲图像质量评估系统相当。在人类-模型对齐评估中,使用ROUGE-1衡量模型生成与人类感知-推理链的相似性,在1000多个人类标注样本上达到0.512分(基线为0.443),表明模型能较好覆盖人类解释。
- Conclusion: 该方法在盲图像质量评估中实现了与人类感知-推理过程对齐的模型,不仅获得可比较的评分性能,还显著提升了推理过程的人类可解释性,向人类化可解释推理迈出了一步。
[53] Smile on the Face, Sadness in the Eyes: Bridging the Emotion Gap with a Multimodal Dataset of Eye and Facial Behaviors
Kejun Liu,Yuanyuan Liu,Lin Wei,Chang Tang,Yibing Zhan,Zijing Chen,Zhe Chen
Main category: cs.CV
TL;DR: 该论文提出眼动行为作为重要情绪线索,构建了EMER数据集和EMERT模型,通过眼动行为增强情绪识别,弥补面部表情识别与真实情绪识别之间的差距。
- Motivation: 当前情绪识别领域过度依赖面部表情识别,但面部表情常被用作社交工具而非真实内心情绪的表现。为了理解和弥合FER与ER之间的差距,需要引入更可靠的情绪线索。
- Method: 1) 构建EMER数据集:采用自发情绪诱导范式收集真实情绪数据,同时采集眼动序列、注视点图和面部表情视频;2) 设计EMERT模型:使用模态对抗特征解耦和多任务Transformer,将眼动行为作为面部表情的补充。
- Result: EMERT模型在七个多模态基准协议上显著优于其他最先进的多模态方法,证明了眼动行为建模对稳健情绪识别的重要性。
- Conclusion: 眼动行为是情绪识别的重要补充线索,能够有效弥合面部表情识别与真实情绪识别之间的差距,提升情绪识别的鲁棒性。EMER数据集和EMERT模型将公开提供。
[54] YOLO11-4K: An Efficient Architecture for Real-Time Small Object Detection in 4K Panoramic Images
Huma Hafeez,Matthew Garratt,Jo Plested,Sankaran Iyer,Arcot Sowmya
Main category: cs.CV
TL;DR: 提出YOLO11-4K框架,专门针对4K全景图像进行实时目标检测,通过多尺度检测头和轻量化骨干网络,在保持高精度的同时大幅降低计算延迟。
- Motivation: 360度全景图像处理面临空间畸变、广视角和超高分辨率等挑战,传统检测器如YOLO针对标准图像尺寸优化,难以处理4K及以上分辨率的全景图像计算需求。
- Method: 引入YOLO11-4K框架,包含:1)新颖的多尺度检测头,增加P2层以提高对小目标的检测灵敏度;2)基于GhostConv的骨干网络,降低计算复杂度而不牺牲表征能力;3)手动标注CVIP360数据集,提供公开的4K全景检测基准。
- Result: 在0.50 IoU下达到0.95 mAP,每帧推理时间28.3毫秒,相比YOLO11(112.3毫秒)延迟降低75%,同时精度提升(从0.908提升到0.95)。
- Conclusion: YOLO11-4K在效率和精度之间取得良好平衡,适用于360度全景环境下的实时目标检测,可广泛应用于自动驾驶、监控和增强现实等高分辨率检测任务。
[55] PoseMoE: Mixture-of-Experts Network for Monocular 3D Human Pose Estimation
Mengyuan Liu,Jiajie Liu,Jinyan Zhang,Wenhao Li,Junsong Yuan
Main category: cs.CV
TL;DR: 提出PoseMoE网络,通过专家混合设计解耦2D姿态与深度特征编码,减少深度不确定性对2D姿态的影响,提升单目3D人体姿态估计精度。
- Motivation: 传统基于提升的方法将检测到的2D姿态与未知深度在纠缠的特征空间中编码,深度不确定性会显式影响2D姿态特征,限制了整体估计精度。研究发现深度表示对估计过程至关重要。
- Method: 提出PoseMoE网络:1)专家混合网络设计,专门化专家模块分别精炼2D姿态特征和学习深度特征,解耦两者的特征编码过程;2)跨专家知识聚合模块,通过2D姿态与深度之间的双向映射聚合跨专家时空上下文信息。
- Result: 在三个广泛使用的数据集(Human3.6M、MPI-INF-3DHP、3DPW)上,PoseMoE均优于传统的基于提升的方法。
- Conclusion: 通过解耦2D姿态与深度特征编码,减少深度不确定性对2D姿态的影响,能够有效提升单目3D人体姿态估计的性能。
[56] VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks
Beitong Zhou,Zhexiao Huang,Yuan Guo,Zhangxuan Gu,Tianyu Xia,Zichen Luo,Fei Tang,Dehan Kong,Yanyi Shang,Suling Ou,Zhenlin Guo,Changhua Meng,Shuheng Shen
Main category: cs.CV
TL;DR: 提出VenusBench-GD,一个跨平台的双语GUI grounding基准,包含大规模数据、高质量标注流程和分层任务分类,实验显示通用多模态模型在基础任务上已匹敌专用GUI模型,但高级任务仍需专用模型。
- Motivation: 现有GUI grounding基准存在数据量不足、领域覆盖窄、平台单一或需要专业知识等问题,需要更全面的评估框架来推动GUI agent能力发展。
- Method: 构建VenusBench-GD基准:1) 大规模跨平台数据集覆盖多种应用和UI元素;2) 高质量数据构建流程提高标注准确性;3) 提出分层任务分类,将grounding分为基础和高级两类共6个子任务。
- Result: 实验发现:通用多模态模型在基础grounding任务上已匹配甚至超越专用GUI模型;高级任务仍偏向GUI专用模型,但这些模型存在明显过拟合和鲁棒性差的问题。
- Conclusion: 需要全面、多层次的评估框架来准确评估GUI grounding能力,VenusBench-GD为此提供了有效工具,并揭示了当前模型的局限性和未来研究方向。
[57] Skeleton-Snippet Contrastive Learning with Multiscale Feature Fusion for Action Localization
Qiushuo Cheng,Jingjing Liu,Catherine Morgan,Alan Whone,Majid Mirmehdi
Main category: cs.CV
TL;DR: 提出一种用于骨架时序动作定位的自监督预训练方法,通过片段区分任务和U形特征融合模块提升边界检测性能
- Motivation: 骨架动作识别已有自监督对比学习成功案例,但时序动作定位仍具挑战性。与视频级识别不同,动作边界检测需要能捕捉相邻帧细微差异的时间敏感特征
- Method: 1) 设计片段区分预训练任务:将骨架序列密集投影到非重叠片段,通过对比学习区分不同视频的片段;2) 在骨架动作识别骨干网络上添加U形模块,融合中间特征以增强帧级定位的特征分辨率
- Result: 在BABEL数据集上持续改进现有骨架对比学习方法;在NTU RGB+D和BABEL预训练后,在PKUMMD上实现最先进的迁移学习性能
- Conclusion: 提出的自监督预训练方法能有效学习时序敏感特征,显著提升骨架时序动作定位性能,在多个数据集和评估协议上表现优异
[58] Multi-scale Attention-Guided Intrinsic Decomposition and Rendering Pass Prediction for Facial Images
Hossein Javidnia
Main category: cs.CV
TL;DR: MAGINet是一个用于人脸图像本征分解的多尺度注意力引导网络,能从单张RGB人像预测光照归一化的漫反射反照率图,并通过细化网络和翻译器生成完整的6通道渲染层,实现高质量的重光照和材质编辑。
- Motivation: 在非约束光照条件下准确分解人脸图像的本征属性是照片级真实感重光照、高保真数字替身和增强现实效果的前提。现有方法在反照率边界清晰度和光照不变性方面存在不足。
- Method: 采用多尺度注意力引导本征网络(MAGINet),包含:1)使用分层残差编码、瓶颈处的空间-通道注意力机制和自适应多尺度特征融合的解码器来预测512×512反照率图;2)通过轻量级三层CNN(RefinementNet)上采样并细化到1024×1024;3)基于细化反照率,使用Pix2PixHD翻译器预测另外5个基于物理的渲染层(环境光遮蔽、法线、镜面反射、半透明、带残差光照的原始漫反射颜色)。
- Result: 在FFHQ-UV-Intrinsics数据集上训练,结合掩码MSE、VGG、边缘和patch-LPIPS损失,在漫反射反照率估计上达到最先进性能,完整渲染堆栈的保真度相比先前方法显著提升。
- Conclusion: MAGINet能够生成完整的6通道本征分解,包括光照归一化的漫反射反照率和其他5个物理渲染层,实现了真实人脸的高质量重光照和材质编辑,为数字替身和AR应用提供了有效解决方案。
[59] TTP: Test-Time Padding for Adversarial Detection and Robust Adaptation on Vision-Language Models
Zhiwei Li,Yitian Pang,Weining Wang,Zhenan Sun,Qi Li
Main category: cs.CV
TL;DR: TTP是一个轻量级测试时防御框架,通过空间填充前后的余弦相似度变化检测对抗样本,然后使用可训练填充恢复注意力模式,实现对抗鲁棒性提升而不损害干净准确率。
- Motivation: 视觉语言模型(如CLIP)在零样本识别方面表现出色,但对对抗扰动高度敏感,存在安全风险。现有训练时防御需要标注数据和昂贵重训练,而测试时策略无法可靠区分干净和对抗输入,无法同时达到对抗鲁棒性和干净准确率的最优。
- Method: 提出测试时填充(TTP)框架:1)通过CLIP特征嵌入在空间填充前后的余弦相似度变化检测对抗输入,使用通用阈值;2)对检测到的对抗样本使用可训练填充恢复被破坏的注意力模式,结合相似度感知集成策略;3)对干净输入保持不变或集成现有测试时适应技术。
- Result: 在多种CLIP骨干网络和细粒度基准测试上,TTP持续超越最先进的测试时防御方法,显著提升对抗鲁棒性而不损害干净准确率。
- Conclusion: TTP是一个有效的轻量级测试时防御框架,能够可靠检测对抗样本并恢复其注意力模式,在保持干净准确率的同时显著提升对抗鲁棒性,解决了现有方法的局限性。
[60] N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models
Yuxin Wang,Lei Ke,Boqiang Zhang,Tianyuan Qu,Hanxun Yu,Zhenpeng Huang,Meng Yu,Dan Xu,Dong Yu
Main category: cs.CV
TL;DR: N3D-VLM是一个统一框架,将原生3D物体感知与3D感知视觉推理结合,实现精确的3D定位和可解释的空间理解。
- Motivation: 当前多模态模型基于2D图像回答问题,缺乏内在的3D物体感知能力,限制了理解3D场景中空间关系和深度线索的能力。
- Method: 提出N3D-VLM框架,赋予模型原生3D物体感知能力,使其能基于文本描述直接在3D空间中定位物体。通过深度估计将大规模2D标注提升到3D空间,构建训练数据,并生成针对3D链式推理的空间问答数据集。
- Result: 实验结果表明,该框架在3D定位任务上达到最先进性能,在3D空间推理方面也持续超越现有方法。构建的数据集比现有最大的单图像3D检测数据集大六倍以上。
- Conclusion: N3D-VLM成功地将原生3D物体感知与3D感知视觉推理相结合,为3D空间理解提供了更精确和可解释的解决方案。
[61] 4D Primitive-Mâché: Glueing Primitives for Persistent 4D Scene Reconstruction
Kirill Mazur,Marwan Taher,Andrew J. Davison
Main category: cs.CV
TL;DR: 提出动态重建系统,从单目RGB视频输入,输出完整持久的场景重建,包括当前可见和之前观察过的部分,实现4D时空重建。
- Motivation: 现有方法通常只重建当前可见场景,无法保持对之前观察部分的记忆,缺乏物体持久性和完整时空重建能力。
- Method: 将场景分解为刚性3D基元,通过估计的密集2D对应关系,联合优化推断基元的刚体运动,实现4D重建;引入运动外推机制处理不可见物体,使用运动分组技术保持连续性。
- Result: 在物体扫描和多物体数据集上,系统在定量和定性评估中显著优于现有方法,实现了可回放的3D重建、多物体扫描和物体持久性。
- Conclusion: 提出的动态重建系统能够从单目视频实现完整4D时空重建,解决了物体持久性问题,为场景理解和交互提供了新的可能性。
[62] Causal-Tune: Mining Causal Factors from Vision Foundation Models for Domain Generalized Semantic Segmentation
Yin Zhang,Yongqiang Zhang,Yaoyue Zheng,Bogdan Raducanu,Dan Liu
Main category: cs.CV
TL;DR: Causal-Tune:一种基于因果机制的视觉基础模型微调方法,通过频域分析分离因果与非因果因子,提升域泛化语义分割性能
- Motivation: 现有方法在微调视觉基础模型时忽略了长期预训练模型中的伪影问题,这些伪影与非因果因素相关,阻碍了有价值表示的利用,从而降低了域泛化语义分割性能
- Method: 提出Causal-Tune方法:1)使用离散余弦变换提取每层特征的频谱;2)应用高斯带通滤波器分离因果和非因果成分;3)引入因果感知可学习令牌在频域细化因果成分;4)通过逆DCT将特征转换回空间域
- Result: 在各种跨域任务上的实验证明了方法的有效性,特别是在恶劣天气条件下表现优异,在雪天条件下比基线提高了+4.8% mIoU
- Conclusion: 通过因果机制分析视觉基础模型中的特征,分离因果和非因果因子,能够有效提升域泛化语义分割的鲁棒性,特别是在挑战性场景下
[63] CRONOS: Continuous Time Reconstruction for 4D Medical Longitudinal Series
Nico Albert Disch,Saikat Roy,Constantin Ulrich,Yannick Kirchhoff,Maximilian Rokuss,Robin Peretzke,David Zimmerer,Klaus Maier-Hein
Main category: cs.CV
TL;DR: CRONOS是一个用于3D医学扫描时间演变的统一预测框架,支持从多个过去扫描进行多对一预测,同时处理离散和连续时间戳,通过学习时空速度场实现任意时间的序列到图像预测。
- Motivation: 现有3D医学扫描时间预测模型存在三个主要限制:1)仅依赖单个先验扫描;2)需要固定网格时间;3)主要针对全局标签而非体素级预测。这些限制使得在不规则采样下的体素级预测能力受限。
- Method: CRONOS通过学习时空速度场,将上下文体积传输到任意目标时间的体积,直接在3D体素空间操作。该框架支持离散(网格)和连续(实值)时间戳,实现多对一预测。
- Result: 在三个公共数据集(Cine-MRI、灌注CT和纵向MRI)上,CRONOS优于其他基线方法,同时保持计算效率竞争力。
- Conclusion: CRONOS是首个实现3D医学数据连续序列到图像预测的统一框架,将发布代码和评估协议以支持可重复的多数据集基准测试。
[64] Sketch-in-Latents: Eliciting Unified Reasoning in MLLMs
Jintao Tong,Jiaqi Gu,Yujing Lou,Lubin Fan,Yixiong Zou,Yue Wu,Jieping Ye,Ruixuan Li
Main category: cs.CV
TL;DR: SkiLa提出一种新的多模态推理范式,通过让MLLMs在推理过程中原生生成连续视觉嵌入(潜在草图标记)作为视觉思维,实现统一的视觉-文本推理。
- Motivation: 当前MLLMs在需要视觉想象力的场景中表现不足,而人类可以在大脑的统一空间中形成灵活的视觉-文本想象和交互。受此启发,考虑到当前MLLMs已经在同一特征空间中编码视觉和文本信息,研究者认为视觉标记可以无缝插入到文本标记承载的推理过程中。
- Method: 提出Sketch-in-Latents (SkiLa)范式,扩展MLLMs的自回归能力以原生生成连续视觉嵌入(潜在草图标记)。在推理过程中,模型动态切换文本思维模式(生成文本思考标记)和视觉草图模式(生成潜在草图标记)。提出潜在视觉语义重建机制确保这些潜在草图标记具有语义基础。
- Result: 大量实验表明,SkiLa在视觉中心任务上取得优越性能,同时在多样化通用多模态基准上表现出强大的泛化能力。
- Conclusion: SkiLa通过让MLLMs在统一特征空间中生成视觉嵌入作为思维过程,实现了更接近人类视觉-文本交互的多模态推理能力,为多模态大语言模型提供了新的发展方向。
[65] Yuan-TecSwin: A text conditioned Diffusion model with Swin-transformer blocks
Shaohua Wu,Tong Yu,Shenling Wang,Xudong Zhao
Main category: cs.CV
TL;DR: 本文提出Yuan-TecSwin,一种基于Swin-transformer的文本条件扩散模型,用于改进图像生成中的长距离语义理解,在ImageNet上达到SOTA的FID分数1.37。
- Motivation: 传统扩散模型使用CNN作为基础模块,但卷积操作的局部性限制了模型理解长距离语义信息的能力。为了解决这个问题,需要改进非局部建模能力。
- Method: 提出Yuan-TecSwin模型,用Swin-transformer块替代CNN块作为编码器和解码器的基础模块,改进文本-图像对齐,采用适配的时间步搜索策略提升推理性能10%。
- Result: 在ImageNet生成基准测试中达到SOTA的FID分数1.37,无需在不同去噪阶段使用额外模型。人类评估中难以区分模型生成图像和人工绘制图像。
- Conclusion: Yuan-TecSwin通过Swin-transformer架构有效解决了CNN在长距离语义理解上的局限性,在文本条件图像生成任务中取得了优异性能。
[66] Hazedefy: A Lightweight Real-Time Image and Video Dehazing Pipeline for Practical Deployment
Ayush Bhavsar
Main category: cs.CV
TL;DR: Hazedefy是一个轻量级、面向应用的实时去雾管道,基于暗通道先验和大气散射模型,适用于移动和嵌入式设备,无需GPU加速。
- Motivation: 现有的去雾方法通常计算复杂,难以在消费级硬件上实时运行。需要一种轻量级、实用的解决方案,能够在移动设备和嵌入式系统上实时处理视频和相机流。
- Method: 基于暗通道先验和大气散射模型,采用伽马自适应重建、快速传输近似(带数值稳定性下界)、基于分数顶部像素平均的稳定大气光估计器,以及可选的颜色平衡阶段。
- Result: 在真实世界图像和视频上的实验演示表明,Hazedefy能够改善可见度和对比度,同时保持计算效率,适合移动和嵌入式应用。
- Conclusion: Hazedefy提供了一种实用、轻量级的去雾解决方案,能够在消费级硬件上实时运行,为移动和嵌入式视觉应用提供了可行的增强方案。
[67] Trainable Log-linear Sparse Attention for Efficient Diffusion Transformers
Yifan Zhou,Zeqi Xiao,Tianyi Wei,Shuai Yang,Xingang Pan
Main category: cs.CV
TL;DR: LLSA提出了一种对数线性复杂度的稀疏注意力机制,通过分层Top-K选择和分层KV增强,显著降低了DiTs在长序列上的计算成本,同时保持生成质量。
- Motivation: 现有DiTs的二次方自注意力成本限制了长序列扩展,而Top-K稀疏注意力方法仍存在二次方选择成本问题,且随着序列增长需要增加K值来维持质量。作者发现单层设计的效率不足,因为单个粗粒度层级无法充分表示全局结构。
- Method: LLSA采用分层结构,通过分层Top-K选择(逐级使用前一层找到的索引进行稀疏Top-K选择)和分层KV增强机制(使用不同粒度的更少token保留全局上下文)。同时开发了高性能GPU实现,仅使用稀疏索引进行前向和反向传播,无需密集注意力掩码。
- Result: 在256x256像素token序列上,LLSA将注意力推理加速28.27倍,DiT训练加速6.09倍,同时保持生成质量。该方法支持无需分块化和VAE编码的高分辨率像素空间图像生成。
- Conclusion: LLSA为高效训练长序列DiTs提供了有前景的方向,通过将选择和注意力成本从二次方降低到对数线性复杂度,解决了现有稀疏注意力方法的效率瓶颈。
[68] Plug to Place: Indoor Multimedia Geolocation from Electrical Sockets for Digital Investigation
Kanwal Aftab,Graham Adams,Mark Scanlon
Main category: cs.CV
TL;DR: 提出一个利用电源插座作为室内地理定位标记的三阶段深度学习管道,通过检测插座、分类插座类型、映射到国家来实现室内多媒体地理定位,解决执法中打击人口贩卖等犯罪的需求。
- Motivation: 室内多媒体地理定位在打击人口贩卖、儿童剥削等严重犯罪中具有重要应用价值,但面临室内布局相似、装修频繁、视觉模糊、光照变化、GPS信号不可靠以及敏感领域数据集有限等挑战。室外地理定位已广泛研究,室内版本仍不成熟。
- Method: 开发三阶段深度学习管道:1) 使用YOLOv11检测电源插座(mAP@0.5=0.843);2) 使用Xception将检测到的插座分类为12种插座类型(准确率0.912);3) 将插座类型映射到国家(置信度>90%时准确率0.96)。为解决数据稀缺问题,创建了两个专用数据集:包含2,328张标注图像(通过增强扩展至4,072张)的插座检测数据集,以及包含12个插座类别3,187张图像的分类数据集。
- Result: 在Hotels-50K数据集(特别是TraffickCam子集)上评估,该数据集包含真实世界条件下的酒店图像(如光线不佳、业余拍摄角度)。管道在插座检测、分类和国家映射方面均表现出色,为实际数字取证应用提供了实用框架。
- Conclusion: 该研究展示了利用电源插座作为室内地理定位标记的可行性,为解决室内多媒体地理定位挑战提供了实用解决方案,是迈向实际数字取证应用的重要一步。代码、训练模型和数据均已开源。
[69] DeContext as Defense: Safe Image Editing in Diffusion Transformers
Linghui Shen,Mingyue Cui,Xingyi Yang
Main category: cs.CV
TL;DR: DeContext是一种保护输入图像免受未经授权上下文编辑的方法,通过注入微小扰动来削弱跨注意力路径,有效阻断输入与输出之间的链接。
- Motivation: 上下文扩散模型虽然能轻松修改图像,但也带来严重的隐私问题:个人图像可能被未经授权地用于身份冒充、虚假信息等恶意用途。现有针对个性化文本到图像生成的输入扰动方法,对现代大规模基于DiT的上下文模型的鲁棒性尚未得到充分研究。
- Method: DeContext通过注入微小、有针对性的扰动来削弱多模态注意力层中的跨注意力路径,从而阻断上下文信息从源图像到输出的传播。研究发现早期去噪步骤和特定transformer块主导上下文传播,因此可以将扰动集中在最关键的位置。
- Result: 在Flux Kontext和Step1X-Edit上的实验表明,DeContext能持续阻止不需要的图像编辑,同时保持视觉质量。该方法证明了基于注意力的扰动作为防御图像操纵的有效性。
- Conclusion: 注意力机制中的跨注意力路径是上下文信息传播的关键,通过针对性扰动这些路径可以有效保护图像免受未经授权的编辑,为图像隐私保护提供了一种高效且鲁棒的防御方法。
[70] SARMAE: Masked Autoencoder for SAR Representation Learning
Danxu Liu,Di Wang,Hebaixu Wang,Haoyang Chen,Wentao Jiang,Yilin Cheng,Haonan Guo,Wei Cui,Jing Zhang
Main category: cs.CV
TL;DR: SARMAE:首个百万级SAR数据集SAR-1M上的噪声感知掩码自编码器,通过斑点噪声注入和光学先验对齐实现自监督SAR表征学习,在分类、检测、分割任务上达到SOTA性能。
- Motivation: 现有SAR深度学习面临数据稀缺和斑点噪声干扰两大挑战,限制了细粒度语义表征学习。需要开发能够处理SAR特有噪声并利用大规模数据的方法。
- Method: 1) 构建首个百万级SAR数据集SAR-1M,包含配对的SAR和光学图像;2) 设计斑点感知表征增强(SARE),在掩码自编码器中注入SAR特有斑点噪声;3) 引入语义锚点表征约束(SARC),利用光学先验对齐SAR特征确保语义一致性。
- Result: 在多个SAR数据集上的实验表明,SARMAE在分类、检测和分割任务上均达到最先进的性能,证明了其噪声感知和语义一致表征学习的有效性。
- Conclusion: SARMAE通过构建大规模数据集、噪声感知学习和光学先验对齐,成功解决了SAR数据稀缺和噪声干扰问题,为SAR自监督表征学习提供了有效解决方案。
[71] REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion
Giorgos Petsangourakis,Christos Sgouropoulos,Bill Psomas,Theodoros Giannakopoulos,Giorgos Sfikas,Ioannis Kakogeorgiou
Main category: cs.CV
TL;DR: REGLUE是一个统一的潜在扩散框架,通过联合建模VAE潜在表示、局部VFM语义和全局CLS token,利用非线性压缩的多层VFM特征,显著提升图像生成质量和训练效率。
- Motivation: 现有潜在扩散模型(LDMs)的重构式去噪目标仅提供间接语义监督,高级语义出现缓慢,需要更长训练时间且限制样本质量。现有方法要么通过表示对齐外部注入VFM语义,要么在扩散过程中仅联合建模狭窄的VFM特征切片,未能充分利用VFM丰富、非线性、多层的空间语义信息。
- Method: 提出REGLUE框架:1)使用轻量级卷积语义压缩器非线性聚合多层VFM特征为低维空间结构化表示;2)在单个SiT骨干网络中联合建模VAE图像潜在表示、紧凑的局部(patch级)VFM语义和全局(图像级)CLS token;3)通过外部对齐损失正则化内部表示朝向冻结的VFM目标。
- Result: 在ImageNet 256x256上,REGLUE相比SiT-B/2和SiT-XL/2基线以及REPA、ReDi、REG等方法,持续改善FID并加速收敛。实验表明:a)空间VFM语义至关重要;b)非线性压缩是充分发挥其优势的关键;c)全局token和外部对齐作为轻量级增强在全局-局部-潜在联合建模框架中起互补作用。
- Conclusion: REGLUE通过统一建模VAE潜在表示、局部VFM语义和全局token,充分利用VFM的多层空间语义,显著提升了潜在扩散模型的图像生成质量和训练效率,为语义增强的扩散模型提供了有效框架。
[72] FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering
Ole Beisswenger,Jan-Niklas Dihlmann,Hendrik P. A. Lensch
Main category: cs.CV
TL;DR: FrameDiffuser是一个自回归神经渲染框架,通过结合G-buffer数据和自身先前输出来生成时间一致、逼真的帧,解决了现有方法在交互应用中时间不一致或计算成本过高的问题。
- Motivation: 现有基于扩散的G-buffer条件图像合成方法存在关键限制:单图像模型缺乏时间一致性,而视频模型计算成本过高且需要完整序列,不适合依赖用户输入的交互应用。
- Method: 提出自回归神经渲染框架FrameDiffuser,结合ControlNet进行结构引导和ControlLoRA实现时间一致性,采用三阶段训练策略实现稳定自回归生成,并对特定环境进行专门化训练。
- Result: FrameDiffuser能够在数百到数千帧中保持稳定的时间一致性生成,在特定环境训练下实现比通用方法更优的逼真质量,具有准确的照明、阴影和反射效果。
- Conclusion: FrameDiffuser为交互应用提供了一种高效、时间一致的神经渲染解决方案,通过环境专门化训练在保持推理速度的同时实现了高质量的逼真图像生成。
[73] Few-Shot Fingerprinting Subject Re-Identification in 3D-MRI and 2D-X-Ray
Gonçalo Gaspar Alves,Shekoufeh Gorgi Zadeh,Andreas Husch,Ben Bausch
Main category: cs.CV
TL;DR: 该论文提出使用主题指纹识别技术来解决开源数据集合并时的数据泄露问题,通过将同一受试者的所有图像映射到潜在空间中的特定区域,实现基于相似度匹配的受试者重识别。
- Motivation: 合并开源数据集时,如果同一受试者出现在多个数据集中,会导致数据泄露,从而虚增模型性能。需要一种方法来检测和避免这种数据泄露问题。
- Method: 使用ResNet-50网络结合三元组边界损失进行训练,实现主题指纹识别。在3D MRI和2D X-ray数据上评估少样本指纹识别,包括标准场景(20-way 1-shot)和挑战性场景(1000-way 1-shot)。
- Result: 模型在ChestXray-14数据集上:20-way 1-shot达到99.10% Mean-Recall-@-K,500-way 5-shot达到90.06%;在BraTS-2021数据集上:20-way 1-shot达到99.20%,100-way 3-shot达到98.86%。
- Conclusion: 主题指纹识别方法能有效解决数据集合并时的数据泄露问题,在不同模态和难度场景下都表现出色,为数据集质量控制和模型评估提供了可靠工具。
[74] Detecting Localized Deepfakes: How Well Do Synthetic Image Detectors Handle Inpainting?
Serafino Pandolfini,Lorenzo Pellegrini,Matteo Ferrara,Davide Maltoni
Main category: cs.CV
TL;DR: 系统评估了针对完全合成图像训练的深度伪造检测器在局部修复检测任务上的泛化能力,发现这些模型对中等和大面积修复具有部分可迁移性
- Motivation: 生成式AI的快速发展使得高度逼真的图像操作(如修复和区域级编辑)成为可能,这些技术越来越多地被用于网络安全威胁场景。虽然已有许多针对完全合成图像的检测器,但它们在局部操作检测上的泛化能力尚未得到充分研究
- Method: 对最先进的检测器进行系统评估,这些检测器原本是为完全合成图像的深度伪造检测而训练。研究使用多个数据集,涵盖不同的生成器、掩码大小和修复技术,评估它们在局部修复检测任务上的表现
- Result: 实验表明,在大量生成器上训练的模型对基于修复的编辑具有部分可迁移性,能够可靠地检测中等和大面积操作或再生式修复,性能优于许多现有的专门检测方法
- Conclusion: 针对完全合成图像训练的检测器在局部修复检测任务上表现出一定的泛化能力,特别是在检测中等和大面积操作时效果显著,这为开发更通用的图像篡改检测系统提供了重要见解
[75] SDFoam: Signed-Distance Foam for explicit surface reconstruction
Antonella Rech,Nicola Conci,Nicola Garau
Main category: cs.CV
TL;DR: SDFoam:结合显式Voronoi图与隐式SDF的混合方法,提升NeRF类方法的网格重建精度,保持渲染质量和效率
- Motivation: 现有NeRF、3DGS和RadiantFoam等方法在视图合成方面表现良好,但在精确网格重建方面仍有不足,需要改进表面重建质量
- Method: 联合学习显式Voronoi图与隐式符号距离场(SDF),通过光线追踪优化场景,使用Eikonal正则化,使Voronoi单元面与SDF零水平集对齐
- Result: SDFoam显著提高了网格重建精度(Chamfer距离),同时保持可比较的外观质量(PSNR、SSIM),且不牺牲训练效率
- Conclusion: 提出的隐式-显式混合方法SDFoam在保持渲染质量和效率的同时,大幅提升了表面重建的准确性和拓扑结构
[76] A multi-centre, multi-device benchmark dataset for landmark-based comprehensive fetal biometry
Chiara Di Vece,Zhehua Mao,Netanell Avisdris,Brian Dromey,Raffaele Napolitano,Dafna Ben Bashat,Francisco Vasconcelos,Danail Stoyanov,Leo Joskowicz,Sophia Bano
Main category: cs.CV
TL;DR: 首个公开的多中心、多设备胎儿超声数据集,包含专家标注的解剖标志点,用于胎儿生物测量AI模型开发与评估。
- Motivation: 当前胎儿超声生长评估依赖人工测量解剖标志点,耗时、操作者依赖性强,且不同设备和中心间存在差异。缺乏多源标注数据集限制了AI辅助方法的开发与可重复性。
- Method: 收集三个临床中心、七种不同超声设备的4,513张去标识化胎儿超声图像,涵盖1,904名受试者。提供专家标注的头部双顶径、枕额径、腹部横径、前后径和股骨长度等关键解剖标志点。创建标准化的受试者分离训练/测试集,并提供评估代码和基线结果。
- Result: 数据集包含4,513张图像,覆盖所有主要胎儿生物测量指标。通过自动生物测量模型量化了领域偏移,证明单中心训练评估会显著高估性能(相比多中心测试)。这是首个公开的多中心、多设备、标志点标注的胎儿生物测量数据集。
- Conclusion: 该数据集为胎儿生物测量的领域适应和多中心泛化提供了稳健基准,有助于开发更可靠的跨中心AI辅助胎儿生长评估工具。所有数据、标注、训练代码和评估流程均已公开。
[77] OMG-Bench: A New Challenging Benchmark for Skeleton-based Online Micro Hand Gesture Recognition
Haochen Chang,Pengfei Ren,Buyuan Zhang,Da Li,Tianhao Han,Haoyang Zhang,Liang Xie,Hongbo Chen,Erwei Yin
Main category: cs.CV
TL;DR: 提出了OMG-Bench,首个大规模骨骼在线微手势识别基准,包含40个精细手势类别和13,948个实例,并提出了Hierarchical Memory-Augmented Transformer (HMATr)框架,在检测率上优于现有方法7.6%。
- Motivation: 在线微手势识别对VR/AR交互至关重要,但面临公开数据集有限和任务特定算法的挑战。微手势涉及细微运动模式,使得构建具有精确骨骼和帧级标注的数据集变得困难。
- Method: 开发了多视图自监督流水线自动生成骨骼数据,辅以启发式规则和专家细化的半自动标注。提出了Hierarchical Memory-Augmented Transformer (HMATr)端到端框架,通过分层记忆库存储帧级细节和窗口级语义来统一手势检测和分类。
- Result: 创建了OMG-Bench基准,包含40个精细手势类别、13,948个实例、1,272个序列。HMATr在检测率上优于最先进方法7.6%,为在线微手势识别建立了强基线。
- Conclusion: 该工作提供了首个大规模骨骼在线微手势识别基准OMG-Bench,并提出了有效的HMATr框架,显著提升了在线微手势识别性能,为VR/AR交互研究提供了重要资源。
[78] Task-Oriented Data Synthesis and Control-Rectify Sampling for Remote Sensing Semantic Segmentation
Yunkai Yang,Yudong Zhang,Kunquan Zhang,Jinxiao Zhang,Xinying Chen,Haohuan Fu,Runmin Dong
Main category: cs.CV
TL;DR: 提出TODSynth框架,通过多模态扩散变换器和任务反馈引导的采样策略,为遥感语义分割生成更稳定、任务导向的合成数据。
- Motivation: 遥感领域可控生成训练数据面临语义掩码控制复杂和采样质量不确定的挑战,限制了合成数据在下游语义分割任务中的效用。
- Method: 1) 基于DiT的多模态扩散变换器(MM-DiT),采用文本-图像-掩码联合注意力机制;2) 控制-校正流匹配(CRFM)方法,在早期高可塑性阶段通过语义损失动态调整采样方向;3) 任务反馈引导的即插即用采样策略。
- Result: 在少样本和复杂场景下显著提升遥感语义分割数据合成效果,相比现有可控生成方法表现更优,生成更稳定、任务导向的合成数据。
- Conclusion: TODSynth框架通过统一的三重注意力和任务反馈引导采样,有效解决了遥感语义分割数据合成的控制复杂性和质量不确定性问题,为下游任务提供了高质量的合成数据。
[79] TreeNet: A Light Weight Model for Low Bitrate Image Compression
Mahadev Prasad Panda,Purnachandra Rao Makkena,Srivatsa Prativadibhayankaram,Siegfried Fößel,André Kaup
Main category: cs.CV
TL;DR: TreeNet提出了一种基于二叉树编码器-解码器架构的低复杂度图像压缩模型,在低比特率下比JPEG AI性能提升4.83%,同时模型复杂度降低87.82%
- Motivation: 基于学习的图像压缩方法计算复杂度高是阻碍其广泛应用的关键挑战,需要开发低复杂度的解决方案
- Method: 采用二叉树结构的编码器-解码器架构实现高效表示和重建,使用注意力特征融合机制整合多分支特征
- Result: 在三个基准数据集上评估,低比特率下比JPEG AI平均BD-rate提升4.83%,模型复杂度降低87.82%,并通过消融研究分析潜在表示的影响
- Conclusion: TreeNet在显著降低计算复杂度的同时保持了优异的压缩性能,为学习型图像压缩的实际应用提供了可行方案
[80] Make-It-Poseable: Feed-forward Latent Posing Model for 3D Humanoid Character Animation
Zhiyang Guo,Ori Zhang,Jax Xiang,Alan Zhao,Wengang Zhou,Houqiang Li
Main category: cs.CV
TL;DR: Make-It-Poseable是一个新颖的前馈框架,将3D角色摆姿重新定义为潜在空间变换问题,通过直接操作潜在表示而非变形网格顶点来实现高质量摆姿。
- Motivation: 现有方法如自动绑定和姿态条件生成存在皮肤权重预测不准确、拓扑缺陷和姿态一致性差等问题,限制了其鲁棒性和泛化能力。
- Method: 1) 将摆姿重新定义为潜在空间变换问题;2) 使用潜在摆姿变换器基于骨骼运动操作形状标记;3) 采用密集姿态表示实现精确控制;4) 引入潜在空间监督策略和自适应补全模块确保高保真几何和拓扑变化适应。
- Result: 该方法在摆姿质量上表现出优越性能,并自然地扩展到3D编辑应用,如部件替换和细化。
- Conclusion: Make-It-Poseable通过潜在空间变换方法克服了传统摆姿方法的局限性,为3D角色摆姿提供了更鲁棒和通用的解决方案。
[81] FlowDet: Unifying Object Detection and Generative Transport Flows
Enis Baty,C. P. Bridges,Simon Hadfield
Main category: cs.CV
TL;DR: FlowDet:首个使用条件流匹配技术的目标检测框架,相比扩散模型学习更简单、更直的生成路径,在推理步数增加时性能提升更快,在多个数据集上超越DiffusionDet和非生成基线。
- Motivation: 现有DiffusionDet将目标检测框定为边界框空间中的生成去噪问题,但扩散模型产生弯曲的随机传输路径。本文旨在将检测重新框定为更广泛的生成传输问题,学习更简单、更直的路径以获得更好的性能。
- Method: 提出FlowDet框架,使用现代条件流匹配技术重新表述目标检测问题。该方法将检测框定为生成传输问题,能够在不重新训练的情况下改变边界框数量和推理步骤数,学习比扩散模型更简单、更直的传输路径。
- Result: 在多个特征主干和数据集上超越基于扩散的检测系统和非生成基线。在召回约束设置下,FlowDet在COCO数据集上比DiffusionDet提升+3.6% AP,在LVIS数据集上提升+4.2% AP
,特别是在推理步数增加时性能提升更快。 - Conclusion: FlowDet成功将目标检测重新框定为条件流匹配问题,相比扩散模型学习更简单、更直的生成路径,在推理效率和检测性能方面都有显著优势,为生成式目标检测提供了新的方向。
[82] Kling-Omni Technical Report
Kling Team,Jialu Chen,Yuanzheng Ci,Xiangyu Du,Zipeng Feng,Kun Gai,Sainan Guo,Feng Han,Jingbin He,Kang He,Xiao Hu,Xiaohua Hu,Boyuan Jiang,Fangyuan Kong,Hang Li,Jie Li,Qingyu Li,Shen Li,Xiaohan Li,Yan Li,Jiajun Liang,Borui Liao,Yiqiao Liao,Weihong Lin,Quande Liu,Xiaokun Liu,Yilun Liu,Yuliang Liu,Shun Lu,Hangyu Mao,Yunyao Mao,Haodong Ouyang,Wenyu Qin,Wanqi Shi,Xiaoyu Shi,Lianghao Su,Haozhi Sun,Peiqin Sun,Pengfei Wan,Chao Wang,Chenyu Wang,Meng Wang,Qiulin Wang,Runqi Wang,Xintao Wang,Xuebo Wang,Zekun Wang,Min Wei,Tiancheng Wen,Guohao Wu,Xiaoshi Wu,Zhenhua Wu,Da Xie,Yingtong Xiong,Yulong Xu,Sile Yang,Zikang Yang,Weicai Ye,Ziyang Yuan,Shenglong Zhang,Shuaiyu Zhang,Yuanxing Zhang,Yufan Zhang,Wenzheng Zhao,Ruiliang Zhou,Yan Zhou,Guosheng Zhu,Yongjie Zhu
Main category: cs.CV
TL;DR: Kling-Omni是一个端到端的多模态视频生成框架,支持文本、图像、视频等多种输入,能生成高质量视频内容,并具备推理编辑能力。
- Motivation: 现有视频生成、编辑和推理任务通常是分离的管道式方法,缺乏统一的端到端框架。需要构建一个能够整合多种模态输入、支持多样化视频创作任务的通用系统。
- Method: 采用端到端架构,将多种输入转换为统一的多模态表示。构建全面的数据系统作为基础,采用高效的大规模预训练策略和推理基础设施优化。
- Result: Kling-Omni在上下文生成、基于推理的编辑和多模态指令跟随方面表现出色,能够生成电影质量的智能视频内容。
- Conclusion: Kling-Omni不仅是内容创作工具,更是迈向能够感知、推理、生成和交互的多模态世界模拟器的关键进展。
[83] R3ST: A Synthetic 3D Dataset With Realistic Trajectories
Simone Teglia,Claudia Melis Tonti,Francesco Pro,Leonardo Russo,Andrea Alfarano,Leonardo Pentassuglia,Irene Amerini
Main category: cs.CV
TL;DR: R3ST是一个合成数据集,通过将真实世界轨迹集成到合成3D环境中,解决了现有合成数据集缺乏真实车辆运动的问题。
- Motivation: 现有数据集存在两难:真实数据集缺乏精确标注,而合成数据集缺乏真实的车辆运动轨迹。需要一种既能提供精确标注又能保持真实车辆行为的数据集。
- Method: 创建合成3D环境,并从SinD(无人机拍摄的鸟瞰数据集)中提取真实世界轨迹,将这些真实轨迹集成到合成环境中生成R3ST数据集。
- Result: R3ST填补了合成数据与真实轨迹之间的空白,提供了准确的多模态地面真实标注和真实的人类驾驶车辆轨迹。
- Conclusion: 该数据集推动了道路车辆轨迹预测研究,为计算机视觉模型的训练和评估提供了更高质量的合成数据。
[84] KineST: A Kinematics-guided Spatiotemporal State Space Model for Human Motion Tracking from Sparse Signals
Shuting Zhao,Zeyu Xiao,Xinrong Chen
Main category: cs.CV
TL;DR: KineST:一种基于运动学引导状态空间模型的新型全身姿态重建方法,通过运动学先验和混合时空表示学习,在轻量级框架下实现高精度和时序一致性的姿态重建。
- Motivation: AR/VR应用中需要基于头戴设备获取的稀疏信号重建真实多样的全身姿态,现有方法存在计算成本高、时空依赖分离建模等问题,难以平衡精度、时序一致性和效率。
- Method: 提出KineST模型:1)在状态空间对偶框架中引入运动学引导的双向扫描策略,嵌入运动学先验;2)采用混合时空表示学习方法紧密耦合时空上下文;3)引入几何角速度损失函数施加物理约束。
- Result: 大量实验表明KineST在轻量级框架下,在精度和时序一致性方面均表现出优越性能。
- Conclusion: KineST通过运动学引导的状态空间模型有效解决了AR/VR中基于稀疏信号的全身姿态重建问题,在保持轻量级的同时实现了精度和时序一致性的平衡。
[85] GeoPredict: Leveraging Predictive Kinematics and 3D Gaussian Geometry for Precise VLA Manipulation
Jingjing Qian,Boyao Han,Chen Shi,Lei Xiao,Long Yang,Shaoshuai Shi,Li Jiang
Main category: cs.CV
TL;DR: GeoPredict是一个几何感知的视觉-语言-动作框架,通过预测性运动学和几何先验增强连续动作策略,在需要精确3D推理的机器人操作任务中表现优异。
- Motivation: 现有的视觉-语言-动作模型大多是反应式的且以2D为中心,在需要精确3D推理的任务中可靠性不足。为了解决这个问题,需要开发能够进行3D几何推理的框架。
- Method: GeoPredict引入两个预测模块:1) 轨迹级模块编码运动历史并预测机器人手臂的多步3D关键点轨迹;2) 预测性3D高斯几何模块预测工作空间几何,并沿未来关键点轨迹进行跟踪引导细化。这些模块仅作为训练时的监督,通过基于深度的渲染实现,推理时只需轻量级查询令牌。
- Result: 在RoboCasa Human-50、LIBERO和真实世界操作任务上的实验表明,GeoPredict持续优于强大的VLA基线方法,特别是在几何密集和空间要求高的场景中。
- Conclusion: GeoPredict通过整合预测性几何先验,显著提升了VLA模型在需要3D推理的机器人操作任务中的性能,为几何感知的机器人学习提供了有效框架。
[86] DenseBEV: Transforming BEV Grid Cells into 3D Objects
Marius Dähling,Sebastian Krebs,J. Marius Zöllner
Main category: cs.CV
TL;DR: 提出DenseBEV方法,使用BEV特征单元直接作为锚点进行多摄像头3D目标检测,通过两阶段锚点生成和BEV-NMS解决注意力缩放问题,在nuScenes和Waymo数据集上取得SOTA性能。
- Motivation: 当前BEV-based transformer多使用随机查询作为锚点,或依赖辅助网络检测。作者认为更直观高效的方法是直接使用BEV特征单元作为锚点,利用BEV查询的密集网格,将每个单元视为潜在检测目标。
- Method: 1) 提出两阶段锚点生成方法:使用BEV特征单元直接作为对象查询;2) 引入BEV-based NMS:仅让非抑制对象的梯度流动,解决大量查询的注意力缩放问题;3) 集成混合时序建模:在已有时序BEV信息基础上,整合先验检测进一步提升性能。
- Result: 在nuScenes数据集上NDS和mAP持续显著提升,即使使用更稀疏的BEV网格。小目标检测效果显著:行人检测mAP提升3.8%(nuScenes),LET-mAP提升8%(Waymo)。在Waymo Open数据集上达到SOTA性能:LET-mAP 60.7%,超越之前最佳5.4%。
- Conclusion: DenseBEV提供了一种更直观高效的BEV-based 3D目标检测方法,通过直接使用BEV特征作为锚点、两阶段锚点生成和BEV-NMS,在多个数据集上实现了显著性能提升,特别是对小目标检测效果突出。
[87] Next-Generation License Plate Detection and Recognition System using YOLOv8
Arslan Amin,Rafia Mumtaz,Muhammad Jawad Bashir,Syed Mohammad Hassan Zaidi
Main category: cs.CV
TL;DR: 本研究评估了YOLOv8不同变体在车牌识别和字符识别任务上的性能,提出了一种结合YOLOv8 Nano进行车牌检测和YOLOv8 Small进行字符识别的优化方案,在保持计算效率的同时实现了高精度。
- Motivation: 在智能交通系统中,车牌识别是关键技术,但现有方法在多样环境下的实时准确性和一致性仍有不足,需要更高效可靠的解决方案。
- Method: 使用两个不同数据集训练和评估YOLOv8变体,提出基于x轴位置的自定义字符排序方法,构建了YOLOv8 Nano用于车牌检测、YOLOv8 Small用于字符识别的优化流水线。
- Result: YOLOv8 Nano在车牌识别任务上达到0.964的精度和0.918的mAP50;YOLOv8 Small在字符识别任务上达到0.92的精度和0.91的mAP50。
- Conclusion: 提出的优化方案在保持计算效率的同时确保了高精度,为智能交通系统边缘设备的实际部署奠定了坚实基础,推动了更智能高效的城市基础设施建设。
[88] Radiology Report Generation with Layer-Wise Anatomical Attention
Emmanuel D. Muñiz-De-León,Jorge A. Rosales-de-Golferichs,Ana S. Muñoz-Rodríguez,Alejandro I. Trejo-Castro,Eduardo de Avila-Armenta,Antonio Martínez-Torteya
Main category: cs.CV
TL;DR: 提出一种紧凑的图像到文本架构,仅使用单张正面胸部X光片生成报告发现部分,通过解剖注意力机制提升临床相关区域的关注,在资源有限情况下实现显著性能提升。
- Motivation: 当前最先进的放射学报告生成系统依赖大规模多模态训练、临床元数据和多个成像视图,资源密集且难以普及。需要开发更紧凑、仅依赖单张图像的解决方案。
- Method: 结合冻结的DINOv3 ViT编码器和GPT-2解码器,通过分层高斯平滑整合肺部和心脏分割掩码的层间解剖注意力机制,引导注意力到临床相关区域而不增加可训练参数。
- Result: 在MIMIC-CXR数据集上,5种关键病理的CheXpert Macro-F1提升168%(0.083->0.238),Micro-F1提升146%(0.137->0.337);14种观察指标提升86%(0.170->0.316);RadGraph F1提升9.7%。
- Conclusion: 尽管模型尺寸小且仅依赖图像条件,但解码器级的解剖引导能改善空间定位和临床相关区域的连贯性,为资源有限环境提供了有效的放射报告生成方案。
[89] OPENTOUCH: Bringing Full-Hand Touch to Real-World Interaction
Yuxin Ray Song,Jinzhou Li,Rao Fu,Devin Murphy,Kaichen Zhou,Rishi Shiv,Yaqi Li,Haoyu Xiong,Crystal Elaine Owens,Yilun Du,Yiyue Luo,Xianyi Cheng,Antonio Torralba,Wojciech Matusik,Paul Pu Liang
Main category: cs.CV
TL;DR: OpenTouch是首个野外环境下的自我中心视角全手触觉数据集,包含5.1小时同步的视频-触觉-姿态数据,用于研究视觉感知与物理交互的关联
- Motivation: 尽管人手是我们与物理世界的主要交互界面,但自我中心视角感知很少能准确知道何时、何地以及如何施加接触力。现有的可穿戴触觉传感器稀缺,且没有野外数据集能对齐第一人称视频与全手触觉信息
- Method: 开发了OpenTouch数据集,包含5.1小时同步的视频-触觉-姿态数据,以及2900个经过筛选的片段和详细的文本标注。基于此数据集建立了检索和分类基准测试
- Result: 触觉信号为抓握理解提供了紧凑而强大的线索,增强了跨模态对齐,并且可以从野外视频查询中可靠地检索出来
- Conclusion: 通过发布这个带标注的视觉-触觉-姿态数据集和基准测试,旨在推进多模态自我中心感知、具身学习和接触丰富的机器人操作研究
[90] GenEval 2: Addressing Benchmark Drift in Text-to-Image Evaluation
Amita Kamath,Kai-Wei Chang,Ranjay Krishna,Luke Zettlemoyer,Yushi Hu,Marjan Ghazvininejad
Main category: cs.CV
TL;DR: 论文指出文本到图像模型评估存在基准漂移问题,以GenEval为例展示了其随时间与人类判断偏离,并提出新基准GenEval 2和改进的评估方法Soft-TIFA。
- Motivation: 自动化文本到图像模型评估面临挑战:需要法官模型评分,测试提示需对当前模型具有挑战性但不能难倒法官。这些约束可能导致基准随时间漂移,静态基准无法跟上新模型能力。
- Method: 1) 分析GenEval基准漂移问题,通过大规模人类研究验证;2) 提出新基准GenEval 2,改进原始视觉概念覆盖和组合性;3) 提出Soft-TIFA评估方法,结合视觉原语判断。
- Result: GenEval已与人类判断显著偏离,绝对误差高达17.7%,表明基准已饱和。GenEval 2对当前模型更具挑战性,Soft-TIFA与人类判断更一致且不易漂移。
- Conclusion: 基准漂移是T2I评估的重要问题,需要持续审计和改进。GenEval 2和Soft-TIFA提供了更好的解决方案,但避免基准漂移仍需持续努力。
[91] RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing
Tianyuan Qu,Lei Ke,Xiaohang Zhan,Longxiang Tang,Yuqi Liu,Bohao Peng,Bei Yu,Dong Yu,Jiaya Jia
Main category: cs.CV
TL;DR: RePlan是一个用于复杂指令图像编辑的规划-执行框架,通过视觉语言规划器分解指令并定位到目标区域,然后使用免训练的注意力区域注入机制进行并行多区域编辑,无需迭代修复。
- Motivation: 现有基于指令的图像编辑模型在处理指令-视觉复杂性(IV-Complexity)时表现不佳,即当复杂指令遇到杂乱或模糊场景时,模型难以准确理解和执行编辑任务。
- Method: 提出RePlan框架:1)视觉语言规划器通过逐步推理分解指令并显式定位到目标区域;2)扩散编辑器使用免训练的注意力区域注入机制进行编辑;3)使用GRPO强化学习增强规划能力;4)创建IV-Edit基准测试集。
- Result: 在IV-Complex设置下,RePlan持续优于使用更大数据集训练的基线模型,显著提升了区域定位精度和整体保真度,即使仅使用1K指令示例进行强化学习也取得了实质性改进。
- Conclusion: RePlan通过规划-执行框架有效解决了复杂指令图像编辑的挑战,在区域对齐规划和免训练编辑机制方面具有优势,为处理指令-视觉复杂性提供了有效解决方案。
[92] Pixel Seal: Adversarial-only training for invisible image and video watermarking
Tomáš Souček,Pierre Fernandez,Hady Elsahar,Sylvestre-Alvise Rebuffi,Valeriu Lacatusu,Tuan Tran,Tom Sander,Alexandre Mourachko
Main category: cs.CV
TL;DR: Pixel Seal提出了一种新的图像和视频水印方法,通过对抗性训练、三阶段训练计划和高分辨率适应技术,解决了现有方法在鲁棒性、不可感知性和可扩展性方面的挑战。
- Motivation: 现有水印方法存在三个根本问题:1) 依赖MSE和LPIPS等代理感知损失,无法准确模拟人类感知,导致可见水印伪影;2) 目标冲突导致优化不稳定,需要大量超参数调优;3) 扩展到高分辨率图像和视频时,水印的鲁棒性和不可感知性降低。
- Method: 1) 提出仅对抗性训练范式,消除不可靠的像素级不可感知性损失;2) 引入三阶段训练计划,通过解耦鲁棒性和不可感知性来稳定收敛;3) 通过高分辨率适应解决分辨率差距,采用基于JND的衰减和训练时推理模拟来消除上采样伪影;4) 通过时间水印池化适应视频。
- Result: Pixel Seal在不同图像类型和各种变换下都表现出优异的鲁棒性和不可感知性,明显优于现有最先进方法。模型能有效适应视频,成为实际可扩展的解决方案。
- Conclusion: Pixel Seal为数字内容溯源提供了实用且可扩展的解决方案,在图像和视频水印领域建立了新的技术标准,平衡了鲁棒性和真正的不可感知性。
[93] Memory-Enhanced SAM3 for Occlusion-Robust Surgical Instrument Segmentation
Valay Bundele,Mehran Hosseinzadeh,Hendrik P. A. Lensch
Main category: cs.CV
TL;DR: ReMeDI-SAM3:一种无需训练的SAM3增强扩展,通过相关性感知内存过滤、分段插值和特征重识别模块,显著提升内窥镜视频中手术器械分割的准确性和遮挡恢复能力
- Motivation: 内窥镜视频中手术器械分割面临遮挡、快速运动、镜面伪影和器械重新进入等挑战。虽然SAM3提供了强大的时空视频对象分割框架,但在手术场景中性能受限,主要问题包括:内存更新不加区分、固定内存容量、遮挡后身份恢复能力弱
- Method: 提出ReMeDI-SAM3,包含三个核心组件:1)相关性感知内存过滤,配备专门的遮挡感知内存存储遮挡前帧;2)分段插值方案扩展有效内存容量;3)基于特征的重识别模块,结合时间投票机制实现可靠的遮挡后身份消歧
- Result: 在EndoVis17和EndoVis18数据集上的零样本评估显示,相比原始SAM3分别获得约7%和16%的绝对mcIoU提升,甚至超过了先前基于训练的方法
- Conclusion: ReMeDI-SAM3通过创新的内存增强机制有效解决了手术器械分割中的关键挑战,特别是遮挡恢复问题,在无需额外训练的情况下显著提升了分割性能,为计算机辅助干预提供了更可靠的工具
[94] M-PhyGs: Multi-Material Object Dynamics from Video
Norika Wada,Kohei Yamashita,Ryo Kawahara,Ko Nishino
Main category: cs.CV
TL;DR: 提出M-PhyGs方法,从视频中估计多材料复杂自然物体(以花朵为代表)的材料组成和物理参数,使用级联3D/2D损失和时间小批量处理。
- Motivation: 现实世界物体通常具有复杂的材料组成和几何形状,而现有方法假设均质单材料物体、预学习动力学或简单拓扑,无法处理花朵等多材料复杂自然物体。
- Method: 提出Multi-material Physical Gaussians (M-PhyGs),从短视频中联合分割相似材料并恢复其连续力学参数,考虑重力影响,使用级联3D和2D损失以及时间小批量处理。
- Result: 在Phlowers数据集(人与花朵交互视频)上验证了M-PhyGs及其组件的准确性和有效性。
- Conclusion: M-PhyGs能够准确估计多材料复杂自然物体的物理材料参数,为现实世界物体的物理理解提供了有效方法。
[95] LinkedOut: Linking World Knowledge Representation Out of Video LLM for Next-Generation Video Recommendation
Haichao Zhang,Yao Lu,Lichen Wang,Yunzhe Li,Daiwei Chen,Yunpeng Xu,Yun Fu
Main category: cs.CV
TL;DR: LinkedOut提出了一种从视频大语言模型中提取世界知识表示的方法,用于视频推荐任务,解决了传统VLLM在部署时的延迟、多视频输入和视觉细节丢失问题。
- Motivation: 当前视频大语言模型在视频推荐等下游任务部署时面临三大挑战:1)解码生成导致高延迟;2)不支持多视频输入;3)语言输出丢弃了视觉细节。这些限制源于缺乏既能保留像素级细节又能利用世界知识的表示。
- Method: LinkedOut从原始视频帧中提取语义基础、知识感知的token,使用可提示查询和可选辅助模态引导VLLM。引入跨层知识融合MoE(专家混合)机制,从丰富的VLLM特征中选择适当的抽象层次。
- Result: LinkedOut在标准基准测试中达到了最先进的结果,是首个无需手工标签、基于原始帧的VLLM视频推荐方法。可解释性研究和消融实验证实了层多样性和分层融合的益处。
- Conclusion: LinkedOut为充分利用VLLM世界知识先验和视觉推理进行下游视觉任务(如推荐)提供了一条实用路径,实现了快速推理、支持多视频历史记录,并消除了语言瓶颈。
[96] Instant Expressive Gaussian Head Avatar via 3D-Aware Expression Distillation
Kaiwen Jiang,Xueting Li,Seonwook Park,Ravi Ramamoorthi,Shalini De Mello,Koki Nagano
Main category: cs.CV
TL;DR: 提出Instant4D,通过从2D扩散模型蒸馏知识到前馈编码器,实现单张图像到3D一致、快速且富有表现力的可动画表示,达到107.31 FPS的实时动画速度。
- Motivation: 现有2D肖像动画方法缺乏3D一致性且速度慢,而3D面部动画方法虽然保证了3D一致性和快速推理,但表情细节不足。需要结合两者优势,实现既保持3D一致性又富有表现力的实时动画。
- Method: 1) 从2D扩散模型蒸馏知识到前馈编码器;2) 将动画表示与3D面部表示解耦,从数据中隐式学习运动;3) 采用高效的轻量级局部融合策略替代计算密集的全局融合机制。
- Result: 达到107.31 FPS的动画和姿态控制速度,动画质量与最先进方法相当,在速度和质量之间取得良好平衡。
- Conclusion: Instant4D成功结合了2D扩散模型的表达能力和3D方法的效率,实现了高质量、3D一致、实时的肖像动画,适用于数字孪生和远程呈现等实际应用场景。
[97] FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction
Shuyuan Tu,Yueming Pan,Yinming Huang,Xintong Han,Zhen Xing,Qi Dai,Kai Qiu,Chong Luo,Zuxuan Wu
Main category: cs.CV
TL;DR: FlashPortrait:一种端到端视频扩散Transformer,通过身份无关特征提取、标准化面部表情块、动态滑动窗口和基于潜在变化率的高阶导数预测,实现身份一致的长肖像动画生成,推理速度提升6倍。
- Motivation: 当前基于扩散模型的长肖像动画加速方法难以保证身份一致性,需要一种既能保持身份特征又能加速推理的解决方案。
- Method: 1. 使用现成提取器计算身份无关的面部表情特征;2. 引入标准化面部表情块,通过均值和方差归一化对齐面部特征与扩散潜在空间;3. 推理时采用动态滑动窗口方案,在重叠区域进行加权混合;4. 基于特定时间步的潜在变化率和扩散层间导数幅度比,使用当前时间步的高阶潜在导数直接预测未来时间步的潜在表示,跳过多个去噪步骤。
- Result: 实验表明FlashPortrait在基准测试中定性和定量均表现出有效性,能够合成身份保持的无限长度视频,推理速度提升高达6倍。
- Conclusion: FlashPortrait通过创新的身份保持机制和加速策略,成功解决了长肖像动画生成中的身份一致性和推理效率问题,为高质量视频合成提供了有效解决方案。
[98] Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection
Kaixin Ding,Yang Zhou,Xi Chen,Miao Yang,Jiarong Ou,Rui Chen,Xin Tao,Hengshuang Zhao
Main category: cs.CV
TL;DR: Alchemist是一个基于元梯度的自动数据选择框架,用于提升文本到图像生成模型的训练效率,通过数据评分和剪枝两阶段选择高质量训练子集。
- Motivation: 当前T2I模型性能受限于训练数据质量,网络爬取和合成数据集常包含低质量或冗余样本,导致视觉保真度下降、训练不稳定和计算效率低下。现有方法依赖人工筛选或基于单维特征的启发式评分,缺乏针对图像模态的元学习方法。
- Method: 提出Alchemist框架,包含数据评分和数据剪枝两个关键阶段:1)训练轻量级评分器基于梯度信息评估每个样本的影响力,增强多粒度感知;2)使用Shift-Gsampling策略选择信息丰富的子集进行高效模型训练。
- Result: 在合成和网络爬取数据集上的实验表明,Alchemist能持续提升视觉质量和下游性能。使用Alchemist选择的50%数据训练,可以超越使用完整数据集训练的效果。
- Conclusion: Alchemist是首个面向文本到图像模型训练的自动、可扩展、基于元梯度的数据选择框架,能有效提升数据效率,解决训练数据质量问题。
[99] VIVA: VLM-Guided Instruction-Based Video Editing with Reward Optimization
Xiaoyan Cong,Haotian Yang,Angtian Wang,Yizhi Wang,Yiding Yang,Canyu Zhang,Chongyang Ma
Main category: cs.CV
TL;DR: VIVA是一个基于指令的视频编辑框架,通过VLM引导编码和奖励优化来解决现有方法在复杂真实世界指令上的泛化问题。
- Motivation: 现有基于扩散的视频编辑方法通常在简单编辑操作的配对数据上训练,这限制了它们对多样复杂真实世界指令的泛化能力。
- Method: 1) 基于VLM的指导器将文本指令、源视频首帧和可选参考图像编码为视觉基础指令表示;2) Edit-GRPO后训练阶段,将组相对策略优化应用于视频编辑领域;3) 设计数据构建管道生成多样高质量的视频-指令配对数据。
- Result: 大量实验表明,VIVA在指令遵循、泛化能力和编辑质量方面优于现有最先进方法。
- Conclusion: VIVA通过VLM引导编码和奖励优化,有效解决了基于指令的视频编辑中的泛化问题,实现了对复杂真实世界指令的高质量编辑。
[100] Flowing from Reasoning to Motion: Learning 3D Hand Trajectory Prediction from Egocentric Human Interaction Videos
Mingfei Chen,Yifan Wang,Zhengqin Li,Homanga Bharadhwaj,Yujin Chen,Chuan Qin,Ziyi Kou,Yuan Tian,Eric Whitmire,Rajinder Sodhi,Hrvoje Benko,Eli Shlizerman,Yue Liu
Main category: cs.CV
TL;DR: 提出EgoMAN数据集和模型,用于交互阶段感知的3D手部轨迹预测,通过视觉语言推理与运动生成的结合实现更准确的轨迹预测
- Motivation: 现有3D手部轨迹预测研究存在两个局限:数据集将运动与语义监督解耦,模型对推理和动作的关联较弱。需要同时解决数据和方法上的不足。
- Method: 1) 创建EgoMAN数据集:大规模第一人称数据集,包含219K个6DoF轨迹和3M结构化QA对,支持语义、空间和运动推理;2) 提出EgoMAN模型:推理到运动框架,通过轨迹标记接口连接视觉语言推理和运动生成,采用渐进式训练对齐推理与运动动态。
- Result: 该方法能够生成准确且具有阶段感知的轨迹,并在真实场景中展现出良好的泛化能力。
- Conclusion: 通过结合大规模语义增强数据集和推理到运动框架,成功解决了现有3D手部轨迹预测中的语义-运动解耦问题,实现了更准确、可泛化的交互阶段感知轨迹预测。
[101] SceneDiff: A Benchmark and Method for Multiview Object Change Detection
Yuqun Wu,Chih-hao Lin,Henry Che,Aditi Tiwari,Chuhang Zou,Shenlong Wang,Derek Hoiem
Main category: cs.CV
TL;DR: 提出SceneDiff Benchmark(首个多视角变化检测基准)和SceneDiff方法(无需训练的多视角物体变化检测方法),在多个基准上大幅超越现有方法
- Motivation: 检测场景中物体随时间的变化(增加、移除、移动)对于机器人整理、施工进度监控等应用很重要,但不同视角变化会导致物体误判为变化
- Method: 提出无需训练的SceneDiff方法:在3D中对齐捕获场景,提取物体区域,比较空间和语义区域特征来检测变化,利用预训练的3D、分割和图像编码模型
- Result: 在多视角和双视角基准测试中,方法大幅超越现有方法(相对AP提升94%和37.4%),并发布了包含350个视频对、数千个变化物体的首个多视角变化检测基准
- Conclusion: 提出的SceneDiff Benchmark和方法为多视角物体变化检测提供了新基准和有效解决方案,无需训练即可实现鲁棒的变化检测
[102] MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning
Yuanchen Ju,Yongyuan Liang,Yen-Jen Wang,Nandiraju Gireesh,Yuanliang Ju,Seungjae Lee,Qiao Gu,Elvis Hsieh,Furong Huang,Koushil Sreenath
Main category: cs.CV
TL;DR: 提出了MomaGraph统一场景表示法,包含数据集、评估基准和7B视觉语言模型,用于家庭环境中移动机械臂的任务规划与场景理解。
- Motivation: 现有场景图方法存在三个主要问题:1) 将空间关系与功能关系分离;2) 将场景视为静态快照,忽略物体状态和时序更新;3) 忽视当前任务最相关的信息。同时缺乏合适的数据集和系统评估方法。
- Method: 提出MomaGraph统一场景表示,整合空间-功能关系和部件级交互元素。构建MomaGraph-Scenes大规模数据集和MomaGraph-Bench评估套件。基于此开发MomaGraph-R1,一个7B参数视觉语言模型,使用强化学习训练,采用Graph-then-Plan框架进行零样本任务规划。
- Result: 模型在基准测试中达到71.6%准确率(比最佳基线提升11.4%),在开源模型中达到最先进水平,能够泛化到公共基准测试并有效迁移到真实机器人实验。
- Conclusion: MomaGraph为具身智能体提供了一种统一、语义丰富的场景表示方法,通过数据集、评估基准和模型的三位一体框架,显著提升了家庭环境中移动机械臂的导航与操作能力。
[103] SFTok: Bridging the Performance Gap in Discrete Tokenizers
Qihang Rao,Borui Zhang,Wenzhao Zheng,Jie Zhou,Jiwen Lu
Main category: cs.CV
TL;DR: SFTok是一种新型离散图像分词器,通过多步迭代机制和自强制引导视觉重建技术,在高压缩率下实现高质量图像重建,在ImageNet上达到最先进的重建质量。
- Motivation: 当前离散分词器在图像重建质量上仍落后于连续分词器,限制了其在多模态系统中的采用。需要解决训练-推理不一致性问题,提升离散分词器的重建性能。
- Method: 提出SFTok离散分词器,采用多步迭代机制,结合自强制引导视觉重建和去偏-拟合训练策略,解决多步过程中的训练-推理不一致问题。
- Result: 在每张图像仅64个token的高压缩率下,SFTok在ImageNet上达到rFID=1.21的最先进重建质量,在类别到图像生成任务中表现优异(gFID=2.29)。
- Conclusion: SFTok通过创新的多步迭代机制和训练策略,显著提升了离散分词器的图像重建质量,为高分辨率图像生成提供了有效的离散表示方案。
[104] Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation
Xin Lin,Meixi Song,Dizhe Zhang,Wenxuan Lu,Haodong Li,Bo Du,Ming-Hsuan Yang,Truong Nguyen,Lu Qi
Main category: cs.CV
TL;DR: 提出全景度量深度基础模型,通过数据循环范式结合多源数据,采用伪标签优化和几何一致性增强,实现跨场景距离的鲁棒深度估计。
- Motivation: 现有深度估计模型在跨场景距离(室内/室外、合成/真实)和全景图像上泛化能力有限,需要构建能适应多样化距离场景的全景度量深度基础模型。
- Method: 1) 数据构建:结合公开数据集、UE5模拟器合成数据、文本到图像模型生成数据、网络真实全景图像;2) 伪标签优化:三阶段伪标签筛选管道减少域差距;3) 模型设计:采用DINOv3-Large骨干网络,引入可插拔范围掩码头、锐度中心优化和几何中心优化。
- Result: 在Stanford2D3D、Matterport3D、Deep360等多个基准测试中表现出色,具有强大的零样本泛化能力,在多样化真实场景中提供鲁棒稳定的度量深度预测。
- Conclusion: 通过数据循环范式和几何一致性优化,成功构建了能泛化跨场景距离的全景度量深度基础模型,为全景深度估计提供了有效解决方案。
[105] StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors
Guibao Shen,Yihua Du,Wenhang Ge,Jing He,Chirui Chang,Donghao Zhou,Zhen Yang,Luozhou Wang,Xin Tao,Ying-Cong Chen
Main category: cs.CV
TL;DR: 提出UniStereo数据集和StereoPilot模型,用于单目到立体视频转换,解决传统DWI管道的误差传播、深度模糊和格式不一致问题,实现高效高质量立体视频生成。
- Motivation: 立体显示设备快速增长,但高质量立体视频制作成本高且复杂。传统多阶段"深度-扭曲-修复"(DWI)管道存在误差传播、深度模糊以及平行和汇聚立体格式不一致等问题,需要更高效的解决方案。
- Method: 1)创建UniStereo数据集,首个大规模统一立体视频转换数据集,涵盖两种立体格式;2)提出StereoPilot模型,前馈网络直接合成目标视图,无需显式深度图或迭代扩散采样;3)采用可学习域切换器和循环一致性损失,适应不同立体格式并提升一致性。
- Result: 实验表明StereoPilot在视觉保真度和计算效率方面显著优于现有最先进方法,能够无缝适应不同立体格式并实现改进的一致性。
- Conclusion: UniStereo数据集和StereoPilot模型为单目到立体视频转换提供了有效的解决方案,解决了传统DWI管道的局限性,在质量和效率方面都有显著提升。
[106] AdaTooler-V: Adaptive Tool-Use for Images and Videos
Chaoyang Wang,Kaituo Feng,Dongyang Chen,Zhongyu Wang,Zhixun Li,Sicheng Gao,Meng Meng,Xu Zhou,Manyuan Zhang,Yuzhang Shang,Xiangyu Yue
Main category: cs.CV
TL;DR: AdaTooler-V是一个多模态大语言模型,通过自适应工具使用机制,只在视觉问题真正需要工具时才调用视觉工具,避免不必要的工具调用开销,提升推理效率和性能。
- Motivation: 现有开源多模态大语言模型存在盲目工具使用问题,即使不需要视觉工具也会调用,这显著增加了推理开销并降低了模型性能。需要一种自适应机制来判断视觉问题是否真正需要工具。
- Method: 1. 提出AT-GRPO强化学习算法,根据每个样本的工具效益分数自适应调整奖励尺度,鼓励模型只在工具能提供真正改进时才调用工具。2. 构建两个训练数据集:AdaTooler-V-CoT-100k用于SFT冷启动,AdaTooler-V-300k用于带可验证奖励的强化学习,涵盖单图像、多图像和视频数据。
- Result: 在12个基准测试中表现出强大的推理能力,在多样视觉推理任务中优于现有方法。AdaTooler-V-7B在V*高分辨率基准上达到89.8%的准确率,超越了商业专有模型GPT-4o和Gemini 1.5 Pro。
- Conclusion: AdaTooler-V通过自适应工具使用机制有效解决了多模态大语言模型中盲目工具调用的问题,在保持高性能的同时显著降低了推理开销,代码、模型和数据均已开源。
[107] DVGT: Driving Visual Geometry Transformer
Sicheng Zuo,Zixun Xie,Wenzhao Zheng,Shaoqing Xu,Fang Li,Shengyin Jiang,Long Chen,Zhi-Xin Yang,Jiwen Lu
Main category: cs.CV
TL;DR: DVGT是一个用于自动驾驶的视觉几何Transformer模型,能够从无位姿的多视角图像序列中重建全局密集3D点云地图,无需精确相机参数或显式3D几何先验。
- Motivation: 当前缺乏能够适应不同场景和相机配置的驾驶场景密集几何感知模型。现有方法通常依赖精确相机参数,限制了灵活性和适应性。
- Method: 使用DINO骨干网络提取视觉特征,通过交替的视图内局部注意力、跨视图空间注意力和跨帧时间注意力推断图像间的几何关系,然后解码生成第一帧自车坐标系下的全局点云地图和每帧位姿。
- Result: 在nuScenes、OpenScene、Waymo、KITTI、DDAD等多个驾驶数据集上训练,DVGT在各种场景下显著优于现有模型,能够直接预测度量尺度的几何信息。
- Conclusion: DVGT提出了一种无需显式3D几何先验的驾驶视觉几何Transformer,能够灵活处理任意相机配置,直接从图像序列预测度量尺度几何,为自动驾驶几何感知提供了新的解决方案。
[108] EasyV2V: A High-quality Instruction-based Video Editing Framework
Jinjie Mai,Chaoyang Wang,Guocheng Gordon Qian,Willi Menapace,Sergey Tulyakov,Bernard Ghanem,Peter Wonka,Ashkan Mirzaei
Main category: cs.CV
TL;DR: EasyV2V是一个简单有效的指令式视频编辑框架,通过数据构建、架构简化和控制统一,实现了高质量的视频编辑效果。
- Motivation: 图像编辑技术发展迅速,但视频编辑仍面临一致性、控制和泛化性等挑战,需要探索数据、架构和控制的设计空间。
- Method: 1) 数据方面:组合现有专家与快速逆变换构建多样视频对,通过单帧监督和共享仿射运动将图像编辑对提升为视频,挖掘密集标注的视频片段,添加过渡监督;2) 模型方面:利用预训练文本到视频模型的编辑能力,采用简单的序列连接条件和轻量LoRA微调;3) 控制方面:通过单一掩码机制统一时空控制,支持可选参考图像。
- Result: EasyV2V在视频编辑方面取得了最先进的结果,超越了同期和商业系统,支持灵活输入(视频+文本、视频+掩码+文本、视频+掩码+参考+文本)。
- Conclusion: EasyV2V通过系统性的数据、架构和控制设计,提供了一个简单而强大的视频编辑框架,解决了视频编辑中的关键挑战。
[109] Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification
Qihao Liu,Chengzhi Mao,Yaojie Liu,Alan Yuille,Wen-Sheng Chu
Main category: cs.CV
TL;DR: AuditDM是一个自动发现和修复多模态大语言模型失败模式的框架,通过强化学习训练审计器生成挑战性问题和反事实图像来揭示模型弱点,无需标注即可改进模型性能。
- Motivation: 传统的多模态大语言模型评估方法缺乏可解释性,且不足以充分揭示模型之间的显著能力差距,需要更有效的模型诊断和改进方法。
- Method: 通过强化学习微调一个MLLM作为审计器,生成最大化目标模型之间分歧的挑战性问题和反事实图像,从而发现多样化的失败模式。
- Result: 在Gemma-3和PaliGemma-2等先进模型上发现了20多种不同的失败类型,基于这些发现微调模型后,在16个基准测试上都有提升,甚至让3B模型超越了28B模型。
- Conclusion: 随着数据扩展收益递减,有针对性的模型审计为模型诊断和改进提供了有效途径,能够显著提升模型性能。
[110] Next-Embedding Prediction Makes Strong Vision Learners
Sihan Xu,Ziqiao Ma,Wenhao Chai,Xuweiyi Chen,Weiyang Jin,Joyce Chai,Saining Xie,Stella X. Yu
Main category: cs.CV
TL;DR: NEPA是一种视觉自监督学习方法,通过预测未来图像块嵌入来训练模型,无需像素重建、离散标记或对比损失,在ImageNet和ADE20K上取得优异表现。
- Motivation: 受自然语言生成预训练成功的启发,探索是否可以将类似原则应用于视觉自监督学习,从学习表示转向学习模型本身。
- Method: 提出Next-Embedding Predictive Autoregression (NEPA),使用因果掩码和停止梯度,让模型学习基于过去的图像块嵌入来预测未来的嵌入,无需像素重建或特殊任务头。
- Result: 在ImageNet-1K上,ViT-B和ViT-L分别达到83.8%和85.3%的top-1准确率,在ADE20K语义分割任务上也有良好迁移效果。
- Conclusion: 基于嵌入的生成预训练为视觉自监督学习提供了一种简单、可扩展且可能模态无关的替代方案。
[111] Generative Refocusing: Flexible Defocus Control from a Single Image
Chun-Wei Tuan Mu,Jia-Bin Huang,Yu-Lun Liu
Main category: cs.CV
TL;DR: 提出Generative Refocusing方法,通过DeblurNet恢复全焦图像和BokehNet生成可控散景,采用半监督训练结合合成数据和真实图像,在去模糊和散景合成任务中表现优异。
- Motivation: 景深控制在摄影中很重要,但单图像重聚焦仍然困难。现有方法需要全焦输入、依赖合成数据、对光圈控制有限,存在显著缺陷。
- Method: 提出两阶段方法:1) DeblurNet从各种输入恢复全焦图像;2) BokehNet生成可控散景。采用半监督训练,结合合成配对数据和未配对的真实散景图像,利用EXIF元数据捕捉真实光学特性。
- Result: 在去模糊、散景合成和重聚焦基准测试中取得最佳性能,支持文本引导调整和自定义光圈形状。
- Conclusion: Generative Refocusing方法通过创新的半监督训练策略,有效解决了单图像重聚焦的挑战,实现了高质量的散景合成和灵活的控制能力。
[112] The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text
Hanlin Wang,Hao Ouyang,Qiuyu Wang,Yue Yu,Yihao Meng,Wen Wang,Ka Leong Cheng,Shuailei Ma,Qingyan Bai,Yixuan Li,Cheng Chen,Yanhong Zeng,Xing Zhu,Yujun Shen,Qifeng Chen
Main category: cs.CV
TL;DR: WorldCanvas是一个支持多模态输入(文本、轨迹、参考图像)的可提示世界事件生成框架,能够生成包含多智能体交互、物体进出、参考引导外观和反直觉事件的连贯可控视频。
- Motivation: 现有方法要么是纯文本生成,要么是基于轨迹控制的图像到视频方法,缺乏结合语义意图、运动控制和视觉基础的多模态能力,难以生成复杂、可控的世界事件模拟。
- Method: 采用多模态方法,结合轨迹(编码运动、时序和可见性)、自然语言(语义意图)和参考图像(物体身份视觉基础),通过统一框架生成连贯可控的世界事件视频。
- Result: 生成的视频不仅具有时间连贯性,还表现出涌现一致性,能够保持物体身份和场景的稳定性,即使物体暂时消失也能保持一致性,支持复杂事件的生成。
- Conclusion: WorldCanvas通过支持富有表现力的世界事件生成,将世界模型从被动预测器推进为交互式、用户可塑造的模拟器,为可控视频生成提供了新范式。
cs.CR
[113] Autoencoder-based Denoising Defense against Adversarial Attacks on Object Detection
Min Geun Song,Gang Min Kim,Woonmin Kim,Yongsik Kim,Jeonghyun Sim,Sangbeom Park,Huy Kang Kim
Main category: cs.CR
TL;DR: 提出基于自动编码器的去噪防御方法,对抗性攻击使检测性能下降43.3%,使用该方法后性能部分恢复,无需重新训练模型。
- Motivation: 深度学习目标检测模型在自动驾驶等关键应用中易受对抗性攻击影响,需要有效的防御方法。
- Method: 使用Perlin噪声对COCO数据集车辆图像进行对抗攻击,采用单层卷积自动编码器去除扰动,使用YOLOv5评估检测性能。
- Result: 对抗攻击使bbox mAP从0.2890降至0.1640(下降43.3%);应用防御后bbox mAP恢复至0.1700(恢复3.7%),bbox mAP@50从0.2780提升至0.3080(提升10.8%)。
- Conclusion: 基于自动编码器的去噪方法能为对抗性攻击提供部分防御,且无需重新训练模型。
cs.RO
[114] Large Video Planner Enables Generalizable Robot Control
Boyuan Chen,Tianyuan Zhang,Haoran Geng,Kiwhan Song,Caiyi Zhang,Peihao Li,William T. Freeman,Jitendra Malik,Pieter Abbeel,Russ Tedrake,Vincent Sitzmann,Yilun Du
Main category: cs.RO
TL;DR: 提出基于大规模视频预训练构建机器人基础模型的新范式,通过互联网规模的人类活动视频数据集训练生成式机器人规划模型,实现零样本视频规划并提取可执行机器人动作
- Motivation: 现有机器人基础模型主要基于多模态大语言模型(MLLMs)扩展动作输出,但作者认为视频作为时空状态和动作序列的自然载体,比静态图像和语言更适合机器人行为建模
- Method: 收集互联网规模的人类活动和任务演示视频数据集,首次以基础模型规模训练开放式视频模型用于生成式机器人规划,模型为零样本新场景和任务生成视频计划,后处理提取可执行机器人动作
- Result: 模型展示出稳健的指令跟随、强大的泛化能力和现实可行性,通过第三方选择的野外任务和真实机器人实验验证了物理执行的成功
- Conclusion: 大规模视频预训练是构建机器人基础模型的有效替代范式,视频的时空特性与机器人行为自然对齐,为开放式、可复现的视频机器人学习提供了新途径
[115] VERM: Leveraging Foundation Models to Create a Virtual Eye for Efficient 3D Robotic Manipulation
Yixiang Chen,Yan Huang,Keji He,Peiyan Li,Liang Wang
Main category: cs.RO
TL;DR: 提出VERM方法,通过基础模型从3D点云想象虚拟任务自适应视角,过滤多摄像头冗余信息,提升机器人3D操作任务的效率和性能
- Motivation: 多摄像头设置引入大量冗余和无关信息,增加计算成本,迫使模型花费额外训练时间提取关键任务相关细节
- Method: 1) 利用基础模型知识从构建的3D点云想象虚拟任务自适应视角;2) 设计深度感知模块;3) 动态粗到细处理流程
- Result: 在RLBench仿真基准和真实世界评估中超越先前SOTA方法,训练时间加速1.89倍,推理速度加速1.54倍
- Conclusion: VERM方法能有效过滤冗余信息,准确提取任务相关特征,促进3D动作规划和精细操作,显著提升效率和性能
[116] Sceniris: A Fast Procedural Scene Generation Framework
Jinghuan Shang,Harsh Patel,Ran Gong,Karl Schmeckpeper
Main category: cs.RO
TL;DR: Sceniris是一个高效的程序化场景生成框架,用于快速生成大规模、无碰撞的场景变体,相比现有方法加速234倍以上
- Motivation: 现有程序化生成方法输出吞吐量低,成为扩展数据集创建的主要瓶颈,需要高效生成大规模合成3D场景以支持物理AI和生成模型发展
- Method: 通过批处理采样和cuRobo的快速碰撞检测来优化性能,扩展对象间空间关系支持多样化场景需求,可选机器人可达性检查
- Result: 相比之前的Scene Synthesizer方法,Sceniris实现了至少234倍的加速,能够高效生成大规模、无碰撞的场景变体
- Conclusion: Sceniris是一个高效的程序化场景生成框架,解决了现有方法的性能瓶颈,为物理AI和机器人任务提供了可扩展的场景生成解决方案
cs.MM
[117] A Tri-Dynamic Preprocessing Framework for UGC Video Compression
Fei Zhao,Mengxi Guo,Shijie Zhao,Junlin Li,Li Zhang,Xiaodong Xie
Main category: cs.MM
TL;DR: 提出Tri-Dynamic Preprocessing框架,通过自适应因子、量化级别和lambda权衡来优化UGC视频编码,解决UGC视频多样性对机器学习算法有效性的挑战。
- Motivation: 用户生成内容(UGC)已成为互联网流量的主导力量,但UGC视频相比传统编码测试视频具有更高的变异性和多样特征。这种差异挑战了数据驱动机器学习算法在更广泛的UGC场景中优化编码的有效性。
- Method: 提出Tri-Dynamic Preprocessing框架:1)使用自适应因子调节预处理强度;2)采用自适应量化级别微调编解码器模拟器;3)利用自适应lambda权衡调整率失真损失函数。
- Result: 在大规模测试集上的实验结果表明,该方法取得了卓越的性能表现。
- Conclusion: 提出的Tri-Dynamic Preprocessing框架有效解决了UGC视频多样性对编码优化算法的挑战,通过三重自适应机制实现了优异的编码性能。
eess.IV
[118] BioimageAIpub: a toolbox for AI-ready bioimaging data publishing
Stefan Dvoretskii,Anwai Archit,Constantin Pape,Josh Moore,Marco Nolden
Main category: eess.IV
TL;DR: BioimageAIpub:一个简化生物成像数据转换的工作流,支持无缝上传到HuggingFace平台
- Motivation: 现代生物图像分析方法需要大量数据,但现有数据存储库(如IDR和BioImage Archive)的内容通常需要大量数据整理才能被图像分析工具直接使用,这种繁琐的数据组装和转换过程耗费研究人员大量时间,阻碍了更强大分析工具的开发。
- Method: 开发了BioimageAIpub工作流,该工作流能够简化生物成像数据的转换过程,支持将数据无缝上传到HuggingFace平台(一个广泛使用的机器学习数据集和模型共享平台)。
- Result: BioimageAIpub工作流能够简化生物成像数据的转换和上传过程,使研究人员能够更高效地利用现有生物成像数据集。
- Conclusion: BioimageAIpub通过简化生物成像数据的转换和上传流程,解决了研究人员在数据整理方面的时间投入问题,有助于促进更强大的生物图像分析工具的开发。
[119] In search of truth: Evaluating concordance of AI-based anatomy segmentation models
Lena Giebeler,Deepa Krishnaswamy,David Clunie,Jakob Wasserthal,Lalith Kumar Shiyam Sundar,Andres Diaz-Pinto,Klaus H. Maier-Hein,Murong Xu,Bjoern Menze,Steve Pieper,Ron Kikinis,Andrey Fedorov
Main category: eess.IV
TL;DR: 提出一个评估无标注数据上解剖分割模型的框架,通过标准化表示、可视化工具比较六个开源模型在31个解剖结构上的表现。
- Motivation: 随着功能相似的AI分割模型增多,如何在缺乏真实标注的数据集上评估这些模型成为挑战。需要一种实用的框架来帮助研究人员比较和选择模型。
- Method: 1) 将分割结果统一为标准化的互操作表示,实现术语一致的标注;2) 扩展3D Slicer以简化加载和比较;3) 使用交互式汇总图和基于OHIF Viewer的浏览器可视化;4) 在NLST CT扫描数据集上评估六个开源模型对31个解剖结构的分割效果。
- Result: 框架能自动化加载、按结构检查和跨模型比较。初步结果显示,某些结构(如肺部)分割一致性很好,但其他结构(如椎骨和肋骨)存在无效分割。工具能快速检测和审查问题结果。
- Conclusion: 开发了包含分割标准化脚本、汇总图和可视化工具的资源,帮助在缺乏真实标注的情况下评估模型,最终支持明智的模型选择决策。
[120] MCR-VQGAN: A Scalable and Cost-Effective Tau PET Synthesis Approach for Alzheimer's Disease Imaging
Jin Young Kim,Jeremy Hudson,Jeongchul Kim,Qing Lyu,Christopher T. Whitlow
Main category: eess.IV
TL;DR: 提出MCR-VQGAN模型,从T1加权MRI合成tau PET图像,以解决tau PET临床应用的局限性,在图像质量和临床诊断效果上表现优异。
- Motivation: tau PET对阿尔茨海默病诊断至关重要,但存在辐射暴露、可用性有限、临床工作量大、成本高等问题,限制了其广泛应用。需要开发从更易获取的MRI生成tau PET图像的方法。
- Method: 提出多尺度CBAM残差向量量化生成对抗网络(MCR-VQGAN),在标准VQGAN基础上集成多尺度卷积、ResNet块和卷积块注意力模块(CBAM)。使用ADNI的222对T1加权MRI和tau PET数据进行训练。
- Result: MCR-VQGAN在图像合成性能上优于cGAN、WGAN-GP、CycleGAN和VQGAN:MSE 0.0056±0.0061,PSNR 24.39±4.49 dB,SSIM 0.9000±0.0453。基于合成图像的AD分类器准确率(65.91%)与真实图像(63.64%)相当。
- Conclusion: MCR-VQGAN能够合成高质量的tau PET图像,保留了诊断相关特征,可作为传统tau PET成像的可靠替代方案,有望提高tau成像生物标志物的可及性和可扩展性。
cs.CL
[121] Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image
Yushi Hu,Reyhane Askari-Hemmat,Melissa Hall,Emily Dinan,Luke Zettlemoyer,Marjan Ghazvininejad
Main category: cs.CL
TL;DR: 提出了首个多模态奖励模型综合基准MMRB2,涵盖文本到图像、图像编辑、交错生成和多模态推理四大任务,包含1000个专家标注偏好对,用于评估多模态奖励模型性能。
- Motivation: 奖励模型对训练大语言模型至关重要,但对于处理交错图像和文本序列的全能模型仍缺乏充分研究。目前缺乏针对多模态理解与交错生成任务的奖励模型综合基准。
- Method: 构建MMRB2基准:1) 设计实用且具有挑战性的提示;2) 收集最先进模型和智能体的响应;3) 通过集成过滤策略筛选具有强人类专家共识的偏好对。基准涵盖四个任务,每个任务1000个专家标注偏好对,来自23个模型和智能体在21个源任务上的表现。
- Result: Gemini 3 Pro达到75-80%准确率,GPT-5和Gemini 2.5 Pro达到66-75%,优于广泛使用的GPT-4o(59%)。最佳开源模型Qwen3-VL-32B与Gemini 2.5 Flash相当(64%)。人类准确率超过90%。MMRB2性能与下游任务成功强相关。
- Conclusion: MMRB2是首个全面的多模态奖励模型基准,揭示了当前多模态奖励模型与人类性能的显著差距,为未来奖励模型的改进提供了关键方向。
cs.MA
[122] Don't Guess, Escalate: Towards Explainable Uncertainty-Calibrated AI Forensic Agents
Giulia Boato,Andrea Montibeller,Edward Delp,Luisa Verdoliva,Daniele Miorandi
Main category: cs.MA
TL;DR: 提出AI取证代理框架,通过选择组合检测器、识别来源上下文、提供不确定性评估来改进多媒体取证流程
- Motivation: AI正在重塑多媒体取证领域,当前解决方案存在缺陷,需要更可靠、统一的框架来改进真实性验证过程
- Method: 提出AI取证代理作为可靠协调器,能够选择组合多种取证检测器,识别多媒体内容的来源和上下文,并提供不确定性感知的评估
- Result: 引入了一个统一的框架来改进多媒体内容的真实性验证过程,通过代理协调多个检测器并提供不确定性评估
- Conclusion: AI取证代理框架能够有效解决当前多媒体取证方案的缺陷,提供更可靠、全面的真实性验证
cond-mat.mtrl-sci
[123] Machine Learning Enabled Graph Analysis of Particulate Composites: Application to Solid-state Battery Cathodes
Zebin Li,Shimao Deng,Yijin Liu,Jia-Mian Hu
Main category: cond-mat.mtrl-sci
TL;DR: 开发机器学习框架将多模态X射线图像转化为拓扑感知图,用于分析多相颗粒复合材料微观结构与性能关系
- Motivation: 多相颗粒复合材料的微观结构特征(如多相边界和颗粒间连接)强烈影响系统性能,但利用大规模多模态X射线图像数据集发现新物理见解和指导微观结构优化仍面临挑战
- Method: 开发机器学习框架,将实验多模态X射线图像自动转化为可扩展的拓扑感知图,用于在颗粒和网络层面提取物理见解并建立局部微观结构-性能关系
- Result: 以固态锂电池多相颗粒阴极为例,ML图分析证实了三相结和并发离子/电子传导通道在实现理想局部电化学活性中的关键作用
- Conclusion: 基于图的微观结构表示是连接多模态实验成像与功能理解的有力范式,有助于在广泛的颗粒复合材料中实现微观结构感知的数据驱动材料设计
q-bio.QM
[124] Foundation Models in Biomedical Imaging: Turning Hype into Reality
Amgad Muneer,Kai Zhang,Ibraheem Hamdi,Rizwan Qureshi,Muhammad Waqas,Shereen Fouad,Hazrat Ali,Syed Muhammad Anwar,Jia Wu
Main category: q-bio.QM
TL;DR: 该论文批判性评估了基础模型在生物医学影像领域的现状,分析了其核心能力与局限,讨论了从统计相关到因果推理的转变需求,并强调了部署中的可信度、偏见和安全等关键问题。
- Motivation: 基础模型正在推动人工智能在生物医学影像领域的显著转变,但这些模型的临床评估和部署面临重大挑战。当前存在潜在能力与现实应用之间的关键差距,需要批判性评估其真实认知能力与表面模式模仿的区别。
- Method: 通过批判性评估现有最先进技术,分析基础模型在生物医学领域的核心能力和局限性。提供推理分类法(从模拟顺序逻辑、空间理解到显式符号知识整合),评估模型是否展现真正认知。讨论从统计相关到因果推理的转变需求。
- Result: 虽然自主AI医生的愿景仍然遥远,但现实是出现了强大的技术和辅助工具,能够有益于临床实践。基础模型的未来不仅取决于规模,更在于开发混合、因果感知且可验证安全的系统,以增强而非取代人类专业知识。
- Conclusion: 生物医学影像中基础模型的未来关键在于开发混合、因果感知且可验证安全的系统,这些系统应增强而非取代人类专业知识。需要更包容、严谨且临床相关的验证框架,确保安全、伦理的应用。
cs.LG
[125] D3G: Diverse Demographic Data Generation Increases Zero-Shot Image Classification Accuracy within Multimodal Models
Javon Hickmon
Main category: cs.LG
TL;DR: 提出D3G方法,通过生成多样化人口统计数据来提升CLIP等预训练多模态模型的零样本图像分类准确率并减少人口统计偏见
- Motivation: 图像分类对机器感知至关重要,但现有多模态模型如CLIP在细粒度分类中仍面临挑战:低容量模型容易欠拟合,高质量跨模态数据难以生成,数据集人口统计不平衡会导致预测偏向多数类,这些问题在零样本分类中会产生有害偏见
- Method: 提出D3G(多样化人口统计数据生成)方法,这是一种无需训练、零样本的方法,使用CLIP作为基础多模态模型,Stable Diffusion XL作为生成模型,在推理时生成多样化人口统计数据来提升性能
- Result: 在推理时提供多样化人口统计数据能显著提升模型性能,并探索了不同人口统计特征对准确率指标的影响
- Conclusion: D3G方法能有效提高零样本图像分类准确率并减少人口统计偏见,为预训练多模态模型的公平性改进提供了新思路
[126] Surely Large Multimodal Models (Don't) Excel in Visual Species Recognition?
Tian Liu,Anwesha Basu,James Caverlee,Shu Kong
Main category: cs.LG
TL;DR: 提出POC方法,利用大语言模型对少样本学习专家模型的预测进行后验校正,在视觉物种识别任务中显著提升性能
- Motivation: 视觉物种识别需要大量标注数据,但物种级标注需要领域专家,通常只能获得少量标注样本。虽然大语言模型在通用识别任务中表现出色,但在专业视觉物种识别任务中表现不佳,甚至不如简单的少样本学习专家模型。然而发现大语言模型可以有效校正专家模型的错误预测。
- Method: 提出后验校正方法:首先用少样本学习训练专家模型,然后使用大语言模型对专家模型的top预测进行重新排序。提示包含softmax置信度分数和少量视觉示例,无需额外训练、验证或人工干预。
- Result: 在五个具有挑战性的视觉物种识别基准测试中,POC方法比现有少样本学习方法准确率提升+6.4%,且能推广到不同的预训练骨干网络和大语言模型,作为即插即用模块显著增强现有少样本学习方法。
- Conclusion: 大语言模型虽然不能直接胜任专业视觉物种识别任务,但能有效校正少样本学习专家模型的预测。POC方法简单有效,无需额外训练即可显著提升性能,为视觉物种识别任务提供了新的解决方案。
[127] SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks
Vegard Flovik
Main category: cs.LG
TL;DR: SALVE框架:通过稀疏自编码器发现模型原生特征,用Grad-FAM验证,通过权重空间干预实现精确控制,并推导特征依赖阈值用于鲁棒性诊断。
- Motivation: 深度神经网络性能优异但难以解释和控制,需要将机制可解释性与模型编辑相结合,开发透明可控的AI系统。
- Method: 使用ℓ₁正则化自编码器学习稀疏模型原生特征;Grad-FAM特征级显著图验证;利用自编码器结构进行权重空间干预;推导临界抑制阈值α_crit量化特征依赖。
- Result: 在ResNet-18和ViT-B/16模型上验证,实现对类别定义特征和跨类别特征的连续调制,提供细粒度鲁棒性诊断。
- Conclusion: SALVE框架将特征发现转化为可操作的模型编辑,为开发透明可控AI系统提供了原则性方法。
[128] Dual-View Inference Attack: Machine Unlearning Amplifies Privacy Exposure
Lulu Xue,Shengshan Hu,Linqiang Qian,Peijin Guo,Yechao Zhang,Minghui Li,Yanjun Zhang,Dayong Ye,Leo Yu Zhang
Main category: cs.LG
TL;DR: 论文揭示了机器遗忘在双视图设置下的隐私风险,提出了DVIA攻击方法,证明攻击者通过查询原始模型和遗忘模型可以获得比单独查询任一模型更多的隐私信息。
- Motivation: 机器遗忘技术虽然能保护请求删除数据的用户权利,但引入了新的隐私风险。先前研究主要关注已遗忘数据的隐私,而保留数据的风险尚未充分探索。本文旨在填补这一空白,揭示机器遗忘在双视图设置下的隐私漏洞。
- Method: 从信息论角度引入"隐私知识增益"概念,证明双视图设置使攻击者能获得比单独查询任一模型更多的信息。提出DVIA(双视图推理攻击)方法,通过黑盒查询两个模型来提取保留数据的成员信息,无需训练攻击模型,使用轻量级似然比推理模块进行高效推理。
- Result: 在不同数据集和模型架构上的实验验证了DVIA的有效性,证实了双视图设置下隐私风险的存在。攻击者通过同时查询原始模型和遗忘模型能够显著提高成员推理攻击的成功率。
- Conclusion: 机器遗忘在双视图设置下会放大隐私泄露风险,攻击者通过同时访问原始模型和遗忘模型能够获得更多隐私信息。这揭示了机器遗忘技术在实际部署中需要考虑的新安全挑战。
[129] Training Together, Diagnosing Better: Federated Learning for Collagen VI-Related Dystrophies
Astrid Brull,Sara Aguti,Véronique Bolduc,Ying Hu,Daniel M. Jimenez-Gutierrez,Enrique Zuazua,Joaquin Del-Rio,Oleksii Sliusarenko,Haiyan Zhou,Francesco Muntoni,Carsten G. Bönnemann,Xabi Uribe-Etxebarria
Main category: cs.LG
TL;DR: 该研究利用联邦学习平台,通过分布式胶原VI免疫荧光图像数据训练机器学习模型,成功诊断胶原VI相关肌营养不良症,相比单机构模型性能显著提升。
- Motivation: 罕见疾病(如胶原VI相关肌营养不良症)的诊断面临数据稀缺且分散的挑战,跨机构数据共享存在隐私、法规和物流障碍,需要一种能在保护隐私的前提下利用分布式数据进行协作学习的方法。
- Method: 采用联邦学习框架(Sherpa.ai平台),在两个国际组织的分布式数据集上协作训练机器学习模型,使用患者来源成纤维细胞培养的胶原VI免疫荧光显微镜图像进行分类。
- Result: 开发的模型能够将胶原VI患者图像分类到COL6-RD的三个主要致病机制组(外显子跳跃、甘氨酸替代、假外显子插入),F1分数达到0.82,显著优于单机构模型(0.57-0.75)。
- Conclusion: 联邦学习相比孤立机构模型显著提高了诊断效用和泛化能力,不仅能实现更准确诊断,还有助于解释意义未明的变异并指导测序策略优先顺序,以识别新的致病变异。
cs.ET
[130] Human-like Working Memory from Artificial Intrinsic Plasticity Neurons
Jingli Liu,Huannan Zheng,Bohao Zou,Kezhou Yang
Main category: cs.ET
TL;DR: IPNet是一种基于磁性隧道结的神经形态架构,通过神经元内在可塑性实现类人工作记忆,在动态视觉任务中表现出色且能耗极低。
- Motivation: 传统人工网络通过循环或并行架构实现工作记忆,但存在能耗高、噪声敏感的问题。研究者希望开发一种更接近生物工作记忆的神经形态架构。
- Method: 利用磁性隧道结的焦耳热动力学物理模拟生物记忆的易失性,构建硬件-软件协同设计的IPNet架构,实现神经元内在可塑性工作记忆。
- Result: 在11类DVS手势数据集上达到99.65%准确率,在22类时间反转基准上保持99.48%,优于RNN、LSTM和CNN基线。能耗比LSTM降低2874倍,比3D-CNN降低90920倍。
- Conclusion: 通过神经元内在可塑性实现类人工作记忆,赋予神经网络优越的动态视觉处理能力和极低的代谢成本,验证了生物启发的近传感器处理范式。
Powered by Deepseek & arXiv Daily AI Enhanced