Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Explainable Adversarial-Robust Vision-Language-Action Model for Robotic Manipulation
Ju-Young Kim,Ji-Hong Park,Myeongjun Kim,Gun-Woo Kim
Main category: cs.CV
TL;DR: 提出基于OpenVLA-OFT框架的可解释对抗鲁棒视觉-语言-动作模型,通过Evidence-3模块检测光度扰动并生成自然语言解释,提升智能农业系统在对抗攻击下的鲁棒性和可解释性。
- Motivation: 智能农业中依赖RGB相机和机械臂的系统容易受到色调、光照、噪声等光度扰动的对抗攻击,导致系统故障。现有系统缺乏对这些扰动的检测和解释能力。
- Method: 基于OpenVLA-OFT框架构建视觉-语言-动作模型,集成Evidence-3模块来检测光度扰动,并生成自然语言解释说明扰动的原因和影响。
- Result: 相比基线模型,当前动作L1损失降低21.7%,下一动作L1损失降低18.4%,在对抗条件下显著提高了动作预测准确性和可解释性。
- Conclusion: 提出的可解释对抗鲁棒模型能有效应对智能农业中的光度扰动攻击,提高系统鲁棒性和透明度,为安全可靠的智能农业系统提供了解决方案。
[2] Temporal-Anchor3DLane: Enhanced 3D Lane Detection with Multi-Task Losses and LSTM Fusion
D. Shainu Suhas,G. Rahul,K. Muni
Main category: cs.CV
TL;DR: Temporal-Anchor3DLane通过改进损失函数、添加轻量级时序融合模块和训练优化,显著提升了单目3D车道线检测的性能和时序稳定性。
- Motivation: 单目3D车道线检测面临深度模糊、遮挡和帧间时序不稳定等挑战。Anchor3DLane等基于锚点的方法在多相机环视场景中表现良好,但仍存在回归异常值敏感、全局曲线几何监督弱、多损失项平衡困难以及时序连续性利用不足等问题。
- Method: 提出了Temporal-Anchor3DLane框架,包含三个关键改进:(1) 多任务损失改进:包括Balanced L1回归、Chamfer点集距离和基于不确定性的损失加权,以及分类和可见性的focal和Dice损失;(2) 轻量级时序LSTM融合模块:跨帧聚合每个锚点的特征,替代较重的Transformer式时序融合;(3) ESCOP风格训练优化:将曲线级监督与时序一致性相结合。
- Result: 在OpenLane数据集上,Temporal-Anchor3DLane将F1分数提升了+6.2,并产生了更平滑的时序轨迹,表明小的架构和损失改进能显著增强3D车道线检测的鲁棒性,无需额外传感器或扩大规模。
- Conclusion: 通过改进损失函数设计、引入轻量级时序融合和训练优化,Temporal-Anchor3DLane有效解决了Anchor3DLane的局限性,显著提升了单目3D车道线检测的性能和时序稳定性,证明了小规模改进也能带来显著性能提升。
[3] Automated Plant Disease and Pest Detection System Using Hybrid Lightweight CNN-MobileViT Models for Diagnosis of Indigenous Crops
Tekleab G. Gebremedhin,Hailom S. Asegede,Bruh W. Tesheme,Tadesse B. Gebremichael,Kalayu G. Redae
Main category: cs.CV
TL;DR: 为埃塞俄比亚提格雷地区开发离线移动端作物病害检测系统,专注于本地仙人掌无花果病害识别,对比三种轻量级模型在边缘设备上的性能表现。
- Motivation: 提格雷地区80%人口依赖农业,但基础设施中断限制了专业作物病害诊断的获取。需要为后冲突边缘环境开发离线优先的检测系统。
- Method: 构建包含3,587张田间图像的本地仙人掌无花果数据集,在移动端部署约束下对比三种架构:自定义轻量CNN、EfficientNet-Lite1和CNN-Transformer混合模型MobileViT-XS。
- Result: EfficientNet-Lite1达到90.7%测试准确率;轻量CNN达到89.5%准确率,但部署最优(42ms推理延迟,4.8MB模型大小);MobileViT-XS达到97.3%平均交叉验证准确率,显示其全局推理能力更可靠。
- Conclusion: ARM兼容模型已部署在支持提格雷尼亚语和阿姆哈拉语的Flutter应用中,可在Cortex-A53级设备上完全离线推理,增强了粮食安全关键诊断的包容性。
[4] Pseudo-Label Refinement for Robust Wheat Head Segmentation via Two-Stage Hybrid Training
Jiahao Jiang,Zhangrui Yang,Xuanhan Wang,Jingkuan Song
Main category: cs.CV
TL;DR: 提出一个用于小麦语义分割竞赛的自训练框架,结合两阶段混合训练策略和数据增强,使用SegFormer-MiT-B4模型,通过师生迭代循环提升精度,在开发集和测试集上取得竞争性表现
- Motivation: 解决全球小麦全语义分割竞赛中的分割任务,需要开发高效的系统性框架来处理小麦图像的精确分割
- Method: 采用系统性自训练框架,结合两阶段混合训练策略和广泛数据增强,核心模型为SegFormer-MiT-B4,通过迭代师生循环逐步优化模型精度并最大化数据利用率
- Result: 在开发阶段和测试阶段数据集上都取得了竞争性的性能表现
- Conclusion: 提出的自训练框架结合混合训练策略和师生迭代方法,能够有效提升小麦语义分割的精度,在竞赛中展现出竞争力
[5] Generalization vs. Specialization: Evaluating Segment Anything Model (SAM3) Zero-Shot Segmentation Against Fine-Tuned YOLO Detectors
Ranjan Sapkota,Konstantinos I. Roumeliotis,Manoj Karkee,Nikolaos D. Tselikas
Main category: cs.CV
TL;DR: 对比SAM3零样本分割与YOLO11微调模型在密集苹果实例分割任务上的表现,发现YOLO在检测完整性上更优,但SAM3在边界稳定性上表现更好
- Motivation: 比较专门化微调模型(YOLO11)与通用基础模型(SAM3)在密集实例分割任务中的性能差异,为实际应用提供选择依据
- Method: 在MinneApple数据集(670张果园图像,28,179个苹果实例)上评估SAM3零样本模式与YOLO11三个变体(nano、medium、large)微调模型的性能,分析不同IoU阈值下的表现差异
- Result: 在IoU=0.15时,YOLO模型达到68.9%-72.2% F1,SAM3为59.8%;但YOLO在IoU范围内性能下降48-50点,SAM3仅下降4点,显示SAM3边界稳定性是YOLO的12倍
- Conclusion: SAM3在掩模精度和边界稳定性方面表现优异,而YOLO在检测完整性上更专业;选择模型应根据具体任务需求,提供了开源代码和评估流程
[6] mmWEAVER: Environment-Specific mmWave Signal Synthesis from a Photo and Activity Description
Mahathir Monjur,Shahriar Nirjon
Main category: cs.CV
TL;DR: mmWeaver:基于隐式神经表示和超网络的环境感知毫米波信号生成框架,实现高效、真实的信号合成与数据增强
- Motivation: 毫米波雷达应用(如活动识别和姿态估计)需要多样化的环境特定信号数据集,但毫米波信号复杂、稀疏且高维,物理仿真计算成本高昂,现有方法难以高效生成真实信号
- Method: 使用隐式神经表示(INR)将毫米波信号建模为连续函数,结合超网络根据环境上下文(RGB-D图像提取)和人体运动特征(MotionGPT文本到姿态生成)动态生成INR参数,实现多分辨率I/Q信号合成
- Result: 实现高达49倍的压缩比,复杂SSIM达0.88,PSNR达35dB,优于现有方法;活动识别准确率提升7%,人体姿态估计误差降低15%,比仿真方法快6-35倍
- Conclusion: mmWeaver通过隐式神经表示和语义几何先验条件化,实现了高效、真实的环境感知毫米波信号生成,为雷达应用提供了强大的数据增强解决方案
[7] Hot Hém: Sài Gòn Giũa Cái Nóng Hông Còng Bàng -- Saigon in Unequal Heat
Tessa Vu
Main category: cs.CV
TL;DR: Hot Hém是一个GeoAI工作流,结合街景图像和遥感数据预测行人热暴露,为胡志明市提供热感知路径规划
- Motivation: 热带密集城市中行人热暴露是重要健康风险,但标准路径规划算法通常忽略微观尺度的热变化
- Method: 结合Google街景图像、语义图像分割和遥感数据,训练两个XGBoost模型预测地表温度,并在所有OSMnx衍生的行人网络节点上部署
- Result: 开发了Hot Hém空间数据科学管道,能够估计和操作化胡志明市的行人热暴露,实现热感知路径规划
- Conclusion: 该模型为识别城市走廊为何在基础设施尺度上经历不成比例高温提供了基础,有助于理解城市热环境
[8] Microscopic Vehicle Trajectory Datasets from UAV-collected Video for Heterogeneous, Area-Based Urban Traffic
Yawar Ali,K. Ramachandra Rao,Ashish Bhaskar,Niladri Chatterjee
Main category: cs.CV
TL;DR: 该论文提供了基于无人机采集的开放微观车辆轨迹数据集,用于异质化、区域型城市交通条件研究。
- Motivation: 传统路边视频采集在密集混合交通中常因遮挡、视角有限和车辆不规则运动而失效,需要更好的数据采集方法来研究复杂城市交通环境。
- Method: 使用无人机从俯视角度采集交通数据,通过Data from Sky平台提取,在印度国家首都区的六个路段收集,包含时间戳、位置、速度、加速度和车辆分类信息(30帧/秒)。
- Result: 创建了包含丰富时空动态的开放数据集,验证了与人工计数、空间平均速度和探测轨迹的一致性,展示了车道保持偏好、速度分布和横向机动等行为模式。
- Conclusion: 这些开放数据集为全球研究社区提供了独特资源,支持区域型交通条件下的仿真建模、安全评估和行为研究,有助于开发更准确的复杂城市交通模型。
[9] Read or Ignore? A Unified Benchmark for Typographic-Attack Robustness and Text Recognition in Vision-Language Models
Futa Waseda,Shojiro Yamabe,Daiki Shiono,Kento Sasaki,Tsubasa Takahashi
Main category: cs.CV
TL;DR: RIO-VQA提出选择性文本使用任务,RIO-Bench基准测试显示当前LVLMs在对抗攻击鲁棒性和文本阅读能力间存在失衡,需要自适应防御方法。
- Motivation: 现有大型视觉语言模型容易受到排版攻击,而现有防御方法主要鼓励忽略文本来实现鲁棒性,但这与现实场景中需要同时理解物体和文本的需求相矛盾。
- Method: 提出RIO-VQA任务,建立RIO-Bench基准数据集,包含真实图像及其反事实变体(阅读/忽略),通过改变文本内容和问题类型来评估模型选择性使用文本的能力。
- Result: 实验表明当前强大的LVLMs和现有防御方法无法平衡排版攻击鲁棒性和文本阅读能力,RIO-Bench支持开发数据驱动的自适应选择性文本使用防御方法。
- Conclusion: 这项工作揭示了现有评估范围与现实需求之间的根本错位,为开发可靠的LVLMs提供了原则性路径,需要超越单纯忽略文本的防御策略。
[10] CLARGA: Multimodal Graph Representation Learning over Arbitrary Sets of Modalities
Santosh Patapati
Main category: cs.CV
TL;DR: CLARGA是一种通用的多模态融合架构,可处理任意数量和类型的模态,通过注意力加权图和图注意力网络实现高效融合,具有子二次复杂度,支持缺失模态输入,在多种任务中表现优异。
- Motivation: 现有多模态融合方法通常针对特定模态组合设计,缺乏通用性。需要一种能处理任意数量和类型模态的统一框架,同时支持缺失模态输入,实现高效且自适应的多模态表示学习。
- Method: CLARGA为每个样本构建注意力加权图,在多模态特征上使用多头图注意力网络传递信息。通过可学习掩码适应缺失模态输入,采用监督任务损失和对比InfoNCE损失的混合目标训练,提升跨模态一致性和鲁棒性。
- Result: 在7个数据集(金融、人机交互、多媒体分类、情感计算)上评估,CLARGA始终优于基线、最先进模型和消融实验。额外实验证明其对缺失输入的鲁棒性和在特定任务上的优异表现。
- Conclusion: CLARGA是一种通用、高效、鲁棒的多模态融合架构,可轻松集成到机器学习模型中,在广泛任务中实现有效的跨模态表示学习。
[11] Smartphone monitoring of smiling as a behavioral proxy of well-being in everyday life
Ming-Zher Poh,Shun Liao,Marco Andreetto,Daniel McDuff,Jonathan Wang,Paolo Di Achille,Jiang Wu,Yun Liu,Lawrence Cai,Eric Teasley,Mark Malhotra,Anupam Pathak,Shwetak Patel
Main category: cs.CV
TL;DR: 通过智能手机被动捕捉的自然微笑可作为主观幸福感的客观行为指标,其日间和每日模式与全国调查数据高度相关
- Motivation: 传统的主观幸福感测量依赖自我报告方法,存在回忆偏差和参与者负担高的问题,需要更客观、可扩展的测量方法来理解日常生活中的幸福感表达
- Method: 分析233名参与者一周内被动记录的405,448个视频片段,使用深度学习模型量化微笑强度,研究其日间和每日模式,并与全国调查数据、日重建方法结果进行比较
- Result: 微笑强度的每日模式与全国幸福感调查数据高度相关(r=0.92),日间节律与日重建方法结果高度一致(r=0.80)。较高的每日平均微笑强度与更多体力活动和更大光照暴露显著相关,但与智能手机使用无关
- Conclusion: 被动智能手机感知可作为研究情感行为动态的强大、生态有效的方法,为在人口规模上理解这种行为打开了大门
[12] MPath: Multimodal Pathology Report Generation from Whole Slide Images
Noorul Wahab,Nasir Rajpoot
Main category: cs.CV
TL;DR: MPath是一个轻量级多模态框架,通过视觉前缀提示机制将WSI特征注入预训练的生物医学语言模型,用于从全切片图像自动生成病理诊断报告。
- Motivation: 从全切片图像自动生成病理诊断报告是计算病理学的新方向,但由于组织形态变异大和病理叙述结构复杂,将高分辨率组织模式转化为临床连贯文本仍然困难。
- Method: MPath采用轻量级多模态框架,通过学习的视觉前缀提示机制,将WSI视觉嵌入(使用CONCH+Titan基础模型特征)注入冻结的预训练生物医学语言模型(BioBART),仅训练紧凑的投影模块。
- Result: 在RED 2025 Grand Challenge数据集上开发评估,在Test Phase 2中排名第4,尽管提交机会有限。结果显示了基于提示的多模态条件化作为可扩展且可解释的病理报告生成策略的潜力。
- Conclusion: 基于提示的多模态条件化是病理报告生成的可扩展和可解释策略,MPath展示了这种方法的有效性,无需端到端视觉语言预训练,保持了语言骨干的稳定性和数据效率。
[13] FloraForge: LLM-Assisted Procedural Generation of Editable and Analysis-Ready 3D Plant Geometric Models For Agricultural Applications
Mozhgan Hadadi,Talukder Z. Jubery,Patrick S. Schnable,Arti Singh,Bedrich Benes,Adarsh Krishnamurthy,Baskar Ganapathysubramanian
Main category: cs.CV
TL;DR: FloraForge:一个LLM辅助框架,让领域专家通过自然语言交互生成参数化3D植物模型,无需编程专业知识。
- Motivation: 当前3D植物建模方法存在局限:基于学习的方法需要大量物种特定训练数据且不可编辑;程序化建模需要专业几何建模知识和复杂程序规则,领域科学家难以使用。
- Method: 利用LLM辅助协同设计,通过迭代自然语言植物精炼(PR)生成Python脚本,创建参数化植物几何体作为分层B样条曲面表示,具有植物学约束、显式控制点和参数变形函数。
- Result: 在玉米、大豆和绿豆上演示了框架,通过手动精炼植物描述符(PD)文件将程序模型拟合到经验点云数据。生成双重输出:用于可视化的三角网格和用于定量分析的带参数元数据的三角网格。
- Conclusion: FloraForge独特地结合了LLM辅助模板创建、支持表型分析和渲染的数学连续表示,以及通过PD的直接参数控制,为植物科学民主化了复杂几何建模,同时保持数学严谨性。
[14] TransBridge: Boost 3D Object Detection by Scene-Level Completion with Transformer Decoder
Qinghao Meng,Chenming Wu,Liangjun Zhang,Jianbing Shen
Main category: cs.CV
TL;DR: TransBridge:一种联合完成与检测的3D目标检测框架,通过transformer上采样块融合检测与补全网络特征,提升稀疏区域检测性能
- Motivation: 自动驾驶中的3D目标检测对稀疏点云(特别是远距离区域)的检测效果不佳,现有方法通过点云增密来应对稀疏性问题,但需要保持计算成本不变
- Method: 提出TransBridge transformer上采样块,融合检测与补全网络特征;设计动态-静态重建模块生成密集LiDAR数据;利用transformer机制建立通道与空间关系,生成高分辨率特征图用于补全
- Result: 在nuScenes和Waymo数据集上验证有效,端到端3D检测mAP提升0.7-1.5点,两阶段检测框架mAP提升最高达5.78点
- Conclusion: 提出的联合完成与检测框架能有效提升稀疏区域的3D目标检测性能,具有良好泛化能力,且不增加额外计算成本
[15] MONET -- Virtual Cell Painting of Brightfield Images and Time Lapses Using Reference Consistent Diffusion
Alexander Peysakhovich,William Berman,Joseph Rufo,Felix Wong,Maxwell Z. Wilson
Main category: cs.CV
TL;DR: 使用扩散模型从明场图像预测细胞染色图像,实现虚拟细胞染色,解决传统方法劳动密集和无法研究细胞动态的问题
- Motivation: 传统细胞染色技术存在两大问题:1)劳动密集型,需要大量人工操作;2)需要化学固定,无法研究细胞动态变化。需要一种能够从常规明场图像生成高质量细胞染色图像的方法。
- Method: 开发了MONET(形态学观察神经增强工具),基于扩散模型在大规模数据集上训练,从明场图像预测细胞染色通道。采用一致性架构生成延时视频,并支持上下文学习以适应不同细胞系和成像协议。
- Result: 模型质量随规模扩大而提升;一致性架构能够生成细胞染色延时视频(尽管缺乏此类训练数据);支持上下文学习,可部分适应分布外的细胞系和成像协议。
- Conclusion: 虚拟细胞染色不是要完全取代物理细胞染色,而是作为补充工具,为生物学研究提供新的工作流程,特别是实现细胞动态研究。
[16] Contextual Peano Scan and Fast Image Segmentation Using Hidden and Evidential Markov Chains
Clément Fernandes,Wojciech Pieczynski
Main category: cs.CV
TL;DR: 提出了一种新的HEMC-CPS模型,结合上下文Peano扫描和证据隐马尔可夫链,用于无监督图像分割,相比传统方法更有效且计算更快。
- Motivation: 传统的Peano扫描将二维图像像素转换为一维序列,使得隐马尔可夫链可用于图像分割,但需要进一步改进以处理更复杂的图像结构和不确定性。
- Method: 结合上下文Peano扫描和证据隐马尔可夫链,提出HEMC-CPS模型,使用随机期望最大化方法进行无监督参数估计,采用贝叶斯最大后验概率模式进行分割。
- Result: 新模型在合成和真实图像上表现出有效性,相比传统方法有改进,具有处理三维或多传感器多分辨率图像等复杂数据的潜力。
- Conclusion: HEMC-CPS模型为图像分割提供了更强大的工具,不仅限于二维图像分割,还可扩展到其他空间相关数据的建模与分析。
[17] DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition
Jingmin Zhu,Anqi Zhu,James Bailey,Jun Liu,Hossein Rahmani,Mohammed Bennamoun,Farid Boussaid,Qiuhong Ke
Main category: cs.CV
TL;DR: DynaPURLS是一个用于零样本骨架动作识别的统一框架,通过建立多尺度视觉-语义对应关系并在推理时动态优化,显著提升了未见类别的泛化能力。
- Motivation: 现有零样本骨架动作识别方法主要依赖于骨架特征与静态、类别级语义的对齐,这种粗粒度对齐无法弥合可见类别与未见类别之间的领域偏移,阻碍了细粒度视觉知识的有效迁移。
- Method: 1. 使用大语言模型生成包含全局运动和局部身体部位动态的分层文本描述;2. 自适应分区模块通过语义分组骨架关节产生细粒度视觉表示;3. 动态优化模块在推理时通过轻量级可学习投影将文本特征适配到输入视觉流;4. 使用置信感知、类别平衡的记忆库稳定优化过程,减少噪声伪标签的错误传播。
- Result: 在NTU RGB+D 60/120和PKU-MMD三个大规模基准数据集上的广泛实验表明,DynaPURLS显著优于现有方法,创造了新的最先进记录。
- Conclusion: DynaPURLS通过建立鲁棒的多尺度视觉-语义对应关系并在推理时动态优化,有效解决了零样本骨架动作识别中的领域偏移问题,为细粒度视觉知识迁移提供了有效解决方案。
[18] A Comparative Analysis of Semiconductor Wafer Map Defect Detection with Image Transformer
Sushmita Nath
Main category: cs.CV
TL;DR: 该研究探索了使用数据高效图像变换器(DeiT)在数据受限条件下进行晶圆缺陷分类,相比传统CNN模型取得了更好的性能。
- Motivation: 在半导体晶圆缺陷检测中,传统CNN模型(如VGG-19、Xception、Squeeze-Net)在数据有限且不平衡的情况下性能下降,需要更有效的数据高效模型。
- Method: 使用数据高效图像变换器(DeiT)模型对半导体晶圆缺陷进行分类,在数据受限条件下进行实验验证。
- Result: DeiT模型达到90.83%的最高分类准确率,优于VGG-19(65%)、SqueezeNet(82%)、Xception(66%)和混合模型(67%),F1分数达90.78%,训练收敛更快,对少数缺陷类别检测更稳健。
- Conclusion: DeiT等基于变换器的模型在半导体晶圆缺陷检测中具有显著潜力,能够支持半导体制造过程中的预测性维护策略。
[19] CARI4D: Category Agnostic 4D Reconstruction of Human-Object Interaction
Xianghui Xie,Bowen Wen,Yan Chang,Hesam Rabeti,Jiefeng Li,Ye Yuan,Gerard Pons-Moll,Stan Birchfield
Main category: cs.CV
TL;DR: CARI4D:首个类别无关的4D人-物交互重建方法,从单目RGB视频中重建空间和时间一致的4D交互,无需物体模板或类别限制,在未见数据集上性能提升36%
- Motivation: 从单目RGB相机准确捕捉人-物交互对于人类理解、游戏和机器人学习应用很重要,但由于未知物体和人体信息、深度模糊、遮挡和复杂运动等因素,从单视图推断4D交互极具挑战性。先前方法通常假设已知物体模板或局限于有限物体类别。
- Method: 提出姿态假设选择算法,鲁棒地整合基础模型的个体预测;通过学习的渲染-比较范式联合优化,确保空间、时间和像素对齐;最后推理复杂接触点进行进一步细化以满足物理约束。
- Result: 在分布内数据集上重建误差比先前方法降低38%,在未见数据集上降低36%。模型能够泛化到训练类别之外,可零样本应用于野外互联网视频。
- Conclusion: CARI4D是首个类别无关的4D人-物交互重建方法,从单目RGB视频中实现空间和时间一致的度量尺度重建,显著优于现有方法,并具有良好的泛化能力。
[20] V-REX: Benchmarking Exploratory Visual Reasoning via Chain-of-Questions
Chenrui Fan,Yijun Liang,Shweta Bhardwaj,Kwesi Cobbina,Ming Li,Tianyi Zhou
Main category: cs.CV
TL;DR: V-REX是一个评估视觉语言模型多步探索推理能力的基准测试套件,包含挑战性视觉推理任务和评估协议,通过将多步探索转化为问题链来量化分析模型的规划和执行能力。
- Motivation: 当前视觉语言模型在处理简单直接的问题时表现良好,但在需要多轮视觉空间探索和推理的复杂开放任务中表现不佳。这些视觉思维路径难以评估,因为中间步骤的探索空间很大。
- Method: 开发V-REX评估套件,包含跨多个领域的挑战性视觉推理任务。将多步探索推理转化为问题链(Chain-of-Questions),将能力分解为:1)规划能力:将开放任务分解为一系列探索性问题;2)执行能力:按顺序回答策划好的问题链以收集信息得出最终答案。通过为每个步骤策划有限的问题和答案选项,实现可靠的定量和细粒度分析。
- Result: 通过评估最先进的专有和开源视觉语言模型,揭示了:1)一致的扩展趋势;2)规划能力和执行能力之间存在显著差异;3)多步探索推理仍有很大的改进空间。
- Conclusion: V-REX填补了视觉语言模型多步探索推理评估的空白,提供了可靠的定量分析框架,揭示了当前模型的局限性,并为未来改进指明了方向。
[21] Semantic-Drive: Democratizing Long-Tail Data Curation via Open-Vocabulary Grounding and Neuro-Symbolic VLM Consensus
Antonio Guillen-Perez
Main category: cs.CV
TL;DR: Semantic-Drive:一个本地优先的神经符号框架,用于从自动驾驶视频日志中高效挖掘罕见安全关键事件,通过解耦感知和推理VLM实现高精度语义数据挖掘。
- Motivation: 自动驾驶系统开发受限于"长尾"训练数据的稀缺性。虽然车队收集了大量视频日志,但手动识别罕见的安全关键事件(如乱穿马路、施工改道)成本高昂。现有解决方案要么依赖粗粒度的元数据搜索(精度不足),要么使用基于云的视觉语言模型(侵犯隐私且昂贵)。
- Method: 提出一个本地优先的神经符号框架,将感知解耦为两个阶段:1)符号接地:使用实时开放词汇检测器(YOLOE)锚定注意力;2)认知分析:通过推理VLM进行法医场景分析。为减少幻觉,采用"系统2"推理时对齐策略,使用多模型"法官-侦察员"共识机制。
- Result: 在nuScenes数据集上,基于Waymo Open Dataset分类法进行基准测试,Semantic-Drive的召回率达到0.966(CLIP为0.475),风险评估误差比单模型减少40%。系统完全在消费级硬件(NVIDIA RTX 3090)上运行。
- Conclusion: Semantic-Drive提供了一个隐私保护的云替代方案,能够高效地从自动驾驶视频日志中挖掘罕见安全关键事件,解决了长尾数据稀缺问题,同时保持了本地处理和高精度。
[22] Exploring Spatial-Temporal Representation via Star Graph for mmWave Radar-based Human Activity Recognition
Senhao Gao,Junqing Zhang,Luoyu Mei,Shuai Wang,Xuyu Wang
Main category: cs.CV
TL;DR: 提出基于离散动态图神经网络(DDGNN)的毫米波雷达点云人体活动识别方法,通过星形图表示解决点云稀疏和变尺寸问题,在资源受限平台实现高效识别。
- Motivation: 毫米波雷达点云人体活动识别面临点云稀疏和尺寸变化问题,现有基于视觉系统的预处理方法不适用于雷达系统,需要专门针对雷达特性的特征提取方法。
- Method: 设计星形图表示手动添加的静态中心点与动态雷达点之间的高维相对关系,采用离散动态图神经网络(DDGNN)学习变尺寸星形图中的时空特征。
- Result: 在真实世界数据集上达到94.27%的分类准确率,接近基于骨架视觉数据的97.25%性能,在树莓派4上验证了资源受限平台的有效性,优于三种最新雷达特定方法。
- Conclusion: 提出的DDGNN方法有效解决了毫米波雷达点云的稀疏性和变尺寸问题,无需重采样或帧聚合器,在资源受限平台上实现了高性能的人体活动识别。
[23] Adaptive federated learning for ship detection across diverse satellite imagery sources
Tran-Vu La,Minh-Tan Pham,Yu Li,Patrick Matgen,Marco Chini
Main category: cs.CV
TL;DR: 该研究探索了联邦学习在卫星船舶检测中的应用,通过四种FL算法对比,证明FL能在保护数据隐私的同时显著提升检测精度,接近使用全部数据的全局训练效果。
- Motivation: 卫星船舶检测通常涉及商业卫星图像或敏感船舶标注数据,传统方法需要数据共享或集中收集,存在隐私和安全问题。联邦学习提供了一种隐私保护的解决方案,无需数据共享即可训练模型。
- Method: 使用YOLOv8船舶检测模型,比较四种联邦学习算法(FedAvg、FedProx、FedOpt、FedMedian)与本地训练基线。在多个卫星数据集上进行实验,评估不同FL配置(通信轮数、本地训练轮数)对性能的影响。
- Result: 联邦学习模型相比小规模本地数据集训练显著提升了检测精度,性能接近使用所有数据集的全局训练。同时发现选择合适的FL配置(如通信轮数和本地训练轮数)对优化检测精度和计算效率至关重要。
- Conclusion: 联邦学习为卫星船舶检测提供了一种有效的隐私保护解决方案,能够在保护敏感数据的同时实现接近全局训练的性能。适当的FL配置选择是平衡精度和效率的关键。
[24] Enhancing deep learning performance on burned area delineation from SPOT-6/7 imagery for emergency management
Maria Rodriguez,Minh-Tan Pham,Martin Sudmanns,Quentin Poterek,Oscar Narvaez
Main category: cs.CV
TL;DR: 本研究提出一个监督语义分割工作流,旨在提升野火后烧毁区域(BA)制图的性能和效率,针对SPOT-6/7高分辨率影像,评估U-Net和SegFormer模型,并探索土地覆盖数据辅助任务和测试时增强技术。
- Motivation: 当前烧毁区域制图方法主要依赖计算机视觉模型处理灾后遥感影像,但往往忽视了其在时间紧迫的应急管理场景中的适用性。需要开发既高效又准确的BA制图方法以支持灾害评估和生态系统恢复。
- Method: 提出监督语义分割工作流,针对SPOT-6/7高分辨率影像。比较U-Net和SegFormer模型性能,引入土地覆盖数据作为辅助任务增强模型鲁棒性,并应用测试时增强技术。使用Dice分数、交并比和推理时间作为评估指标。
- Result: U-Net和SegFormer在有限训练数据下表现相似,但SegFormer需要更多计算资源,在应急场景中实用性受限。加入土地覆盖辅助任务能提升模型鲁棒性且不增加推理时间。测试时增强能改善BA制图性能但会增加推理时间,可通过混合精度等优化方法缓解。
- Conclusion: 该研究为应急管理场景下的烧毁区域快速制图提供了有效解决方案,U-Net模型在性能和效率平衡方面表现更佳,辅助任务和优化技术能进一步提升实用性和准确性。
[25] CreativeVR: Diffusion-Prior-Guided Approach for Structure and Motion Restoration in Generative and Real Videos
Tejas Panambur,Ishan Rajendrakumar Dave,Chongjian Ge,Ersin Yumer,Xue Bai
Main category: cs.CV
TL;DR: CreativeVR是一个针对AI生成视频和真实视频中严重结构/时序伪影的修复框架,通过单一精度控制旋钮在精确修复和结构校正间平滑权衡,在AIGC伪影修复上达到SOTA效果。
- Motivation: 现有T2V扩散模型常产生扭曲的面部、手部、背景和时序不一致运动等严重结构伪影,类似问题也出现在低质量真实视频中。传统视频修复方法针对合成退化设计,而扩散先验修复器通常针对光度噪声训练,缺乏对感知质量和保真度权衡的控制。
- Method: 提出基于深度适配器的扩散先验引导视频修复框架,包含时间一致性退化模块,在训练中应用精心设计的变换来模拟真实结构失效。通过单一精度控制旋钮调节模型对输入的跟随强度。
- Result: 在严重伪影视频上达到SOTA结果,在标准视频修复基准上表现有竞争力,提出AIGC54基准进行评估,在单张80GB A100上720p分辨率约13FPS的实用吞吐量。
- Conclusion: CreativeVR为AI生成内容和真实视频中的严重结构及时序伪影提供了有效的修复解决方案,通过创新的训练方法和灵活的精度控制实现了感知质量与保真度的良好权衡。
[26] BAgger: Backwards Aggregation for Mitigating Drift in Autoregressive Video Diffusion Models
Ryan Po,Eric Ryan Chan,Changan Chen,Gordon Wetzstein
Main category: cs.CV
TL;DR: BAgger是一种自监督训练方案,通过构建模型自身生成轨迹的纠正路径,解决自回归视频模型中的曝光偏差问题,提升长期生成稳定性
- Motivation: 自回归视频模型在通过下一帧预测进行世界建模时存在曝光偏差问题:训练时使用干净上下文,而推理时使用自生成帧,导致误差累积和质量随时间漂移
- Method: 提出Backwards Aggregation (BAgger)方案,从模型自身生成的轨迹中构建纠正路径,使用标准分数匹配或流匹配目标进行训练,避免依赖大型教师模型和长时间链反向传播
- Result: 在因果扩散变换器上实现BAgger,在文本到视频、视频扩展和多提示生成任务中观察到更稳定的长期运动和更好的视觉一致性,减少了漂移现象
- Conclusion: BAgger通过自监督纠正轨迹训练,有效解决了自回归视频模型的曝光偏差问题,相比依赖少步蒸馏和分布匹配损失的方法,能保持生成质量和多样性
[27] RePack: Representation Packing of Vision Foundation Model Features Enhances Diffusion Transformer
Guanfang Dong,Luke Schultz,Negar Hassanpour,Chao Gao
Main category: cs.CV
TL;DR: RePack通过将高维视觉基础模型特征压缩到低维流形,解决了信息过载问题,加速了扩散变换器的训练并提升了图像生成质量。
- Motivation: 预训练视觉基础模型的高维特征在注入潜在扩散模型时可能导致信息过载,特别是当特征维度超过原始图像解码所需时,需要一种既能保留语义信息又能降低维度的方法。
- Method: 提出RePack框架,将高维VFM表示通过投影到低维流形进行压缩,过滤非语义噪声,保留核心结构信息,使特征更适合扩散变换器解码。
- Result: 在DiT-XL/2上仅用64个epoch就达到FID 3.66,比现有方法快35%,显著加速收敛并超越直接注入原始VFM特征的方法。
- Conclusion: RePack成功提取了VFM表示的核心语义,同时避免了高维度带来的副作用,为高效利用预训练视觉模型特征提供了有效解决方案。
[28] VEGAS: Mitigating Hallucinations in Large Vision-Language Models via Vision-Encoder Attention Guided Adaptive Steering
Zihu Wang,Boxun Xu,Yuxuan Xia,Peng Li
Main category: cs.CV
TL;DR: VEGAS:通过将视觉编码器的注意力图注入语言模型中间层,有效减少大视觉语言模型的幻觉问题
- Motivation: 大视觉语言模型虽然能联合推理视觉和文本输入,但经常产生与视觉证据事实不一致的幻觉输出。现有方法未能有效解决解码过程中的视觉注意力问题。
- Method: 提出VEGAS方法:1)发现视觉编码器的注意力图比最终视觉注意力图更集中;2)分析解码过程中视觉-文本冲突在语言模型中间层达到峰值;3)将视觉编码器的注意力图注入语言模型中间层,自适应引导未能关注关键图像对象的标记。
- Result: 在多个基准测试中,VEGAS在减少幻觉方面始终达到最先进的性能表现。
- Conclusion: 视觉编码器自身的注意力图能有效抑制大视觉语言模型的幻觉,VEGAS作为一种简单有效的推理时方法,通过注意力注入机制显著提升了模型的视觉一致性。
[29] SPDMark: Selective Parameter Displacement for Robust Video Watermarking
Samar Fares,Nurbek Tastan,Karthik Nandakumar
Main category: cs.CV
TL;DR: SPDMark是一种基于选择性参数位移的视频生成水印框架,通过修改生成模型的参数子集嵌入水印,使用低秩适应实现参数效率,能够生成不可察觉的水印并抵抗各种视频修改。
- Motivation: 高质量视频生成模型的出现增加了对强大水印方案的需求,现有方法无法同时实现不可察觉性、鲁棒性和计算效率。
- Method: 基于选择性参数位移,将位移建模为层间基移的加性组合,使用低秩适应实现参数效率,联合训练基移和水印提取器,使用密码哈希函数生成帧特定水印消息,通过最大二分图匹配恢复帧顺序。
- Result: 在文本到视频和图像到视频生成模型上的评估表明,SPDMark能够生成不可察觉的水印,并以高精度恢复,同时对抗各种常见视频修改具有鲁棒性。
- Conclusion: SPDMark为视频生成水印提供了一种有效的框架,能够同时满足不可察觉性、鲁棒性和计算效率的要求。
[30] AI-Augmented Pollen Recognition in Optical and Holographic Microscopy for Veterinary Imaging
Swarn S. Warshaneyan,Maksims Ivanovs,Blaž Cugmas,Inese Bērziņa,Laura Goldberga,Mindaugas Tamosiunas,Roberts Kadiķis
Main category: cs.CV
TL;DR: 该研究探索了在传统光学显微镜和数字同轴全息显微镜(DIHM)图像上实现全自动花粉识别的性能差异,并利用WGAN-SN生成合成DIHM图像来提升检测性能。
- Motivation: 由于散斑噪声、孪生像伪影以及与明场图像的显著差异,在全息图像中视觉识别花粉仍然具有挑战性。研究旨在缩小光学和DIHM图像在自动花粉识别方面的性能差距。
- Method: 使用YOLOv8s进行目标检测,MobileNetV3L进行分类,在双模态数据集上训练。采用Wasserstein GAN with spectral normalization (WGAN-SN)生成合成DIHM图像,并将真实和合成数据以1.0:1.5比例混合。
- Result: 光学数据上检测mAP50达91.3%,分类准确率97%;DIHM数据上仅8.15%和50%。扩展边界框后DIHM检测mAP50提升至13.3%,分类54%。使用GAN合成数据混合后,DIHM检测性能提升至15.4%。
- Conclusion: 基于GAN的数据增强可以缩小性能差距,为兽医成像领域的全自动DIHM工作流程向实际应用迈出了重要一步。
[31] EchoVLM: Measurement-Grounded Multimodal Learning for Echocardiography
Yuheng Li,Yue Zhang,Abdoul Aziz Amadou,Yuxiang Lai,Jike Zhong,Tiziano Passerini,Dorin Comaniciu,Puneet Sharma
Main category: cs.CV
TL;DR: 提出EchoGround-MIMIC数据集和EchoVLM模型,通过测量基础的多模态训练提升超声心动图自动解读性能
- Motivation: 超声心动图解读需要多模态信息整合,现有视觉语言模型缺乏大规模临床数据集和测量推理能力,限制了在心脏超声领域的应用
- Method: 构建EchoGround-MIMIC数据集(19,065个图像-文本对),开发EchoVLM模型,引入视图感知对比损失和否定感知对比损失两个新预训练目标
- Result: 在36个任务的5类临床应用中达到SOTA性能:零样本疾病分类AUC 86.5%,视图分类准确率95.1%,并展示可迁移的视觉表示能力
- Conclusion: 临床基础的多模态预训练产生可迁移的视觉表示,EchoVLM可作为端到端超声心动图解读的基础模型,将开源数据集和代码促进研究
[32] A Novel Patch-Based TDA Approach for Computed Tomography
Dashti A. Ali,Aras T. Asaad,Jacob J. Peoples,Mohammad Hamghalam,Alex Robins,Mane Piliposyan,Richard K. G. Do,Natalie Gangai,Yun S. Chun,Ahmad Bashir Barekzai,Jayasree Chakraborty,Hala Khasawneh,Camila Vilela,Natally Horvat,João Miranda,Alice C. Wei,Amber L. Simpson
Main category: cs.CV
TL;DR: 提出一种针对3D CT影像的基于分块的持久同调特征提取方法,相比传统3D立方体复形方法在分类性能和时间效率上均有显著提升。
- Motivation: 传统基于3D立方体复形过滤的持久同调方法在处理高分辨率CT图像时存在性能不足和计算复杂度高的问题,需要更高效的拓扑特征提取方法。
- Method: 提出一种新颖的基于分块的持久同调构建方法,专门针对体积医学影像数据(特别是CT模态),通过分块处理来优化特征提取。
- Result: 在多个3D CT数据集上的实验表明,分块TDA方法在分类性能和时间效率上均优于立方体复形方法,各项指标平均提升2.06%到11.58%。
- Conclusion: 基于分块的TDA方法在CT影像分析中具有显著优势,提供了更高效和准确的拓扑特征提取,并发布了方便的Python工具包Patch-TDA。
[33] A Benchmark Dataset for Spatially Aligned Road Damage Assessment in Small Uncrewed Aerial Systems Disaster Imagery
Thomas Manzini,Priyankari Perali,Raisa Karnik,Robin R. Murphy
Main category: cs.CV
TL;DR: 本文提出了最大的道路损坏评估和道路对齐基准数据集,包含10次联邦宣布灾害的无人机图像,标注了657.25公里道路,提供了18个基线模型,并发现道路线空间不对齐会导致模型性能下降5.596%
- Motivation: 现有灾害道路损坏评估数据集规模小或分辨率低,无法检测应急管理者感兴趣的现象,且现有机器学习系统缺乏操作验证。实践中观察到道路线不对齐问题,导致模型性能下降和错误标注。
- Method: 创建CRASAR-U-DRIODs数据集,标注657.25公里道路使用10类标注方案,提供9,184个道路线调整用于空间对齐,训练18个基线模型,并在2024年飓风Debby和Helene的应急响应中部署验证。
- Result: 当18个基线模型部署到实际不对齐的道路线时,模型性能平均下降5.596% Macro IoU。如果不考虑空间对齐,约8%(11公里)的道路不良条件会被错误标注,约9%(59公里)的道路线会偏离实际道路。
- Conclusion: 道路线空间不对齐是ML、CV和机器人社区需要解决的关键问题,以提高灾害期间决策的有效性和准确性。该数据集和基线模型为灾害道路评估提供了重要基准。
[34] MeltwaterBench: Deep learning for spatiotemporal downscaling of surface meltwater
Björn Lütjens,Patrick Alexander,Raf Antwerpen,Til Widmann,Guido Cervone,Marco Tedesco
Main category: cs.CV
TL;DR: 开发深度学习模型融合多源遥感数据,实现格陵兰冰盖表面融水的高时空分辨率(日尺度100米)制图,相比传统方法精度显著提升。
- Motivation: 格陵兰冰盖加速融化,但现有融水制图方法在时空分辨率上存在权衡,无法同时实现高时间分辨率和高空间分辨率,限制了融化过程的理解。
- Method: 开发深度学习模型,融合区域气候模型(RCM)、合成孔径雷达(SAR)、被动微波(PMW)和数字高程模型(DEM)数据,对Helheim冰川2017-2023年数据进行时空降尺度处理。
- Result: 融合所有数据流的深度学习方法精度达95%,显著优于仅依赖区域气候模型(83%)或被动微波观测(72%)的传统方法。SAR滑动窗口方法精度为90%,但低估极端融化事件。
- Conclusion: 深度学习融合多源数据能有效提升融水制图的时空分辨率和精度,为冰盖融化监测提供新工具。发布MeltwaterBench数据集和代码作为基准。
[35] Open Horizons: Evaluating Deep Models in the Wild
Ayush Vaibhav Bhatti,Deniz Karakay,Debottama Das,Nilotpal Rajbongshi,Yuito Sugimoto
Main category: cs.CV
TL;DR: 本文对开放世界识别进行了统一实验研究,比较了开放集识别和少样本类增量学习在CIFAR-10上的表现,评估了不同视觉编码器和评分函数的效果。
- Motivation: 开放世界部署需要模型既能识别已知类别,又能在出现新类别时保持可靠。目前缺乏对开放集识别和少样本类增量学习的统一实验研究,需要系统评估不同架构和方法在这些任务上的表现。
- Method: 研究分为两部分:1) 开放集识别:比较ResNet-50、ConvNeXt-Tiny和CLIP ViT-B/16三种预训练冻结视觉编码器,使用线性探针和四种后验评分函数;2) 少样本类增量学习:比较SPPR、OrCo和ConCM三种方法,使用部分冻结的ResNet-50,在1、5、10样本场景下测试。
- Result: 开放集识别中,CLIP在已知和未知样本分离性上表现最好,Energy评分函数在不同骨干网络上最稳定。少样本类增量学习中,ConCM在10样本设置下达到84.7%准确率,所有方法在超过5样本后都出现性能饱和。
- Conclusion: 控制性评估揭示了骨干网络架构和评分机制如何影响未知样本检测,以及原型方法如何缓解增量适应中的灾难性遗忘。CLIP在开放集识别中表现优异,而原型方法在少样本类增量学习中效果显著。
[36] Audio-Visual Camera Pose Estimationn with Passive Scene Sounds and In-the-Wild Video
Daniel Adebi,Sagnik Majumder,Kristen Grauman
Main category: cs.CV
TL;DR: 首个利用音频进行真实世界视频中相对相机姿态估计的工作,通过音频-视觉框架在视觉信息退化时仍能保持鲁棒性
- Motivation: 相机运动理解是具身感知和3D场景理解的基础问题。纯视觉方法在视觉退化条件(如运动模糊或遮挡)下表现不佳,而被动场景声音能提供互补线索
- Method: 提出简单有效的音频-视觉框架,将到达方向(DOA)频谱和双耳化嵌入集成到最先进的纯视觉姿态估计模型中
- Result: 在两个大型数据集上相比强视觉基线获得一致提升,在视觉信息损坏时表现出鲁棒性
- Conclusion: 这是首个成功利用音频进行真实世界视频相对相机姿态估计的工作,确立了日常音频作为经典空间挑战的意外但有前景的信号
[37] SMRABooth: Subject and Motion Representation Alignment for Customized Video Generation
Xuancheng Xu,Yaning Li,Sisi You,Bing-Kun Bao
Main category: cs.CV
TL;DR: SMRABooth:通过自监督编码器和光流编码器提供对象级主题和运动表示,使用LoRA微调对齐,实现定制化视频生成,保持主题外观相似性和运动模式一致性。
- Motivation: 现有方法难以同时保证主题外观相似性和运动模式一致性,因为缺乏对象级的主题和运动指导。需要一种能同时处理主题外观和运动模式的方法。
- Method: 1. 使用自监督编码器提取主题表示,指导主题对齐,捕捉整体结构和高层语义一致性
- 使用光流编码器提取运动表示,捕获结构一致的对象级运动轨迹
- 提出主题-运动关联解耦策略,在位置和时间上应用稀疏LoRA注入,减少主题和运动LoRA之间的干扰
- Result: 大量实验表明SMRABooth在主题和运动定制方面表现出色,能保持一致的subject外观和运动模式,证明了其在可控文本到视频生成中的有效性。
- Conclusion: SMRABooth通过对象级主题和运动表示以及解耦策略,成功解决了定制化视频生成中同时保持主题外观相似性和运动模式一致性的挑战。
[38] Thermal RGB Fusion for Micro-UAV Wildfire Perimeter Tracking with Minimal Comms
Ercan Erkalkan,Vedat Topuz,Ayça Ak
Main category: cs.CV
TL;DR: 提出一种轻量级周界跟踪方法,用于带宽受限条件下微型无人机团队在野火环境中的操作,通过热成像和RGB图像融合实现边界检测,并在嵌入式平台上保持低延迟。
- Motivation: 在野火等紧急侦察应用中,微型无人机团队需要在带宽受限条件下进行快速部署,同时保持轨迹稳定性和环境覆盖能力,现有方法在GPS信号退化时表现不佳。
- Method: 使用热成像帧通过自适应阈值和形态学细化生成粗略热区域掩码,RGB帧提供边缘线索并通过基于梯度的滤波抑制纹理相关误检测。采用规则级合并策略选择边界候选,并通过Ramer-Douglas-Peucker算法简化。系统包含周期性信标和惯性反馈回路以维持GPS退化时的轨迹稳定性。
- Result: 小规模模拟显示,与纯边缘跟踪基线相比,平均路径长度和边界抖动减少,同时通过交集合并分析保持环境覆盖。电池消耗和计算利用率证实了在标准微型平台上实现10-15 m/s前向运动的可行性。
- Conclusion: 该方法实现了快速现场部署,仅需鲁棒传感和最小通信,适用于紧急侦察应用,在嵌入式SoC平台上实现了低于50ms的延迟,为带宽受限环境下的微型无人机团队操作提供了可行解决方案。
[39] A Multi-Year Urban Streetlight Imagery Dataset for Visual Monitoring and Spatio-Temporal Drift Detection
Peizheng Li,Ioannis Mavromatis,Ajith Sahadevan,Tim Farnham,Adnan Aijaz,Aftab Khan
Main category: cs.CV
TL;DR: 提出了一个大规模、长期的英国布里斯托尔城市路灯视觉数据集,包含22个固定角度摄像头在2021-2025年间每小时采集的52.6万张图像,涵盖不同光照、天气和季节条件,用于研究视觉漂移、异常检测和MLOps策略。
- Motivation: 智能城市部署中视觉系统面临长期稳定性挑战,需要真实世界数据集来研究视觉漂移、模型退化和MLOps策略,现有数据集缺乏长期、多条件、大规模的城市场景数据。
- Method: 使用22个固定角度摄像头在布里斯托尔部署,每小时采集图像,提供丰富元数据(时间戳、GPS坐标、设备ID)。同时提供基于卷积变分自编码器(CNN-VAE)的自监督框架,为每个摄像头节点和日/夜图像集分别训练模型,定义两种漂移度量:相对质心漂移和相对重建误差。
- Result: 创建了包含超过52.6万张图像的大规模数据集,涵盖4年时间跨度和多样化环境条件。提供了完整的自监督分析框架和漂移度量方法,数据集以JPEG和CSV格式公开,支持可重复研究和下游应用。
- Conclusion: 该数据集为评估长期模型稳定性、漂移感知学习和部署就绪的视觉系统提供了真实、细粒度的基准,支持路灯监控、天气推断和城市场景理解等应用,促进智能城市视觉系统的研究和开发。
[40] ALERT Open Dataset and Input-Size-Agnostic Vision Transformer for Driver Activity Recognition using IR-UWB
Jeongjun Park,Sunwook Hwang,Hyeonho Noh,Jin Mo Yang,Hyun Jong Yang,Saewoong Bahk
Main category: cs.CV
TL;DR: 提出ISA-ViT框架和ALERT数据集,解决UWB雷达数据与ViT固定输入尺寸不匹配问题,提升分心驾驶行为识别准确率22.68%
- Motivation: 分心驾驶导致致命事故,现有UWB雷达DAR面临两大挑战:缺乏大规模真实世界UWB数据集,以及ViT固定输入尺寸难以适应UWB雷达数据的非标准维度
- Method: 1) 发布ALERT数据集(10,220个真实驾驶条件下的雷达样本);2) 提出ISA-ViT框架,通过调整patch配置和利用预训练位置嵌入向量,在满足ViT输入要求的同时保留雷达特定信息;3) 采用域融合策略结合距离域和频域特征
- Result: ISA-ViT在UWB-based DAR任务上比现有ViT方法提升22.68%准确率,ALERT数据集为真实世界分心驾驶检测提供重要资源
- Conclusion: 通过公开ALERT数据集和详细描述输入尺寸无关策略,这项工作促进了更鲁棒、可扩展的真实世界分心驾驶检测系统开发
[41] A Hybrid Deep Learning Framework for Emotion Recognition in Children with Autism During NAO Robot-Mediated Interaction
Indranil Bhattacharjee,Vartika Narayani Srinet,Anirudha Bhattacharjee,Braj Bhushan,Bishakh Bhattacharya
Main category: cs.CV
TL;DR: 开发了一个用于自闭症儿童情感识别的深度学习框架,结合CNN和GCN处理面部表情数据,在NAO机器人互动场景中表现良好。
- Motivation: 理解自闭症儿童在社交互动中的情感反应是发展心理学和人机交互领域的关键挑战,特别是在自闭症特异性HRI研究中存在重大空白。
- Method: 使用混合模型:微调的ResNet-50 CNN + 三层GCN,处理从15名自闭症儿童视频中提取的约50,000个面部帧。采用DeepFace和FER模型的加权集成进行概率标签,通过Kullback-Leibler散度优化融合嵌入。
- Result: 该方法在建模微妙情感反应方面表现出稳健性能,有效捕捉神经多样性儿童的微表情线索,为临床和治疗性人机交互中的情感分析提供了重要前景。
- Conclusion: 这是印度首个针对自闭症情感分析的大规模真实世界数据集和框架,为未来个性化辅助技术奠定了重要基础,填补了自闭症特异性HRI研究的关键空白。
[42] CineLOG: A Training Free Approach for Cinematic Long Video Generation
Zahra Dehghanian,Morteza Abolghasemi,Hamid Beigy,Hamid R. Rabiee
Main category: cs.CV
TL;DR: CineLOG是一个包含5000个高质量视频片段的数据集,带有详细的场景描述、相机指令和类型标签,用于解决可控视频合成的挑战。作者还提出了一个创新的四阶段生成流程,显著优于现有的端到端文本到视频模型。
- Motivation: 当前可控视频合成模型在超越文本提示的精细控制方面存在困难,特别是在相机轨迹和电影类型等电影属性上。现有数据集存在数据不平衡、标签噪声或模拟到现实的差距等问题。
- Method: 1) 创建CineLOG数据集:包含5000个高质量、平衡、未剪辑的视频片段,每个片段都有详细的场景描述、基于标准电影分类的明确相机指令和类型标签;2) 提出新的四阶段生成流程:将复杂的文本到视频生成任务分解为四个更简单的阶段;3) 引入轨迹引导过渡模块:生成平滑的时空插值,实现连贯的多镜头序列。
- Result: 广泛的人类评估显示,该流程在遵循特定相机和剧本指令方面显著优于最先进的端到端文本到视频模型,同时保持专业的视觉质量。
- Conclusion: CineLOG数据集和提出的生成流程为可控视频合成提供了有效的解决方案,解决了现有数据集的局限性,并在精细控制方面超越了现有方法。
[43] Journey Before Destination: On the importance of Visual Faithfulness in Slow Thinking
Rheeya Uppaal,Phu Mon Htut,Min Bai,Nikolaos Pappas,Zheng Qi
Main category: cs.CV
TL;DR: 提出评估视觉语言模型推理链视觉忠实性的框架,以及无需训练的自我反思方法来检测和修复不忠实的感知步骤
- Motivation: 当前推理增强型视觉语言模型存在两种失败模式:通过视觉不忠实的中间步骤得出正确答案,或推理忠实但最终预测失败。仅评估最终答案准确率无法区分这些行为,需要专门评估推理链的视觉忠实性。
- Method: 提出无训练、无参考的框架:1) 将推理链分解为感知步骤与推理步骤;2) 使用现成的VLM作为评判者评估步骤级忠实性;3) 基于此指标开发轻量级自我反思程序,检测并局部重新生成不忠实的感知步骤。
- Result: 通过人类元评估验证了该方法的有效性。在多个推理训练的VLM和感知密集型基准测试中,该方法降低了不忠实感知率,同时保持了最终答案准确率,提高了多模态推理的可靠性。
- Conclusion: 视觉忠实性是评估视觉语言模型推理链的重要维度,提出的框架和自反思方法能够有效提高多模态推理的可靠性,无需额外训练。
[44] Fine-Grained Zero-Shot Learning with Attribute-Centric Representations
Zhi Chen,Jingcai Guo,Taotao Cai,Yuxiang Cai
Main category: cs.CV
TL;DR: 提出ACR框架,通过属性解缠学习来解决零样本细粒度分类中的属性纠缠问题,在多个基准数据集上达到SOTA
- Motivation: 细粒度零样本分类需要区分细微视觉差异,但传统模型将颜色、形状、纹理等不同属性压缩到单一视觉嵌入中,导致属性纠缠和干扰,现有后处理方法效果有限
- Method: 提出属性中心表示(ACR)框架,包含两个混合专家组件:MoPE(混合补丁专家)通过双级路由机制将图像补丁分配给专门专家;MoAE(混合属性专家)将专家精炼特征投影到稀疏、部分感知的属性映射中
- Result: 在CUB、AwA2和SUN等零样本学习基准数据集上取得了一致的state-of-the-art结果
- Conclusion: 通过在表示学习中强制属性解缠,ACR框架有效解决了属性纠缠问题,提高了细粒度零样本分类的性能
[45] ProImage-Bench: Rubric-Based Evaluation for Professional Image Generation
Minheng Ni,Zhengyuan Yang,Yaowen Zhang,Linjie Li,Chung-Ching Lin,Kevin Lin,Zhendong Wang,Xiaofei Wang,Shujie Liu,Lei Zhang,Wangmeng Zuo,Lijuan Wang
Main category: cs.CV
TL;DR: 提出ProImage-Bench基准测试,用于评估专业图像生成模型在科学精确插图生成方面的能力,通过自动化评估和迭代编辑显著提升模型性能。
- Motivation: 现有图像生成模型主要关注视觉逼真度,但缺乏生成信息密集、科学精确的专业插图的能力,需要专门的基准来评估和提升这方面的性能。
- Method: 构建ProImage-Bench基准,包含654个真实教材和技术报告中的图表,创建详细图像指令和分层评估标准(6,076个标准和44,131个二元检查)。使用多模态模型自动生成评估标准,并通过自动化LMM评估器进行评分。
- Result: 现有最佳基础模型在rubric准确率上仅达到0.791,标准得分0.553,显示在科学保真度方面存在显著差距。通过将失败检查反馈给编辑模型进行迭代优化,可将rubric准确率从0.653提升到0.865,标准得分从0.388提升到0.697。
- Conclusion: ProImage-Bench为专业图像生成提供了严格的诊断工具,同时为改进规范忠实度的科学插图生成提供了可扩展的监督信号。
[46] Comparison of different segmentation algorithms on brain volume and fractal dimension in infant brain MRIs
Nathalie Alexander,Arnaud Gucciardi,Umberto Michelucci
Main category: cs.CV
TL;DR: 该研究比较了SynthSeg和SamSeg两种自动分割方法在婴儿脑MRI分割中的性能,发现SynthSeg在分割质量和体积估计方面优于SamSeg,但分割准确性仍会影响分形维数分析。
- Motivation: 婴儿脑MRI的自动分割对量化发育变化至关重要,但由于髓鞘化过程中组织对比度降低,自动分割面临挑战。需要评估不同分割方法对体积和分形维数估计的影响。
- Method: 使用Baby Open Brains数据集(71个扫描,1-9个月),比较SynthSeg和SamSeg两种自动分割方法与专家标注的差异。评估指标包括Dice系数、IoU、95% Hausdorff距离和归一化互信息,并分析分割准确性对体积和分形维数估计的影响。
- Result: SynthSeg在所有质量指标上优于SamSeg(主要区域平均Dice > 0.8),体积估计与手动参考更接近(平均+4%)。SamSeg系统性地高估脑室和全脑体积(平均+76%)。分割准确性随年龄增加而提高。分形维数分析显示SynthSeg与专家分割存在显著区域差异,分割相关的FD变异性超过了发育队列中报告的大多数组间差异。
- Conclusion: SynthSeg为儿科MRI提供了最可靠的体积和分形维数结果,但由于分割相关的不确定性,对体积和分形维数的微小形态差异应谨慎解释。分割偏差直接影响分形维数估计。
[47] Ultra-Low Bitrate Perceptual Image Compression with Shallow Encoder
Tianyu Zhang,Dong Liu,Chang Wen Chen
Main category: cs.CV
TL;DR: 提出AEIC框架,使用浅层编码器结合一步扩散解码器,在超低比特率下实现高效编码和高质量重建
- Motivation: 现有超低比特率图像压缩方法依赖大型预训练编码器,不适合部署在计算能力有限的边缘设备上,需要更轻量的编码方案
- Method: 提出非对称极端图像压缩框架,使用浅层编码器网络,结合一步扩散解码器保持重建质量;设计双边特征蒸馏方案,将知识从中等编码器迁移到浅层编码器变体
- Result: 在超低比特率下优于现有方法的率失真感知性能,编码效率达到1080P图像35.8 FPS,解码速度与现有方法相当
- Conclusion: AEIC框架证明了浅层编码器在超低比特率压缩中的可行性,实现了编码简单性和解码质量的平衡,适合边缘设备部署
[48] Moment and Highlight Detection via MLLM Frame Segmentation
I Putu Andika Bagas Jiwanta,Ayu Purwarianti
Main category: cs.CV
TL;DR: 提出一种基于LLM的视频时刻检测与高光检测新方法,通过让LLM输出"0"/"1"字符序列来同时实现语言理解和帧级分割预测
- Motivation: 现有基于文本生成的方法无法为帧级预测提供直接梯度,而强化学习方法存在局限性。需要一种既能利用LLM推理能力又能进行直接帧级预测的方法。
- Method: 让LLM处理固定数量帧,输出与帧对应的"0"/"1"字符序列(0表示背景,1表示前景),结合分割损失和因果语言模型损失进行训练,推理时使用束搜索生成序列和logits。
- Result: 在QVHighlights数据集上达到56.74 HIT@1的高光检测性能,仅采样25帧(少于其他方法一半),同时获得35.28 MAP的时刻检索分数,超过基线。
- Conclusion: 该方法成功将分割目标直接应用于LLM输出token,利用LLM的语言能力同时实现帧级预测,分割损失提供了稳定的补充学习信号,即使在因果LM损失平台期也有效。
[49] MetaTPT: Meta Test-time Prompt Tuning for Vision-Language Models
Yuqing Lei,Yingjun Du,Yawen Huang,Xiantong Zhen,Ling Shao
Main category: cs.CV
TL;DR: MetaTPT:一种元学习框架,通过学习自监督辅助任务来指导测试时提示调优,通过动态学习参数化增强来提升域适应能力。
- Motivation: 现有的视觉语言模型(如CLIP)在零样本泛化方面表现良好,但对测试时的域偏移仍然敏感。现有的测试时提示调优(TPT)方法使用固定增强,在更具挑战性的场景中可能失效。
- Method: 提出MetaTPT框架,采用双循环优化范式:内循环学习自监督任务,为每个样本动态生成参数化增强视图;外循环通过强制这些视图之间的一致性来执行提示调优。将增强学习与提示调优耦合。
- Result: 在域泛化和跨数据集基准测试中,MetaTPT实现了最先进的性能。
- Conclusion: MetaTPT通过学习自监督辅助任务来指导测试时提示调优,通过动态参数化增强捕获目标域的关键特征,显著提升了模型在域偏移下的测试时适应能力。
[50] Feature Aggregation for Efficient Continual Learning of Complex Facial Expressions
Thibault Geoffroy,Myriam Maumy,Lionel Prevost
Main category: cs.CV
TL;DR: 提出一个用于连续学习场景的混合面部表情识别框架,结合深度卷积特征和面部动作单元,使用贝叶斯高斯混合模型来减轻灾难性遗忘,在CFEE数据集上验证了从基础表情到复合表情的渐进学习能力。
- Motivation: 随着AI系统在日常生活中的普及,识别和适应人类情绪对于有效的人机交互至关重要。面部表情识别是推断情感状态的主要渠道,但情绪的动态性和文化差异性要求模型能够持续学习而不遗忘先前知识。
- Method: 提出混合框架,整合两种互补模态:深度卷积特征和面部动作单元(AUs)。使用贝叶斯高斯混合模型对组合表示进行建模,提供轻量级概率解决方案,避免重新训练同时保持强判别能力。
- Result: 在CFEE数据集上验证,模型能够先学习基础表情,然后逐步识别复合表情。实验显示提高了准确性,增强了知识保留能力,减少了遗忘。
- Conclusion: 该框架有助于开发情感智能AI系统,可应用于教育、医疗保健和自适应用户界面等领域。
[51] Cognitive-YOLO: LLM-Driven Architecture Synthesis from First Principles of Data for Object Detection
Jiahao Zhao
Main category: cs.CV
TL;DR: Cognitive-YOLO:一种基于LLM的架构合成框架,直接从数据集特征生成目标检测网络配置,无需传统搜索循环,实现高性能架构设计。
- Motivation: 传统手动设计目标检测架构耗时耗力,神经架构搜索计算成本高,现有LLM方法多作为搜索循环中的优化器而非从数据整体理解直接生成架构。需要一种能直接从数据集内在特征生成架构的方法。
- Method: 三阶段框架:1) 分析模块提取数据集元特征(如目标尺度分布、场景密度);2) LLM基于这些特征,结合RAG检索的最先进组件,推理生成结构化神经架构描述语言(NADL);3) 编译器将描述实例化为可部署模型。
- Result: 在五个多样化目标检测数据集上的实验表明,Cognitive-YOLO生成的架构始终优于基线模型,实现高度竞争性能,并在多个基准测试中展现出更优的性能-参数权衡。
- Conclusion: LLM的数据驱动推理是性能提升的主要驱动力,证明对数据"第一性原理"的深入理解比单纯检索SOTA组件对获得优越架构更为关键。该方法为高效架构设计提供了新范式。
[52] RealDrag: The First Dragging Benchmark with Real Target Image
Ahmad Zafarani,Zahra Dehghanian,Mohammadreza Davoodi,Mohsen Shadroo,MohammadAmin Fazli,Hamid R. Rabiee
Main category: cs.CV
TL;DR: RealDrag是首个包含真实目标图像的拖拽式图像编辑基准数据集,包含400多个标注样本和4个新指标,用于系统评估17个SOTA模型。
- Motivation: 当前拖拽式图像编辑模型的评估不可靠,缺乏标准化基准和指标,没有包含真实目标图像的数据集,导致方法间难以客观比较。
- Method: 构建RealDrag基准数据集,包含400多个从多样化视频源获取的人工标注样本,提供源/目标图像、控制点/目标点、可编辑区域掩码和描述性标注。提出四个新指标:语义距离(SeD)、外部掩码保持分数(OMPS)、内部补丁保持分数(IPPS)和方向相似性(DiS)。
- Result: 使用该基准对17个SOTA模型进行了首次大规模系统分析,揭示了当前方法间的明确权衡,建立了稳健、可复现的基线。
- Conclusion: RealDrag为拖拽式图像编辑提供了首个包含真实目标图像的标准化基准,提出的指标能全面评估编辑质量,为未来研究提供了可靠的评估框架。
[53] GrowTAS: Progressive Expansion from Small to Large Subnets for Efficient ViT Architecture Search
Hyunju Lee,Youngmin Oh,Jeimin Jeon,Donghyeon Baek,Bumsub Ham
Main category: cs.CV
TL;DR: GrowTAS是一种渐进式Transformer架构搜索方法,通过从小型子网开始训练并逐步纳入大型子网,减少权重共享带来的干扰,提升搜索效果。
- Motivation: 现有的Transformer架构搜索方法使用超网络共享权重,导致小型子网性能严重下降。研究发现训练良好的小型子网可以作为训练大型子网的良好基础。
- Method: 提出渐进式训练框架GrowTAS:从小型子网开始训练,逐步纳入更大的子网,减少干扰并稳定训练过程。还提出GrowTAS+,仅微调部分权重以进一步提升大型子网性能。
- Result: 在ImageNet和多个迁移学习基准(CIFAR-10/100、Flowers、CARS、INAT-19)上的实验表明,该方法优于现有的TAS方法。
- Conclusion: 渐进式训练框架能有效减少权重共享带来的干扰,提升Transformer架构搜索的性能,特别是在小型子网和大型子网之间取得更好的平衡。
[54] From Human Intention to Action Prediction: A Comprehensive Benchmark for Intention-driven End-to-End Autonomous Driving
Huan Zheng,Yucheng Zhou,Tianyi Yan,Jiayi Su,Hongjun Chen,Dubing Chen,Wencheng Han,Runzhou Tao,Zhongying Qiu,Jianfei Yang,Jianbing Shen
Main category: cs.CV
TL;DR: 提出了Intention-Drive基准,用于评估自动驾驶系统将高级人类意图转化为安全精确驾驶行为的能力,揭示了现有模型在意图理解方面的显著不足。
- Motivation: 当前端到端自动驾驶系统仅能执行低级转向指令,缺乏理解并实现高级人类抽象意图的能力。实现真正智能自动驾驶需要从"指令跟随者"转变为"意图实现者",但缺乏标准化基准来衡量和推动这一复杂任务的进展。
- Method: 引入Intention-Drive基准,包含两个核心贡献:(1) 包含复杂场景和对应自然语言意图的新数据集;(2) 以意图成功率(ISR)为中心的新评估协议,评估人类目标的语义实现程度,超越简单的几何精度。
- Result: 通过对一系列基线模型在Intention-Drive上的广泛评估,揭示了显著的性能缺陷,显示基线模型难以达到这一高级任务所需的全面场景和意图理解能力。
- Conclusion: Intention-Drive填补了自动驾驶意图理解评估的关键空白,为从指令跟随到意图实现的范式转变提供了标准化基准,揭示了当前模型在高级意图理解方面的局限性。
[55] OMUDA: Omni-level Masking for Unsupervised Domain Adaptation in Semantic Segmentation
Yang Ou,Xiongwei Zhao,Xinye Yang,Yihan Wang,Yicheng Di,Rong Yuan,Xieyuanli Chen,Xu Zhu
Main category: cs.CV
TL;DR: OMUDA提出分层掩码策略解决无监督域适应中的跨域上下文模糊、特征不一致和伪标签噪声问题,在语义分割任务上取得SOTA结果
- Motivation: 现有无监督域适应方法在语义分割中面临三个主要挑战:跨域上下文模糊性、不一致的特征表示和类别级伪标签噪声,导致难以有效桥接域间差距
- Method: 提出OMUDA统一框架,包含三个分层掩码策略:1)上下文感知掩码(CAM)区分前景背景平衡全局上下文与局部细节;2)特征蒸馏掩码(FDM)通过预训练模型知识转移增强鲁棒特征学习;3)类别解耦掩码(CDM)通过显式建模类别不确定性减轻噪声伪标签影响
- Result: 在SYNTHIA->Cityscapes和GTA5->Cityscapes等跨域语义分割基准测试中验证有效性,可无缝集成到现有UDA方法中,平均提升7%,达到最先进水平
- Conclusion: 分层掩码范式在上下文、表示和类别三个层次有效减少域偏移,为无监督域适应提供了超越现有方法的统一解决方案
[56] MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding
Benjamin Beilharz,Thomas S. A. Wallis
Main category: cs.CV
TL;DR: 提出MRD方法,通过可微分渲染生成物理上不同但模型激活相同的3D场景,用于探究视觉模型对3D场景属性的隐式理解
- Motivation: 深度学习视觉模型虽然取得显著成功,但其内部表征和决策机制难以解释。尽管模型在2D输入上训练,但通常假设它们发展了对底层3D场景的隐式理解(如对部分遮挡的容忍度、相对深度推理能力)。需要一种方法来系统探究模型对生成性3D场景属性的理解程度。
- Method: 提出MRD(可微分渲染的元相似体)方法,使用基于物理的可微分渲染技术,通过优化找到物理上不同但产生相同模型激活的3D场景参数(即模型元相似体)。与之前基于像素的方法不同,MRD的重建结果始终基于物理场景描述,可以独立探究模型对特定场景属性(如物体形状、材质)的敏感性。
- Result: 作为原理验证,评估了多个模型在恢复场景几何形状和双向反射分布函数(材质)参数方面的能力。结果显示目标场景和优化场景之间的模型激活高度相似,但视觉结果各异。定性分析表明,这些重建有助于研究模型对哪些物理场景属性敏感或不敏感。
- Conclusion: MRD方法通过分析物理场景参数如何驱动模型响应变化,有望增进对计算机视觉和人类视觉的理解。该方法为探究视觉模型的隐式3D场景理解提供了新的分析工具。
[57] WeDetect: Fast Open-Vocabulary Object Detection as Retrieval
Shenghao Fu,Yukun Su,Fengyun Rao,Jing Lyu,Xiaohua Xie,Wei-Shi Zheng
Main category: cs.CV
TL;DR: WeDetect是一个基于检索范式的开放词汇目标检测模型家族,包含三个变体:基础检测器WeDetect、通用建议生成器WeDetect-Uni和基于LMM的WeDetect-Ref,在15个基准测试中实现SOTA性能。
- Motivation: 探索非跨模态融合层方法的检索范式优势,实现高效、通用的开放词汇目标检测,并扩展应用到历史数据检索和指代表达理解等任务。
- Method: 采用双塔架构的检索式检测器,通过精心策划的数据和完整训练实现高性能;WeDetect-Uni冻结检测器仅微调目标性提示来生成通用建议;WeDetect-Ref使用LMM处理复杂指代表达,单次前向完成分类。
- Result: 在15个基准测试中达到最先进性能,实现实时检测,支持历史数据中的目标检索,并在指代表达理解任务中表现优异,同时保持高推理效率。
- Conclusion: WeDetect模型家族在统一的检索框架下整合了检测、建议生成、目标检索和指代表达理解,证明了检索范式在开放词汇目标检测中的高效性和多功能性优势。
[58] Unified Control for Inference-Time Guidance of Denoising Diffusion Models
Maurya Goyal,Anuj Singh,Hadi Jamali-Rad
Main category: cs.CV
TL;DR: UniCoDe提出了一种统一的算法,将采样方法和梯度引导方法结合,通过整合局部梯度信号来提高采样效率,在奖励对齐和扩散模型先验之间实现更好的权衡。
- Motivation: 扩散模型与下游目标对齐对提升任务特定性能至关重要。当前无训练推理方法主要分为采样方法和梯度引导方法,各有优缺点,需要一种统一框架来结合两者的优势。
- Method: 提出UniCoDe算法,将采样方法和梯度引导方法统一到一个框架中。在采样过程中整合局部梯度信号,解决复杂奖励采样方法的效率问题,实现更高效的采样。
- Result: 实验结果表明,UniCoDe在多个任务上与最先进的基线方法保持竞争力,在奖励对齐和扩散模型先验偏离之间实现了更好的权衡。
- Conclusion: UniCoDe成功地将采样和梯度引导两种范式统一起来,通过整合局部梯度信号提高了采样效率,为扩散模型的对齐提供了更有效的解决方案。
[59] TCLeaf-Net: a transformer-convolution framework with global-local attention for robust in-field lesion-level plant leaf disease detection
Zishen Song,Yongjian Zhu,Dong Wang,Hongzhan Liu,Lingyu Jiang,Yongxing Duan,Zehua Zhang,Sihan Li,Jiarui Li
Main category: cs.CV
TL;DR: 提出TCLeaf-Net用于田间叶片病害检测,结合Transformer和卷积处理复杂背景,通过新模块保留细节并增强多尺度融合,在自建数据集上表现优异。
- Motivation: 田间叶片病害检测面临复杂背景干扰、领域偏移和病变级别数据集稀缺等挑战,需要开发鲁棒且高效的检测模型。
- Method: 1) 发布Daylily-Leaf配对病变数据集;2) 提出TCLeaf-Net混合检测器,包含TCM模块抑制非叶片区域、RSFRS模块保留空间细节、DFPN模块增强多尺度融合。
- Result: 在Daylily-Leaf田间数据上,mAP@50提升5.4%至78.2%,计算量减少7.5 GFLOPs,GPU内存使用减少8.7%,在多个植物病害数据集上表现优异。
- Conclusion: TCLeaf-Net能有效处理田间复杂环境下的叶片病害检测,具有高精度、低计算成本和良好泛化能力,适用于实际农业应用。
[60] VideoARM: Agentic Reasoning over Hierarchical Memory for Long-Form Video Understanding
Yufei Yin,Qianke Meng,Minghao Chen,Jiajun Ding,Zhenwei Shao,Zhou Yu
Main category: cs.CV
TL;DR: VideoARM:一种用于长视频理解的代理推理-分层记忆范式,通过自适应实时推理和记忆构建,显著减少token消耗并提升性能
- Motivation: 长视频理解面临时间结构长、多模态信息密集的挑战。现有方法依赖手工推理流程或消耗大量token的视频预处理,需要更高效的自适应解决方案。
- Method: 提出VideoARM范式,包含自适应循环(观察-思考-行动-记忆)和分层多模态记忆。控制器自主调用工具以粗到细的方式解释视频,同时分层记忆持续捕获和更新多级线索。
- Result: 在主流基准测试中,VideoARM优于当前最先进的DVD方法,同时显著减少了长视频的token消耗。
- Conclusion: VideoARM通过代理推理和分层记忆机制,实现了高效的长视频理解,为减少计算开销同时提升性能提供了有效解决方案。
[61] STAGE: Storyboard-Anchored Generation for Cinematic Multi-shot Narrative
Peixuan Zhang,Zijian Jia,Kaiqi Liu,Shuchen Weng,Si Li,Boxin Shi
Main category: cs.CV
TL;DR: STAGE提出了一种基于故事板的多镜头视频生成工作流,通过预测结构化的故事板、引入多镜头记忆包和双编码策略,解决了现有方法在跨镜头一致性和电影语言表达上的不足。
- Motivation: 当前生成模型在视频合成中虽然视觉保真度高,但创建连贯的多镜头叙事仍面临挑战。基于关键帧的方法虽然提供了细粒度控制和效率优势,但往往无法保持跨镜头一致性,也难以捕捉电影语言。
- Method: 1. 提出STAGE工作流,将多镜头视频生成任务重新表述为故事板锚定的生成;2. 使用STEP2预测每个镜头的起始-结束帧对构成的结构化故事板;3. 引入多镜头记忆包确保长距离实体一致性;4. 采用双编码策略保证镜头内连贯性;5. 设计两阶段训练方案学习电影化的镜头间过渡;6. 构建大规模ConStoryBoard数据集。
- Result: 大量实验表明,STAGE在结构化叙事控制和跨镜头连贯性方面表现出优越性能。
- Conclusion: STAGE通过故事板锚定的生成方法,有效解决了多镜头视频生成中的跨镜头一致性和电影语言表达问题,为连贯叙事视频生成提供了新思路。
[62] V-Warper: Appearance-Consistent Video Diffusion Personalization via Value Warping
Hyunkoo Lee,Wooseok Jang,Jini Yang,Taehwan Kim,Sangoh Kim,Sangwon Jung,Seungryong Kim
Main category: cs.CV
TL;DR: V-Warper:无需训练的粗到细视频个性化框架,通过图像LoRA和语义对应提升外观一致性,避免大规模视频微调
- Motivation: 现有视频个性化方法依赖大量视频微调或大规模视频数据集,计算成本高且难以扩展,同时在帧间保持细粒度外观一致性方面存在困难
- Method: 1) 轻量级粗外观适应阶段:仅使用少量参考图像,通过图像LoRA和主题嵌入适应编码全局主题身份;2) 推理时细外观注入阶段:通过RoPE-free中间层查询-键特征计算语义对应,引导外观丰富的值表示到生成过程的语义对齐区域
- Result: V-Warper显著提升外观保真度,同时保持提示对齐和运动动态,无需大规模视频微调即可高效实现这些改进
- Conclusion: V-Warper提供了一种无需训练的视频个性化框架,通过粗到细的方法解决了现有方法在计算成本和外观一致性方面的限制
[63] M4Human: A Large-Scale Multimodal mmWave Radar Benchmark for Human Mesh Reconstruction
Junqiao Fan,Yunjiao Zhou,Yizhuo Yang,Xinyuan Cui,Jiarui Zhang,Lihua Xie,Jianfei Yang,Chris Xiaoxuan Lu,Fangqiang Ding
Main category: cs.CV
TL;DR: M4Human是目前最大规模的多模态人体网格重建基准数据集,包含66.1万帧高分辨率毫米波雷达、RGB和深度数据,提供原始雷达张量和处理后的雷达点云,支持不同粒度的RF信号研究。
- Motivation: 现有的大规模人体网格重建数据集主要依赖可见光RGB输入,但视觉传感存在遮挡、光照变化和隐私问题。虽然毫米波雷达能实现隐私保护的室内人体感知,但现有雷达数据集存在骨架标签稀疏、规模有限、动作简单等问题。
- Method: 构建了M4Human数据集,包含661K帧数据(是之前最大数据集的9倍),提供高分辨率毫米波雷达、RGB和深度三种模态数据。数据集包含原始雷达张量和处理后的雷达点云,覆盖20名受试者和50种多样化动作,包括原地、坐姿原地和自由空间运动。
- Result: 建立了雷达张量和雷达点云两种模态的基准测试,以及与RGB-D模态的多模态融合基准。实验结果凸显了M4Human对雷达人体建模的重要性,同时揭示了在快速、无约束运动下的持续挑战。
- Conclusion: M4Human作为当前最大规模的多模态人体网格重建基准数据集,将推动雷达人体建模研究的发展,数据集和代码将在论文发表后开源。
[64] Speedrunning ImageNet Diffusion
Swayam Bhanded
Main category: cs.CV
TL;DR: SR-DiT框架整合多种扩散变换器训练优化技术,在ImageNet-256上仅用140M参数模型达到SOTA性能,媲美更大模型
- Motivation: 现有扩散变换器训练效率改进技术多被孤立研究,缺乏对多种技术组合协同效应的探索,需要系统整合不同优化方法
- Method: 提出SR-DiT框架,系统整合token路由、架构改进和训练修改,基于表示对齐技术,进行全面的消融研究验证技术组合效果
- Result: 在ImageNet-256上达到FID 3.49和KDD 0.319,仅用140M参数模型训练40万次迭代,无需分类器引导,性能媲美更大模型
- Conclusion: SR-DiT展示了多种优化技术的协同效应,为未来研究提供了计算友好的基准框架,并识别了最有效的技术组合及其兼容性
[65] ArtGen: Conditional Generative Modeling of Articulated Objects in Arbitrary Part-Level States
Haowen Wang,Xiaoping Yuan,Fugang Zhang,Rui Jian,Yuanwei Zhu,Xiuquan Qiao,Yakun Huang
Main category: cs.CV
TL;DR: ArtGen:基于条件扩散的框架,从单视图图像或文本描述生成具有准确几何和连贯运动学的铰接3D物体,解决几何形状与关节动力学纠缠问题
- Motivation: 现有生成模型通常依赖表示闭合状态的单视图输入,导致几何形状和关节动力学纠缠,产生模糊或不现实的运动学结构。铰接资产生成对机器人、数字孪生和具身智能至关重要。
- Method: 1. 跨状态蒙特卡洛采样显式强制执行全局运动学一致性;2. 思维链推理模块推断结构先验(部件语义、关节类型、连接性);3. 稀疏专家扩散变换器专门处理多样化运动学交互;4. 局部-全局注意力增强的组合式3D-VAE潜在先验
- Result: 在PartNet-Mobility基准测试中,ArtGen显著优于最先进方法,能够生成具有准确几何和连贯运动学的铰接3D物体
- Conclusion: ArtGen通过解耦几何形状和关节动力学,实现了从单视图图像或文本描述生成铰接3D物体的突破,为机器人、数字孪生和具身智能应用提供了高质量的铰接资产生成方案
[66] A Graph Attention Network-Based Framework for Reconstructing Missing LiDAR Beams
Khalfalla Awedat,Mohamed Abidalrekab,Mohammad El-Yabroudi
Main category: cs.CV
TL;DR: 基于图注意力网络(GAT)的框架,仅使用当前LiDAR帧重建缺失的垂直光束,无需相机图像或时序信息,有效解决LiDAR传感器垂直光束丢失问题。
- Motivation: LiDAR传感器因硬件老化、灰尘、雪、雾或强反射等原因导致垂直光束丢失,这会移除点云中的整个垂直切片,严重影响自动驾驶车辆的3D感知能力。
- Method: 将LiDAR扫描表示为非结构化空间图:点作为节点,边连接邻近点并保持原始光束索引顺序。使用多层GAT学习局部几何邻域的自适应注意力权重,直接回归缺失位置的高程(z)值。
- Result: 在1,065个模拟通道丢失的原始KITTI序列上训练和评估,平均高度RMSE为11.67厘米,87.98%的重建点落在10厘米误差阈值内。单GPU推理每帧14.65秒,重建质量对不同邻域大小k保持稳定。
- Conclusion: 纯图注意力模型仅基于原始点云几何就能有效恢复现实传感器退化情况下的丢失垂直光束,展示了纯几何方法的有效性。
[67] ViInfographicVQA: A Benchmark for Single and Multi-image Visual Question Answering on Vietnamese Infographics
Tue-Thu Van-Dinh,Hoang-Duy Tran,Truong-Binh Duong,Mai-Hanh Pham,Binh-Nam Le-Nguyen,Quoc-Thai Nguyen
Main category: cs.CV
TL;DR: ViInfographicVQA是首个越南语信息图表视觉问答基准,包含6747个真实信息图表和20409个人工验证问答对,评估模型在数据丰富、布局复杂的视觉内容上的阅读推理能力。
- Motivation: 现有VQA基准主要关注场景文本或自然图像,缺乏对信息图表这种结合文本、图表、图标和设计元素的复杂视觉内容的评估。越南语作为低资源语言,尤其缺乏此类基准,需要评估模型在OCR、布局理解、数值和语义推理方面的综合能力。
- Method: 构建包含6747个真实世界信息图表和20409个人工验证问答对的越南语基准,涵盖经济、医疗、教育等多个领域。设置两个评估任务:单图像任务(传统VQA设置)和多图像任务(需要跨多个语义相关信息图表进行证据合成)。
- Result: 评估了多种最新的视觉语言模型,发现存在显著的性能差距。最严重的错误出现在多图像问题上,这些问题涉及跨图像整合和非跨度推理。基准结果揭示了当前多模态模型在低资源环境下的局限性。
- Conclusion: ViInfographicVQA为越南语信息图表VQA提供了首个基准,揭示了当前模型在布局感知和跨图像推理方面的不足,鼓励未来探索布局感知和跨图像推理方法,特别是在低资源语言环境中。
[68] BokehDepth: Enhancing Monocular Depth Estimation through Bokeh Generation
Hangwei Zhang,Armando Teles Fortes,Tianyi Wei,Xingang Pan
Main category: cs.CV
TL;DR: BokehDepth:两阶段框架,将景深合成与深度预测解耦,利用散焦作为无监督几何线索,提升散焦渲染质量和单目深度估计精度。
- Motivation: 现有方法未能充分利用散焦与单目深度估计之间的紧密联系。高质量散焦渲染依赖有噪声的深度图,而现代单目深度模型在弱纹理、远距离和几何模糊区域表现不佳,这些区域正是散焦线索最丰富的地方。
- Method: 两阶段框架:第一阶段使用基于预训练图像编辑骨干的物理引导可控散焦生成器,从单张清晰输入生成无深度散焦堆栈;第二阶段通过轻量级散焦感知聚合模块,将散焦维度特征融合到现有单目深度编码器中,暴露稳定的深度敏感变化。
- Result: 在多个挑战性基准测试中,BokehDepth相比基于深度图的散焦基线方法提升了视觉保真度,并持续增强了强单目深度基础模型的度量精度和鲁棒性。
- Conclusion: 通过将散焦合成与深度预测解耦,并将散焦作为无监督几何线索,BokehDepth有效提升了散焦渲染质量和单目深度估计性能,实现了两者的协同改进。
[69] Endless World: Real-Time 3D-Aware Long Video Generation
Ke Zhang,Yiqun Mei,Jiacong Xu,Vishal M. Patel
Main category: cs.CV
TL;DR: Endless World是一个实时无限3D一致视频生成框架,通过条件自回归训练和全局3D感知注意力实现长序列稳定生成
- Motivation: 当前生成长、连贯且具有稳定3D结构的视频序列仍然是一个主要挑战,特别是在流式场景中。为了解决这个问题,需要开发能够实时生成无限、3D一致视频的方法。
- Method: 1. 条件自回归训练策略:将新生成内容与现有视频帧对齐,保持长程依赖关系同时保持计算效率;2. 全局3D感知注意力:提供跨时间的连续几何指导;3. 3D注入机制:在整个扩展序列中强制物理合理性和几何一致性。
- Result: Endless World能够生成长、稳定且视觉连贯的视频,在视觉保真度和空间一致性方面达到或优于现有方法的性能,支持在单个GPU上实时推理而无需额外训练开销。
- Conclusion: Endless World成功解决了长时域和动态场景合成中的关键挑战,实现了实时无限3D一致视频生成,为流式视频生成提供了有效的解决方案。
[70] From Particles to Fields: Reframing Photon Mapping with Continuous Gaussian Photon Fields
Jiachen Tao,Benjamin Planche,Van Nguyen Nguyen,Junyi Wu,Yuchun Liu,Haoxuan Wang,Zhongpai Gao,Gengyu Zhang,Meng Zheng,Feiran Wang,Anwesa Choudhuri,Zhenghao Zhao,Weitai Kang,Terrence Chen,Yan Yan,Ziyan Wu
Main category: cs.CV
TL;DR: 提出Gaussian Photon Field (GPF),将光子映射重构为连续可重用的辐射函数,通过3D高斯基元编码光子分布,实现多视角渲染加速
- Motivation: 光子映射能准确模拟复杂全局光照效果,但在多视角渲染中存在计算效率低下的问题,因为每个视角都需要独立的光子追踪和随机核估计,导致大量冗余计算
- Method: 引入高斯光子场(GPF),将光子分布编码为由位置、旋转、尺度和光谱参数化的各向异性3D高斯基元。从第一次SPPM迭代的物理追踪光子初始化,通过多视角监督优化,将基于光子的光传输蒸馏到连续场中
- Result: 在包含复杂光传输的场景(如焦散和镜面-漫反射交互)上进行广泛实验,证明GPF在保持光子级精度的同时,将计算量减少了数量级
- Conclusion: GPF将基于光子的渲染的物理严谨性与神经场景表示的效率统一起来,训练后的场无需重复光子追踪或迭代细化即可沿相机光线进行可微辐射评估
[71] More Than the Final Answer: Improving Visual Extraction and Logical Consistency in Vision-Language Models
Hoang Anh Just,Yifei Fan,Handong Zhao,Jiuxiang Gu,Ruiyi Zhang,Simon Jenni,Kushal Kafle,Ruoxi Jia,Jing Shi
Main category: cs.CV
TL;DR: PeRL-VL提出了一种解耦的视觉语言模型训练框架,分别改进视觉感知和文本推理能力,通过描述奖励和纯文本推理微调,在RLVR基础上显著提升多模态任务性能。
- Motivation: 现有基于可验证奖励的强化学习(RLVR)训练的视觉语言模型存在两个主要问题:1)视觉提取不准确(遗漏细节或产生幻觉);2)思维链逻辑不一致。这是因为可验证信号只监督最终答案,缺乏对中间过程的监督。
- Method: PeRL-VL采用解耦框架:1)感知方面:引入基于VLM的描述奖励,评估模型自生成图像描述的忠实性和充分性;2)推理方面:在逻辑丰富的思维链数据上进行纯文本推理监督微调,独立于视觉输入增强逻辑一致性。
- Result: 在多样化多模态基准测试中,PeRL-VL将Qwen2.5-VL-7B的平均Pass@1准确率从63.3%提升到68.8%,优于标准RLVR、纯文本推理SFT以及GPT-4o的多模态蒸馏方法。
- Conclusion: 通过解耦视觉感知和文本推理的训练,PeRL-VL有效解决了RLVR训练中视觉提取不准确和逻辑不一致的问题,为视觉语言模型的强化学习训练提供了更精细的监督框架。
[72] Adaptive Detector-Verifier Framework for Zero-Shot Polyp Detection in Open-World Settings
Shengkai Xu,Hsiang Lun Kao,Tianxiang Xu,Honghui Zhang,Junqiao Wang,Runmeng Ding,Guanyu Liu,Tianyu Shi,Zhenyu Yu,Guofeng Pan,Ziqian Bi,Yuqi Ouyang
Main category: cs.CV
TL;DR: 提出AdaptiveDetector框架,结合YOLOv11检测器和VLM验证器,通过自适应阈值调整和成本敏感强化学习,在恶劣内窥镜条件下显著提升息肉检测召回率,减少漏检风险。
- Motivation: 现有息肉检测器在干净数据集上训练,但在真实内窥镜场景中性能下降,因为光照变化、运动模糊和遮挡等恶劣成像条件普遍存在。现有方法难以应对实验室控制条件与临床实践之间的领域差距。
- Method: 提出两阶段检测器-验证器框架:1) YOLOv11检测器在VLM指导下自适应调整每帧置信度阈值;2) VLM验证器使用Group Relative Policy Optimization (GRPO)进行微调,采用非对称成本敏感奖励函数,专门设计来减少漏检。构建合成测试平台,系统性地将干净数据集降解为临床常见恶劣条件。
- Result: 在合成降解的CVC-ClinicDB和Kvasir-SEG图像上进行零样本评估,召回率比单独使用YOLO提高14-22个百分点,精度保持在基线以下0.7点到以上1.7点范围内。实现了临床对齐的开放世界息肉检测,显著减少假阴性。
- Conclusion: 自适应阈值调整和成本敏感强化学习的结合实现了临床对齐的息肉检测,大幅减少漏检风险,降低错过癌前息肉的可能性,改善患者预后。
[73] Advancing Cache-Based Few-Shot Classification via Patch-Driven Relational Gated Graph Attention
Tasweer Ahmad,Arindam Sikdar,Sandip Pradhan,Ardhendu Behera
Main category: cs.CV
TL;DR: 提出基于图注意力网络的补丁关系细化方法,通过图像内部补丁依赖关系学习缓存适配器权重,提升少样本图像分类性能,同时保持零样本推理效率
- Motivation: 现有基于缓存的适配方法(如Tip-Adapter)仍然继承CLIP的全局通用表示,在低数据域中无法充分适应特定领域。需要更细粒度的、基于图像内部结构的关系学习来提升少样本分类的判别能力
- Method: 提出补丁驱动的关系细化方法:1)使用关系门控图注意力网络构建补丁图,进行边缘感知注意力以强调信息丰富的补丁间交互;2)可学习的多聚合池化将补丁嵌入组合成紧凑的任务判别表示;3)训练时使用图细化将关系结构蒸馏到缓存中,推理时仅需标准缓存查找;4)最终预测通过缓存相似度分数与CLIP零样本logits的残差融合获得
- Result: 在11个基准测试中持续优于最先进的CLIP适配器和基于缓存的方法,同时保持零样本效率。还引入了"受伤与未受伤士兵"数据集验证战场应用价值
- Conclusion: 通过补丁级关系学习显著提升了少样本图像分类性能,特别是在领域转移和有限监督下。方法在保持推理效率的同时,为时间关键的战场伤员识别等实际应用提供了有效解决方案
[74] Generative Spatiotemporal Data Augmentation
Jinfan Zhou,Lixin Luo,Sungmin Eum,Heesung Kwon,Jeong Joon Park
Main category: cs.CV
TL;DR: 利用视频基础模型进行时空数据增强,通过视频扩散模型生成3D空间和时间变化,在低数据场景下提升模型性能
- Motivation: 现有数据增强方法主要基于简单的几何变换或外观扰动,无法充分模拟真实世界的3D空间和时间变化。特别是在无人机图像等标注稀缺的低数据场景中,需要更有效的增强方法来扩展数据分布。
- Method: 使用现成的视频扩散模型从给定的图像数据集中生成逼真的3D空间和时间变化,创建合成视频片段作为补充训练数据。提供了三个实用指南:选择合适的时空生成设置、将标注转移到合成帧、处理新暴露区域的遮挡问题。
- Result: 在COCO子集和无人机捕获的数据集上的实验表明,时空数据增强能够沿着传统方法和先前生成方法未能充分代表的维度扩展数据分布,在数据稀缺情况下显著提升模型性能。
- Conclusion: 通过视频基础模型进行的时空数据增强为低数据场景下的模型训练提供了有效的解决方案,能够生成更丰富的3D空间和时间变化,弥补传统增强方法的不足。
[75] Animus3D: Text-driven 3D Animation via Motion Score Distillation
Qi Sun,Can Wang,Jiaxiang Shang,Wensen Feng,Jing Liao
Main category: cs.CV
TL;DR: Animus3D:基于文本驱动的3D动画框架,通过Motion Score Distillation(MSD)替代传统SDS,结合LoRA增强的视频扩散模型和时空正则化,为静态3D资产生成高质量运动场
- Motivation: 现有方法使用传统Score Distillation Sampling(SDS)从文本到视频扩散模型中提取运动,导致动画运动幅度小、抖动明显,需要改进运动生成质量和视觉完整性
- Method: 提出Motion Score Distillation(MSD)替代SDS,使用LoRA增强的视频扩散模型定义静态源分布,结合反演噪声估计技术保持外观一致性;引入时空正则化减少几何失真;添加运动细化模块提升时间分辨率和细节
- Result: 实验表明Animus3D能成功为多样文本提示的静态3D资产生成动画,相比现有方法产生更显著、更详细的运动,同时保持高视觉完整性
- Conclusion: Animus3D通过创新的MSD方法和时空正则化,解决了文本驱动3D动画中的运动幅度不足和抖动问题,为静态3D资产生成高质量动画
[76] Anatomy Guided Coronary Artery Segmentation from CCTA Using Spatial Frequency Joint Modeling
Huan Huang,Michele Esposito,Chen Zhao
Main category: cs.CV
TL;DR: 提出一种结合心肌解剖先验、结构感知特征编码和三维小波变换的冠状动脉分割框架,在ImageCAS数据集上取得优于主流方法的性能。
- Motivation: 冠状动脉CT血管成像的准确分割对定量分析和临床决策至关重要,但由于血管细小、分支复杂、边界模糊和心肌干扰等因素,可靠分割仍然具有挑战性。
- Method: 提出一个集成心肌解剖先验、结构感知特征编码和三维小波-逆小波变换的框架。编码阶段结合心肌先验和残差注意力特征增强,小波变换实现联合空间-频率建模,解码阶段通过多尺度特征融合模块整合语义和几何信息。
- Result: 在ImageCAS数据集上,该方法获得Dice系数0.8082、敏感性0.7946、精确率0.8471、HD95为9.77mm,优于多个主流分割模型。消融实验证实各组件具有互补贡献。
- Conclusion: 该方法能够在复杂几何条件下实现更稳定一致的冠状动脉分割,为后续冠状动脉结构分析任务提供可靠的分割结果。
[77] Supervised Contrastive Frame Aggregation for Video Representation Learning
Shaif Chowdhury,Mushfika Rahman,Greg Hamerly
Main category: cs.CV
TL;DR: 提出一种监督对比学习框架,通过将视频帧空间排列成单张图像,利用预训练CNN骨干网络,避免复杂视频Transformer的计算开销,在视频分类任务上取得更好性能。
- Motivation: 现有视频表示学习方法通常需要复杂的视频Transformer模型,计算开销大。作者希望利用预训练的卷积神经网络(如ResNet50)来处理视频,同时保持对时间全局上下文的理解。
- Method: 提出监督对比帧聚合方法:1) 视频到图像聚合策略:将多个视频帧空间排列成单张输入图像;2) 监督对比学习目标:比较模型生成的成对投影,相同标签的视频投影为正对,其他为负对;3) 通过不同时间帧采样创建同一视频的多个自然视图,无需数据增强。
- Result: 在Penn Action数据集上达到76%分类准确率(ViVIT为43%),在HMDB51数据集上达到48%准确率(ViVIT为37%)。方法在监督和自监督设置下都能学习有效视频表示,支持分类和字幕生成等任务。
- Conclusion: 提出的监督对比帧聚合方法能够有效学习视频表示,在保持较低计算成本的同时,通过利用时间全局上下文和预训练CNN骨干网络,在视频分类任务上优于现有方法。
[78] StreamingAssistant: Efficient Visual Token Pruning for Accelerating Online Video Understanding
Xinqi Jin,Hanxun Yu,Bohan Yu,Kebin Liu,Jian Liu,Keda Tao,Yixuan Pei,Huan Wang,Fan Dang,Jiangchuan Liu,Weiqiang Wang
Main category: cs.CV
TL;DR: 提出基于MSSAVT冗余度量的视频token剪枝方法,通过空间相邻最大相似度评估和掩码剪枝策略,显著提升在线视频理解效率,在多个基准上实现最高4%的准确率提升,剪枝延迟小于1ms。
- Motivation: 在线视频理解(如公共监控、AI眼镜)需要处理大量视频帧,导致MLLMs面临GPU内存占用高、计算延迟大的挑战,需要有效减少上下文长度同时保留关键信息。
- Method: 提出基于MSSAVT(空间相邻视频token最大相似度)的冗余度量方法,结合空间位置和token相似度;设计掩码剪枝策略避免双向依赖问题;集成现有时间冗余剪枝方法消除时间冗余。
- Result: 在多个在线和离线视频理解基准测试中,方法显著提升准确率(最高4%),同时剪枝延迟极低(小于1毫秒),实现了效率与性能的良好平衡。
- Conclusion: 提出的token剪枝方法有效解决了MLLMs在视频理解中的计算效率问题,通过空间和时间冗余剪枝策略,在保持准确率的同时大幅降低计算成本,适用于实时视频理解应用。
[79] From Tokens to Photons: Test-Time Physical Prompting for Vison-Language Models
Boyeong Im,Wooseok Lee,Yoojin Kwon,Hyung-Sin Kim
Main category: cs.CV
TL;DR: MVP提出了一种将测试时适应从数字域扩展到物理域的方法,通过相机曝光三角作为物理提示,在推理时选择最佳传感器设置并聚合预测,显著提升视觉语言模型在物理环境中的鲁棒性。
- Motivation: 现有视觉语言模型主要针对网络图像设计,缺乏对传感器介导物理环境的适应能力。测试时适应方法通常局限于数字域,而实际物理环境中的传感器设置(ISO、快门速度、光圈)变化会影响模型性能。
- Method: MVP框架在推理时:1) 为每个场景采集物理视图库;2) 使用源亲和度分数选择top-k传感器设置;3) 对保留视图进行轻量级数字增强;4) 过滤最低熵的增强视图子集;5) 使用零温度softmax(硬投票)聚合预测。无需梯度计算或模型修改。
- Result: 在ImageNet-ES和ImageNet-ES-Diverse数据集上,MVP比仅使用数字TTA的方法在单次自动曝光捕获上提升高达25.6个百分点,比结合传统传感器控制与TTA的流程额外提升3.4个百分点。即使在减少参数候选集以降低捕获延迟的情况下仍保持有效。
- Conclusion: 测量时控制(选择和组合真实物理视图)超越了后捕获提示,能显著提升视觉语言模型在物理环境中的鲁棒性。MVP展示了将测试时适应从数字域扩展到物理域的实用价值。
[80] StegaVAR: Privacy-Preserving Video Action Recognition via Steganographic Domain Analysis
Lixin Chen,Chaomeng Chen,Jiale Zhou,Zhijian Wu,Xun Lin
Main category: cs.CV
TL;DR: StegaVAR:首个在隐写域直接进行视频动作识别的隐私保护框架,将秘密动作视频嵌入普通封面视频,在保持时空信息完整的同时确保传输隐蔽性。
- Motivation: 现有隐私保护方法存在两大问题:1)隐蔽性低,视觉扭曲的视频在传输中易引起攻击者注意;2)时空破坏,破坏VAR所需的关键时空特征。需要同时解决隐私保护和VAR性能的矛盾。
- Method: 提出StegaVAR框架:1)将动作视频嵌入普通封面视频;2)首次在隐写域直接进行VAR;3)提出STeP(秘密时空促进)在训练中用秘密视频指导隐写域时空特征提取;4)提出CroDA(跨波段差异注意力)通过捕捉跨波段语义差异抑制封面干扰。
- Result: 在广泛使用的数据集上,StegaVAR实现了优越的视频动作识别和隐私保护性能。框架对多种隐写模型都有效。
- Conclusion: StegaVAR成功解决了隐私保护VAR中的隐蔽性和时空破坏问题,通过在隐写域直接分析,既保持了秘密视频的时空信息完整性,又确保了传输的隐蔽性,为隐私保护视频分析提供了新思路。
[81] Automatic Wire-Harness Color Sequence Detector
Indiwara Nanayakkara,Dehan Jayawickrama,Mervyn Parakrama B. Ekanayake
Main category: cs.CV
TL;DR: 该论文提出了一种用于线束检测的半自动化机器视觉系统,能够验证线束位置、连接器极性和颜色序列的正确性,在工业应用中实现了100%的检测精度和44%的检测时间减少。
- Motivation: 现代电子制造服务(EMS)行业中,线束检测过程仍然是一个劳动密集型且容易出错的过程,需要自动化解决方案来提高效率和准确性。
- Method: 系统采用五个工业标准CMOS摄像头集成到模块化机械框架中,使用基于HSV和RGB颜色域值比较的颜色序列分类器。用户可以通过至少五个参考样本训练系统,训练文件可存储并重复用于类似线束类型。
- Result: 在GPV Lanka Pvt. Ltd.部署的系统实现了100%的检测准确率,与人工方法相比减少了44%的检测时间。系统还包含用户管理、可调照明、会话数据存储和安全登录等附加功能。
- Conclusion: 该半自动化机器视觉系统为线束检测提供了可靠高效的解决方案,在实际工业应用中证明了其有效性,显著提高了检测质量和效率。
[82] Vision-Enhanced Large Language Models for High-Resolution Image Synthesis and Multimodal Data Interpretation
Karthikeya KV
Main category: cs.CV
TL;DR: 提出一个结合视觉增强LLM与transformer架构的框架,通过整流流机制和双向标记化策略,实现高质量图像合成和多模态理解,在图像分辨率和计算效率上显著优于扩散方法。
- Motivation: 解决高分辨率图像合成和多模态数据解释中的挑战,传统方法如扩散模型存在计算效率低和图像质量限制的问题,需要更高效的生成框架。
- Method: 采用整流流机制连接噪声与数据,使用双向标记化策略融合文本、图像、视频输入,嵌入时空特征,结合混合文本-图像序列建模,并优化噪声感知学习算法。
- Result: 在基准数据集上评估显示:图像分辨率清晰度提升25%,计算需求降低20%(相比扩散方法),模型展现出强大的可扩展性和适应性。
- Conclusion: 该框架通过视觉增强LLM重新定义了计算机视觉和多模态AI的能力,在自主系统、创意内容生成和高级视频分析等应用中具有巨大潜力。
[83] Content-Aware Ad Banner Layout Generation with Two-Stage Chain-of-Thought in Vision Language Models
Kei Yoshitake,Kento Hosono,Ken Kobayashi,Kazuhide Nakata
Main category: cs.CV
TL;DR: 提出基于视觉语言模型(VLM)的图像广告布局生成方法,通过分析背景图像内容生成更高质量的广告布局
- Motivation: 传统广告布局技术主要依赖显著性映射来检测背景图中的显著区域,但这种方法往往无法充分考虑图像的详细构图和语义内容,导致布局质量有限
- Method: 采用两阶段流程:1)VLM分析图像识别物体类型和空间关系,生成基于文本的"放置计划";2)将该计划渲染为HTML格式的最终布局代码
- Result: 通过定量和定性对比实验验证了方法的有效性,结果显示通过显式考虑背景图像内容,该方法能生成明显更高质量的广告布局
- Conclusion: 利用VLM理解图像语义内容的方法能够生成更优质的广告布局,相比传统显著性映射方法有显著改进
[84] Geometry-Aware Scene-Consistent Image Generation
Cong Xie,Che Wang,Yan Zhang,Zheng Pan,Han Zou,Zhenpeng Zhan
Main category: cs.CV
TL;DR: 提出一种几何感知的场景一致图像生成方法,通过场景一致数据构建和几何引导注意力损失,在保持参考场景物理环境的同时根据文本空间关系生成新实体。
- Motivation: 现有方法在场景保持和提示遵循之间存在权衡:要么高度忠实于原场景但对文本提示响应差,要么优先遵循提示但牺牲场景一致性。需要解决这一平衡问题。
- Method: 1) 场景一致数据构建管道,生成多样化、几何基础的训练对;2) 新颖的几何引导注意力损失,利用跨视图线索规范模型的空间推理。
- Result: 在场景一致基准测试中,方法在场景对齐和文本图像一致性方面优于现有基线,自动指标和人类偏好研究均显示优势,能生成几何一致且忠实于文本指令和场景结构的多样化图像。
- Conclusion: 该方法成功解决了场景保持与提示遵循的权衡问题,通过几何感知方法实现了场景一致且响应文本提示的图像生成,在几何一致性和文本遵循方面表现优异。
[85] No Cache Left Idle: Accelerating diffusion model via Extreme-slimming Caching
Tingyan Wen,Haoyu Li,Yihuang Chen,Xing Zhou,Lifei Zhu,Xueqian Wang
Main category: cs.CV
TL;DR: X-Slim是一种无需训练、基于缓存的扩散模型加速器,通过跨时间步、结构和空间的三级缓存冗余利用,实现显著加速且保持生成质量。
- Motivation: 扩散模型虽然生成质量优秀,但计算开销随步数、模型深度和序列长度线性增长。现有缓存方法存在权衡:激进的时间步重用能大幅加速但可能损害保真度,而块级或令牌级重用更安全但计算节省有限。
- Method: 提出X-Slim统一框架,采用双阈值控制器将缓存过程分为"推-抛光"两阶段:首先在时间步级别进行重用直到预警线,然后切换到轻量级的块级和令牌级刷新来抛光剩余冗余,最后在达到临界线时触发完整推理重置累积误差。每个级别使用上下文感知指标决定何时何地缓存。
- Result: 在多种任务上显著推进了速度-质量边界:在FLUX.1-dev上延迟降低4.97倍,HunyuanVideo上降低3.52倍,感知损失最小;在DiT-XL/2上达到3.13倍加速,FID比先前方法提升2.42。
- Conclusion: X-Slim首次统一利用了时间步、结构和空间三个维度的缓存冗余,通过智能的双阈值控制策略,在保持生成质量的同时实现了显著的扩散模型加速,为实际部署提供了有效的训练免费解决方案。
[86] Patch-wise Retrieval: A Bag of Practical Techniques for Instance-level Matching
Wonseok Choi,Sohwi Lim,Nam Hyeon-Woo,Moon Ye-Bin,Dong-Ju Jeong,Jinyoung Hwang,Tae-Hyun Oh
Main category: cs.CV
TL;DR: Patchify是一个无需微调的图像检索框架,通过将数据库图像分割成结构化局部块并与查询全局描述符匹配,实现了高性能、可扩展且可解释的实例级图像检索。
- Motivation: 实例级图像检索需要处理物体在大小、位置和外观上的变化,现有方法在准确性、可扩展性和可解释性方面存在局限,需要一种既能保持高性能又能提供空间定位信息的方法。
- Method: 提出Patchify框架:将数据库图像分割成少量结构化局部块,使用局部特征与查询的全局描述符进行匹配;引入LocScore度量来评估检索结果的空间定位准确性;应用产品量化技术实现大规模高效检索。
- Result: 在多个基准测试、骨干网络和区域选择策略上的实验表明,Patchify优于全局方法,并能与最先进的重新排序流程互补;产品量化结合信息丰富的特征能显著提升大规模检索性能。
- Conclusion: Patchify提供了一个简单有效的图像检索解决方案,不仅提高了检索准确性,还通过LocScore提供了空间定位评估,增强了方法的可解释性和诊断能力,适用于大规模实际应用。
[87] D3D-VLP: Dynamic 3D Vision-Language-Planning Model for Embodied Grounding and Navigation
Zihan Wang,Seungjun Lee,Guangzhao Dai,Gim Hee Lee
Main category: cs.CV
TL;DR: D3D-VLP模型通过动态3D思维链和协同学习策略,统一了具身智能中的规划、导航、问答等任务,在多个基准测试中达到SOTA。
- Motivation: 现有方法存在两难:端到端模型缺乏可解释性和显式3D推理,而模块化系统忽略了跨组件依赖关系。需要一种能结合两者优势的解决方案。
- Method: 提出动态3D视觉-语言-规划模型(D3D-VLP),包含:1) 动态3D思维链,在单一3D-VLM和CoT流水线中统一规划、定位、导航和问答;2) 协同学习策略,使用掩码自回归损失从大规模部分标注的混合数据中学习。
- Result: 在多个基准测试中达到SOTA:视觉语言导航(R2R-CE, REVERIE-CE, NavRAG-CE)、目标导航(HM3D-OVON)和任务导向顺序定位导航(SG3D)。真实世界移动操作实验进一步验证了有效性。
- Conclusion: D3D-VLP成功解决了具身智能中的可解释性与3D推理难题,通过统一的动态3D思维链框架和协同学习策略,实现了跨任务的性能提升。
[88] Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space
Chengzhi Liu,Yuzhe Yang,Yue Fan,Qingyue Wei,Sheng Liu,Xin Eric Wang
Main category: cs.CV
TL;DR: DMLR提出动态多模态潜在推理框架,通过置信度引导的潜在策略梯度优化和动态视觉注入策略,实现推理与感知的动态交织,显著提升多模态推理性能并保持高效推理。
- Motivation: 现有多模态大语言模型虽然通过思维链机制增强了跨模态理解,但仍依赖显式的逐步推理、感知-推理交互不稳定且计算开销大。受人类认知启发,认为思维不是线性展开,而是推理与感知在头脑中的动态交织。
- Method: 提出DMLR框架:1)使用置信度引导的潜在策略梯度优化来精炼潜在思考标记以进行深度推理;2)引入动态视觉注入策略,在每个潜在思考标记处检索最相关的视觉特征并更新最佳视觉补丁集,然后将更新的补丁注入潜在思考标记中,实现动态视觉-文本交织。
- Result: 在七个多模态推理基准测试和多种模型架构上的实验表明,DMLR显著提高了推理和感知性能,同时保持了较高的推理效率。
- Conclusion: DMLR通过动态多模态潜在推理框架,实现了推理与感知的动态交织,有效解决了现有方法依赖显式逐步推理、感知-推理交互不稳定和计算开销大的问题,为多模态推理提供了更高效、更强大的解决方案。
[89] DiG: Differential Grounding for Enhancing Fine-Grained Perception in Multimodal Large Language Model
Zhou Tao,Shida Wang,Yongxiang Hua,Haoyu Cao,Linli Xu
Main category: cs.CV
TL;DR: DiG提出了一种新颖的差分接地代理任务框架,通过让MLLMs识别相似图像对之间的所有差异来学习细粒度视觉感知,无需预先知道差异数量。
- Motivation: 当前多模态大语言模型在视觉语言任务上表现出色,但细粒度视觉感知和精确空间推理能力仍然有限,需要新的方法来提升这些能力。
- Method: 1) 提出差分接地代理任务框架,让模型识别相似图像对之间的所有差异;2) 开发基于3D渲染的自动化数据生成流水线,生成高质量配对图像;3) 采用课程学习策略,从单个差异逐步增加到多个差异。
- Result: DiG显著提升了模型在各种视觉感知基准上的性能,学习到的细粒度感知技能能有效迁移到标准下游任务,包括RefCOCO系列和通用多模态感知基准。
- Conclusion: 差分接地是一种可扩展且稳健的方法,能够有效推进多模态大语言模型中的细粒度视觉推理能力。
[90] Cross-modal Fundus Image Registration under Large FoV Disparity
Hongyang Li,Junyi Tao,Qijie Wei,Ningzhi Yang,Meng Wang,Weihong Yu,Xirong Li
Main category: cs.CV
TL;DR: CARe方法通过裁剪和对齐操作解决大视场差异的跨模态眼底图像配准问题
- Motivation: 现有跨模态眼底图像配准方法假设视场差异较小,无法处理大视场差异的挑战性场景
- Method: 提出CARe方法:1) 裁剪操作利用视网膜生理结构从大视场图像中裁剪出与源图像大致对齐的子图像;2) 对齐模块采用基于RANSAC和多项式坐标拟合的双重拟合方法改进空间变换
- Result: 在60对OCTA-wfCFP新测试集上的实验验证了CARe方法的有效性
- Conclusion: CARe是一种简单而有效的方法,能够解决大视场差异的跨模态眼底图像配准问题
[91] CogDoc: Towards Unified thinking in Documents
Qixin Xu,Haozhe Wang,Che Liu,Fangzhen Lin,Wenhu Chen
Main category: cs.CV
TL;DR: CogDoc提出了一种模仿人类认知过程的粗到细思维框架,通过"快速阅读"和"专注思考"两阶段解决文档推理中可扩展性与保真度的权衡问题,直接强化学习方法优于SFT初始化,7B模型在视觉丰富文档基准上超越GPT-4o等更大模型。
- Motivation: 当前文档推理范式面临可扩展性(处理长上下文文档)与保真度(捕捉细粒度多模态细节)之间的基本权衡问题,需要一种能够兼顾两者的解决方案。
- Method: 提出CogDoc统一粗到细思维框架,模仿人类认知过程:1)低分辨率"快速阅读"阶段进行可扩展信息定位;2)高分辨率"专注思考"阶段进行深度推理。研究了统一思维框架的后训练策略,发现直接强化学习方法优于带SFT初始化的RL方法。
- Result: 直接RL方法避免了SFT中观察到的"策略冲突"。7B模型在其参数类别中实现了最先进的性能,在具有挑战性的视觉丰富文档基准上显著超越了GPT-4o等更大的专有模型。
- Conclusion: CogDoc框架通过模仿人类认知的粗到细思维过程,有效解决了文档推理中的可扩展性与保真度权衡问题,直接强化学习策略优于传统方法,小模型也能在复杂文档理解任务上超越大模型。
[92] Anatomy-Guided Representation Learning Using a Transformer-Based Network for Thyroid Nodule Segmentation in Ultrasound Images
Muhammad Umar Farooq,Abd Ur Rehman,Azka Rehman,Muhammad Usman,Dong-Kyu Chae,Junaid Qadir
Main category: cs.CV
TL;DR: SSMT-Net:一种用于甲状腺结节超声图像分割的半监督多任务Transformer网络,通过利用未标记数据和联合优化结节分割、腺体分割及结节大小估计任务,显著提升了分割精度和鲁棒性。
- Motivation: 甲状腺结节超声图像分割面临三大挑战:结节与周围组织边界模糊、结节尺寸变化大、标注数据稀缺。现有深度学习方法难以有效整合甲状腺腺体上下文信息,且在不同病例上泛化能力有限。
- Method: 提出SSMT-Net:1)半监督学习:在无监督阶段利用未标记数据增强Transformer编码器的特征提取能力;2)多任务学习:在有监督阶段联合优化结节分割、腺体分割和结节大小估计三个任务;3)Transformer架构:整合局部和全局上下文特征。
- Result: 在TN3K和DDTI数据集上的广泛评估表明,SSMT-Net在分割精度和鲁棒性方面均优于现有最先进方法,显示出在真实临床应用中具有潜力。
- Conclusion: SSMT-Net通过半监督多任务Transformer框架有效解决了甲状腺结节超声图像分割的关键挑战,为临床诊断和治疗规划提供了更准确、更可靠的自动化工具。
[93] InteracTalker: Prompt-Based Human-Object Interaction with Co-Speech Gesture Generation
Sreehari Rajan,Kunal Bhosikar,Charu Sharma
Main category: cs.CV
TL;DR: InteracTalker:一个统一框架,通过多阶段训练学习统一的运动、语音和提示嵌入空间,结合自适应融合策略,同时生成语音驱动的手势和物体交互动作,超越现有方法。
- Motivation: 现有方法分别处理语音驱动手势和物体交互,缺乏集成解决方案,限制了真实世界应用。需要统一的框架来同时处理这两种任务,但缺乏综合数据集。
- Method: 1) 构建丰富的人-物交互数据集,通过为现有文本到运动数据集添加详细物体交互标注;2) 采用多阶段训练学习统一的运动、语音和提示嵌入空间;3) 使用广义运动适应模块支持独立训练;4) 提出自适应融合策略,在扩散采样过程中动态重新加权异构条件信号。
- Result: InteracTalker在语音驱动手势生成和物体交互合成任务上都优于先前方法,超越了专注于手势的扩散方法,生成高度真实、物体感知的全身运动,具有增强的真实感、灵活性和控制性。
- Conclusion: InteracTalker成功统一了先前分离的任务,通过集成物体感知交互和语音驱动手势生成,实现了更自然、更真实的数字交互体验。
[94] Open-World Deepfake Attribution via Confidence-Aware Asymmetric Learning
Haiyang Zheng,Nan Pu,Wenjing Li,Teng Long,Nicu Sebe,Zhun Zhong
Main category: cs.CV
TL;DR: 提出CAL框架解决开放世界深度伪造溯源中的置信度偏差和未知伪造类型数量先验假设问题,通过置信感知一致性正则化和非对称置信增强提升性能,并引入动态原型剪枝自动估计未知类型数量。
- Motivation: 合成人脸图像的泛滥增加了对开放世界深度伪造溯源的需求,但现有方法存在两个关键限制:1) 置信度偏差导致对新型伪造的伪标签不可靠,造成训练偏差;2) 不现实地假设未知伪造类型的数量是已知的先验知识。
- Method: 提出置信感知非对称学习框架,包含两个核心组件:置信感知一致性正则化通过基于归一化置信度动态缩放样本损失来缓解伪标签偏差;非对称置信增强通过选择性学习高置信度样本来分别校准已知和新型类别的置信度。此外,引入动态原型剪枝策略以粗到细的方式自动估计新型伪造类型的数量。
- Result: 在标准开放世界深度伪造溯源基准和新扩展的包含高级操作的基准上进行广泛实验,CAL始终优于先前方法,在已知和新型伪造溯源方面都达到了新的最先进性能。
- Conclusion: CAL框架有效解决了开放世界深度伪造溯源中的置信度偏差和未知类型数量先验假设问题,通过置信感知一致性正则化和非对称置信增强的相互增强循环显著提升了模型性能,动态原型剪枝增强了方法在现实场景中的可扩展性。
[95] Progressive Conditioned Scale-Shift Recalibration of Self-Attention for Online Test-time Adaptation
Yushun Tang,Ziqiong Liu,Jiyuan Jia,Yi Zhang,Zhihai He
Main category: cs.CV
TL;DR: 提出PCSR方法,通过渐进式条件缩放-平移重新校准来提升Transformer模型在在线测试时域适应中的性能
- Motivation: 发现Transformer模型在应用到新目标域时,其自注意力模块的Query、Key和Value特征会发生显著变化,导致性能大幅下降,需要解决这一重要问题
- Method: 提出渐进式条件缩放-平移重新校准(PCSR)方法:1) 将在线模型适应视为渐进域偏移分离过程;2) 在每个Transformer层学习域分离网络提取域偏移特征;3) 使用因子生成网络预测缩放和平移参数;4) 这些轻量级网络在推理时在线适应
- Result: 在基准数据集上的实验结果表明,PCSR方法能显著提升在线测试时域适应性能,在ImageNet-C数据集上分类准确率提升高达3.9%
- Conclusion: 提出的PCSR方法通过渐进式重新校准Transformer的自注意力模块,有效解决了跨域应用中的性能下降问题,为在线测试时适应提供了有效的解决方案
[96] Scone: Bridging Composition and Distinction in Subject-Driven Image Generation via Unified Understanding-Generation Modeling
Yuran Wang,Bohan Zeng,Chengzhuo Tong,Wenxuan Liu,Yang Shi,Xiaochen Ma,Hao Liang,Yuanxing Zhang,Wentao Zhang
Main category: cs.CV
TL;DR: Scone是一个统一的图像生成方法,集成了多主体组合和区分能力,通过理解专家作为语义桥梁指导生成专家,在复杂视觉场景中保持主体身份并减少干扰。
- Motivation: 当前基于主题的图像生成方法从单主体发展到多主体组合,但缺乏区分能力——当输入包含多个候选主体时,无法正确识别和生成特定主体。这一限制影响了在复杂真实视觉场景中的有效性。
- Method: Scone采用统一的理解-生成框架,让理解专家作为语义桥梁,传递语义信息并指导生成专家保持主体身份同时最小化干扰。采用两阶段训练:先学习组合能力,然后通过语义对齐和基于注意力的掩码增强区分能力。
- Result: Scone在两个基准测试中,在组合和区分任务上都优于现有的开源模型。作者还提出了SconeEval基准,用于评估不同场景下的组合和区分能力。
- Conclusion: Scone通过集成组合和区分能力,解决了多主体图像生成中的关键限制,在复杂视觉场景中表现出色。模型、基准和训练数据已开源。
[97] -CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment
Fatimah Zohra,Chen Zhao,Hani Itani,Bernard Ghanem
Main category: cs.CV
TL;DR: β-CLIP通过多粒度文本条件对比学习框架,实现从完整描述到句子、短语的层次化视觉-文本对齐,显著提升细粒度视觉语言任务性能。
- Motivation: CLIP在全局视觉-文本对齐上表现良好,但在细粒度任务上表现不佳,即使使用详细描述进行微调。需要一种能够实现多层次语义对齐的方法。
- Method: 提出β-CLIP框架,使用跨注意力动态池化图像块,为每个粒度级别生成上下文视觉嵌入。引入β-上下文对比对齐损失(β-CAL),参数化严格查询匹配与宽松图像内上下文化之间的权衡。
- Result: 在Urban1K上达到91.8% T2I和92.3% I2T的R@1,在FG-OVD(Hard)上达到30.9%,在没有使用困难负样本的方法中达到最先进水平。
- Conclusion: β-CLIP为密集视觉语言对应建立了强大、自适应的基准,显著改善了细粒度对齐能力。
[98] Efficient Vision-Language Reasoning via Adaptive Token Pruning
Xue Li,Xiaonan Song,Henry Hu
Main category: cs.CV
TL;DR: ATP是一种动态推理机制,通过保留最具信息量的token来减少视觉语言模型的计算需求,实现约40%的FLOPs减少和1.5倍加速,精度损失小于1%。
- Motivation: 现实世界中视觉语言模型的部署受到高计算需求的阻碍,现有架构对所有token进行统一处理效率低下。需要一种动态推理机制来减少计算成本。
- Method: 提出自适应token剪枝(ATP),在视觉-语言接口处操作,基于混合重要性评分(ViT CLS注意力+CLIP文本-图像相似性)保留top-K个token。作为轻量级门控模块,兼容BLIP-2、LLaVA和Flamingo等主流架构。
- Result: 在VQAv2、GQA和COCO上的评估显示,ATP减少约40%的推理FLOPs,实现约1.5倍的端到端延迟加速,精度损失小于1%。定性分析表明ATP保持视觉基础并增强可解释性。
- Conclusion: ATP证明资源受限的推理和模型可靠性不是竞争目标。自适应剪枝抑制虚假相关性,提高稳定性。ATP在高效多模态边缘计算管道中具有重要应用价值。
[99] Robust Motion Generation using Part-level Reliable Data from Videos
Boyuan Li,Sipeng Zheng,Bin Cao,Ruihua Song,Zongqing Lu
Main category: cs.CV
TL;DR: 提出RoPar方法,利用视频中可信的身体部位数据增强运动生成,通过部位感知掩码自回归模型处理部分可见的人体运动数据
- Motivation: 从大规模网络视频中提取人体运动可以解决角色动画中的数据稀缺问题,但许多视频帧中人体部分不可见(因离屏拍摄或遮挡)。这带来了两难:丢弃任何部分缺失的数据会限制规模和多样性,而保留则会损害数据质量和模型性能
- Method: 1) 将人体分解为五个部位,检测视频帧中清晰可见的部位作为"可信"部位;2) 通过提出的部位感知变分自编码器将可信部位编码为潜在标记;3) 提出鲁棒的部位级掩码生成模型来预测被掩码的可信部位,同时忽略噪声部位
- Result: 在干净和噪声数据集上的实验结果表明,该方法在运动质量、语义一致性和多样性方面均优于基线方法。同时贡献了K700-M基准数据集,包含约20万个真实世界运动序列
- Conclusion: 提出的RoPar方法通过利用视频中可信的身体部位数据,有效解决了部分可见人体运动数据的生成问题,在保持数据规模和多样性的同时提升了生成质量
[100] Spinal Line Detection for Posture Evaluation through Train-ing-free 3D Human Body Reconstruction with 2D Depth Images
Sehyun Kim,Hye Jun Lee,Jiwoo Lee,Changgyun Kim,Taemin Lee
Main category: cs.CV
TL;DR: 提出一个基于四方向深度图像的3D人体姿态分析系统,通过全局和精细配准的分层匹配恢复3D人体模型并自动估计脊柱中心线,无需训练数据或复杂神经网络模型。
- Motivation: 脊柱角度是身体平衡的重要指标,现有方法存在问题:多图像方法需要昂贵设备和复杂流程,单图像方法因遮挡和视角限制难以准确估计脊柱中心线等内部结构。
- Method: 1) 集成四个方向的深度图像恢复3D人体模型;2) 采用全局和精细配准的分层匹配处理噪声和遮挡;3) 应用自适应顶点缩减保持网格分辨率和形状可靠性;4) 使用细节层次集成确保脊柱角度估计的准确性和稳定性。
- Result: 实现了高精度的3D脊柱配准估计,验证显示匹配质量得到改善,无需依赖训练数据或复杂神经网络模型。
- Conclusion: 提出的方法成功补偿了多图像方法的缺点并解决了单图像方法的局限性,实现了可靠的3D脊柱中心线估计。
[101] GenieDrive: Towards Physics-Aware Driving World Model with 4D Occupancy Guided Video Generation
Zhenya Yang,Zhe Liu,Yuxiang Lu,Liping Hou,Chenxuan Miao,Siyi Peng,Bailan Feng,Xiang Bai,Hengshuang Zhao
Main category: cs.CV
TL;DR: GenieDrive:基于4D占据的物理感知驾驶视频生成框架,通过VAE压缩占据表示,使用互控注意力建模控制影响,实现高质量、物理一致的多视角驾驶视频生成。
- Motivation: 现有方法通常使用单一扩散模型直接将驾驶动作映射到视频,学习困难且输出物理不一致。需要物理感知的驾驶世界模型来支持驾驶规划、分布外数据合成和闭环评估。
- Method: 1) 先生成4D占据作为物理感知基础;2) 提出VAE将高分辨率占据编码为潜在三平面表示,减少58%潜在尺寸;3) 引入互控注意力精确建模控制对占据演化的影响;4) 端到端联合训练VAE和预测模块;5) 在视频生成中使用归一化多视角注意力,以4D占据为指导生成多视角视频。
- Result: 预测mIoU提升7.2%,推理速度41 FPS,仅使用3.47M参数。视频质量显著改善,FVD降低20.7%。能够实现高度可控、多视角一致且物理感知的驾驶视频生成。
- Conclusion: GenieDrive通过4D占据表示和创新的压缩与建模技术,成功解决了现有驾驶视频生成方法的物理不一致问题,实现了高质量、物理感知的驾驶视频生成,为驾驶规划、数据合成和评估提供了有效工具。
[102] FysicsWorld: A Unified Full-Modality Benchmark for Any-to-Any Understanding, Generation, and Reasoning
Yue Jiang,Dingkang Yang,Minghao Han,Jinghang Han,Zizhi Chen,Yizhou Liu,Mingcheng Li,Peng Zhai,Lihua Zhang
Main category: cs.CV
TL;DR: FysicsWorld是首个统一的全模态基准测试,支持图像、视频、音频和文本之间的双向输入输出,包含16个主要任务和3268个样本,用于全面评估多模态大语言模型的理解、生成和推理能力。
- Motivation: 当前多模态基准测试存在局限性:模态覆盖不完整、交互仅限于文本中心输出、模态间相互依赖和互补性弱。需要建立一个统一的评估框架来推动下一代全模态架构的发展。
- Method: 1) 构建FysicsWorld基准测试,支持图像、视频、音频和文本之间的双向输入输出;2) 包含16个主要任务和3268个精选样本,来自40多个高质量数据源;3) 提出跨模态互补性筛选(CMCS)策略,用于生成全模态数据,支持口语交互和融合依赖的跨模态推理。
- Result: 对30多个最先进的基线模型进行了全面评估,包括MLLMs、模态特定模型、统一理解-生成模型和全模态语言模型。FysicsWorld揭示了这些模型在理解、生成和推理方面的性能差异和局限性。
- Conclusion: FysicsWorld为评估和推进下一代全模态架构建立了统一的基础和强基线,解决了当前基准测试的局限性,推动了多模态人工智能的发展。
[103] CoRe3D: Collaborative Reasoning as a Foundation for 3D Intelligence
Tianjiao Yu,Xinzhuo Li,Yifan Shen,Yuanzhe Liu,Ismini Lourentzou
Main category: cs.CV
TL;DR: CoRe3D提出了一种统一的3D理解和生成推理框架,通过语义和空间抽象联合操作,使语言推断的高级意图直接指导低级3D内容形成。
- Motivation: 虽然大型多模态模型中的显式推理机制在语言和视觉任务中已被证明有效,但其在3D领域的扩展仍然不足。需要将推理中心方法扩展到3D理解和生成任务中。
- Method: CoRe3D采用空间接地推理表示,将3D潜在空间分解为局部化区域,使模型能够以组合和程序化的方式对几何进行推理。通过将语义链式思维推理与结构化空间推理紧密耦合来实现。
- Result: CoRe3D生成的3D输出表现出强大的局部一致性和与语言描述的忠实对齐,实现了高水平的3D理解和生成能力。
- Conclusion: CoRe3D通过统一的推理框架成功将显式推理机制扩展到3D领域,为3D理解和生成任务提供了可靠、可解释且对齐良好的解决方案。
[104] Fast 2DGS: Efficient Image Representation with Deep Gaussian Prior
Hao Wang,Ashish Bastola,Chaoyi Zhou,Wenhui Zhu,Xiwen Chen,Xuanzhao Dong,Siyu Huang,Abolfazl Razi
Main category: cs.CV
TL;DR: Fast-2DGS:一种轻量级框架,通过深度高斯先验和属性回归网络实现高效的高斯图像表示,在单次前向传播中即可获得高质量重建,显著降低计算成本。
- Motivation: 随着生成模型能够产生高质量视觉内容,对高效、可解释、可编辑的图像表示需求增加。现有2D高斯泼溅方法需要后优化,随机或启发式初始化收敛慢,而学习网络方法又增加了计算和架构复杂度。
- Method: 提出Fast-2DGS轻量级框架:1)深度高斯先验作为条件网络,捕捉不同复杂度下高斯基元的空间分布;2)属性回归网络预测密集高斯属性。这种解耦架构在单次前向传播中实现高质量重建,仅需最小化微调。
- Result: 实验表明该方法在单次前向传播中即可获得高质量重建,显著降低计算成本而不影响视觉质量,使2DGS更接近工业级部署。
- Conclusion: Fast-2DGS通过深度高斯先验和属性回归网络的解耦设计,实现了高效的高斯图像表示,在保持高质量的同时大幅降低计算复杂度,推动了2D高斯泼溅技术向实际应用的发展。
[105] L-STEC: Learned Video Compression with Long-term Spatio-Temporal Enhanced Context
Tiange Zhang,Zhimeng Huang,Xiandong Meng,Kai Zhang,Zhipin Deng,Siwei Ma
Main category: cs.CV
TL;DR: L-STEC方法通过LSTM扩展参考链捕获长期依赖,并结合像素域空间上下文,通过多感受野网络融合时空信息,显著提升神经视频压缩性能,相比DCVC-TCM节省37.01%比特率。
- Motivation: 现有神经视频压缩方法仅依赖前一帧特征预测时域上下文,存在两个关键问题:1) 短参考窗口无法捕获长期依赖和精细纹理细节;2) 仅传播特征级信息会导致误差累积和纹理丢失。
- Method: 提出L-STEC方法:1) 使用LSTM扩展参考链以捕获长期依赖;2) 从像素域引入扭曲的空间上下文;3) 通过多感受野网络融合时空信息以更好地保留参考细节。
- Result: L-STEC显著提升了压缩性能,相比DCVC-TCM在PSNR上节省37.01%比特率,在MS-SSIM上节省31.65%比特率,超越了VTM-17.0和DCVC-FM,建立了新的最先进性能。
- Conclusion: 通过扩展长期依赖和融合像素域空间上下文,L-STEC方法有效解决了现有神经视频压缩中的局限性,显著提升了压缩效率并建立了新的性能基准。
[106] DrivePI: Spatial-aware 4D MLLM for Unified Autonomous Driving Understanding, Perception, Prediction and Planning
Zhe Liu,Runhui Huang,Rui Yang,Siming Yan,Zining Wang,Lu Hou,Di Lin,Xiang Bai,Hengshuang Zhao
Main category: cs.CV
TL;DR: DrivePI是一个空间感知的4D多模态大语言模型,作为统一的视觉-语言-动作框架,在自动驾驶中并行执行空间理解、3D感知、预测和规划任务。
- Motivation: 尽管多模态大语言模型在多个领域表现出强大能力,但在自动驾驶中生成细粒度3D感知和预测输出的应用仍未被充分探索。
- Method: 提出空间感知4D MLLM框架,整合点云、多视角图像和语言指令;开发数据引擎生成文本-占据和文本-流问答对;使用仅0.5B参数的Qwen2.5作为MLLM骨干。
- Result: 作为单一统一模型,DrivePI匹配或超越了现有VLA模型和专用VA模型:在nuScenes-QA上比OpenDriveVLA-7B高2.5%平均准确率;碰撞率比ORION降低70%;在3D占据、占据流和规划任务上均优于专用模型。
- Conclusion: DrivePI展示了MLLM在自动驾驶中统一处理空间理解、感知、预测和规划任务的潜力,即使使用小型骨干模型也能实现优异性能。
[107] Learning Common and Salient Generative Factors Between Two Image Datasets
Yunlong He,Gwilherm Lesné,Ziqian Liu,Michaël Soumm,Pietro Gori
Main category: cs.CV
TL;DR: 提出对比分析框架,从两个图像数据集中分离共享的生成因子和特定于单个数据集的显著因子,适用于GAN和扩散模型。
- Motivation: 现有研究主要关注条件操作和分离表示学习,但较少研究对比分析问题:给定两个图像数据集,如何分离共享的生成因子和特定于单个数据集的显著因子。
- Method: 提出新颖的对比分析框架,适用于GAN和扩散模型,通过定义新的学习策略和损失函数,确保共同因子和显著因子的有效分离,同时保持高质量生成。
- Result: 在多样化数据集(人脸、动物图像、医学扫描)上评估,相比现有方法展现出更优的分离能力和图像合成质量。
- Conclusion: 该框架成功解决了对比分析问题,能够有效分离数据集间的共同和显著生成因子,为弱监督条件下的图像分析提供了新方法。
[108] Lemon: A Unified and Scalable 3D Multimodal Model for Universal Spatial Understanding
Yongyuan Liang,Xiyao Wang,Yuanchen Ju,Jianwei Yang,Furong Huang
Main category: cs.CV
TL;DR: Lemon是一个统一的Transformer架构,通过将3D点云块和语言标记作为单一序列联合处理,解决了大规模多模态模型在3D理解中的挑战,实现了早期空间-语言融合,并在各种3D理解和推理任务中取得了最先进的性能。
- Motivation: 现有的大规模多模态模型在扩展到3D理解时面临三个主要挑战:点云数据稀疏且不规则;现有模型依赖碎片化架构,使用模态特定的编码器;训练流程通常存在不稳定性和可扩展性差的问题。
- Method: 提出Lemon统一Transformer架构,将3D点云块和语言标记作为单一序列联合处理。开发了结构化分块和标记化方案以保留空间上下文,并采用三阶段训练课程,从对象级识别逐步构建到场景级空间推理能力。
- Result: Lemon在全面的3D理解和推理任务中建立了新的最先进性能,包括对象识别、描述和3D场景中的空间推理。同时展示了随着模型规模和训练数据增加而具有的稳健扩展特性。
- Conclusion: Lemon通过统一架构实现了早期空间-语言融合,消除了冗余编码器,提高了参数效率,支持更有效的模型扩展,为推进现实世界应用中的3D空间智能提供了统一基础。
[109] Adapting Multimodal Foundation Models for Few-Shot Learning: A Comprehensive Study on Contrastive Captioners
N. K. B. M. P. K. B. Narasinghe,Uthayasanker Thayasivam
Main category: cs.CV
TL;DR: 该论文系统研究了CoCa多模态基础模型在少样本图像分类任务上的适应策略,发现数据增强对线性探测和LoRA微调有不同影响,提出混合目标函数能提升性能,并为参数高效微调提供了经验参考设置。
- Motivation: 虽然CoCa等生成-对比混合模型在零样本迁移方面表现出色,但在数据极度稀缺的少样本学习场景下的适应策略研究不足。现有文献主要关注CLIP等双编码器架构,缺乏对CoCa独特潜在空间如何响应参数高效微调的理解。
- Method: 系统评估了从训练免费的混合原型到通过低秩适应(LoRA)进行深度参数适应的层次化策略。研究了数据增强、监督对比损失(SupCon)和交叉熵损失的混合目标函数,分析了训练配置对数据稀缺性的敏感性。
- Result: 发现"增强分歧"现象:强数据增强会降低低样本设置下线性探测的性能,但对稳定LoRA微调至关重要。混合目标函数在不同样本数量下均比标准交叉熵带来一致性能提升。为缩放正则化、秩和采样策略提供了经验参考设置。
- Conclusion: 该研究为生成-对比基础模型的高效适应提供了实证指导,揭示了数据增强策略的微妙影响,证明了混合目标函数的有效性,并为少样本学习场景下的参数高效微调配置提供了实用参考。
[110] Schrodinger Audio-Visual Editor: Object-Level Audiovisual Removal
Weihan Xu,Kan Jen Cheng,Koichi Saito,Muhammad Jehanzeb Mirza,Tingle Li,Yisi Liu,Alexander H. Liu,Liming Wang,Masato Ishii,Takashi Shibuya,Yuki Mitsufuji,Gopala Anumanchipalli,Paul Pu Liang
Main category: cs.CV
TL;DR: SAVE模型通过Schrodinger Bridge实现音频视频联合编辑,在SAVEBench数据集上训练,能同时编辑音视频内容并保持对齐
- Motivation: 联合编辑音频和视觉内容对于精确可控的内容创作至关重要,但面临配对数据不足和模态异质性的挑战
- Method: 提出SAVEBench配对数据集,训练SAVE模型(Schrodinger Audio-Visual Editor),使用端到端流匹配和Schrodinger Bridge直接从源到目标音视频混合学习传输
- Result: SAVE模型能有效移除目标对象的音频和视觉内容,同时保留其余内容,在时间同步和音视频语义对应方面优于音频视频编辑器的组合方法
- Conclusion: 提出的SAVE模型解决了联合音视频编辑的数据和建模挑战,实现了更好的内容对齐和语义一致性
[111] Cross-Level Sensor Fusion with Object Lists via Transformer for 3D Object Detection
Xiangzhong Liu,Jiajie Zhang,Hao Shen
Main category: cs.CV
TL;DR: 提出一种端到端的跨层级融合Transformer方法,将高度抽象的目标列表信息与原始相机图像结合进行3D目标检测,在nuScenes数据集上显著优于视觉基线方法。
- Motivation: 汽车传感器融合系统中,智能传感器和V2X模块通常只提供处理后的目标列表而非原始数据。传统方法分别处理原始数据后在目标层级融合,存在效率问题,需要一种能直接融合不同层级信息的端到端方法。
- Method: 1) 提出跨层级融合Transformer架构,将目标列表作为去噪查询输入Transformer;2) 引入可变形高斯掩码,利用目标列表的位置和尺寸先验指导注意力机制;3) 提出从真实边界框生成伪目标列表的方法,模拟状态噪声和误检漏检。
- Result: 在nuScenes数据集上,该方法相比纯视觉基线有显著性能提升。同时展示了方法对模拟目标列表不同噪声水平和真实检测器的泛化能力。
- Conclusion: 首次实现了跨层级融合,成功将高度抽象的目标列表信息与原始图像特征结合,为汽车传感器融合系统提供了一种有效的端到端3D目标检测解决方案。
[112] SignRAG: A Retrieval-Augmented System for Scalable Zero-Shot Road Sign Recognition
Minghao Zhu,Zhihao Zhang,Anmol Sidhu,Keith Redmill
Main category: cs.CV
TL;DR: 提出基于检索增强生成(RAG)的零样本路标识别框架,使用VLM生成图像描述,检索相关候选,再由LLM推理识别,在303个监管标志上达到95.58%理想图像准确率和82.45%真实道路准确率。
- Motivation: 传统深度学习方法面临路标类别繁多和标注数据不足的挑战,需要一种无需任务特定训练就能准确识别大量路标的方法。
- Method: 采用RAG范式:1) 使用视觉语言模型(VLM)从输入图像生成文本描述;2) 从参考设计向量数据库中检索最相关的候选标志;3) 使用大语言模型(LLM)对检索结果进行推理,实现细粒度识别。
- Result: 在俄亥俄州MUTCD的303个监管标志上验证,理想参考图像准确率达95.58%,具有挑战性的真实道路数据准确率达82.45%。
- Conclusion: 基于RAG的架构能够创建无需任务特定训练即可扩展且准确的路标识别系统,为零样本路标识别提供了可行方案。
[113] Revisiting 2D Foundation Models for Scalable 3D Medical Image Classification
Han Liu,Bogdan Georgescu,Yanbo Zhang,Youngjin Yoo,Michael Baumgartner,Riqiang Gao,Jianing Wang,Gengyan Zhao,Eli Gibson,Dorin Comaniciu,Sasa Grbic
Main category: cs.CV
TL;DR: AnyMC3D:一个从2D基础模型扩展的轻量级3D医学图像分类框架,通过添加少量参数(约1M/任务)实现多任务扩展,在12个任务基准上达到SOTA性能
- Motivation: 当前医学基础模型存在三个关键问题:数据体制偏差、次优适应和任务覆盖不足。需要开发一个可扩展的3D分类框架来解决这些限制
- Method: 基于冻结的2D基础模型,为每个任务添加轻量级插件(约1M参数),支持多视图输入、像素级监督和可解释热图生成
- Result: 在12个涵盖不同病理、解剖和模态的任务基准上达到最先进性能,包括VLM3D挑战赛第一名。发现:1)有效适应对释放FM潜力至关重要;2)通用FM经适当适应可匹敌医学专用FM;3)2D方法优于3D架构
- Conclusion: 首次证明使用单一可扩展框架可在多样化应用中实现SOTA性能,无需单独的任务特定模型,为3D医学图像分类提供了高效解决方案
[114] Qonvolution: Towards Learning High-Frequency Signals with Queried Convolution
Abhinav Kumar,Tristan Aumentado-Armstrong,Lazar Valkov,Gopal Sharma,Alex Levinshtein,Radek Grzeszczuk,Suren Kumar
Main category: cs.CV
TL;DR: Queried-Convolutions (Qonvolutions) 通过将低频信号与查询(如坐标)卷积来增强高频信号学习,在多个高频学习任务中表现出色,特别是在结合高斯溅射进行新视角合成时达到SOTA性能。
- Motivation: 神经网络在处理高频信号时面临频谱偏差和优化困难的问题,现有方法如傅里叶编码虽有改进,但在处理高频信息时仍有提升空间。
- Method: 提出Queried-Convolutions (Qonvolutions),利用卷积的邻域特性,将低频信号与查询(如坐标)进行卷积,从而增强对复杂高频信号的学习能力。
- Result: Qonvolutions在1D回归、2D超分辨率、2D图像回归和新视角合成等多个高频学习任务中显著提升性能,特别是结合高斯溅射进行新视角合成时,在真实复杂场景中达到最先进水平,甚至优于强大的辐射场模型。
- Conclusion: Qonvolutions是一种简单而有效的方法,通过利用卷积的邻域特性来增强高频信号学习,在计算机视觉和图形学的多个高频任务中展现出卓越性能,特别是在新视角合成领域具有重要应用价值。
[115] Predictive Sample Assignment for Semantically Coherent Out-of-Distribution Detection
Zhimao Peng,Enguang Wang,Xialei Liu,Ming-Ming Cheng
Main category: cs.CV
TL;DR: 提出基于预测样本分配(PSA)的SCOOD框架,通过双阈值三元样本分配策略提高ID/OOD样本集纯度,并采用概念对比表示学习损失增强ID/OOD区分能力。
- Motivation: 现有SCOOD方法主要采用聚类式ID样本过滤策略,从无标签数据中选择干净ID样本,将剩余样本作为辅助OOD数据,但这种方法会引入大量噪声样本,影响训练效果。
- Method: 提出PSA框架:1)基于预测能量分的双阈值三元样本分配策略,将不确定的无标签数据分配到丢弃样本集,提高ID/OOD样本集纯度;2)概念对比表示学习损失,在表示空间中扩大ID和OOD样本距离;3)重训练策略使模型充分拟合选择的辅助ID/OOD样本。
- Result: 在两个标准SCOOD基准测试上的实验表明,该方法显著优于现有最先进方法。
- Conclusion: 提出的PSA框架通过改进样本分配策略和表示学习,有效解决了SCOOD中噪声样本问题,显著提升了OOD检测性能。
[116] Sharpness-aware Dynamic Anchor Selection for Generalized Category Discovery
Zhimao Peng,Enguang Wang,Fei Yang,Xialei Liu,Ming-Ming Cheng
Main category: cs.CV
TL;DR: 提出LSP和DAS两个模块,通过损失锐度惩罚和动态锚点选择来减少伪标签噪声,在广义类别发现任务中取得SOTA结果
- Motivation: 当前基于参数化分类的GCD方法使用DINO式伪标签策略,但大型预训练模型对特定视觉模式有偏好,导致对未标记数据编码虚假相关性并生成噪声伪标签
- Method: 提出两个模块:1) 损失锐度惩罚(LSP):通过最小化模型的最坏情况损失锐度来增强参数对小扰动的鲁棒性;2) 动态锚点选择(DAS):基于KNN密度和类别概率为未知类选择代表性样本并分配硬伪标签
- Result: 在多个GCD基准测试上实现了最先进的结果,有效减轻了伪标签噪声
- Conclusion: 提出的LSP和DAS方法能够有效缓解伪标签噪声问题,提高广义类别发现任务的性能
[117] MADTempo: An Interactive System for Multi-Event Temporal Video Retrieval with Query Augmentation
Huu-An Vu,Van-Khanh Mai,Trong-Tam Nguyen,Quang-Duc Dam,Tien-Huy Nguyen,Thanh-Huong Le
Main category: cs.CV
TL;DR: MADTempo是一个视频检索框架,通过统一时序搜索和网络规模视觉定位来解决现有方法在建模多事件时序依赖和处理未见/罕见视觉概念查询方面的不足。
- Motivation: 随着在线平台视频内容的快速增长,需要能够理解复杂事件时序结构的检索系统。现有方法在建模多事件间的时序依赖和处理包含未见或罕见视觉概念的查询方面存在不足。
- Method: 1) 时序搜索机制:通过聚合连续视频片段的相似度分数来捕捉事件级连续性,实现对多事件查询的连贯检索;2) 基于Google图像搜索的回退模块:利用外部网络图像扩展查询表示,弥补预训练视觉嵌入的不足,提高对分布外查询的鲁棒性。
- Result: MADTempo框架提升了现代视频检索系统的时序推理和泛化能力,为大规模视频语料库中实现更具语义感知和适应性的检索铺平了道路。
- Conclusion: 通过统一时序搜索和网络规模视觉定位,MADTempo解决了视频检索中的关键挑战,为理解复杂事件时序结构和处理罕见视觉概念提供了有效解决方案。
[118] Unified Interactive Multimodal Moment Retrieval via Cascaded Embedding-Reranking and Temporal-Aware Score Fusion
Toan Le Ngo Thanh,Phat Ha Huu,Tan Nguyen Dang Duy,Thong Nguyen Le Minh,Anh Nguyen Nhu Tinh
Main category: cs.CV
TL;DR: 提出统一多模态时刻检索系统,通过级联双嵌入管道、时序感知评分机制和智能体引导查询分解,解决现有方法在跨模态噪声、时序建模和模态选择方面的挑战。
- Motivation: 视频内容爆炸式增长需要高效的多模态时刻检索系统,但现有方法面临三个关键挑战:固定权重融合策略无法处理跨模态噪声和模糊查询;时序建模难以捕捉连贯事件序列并惩罚不现实的时间间隔;系统需要手动模态选择,降低可用性。
- Method: 1. 级联双嵌入管道:结合BEIT-3和SigLIP进行广泛检索,通过BLIP-2重排序平衡召回率和精确度。2. 时序感知评分机制:通过波束搜索对大的时间间隔应用指数衰减惩罚,构建连贯事件序列而非孤立帧。3. 智能体引导查询分解:使用GPT-4o自动解释模糊查询,分解为模态特定子查询(视觉/OCR/ASR),并进行自适应分数融合,消除手动模态选择。
- Result: 定性分析表明,该系统能有效处理模糊查询,检索时序连贯的序列,并动态调整融合策略,提升了交互式时刻搜索能力。
- Conclusion: 提出的统一多模态时刻检索系统通过创新的级联检索、时序建模和智能查询分解方法,解决了现有系统的关键限制,推动了交互式时刻搜索能力的发展。
[119] Content Adaptive based Motion Alignment Framework for Learned Video Compression
Tiange Zhang,Xiandong Meng,Siwei Ma
Main category: cs.CV
TL;DR: 提出内容自适应运动对齐框架CAMA,通过三阶段改进提升端到端视频压缩性能:流引导可变形扭曲、多参考质量感知策略、训练自由运动平滑模块,在标准数据集上实现显著BD-rate节省。
- Motivation: 现有端到端视频压缩框架缺乏内容特定适应性,导致压缩性能次优。需要针对不同内容特性自适应调整编码策略,以提升压缩效率。
- Method: 1. 两阶段流引导可变形扭曲机制:通过粗到细偏移预测和掩码调制精化运动补偿;2. 多参考质量感知策略:基于参考质量调整失真权重,应用于分层训练减少误差传播;3. 训练自由模块:根据运动幅度和分辨率下采样帧以获得平滑运动估计。
- Result: 在标准测试数据集上,CAMA框架相比基线模型DCVC-TCM实现24.95% BD-rate(PSNR)节省,同时优于复现的DCVC-DC和传统编解码器HM-16.25。
- Conclusion: 提出的内容自适应运动对齐框架通过内容特定适应性显著提升端到端视频压缩性能,证明了自适应编码策略在神经视频压缩中的有效性。
[120] UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction
Siyuan Yao,Dongxiu Liu,Taotao Li,Shengjie Li,Wenqi Ren,Xiaochun Cao
Main category: cs.CV
TL;DR: 提出UAGLNet网络,通过不确定性建模指导下的全局-局部特征融合,解决遥感图像建筑物提取中特征金字塔差异和全局-局部特征整合不足的问题。
- Motivation: 现有方法使用卷积或自注意力块捕获多尺度特征,但特征金字塔存在固有差异,全局-局部特征整合不足,导致提取结果不准确、模糊。
- Method: 提出UAGLNet:1) 协作编码器采用CNN和Transformer混合层分别捕获局部和全局语义;2) 中间协作交互块缩小深层网络中的特征差异;3) 全局-局部融合模块互补融合特征;4) 不确定性聚合解码器显式估计像素级不确定性提升分割精度。
- Result: 大量实验表明,该方法优于其他最先进方法。
- Conclusion: UAGLNet通过不确定性建模指导的全局-局部特征融合,有效解决了遥感图像建筑物提取中的挑战,取得了优越性能。
[121] SCAdapter: Content-Style Disentanglement for Diffusion Style Transfer
Luan Thanh Trinh,Kenji Doi,Atsuki Osanai
Main category: cs.CV
TL;DR: SCAdapter是一种基于CLIP图像空间的扩散模型风格迁移方法,通过分离内容和风格特征实现照片级真实感迁移,比现有方法更快更有效。
- Motivation: 当前扩散模型在风格迁移中存在两个主要问题:1)难以实现照片级真实感,常产生绘画般效果;2)无法有效分离原始内容风格和风格参考内容特征的影响。
- Method: 提出SCAdapter方法,利用CLIP图像空间分离和整合内容与风格特征。包含三个核心组件:可控风格自适应实例归一化(CSAdaIN)用于精确多风格混合,KVS注入用于目标风格整合,以及风格迁移一致性目标保持过程连贯性。
- Result: SCAdapter在传统和基于扩散的基准测试中显著优于现有方法。通过消除DDIM反演和推理阶段优化,推理速度至少比其他基于扩散的方法快2倍。
- Conclusion: SCAdapter通过有效分离内容和风格特征,实现了更真实、更高效的风格迁移,为实际应用提供了既有效又高效的解决方案。
[122] VLCache: Computing 2% Vision Tokens and Reusing 98% for Vision-Language Inference
Shengling Qin,Hao Yu,Chenxin Wu,Zheng Li,Yizhong Cao,Zhengyang Zhuge,Yuxin Zhou,Wentao Yao,Yi Zhang,Zhengheng Wang,Shuai Bai,Jianwei Zhang,Junyang Lin
Main category: cs.CV
TL;DR: VLCache是一个缓存重用框架,通过复用先前多模态输入的KV缓存和编码器缓存来避免重复计算,显著提升推理速度。
- Motivation: 当相同的多模态输入重复出现时,现有的方法需要昂贵的重复计算。为了消除这种计算开销,需要一种能够有效复用先前计算结果的缓存机制。
- Method: 1)正式识别累积重用误差效应并最小化非前缀缓存重用误差;2)分析模型各层的重要性差异,提出动态、层感知的重计算策略来平衡准确性和效率。
- Result: VLCache在保持与完全重计算相当的准确性的同时,仅需计算2-5%的token,实现了1.2x-16x的TTFT加速。该框架已集成到SGLang中,在实际部署中显著提升了推理速度。
- Conclusion: VLCache通过智能缓存复用机制有效解决了多模态输入重复计算的问题,在保证准确性的同时大幅提升了推理效率,具有实际部署价值。
[123] Scaling Up AI-Generated Image Detection via Generator-Aware Prototypes
Ziheng Qin,Yuheng Ji,Renshuai Tao,Yuxuan Tian,Yuyang Liu,Yipu Wang,Xiaolong Zheng
Main category: cs.CV
TL;DR: 论文提出GAPL框架解决AIGI检测器在数据源多样性增加时出现的性能停滞和下降问题,通过原型学习和两阶段训练实现更好的泛化能力。
- Motivation: 现有通用AIGI检测器通过聚合多个生成器的数据来提高泛化能力,但作者发现存在"先受益后冲突"的悖论:随着数据源多样性增加,检测器性能先停滞后下降。这源于数据层面的异质性导致真实与合成图像特征分布重叠加剧,以及模型层面固定预训练编码器无法适应复杂度上升的瓶颈。
- Method: 提出Generator-Aware Prototype Learning (GAPL)框架:1) 学习一组紧凑的典型伪造原型,构建统一、低方差的特征空间以应对数据异质性;2) 采用两阶段训练方案结合Low-Rank Adaptation,增强判别能力同时保留有价值的预训练知识。
- Result: GAPL在广泛实验中达到最先进性能,在多种GAN和基于扩散的生成器上表现出优越的检测准确率。
- Conclusion: GAPL通过结构化学习范式有效解决了AIGI检测中的"先受益后冲突"困境,建立了更鲁棒和可泛化的决策边界,为通用AIGI检测提供了有效解决方案。
[124] Calibrating Uncertainty for Zero-Shot Adversarial CLIP
Wenjing lu,Zerui Tao,Dongping Zhang,Yuning Qiu,Yang Yang,Qibin Zhao
Main category: cs.CV
TL;DR: 提出针对CLIP模型的新对抗微调方法,通过狄利克雷分布重新参数化输出,同时考虑预测准确性和不确定性对齐,以恢复校准的不确定性并保持对抗鲁棒性。
- Motivation: CLIP在零样本分类中表现良好,但对对抗攻击高度脆弱。现有对抗微调方法主要关注干净样本和对抗样本之间的预测logit匹配,忽视了不确定性校准,可能损害零样本泛化能力。在对抗设置中,扰动不仅降低准确性,还会抑制不确定性,导致严重的校准错误和不可靠的过度自信,这揭示了超越鲁棒性的关键可靠性差距。
- Method: 通过将CLIP输出重新参数化为狄利克雷分布的浓度参数,提出统一表示方法,捕捉相对语义结构和预测置信度大小。设计新的对抗微调目标,在扰动下整体对齐这些分布,超越单一logit锚定,恢复校准的不确定性。
- Result: 在多个零样本分类基准测试中,该方法有效恢复了校准的不确定性,实现了有竞争力的对抗鲁棒性,同时保持了干净样本的准确性。
- Conclusion: 提出的方法成功解决了CLIP在对抗设置中的不确定性校准问题,通过整体分布对齐实现了更好的可靠性和鲁棒性平衡,为可靠的零样本分类系统提供了新思路。
[125] Few-Step Distillation for Text-to-Image Generation: A Practical Guide
Yifan Pu,Yizeng Han,Zhiwei Tang,Jiasheng Tang,Fan Wang,Bohan Zhuang,Gao Huang
Main category: cs.CV
TL;DR: 该论文系统研究了如何将扩散蒸馏技术从类别条件图像生成扩展到开放文本到图像生成,在FLUX.1-lite模型上比较了最先进的蒸馏方法,并提供了实用指南。
- Motivation: 扩散蒸馏在类别条件图像合成中已显著加速,但其在开放文本到图像生成中的应用仍不明确。需要系统研究如何将现有蒸馏技术适配到文本到图像生成任务中。
- Method: 将现有蒸馏方法统一到框架中,在FLUX.1-lite教师模型上进行适配和比较,识别从离散类别标签到自由形式语言提示转换中的关键障碍,并提供输入缩放、网络架构和超参数等实用指南。
- Result: 建立了快速、高保真、资源高效的扩散生成器在真实世界文本到图像应用中部署的坚实基础,提供了开源实现和预训练学生模型。
- Conclusion: 该研究为文本到图像扩散蒸馏提供了系统分析和实用指南,推动了快速、高质量的文本到图像生成在实际应用中的部署。
[126] Light Field Based 6DoF Tracking of Previously Unobserved Objects
Nikolai Goncharov,James L. Gray,Donald G. Dansereau
Main category: cs.CV
TL;DR: 提出一种基于光场图像的目标跟踪方法,无需预训练模型,对复杂视觉行为(如反射)具有鲁棒性,使用可微渲染和姿态优化的高斯溅射作为统一目标表示。
- Motivation: 现有高性能目标跟踪方法通常依赖预捕获的目标视图构建显式参考模型,这限制了它们只能处理已知目标集合,且对视觉复杂外观(如反射)处理效果不佳。
- Method: 从光场输入中提取语义和几何特征,使用视觉基础模型将其转换为视角依赖的高斯溅射,作为支持可微渲染和姿态优化的统一目标表示。
- Result: 在包含挑战性反射目标的光场目标跟踪数据集上,该方法与最先进的基于模型的跟踪器在困难案例中表现相当。
- Conclusion: 该方法为机器人系统中的通用目标跟踪铺平了道路,无需预训练模型即可处理复杂视觉行为。
[127] TWLR: Text-Guided Weakly-Supervised Lesion Localization and Severity Regression for Explainable Diabetic Retinopathy Grading
Xi Luo,Shixin Xu,Ying Xie,JianZhong Hu,Yuwei He,Yuhui Deng,Huaxiong Huang
Main category: cs.CV
TL;DR: TWLR是一个两阶段可解释糖尿病视网膜病变评估框架,通过视觉语言模型整合眼科知识进行分级和病变分类,并利用弱监督语义分割实现病变定位和疾病到健康转换的可视化。
- Motivation: 医学图像分析需要高质量专家标注,但获取像素级标注成本高、耗时长。深度学习在医学影像中缺乏可解释性,限制了临床采用。需要解决标注效率和可解释性问题。
- Method: 两阶段框架:第一阶段使用视觉语言模型整合眼科领域知识,联合执行DR分级和病变分类;第二阶段基于弱监督语义分割的迭代严重程度回归框架,通过迭代细化生成病变显著性图,引导渐进修复机制消除病理特征。
- Result: 在FGADR、DDR和私有数据集上的实验表明,TWLR在DR分类和病变分割方面均取得竞争性性能,实现了无需像素级监督的准确病变定位,并提供疾病到健康转换的可解释可视化。
- Conclusion: TWLR为自动视网膜图像分析提供了更可解释和标注高效的解决方案,通过整合领域知识和弱监督方法,在保持性能的同时提高了临床可解释性。
[128] JoDiffusion: Jointly Diffusing Image with Pixel-Level Annotations for Semantic Segmentation Promotion
Haoyu Wang,Lei Zhang,Wenrui Liu,Dengyang Jiang,Wei Wei,Chen Ding
Main category: cs.CV
TL;DR: JoDiffusion:一种用于语义分割的联合生成扩散框架,能够仅通过文本提示同时生成配对的图像和语义一致的标注掩码,解决了现有方法中的图像-标注语义不一致和可扩展性问题。
- Motivation: 像素级标注成本高且耗时,现有合成数据集生成方法要么需要在图像生成后预测伪标注,要么需要基于手动标注掩码生成图像,导致图像-标注语义不一致或可扩展性问题。
- Method: 1) 在标准潜在扩散模型基础上,引入独立的标注VAE网络将标注掩码映射到与图像共享的潜在空间;2) 调整扩散模型以捕获每个图像及其标注掩码在文本提示条件下的联合分布;3) 开发掩码优化策略减少生成过程中的标注噪声。
- Result: 在Pascal VOC、COCO和ADE20K数据集上的实验表明,JoDiffusion生成的标注数据集在语义分割任务中相比现有方法带来了显著的性能提升。
- Conclusion: JoDiffusion能够仅通过文本提示同时生成配对的图像和语义一致的标注掩码,解决了现有方法的局限性,展示了优越的可扩展性,为训练高性能语义分割模型提供了有效的合成数据生成方案。
[129] What Happens Next? Next Scene Prediction with a Unified Video Model
Xinjie Li,Zhimin Chen,Rui Zhao,Florian Schiffers,Zhenyu Liao,Vimal Bhat
Main category: cs.CV
TL;DR: 提出Next Scene Prediction任务,要求模型基于前序场景预测合理未来,推动统一视频模型进行时空推理。通过结合Qwen-VL和LTX的统一框架,在三阶段训练下实现SOTA性能。
- Motivation: 当前统一模型主要关注文本到视频生成等传统任务,对时空推理潜力探索不足。需要新任务来推动统一视频模型进行更深层次的理解和推理。
- Method: 提出统一框架:Qwen-VL负责理解,LTX负责合成,通过潜在查询嵌入和连接模块桥接。使用三阶段训练:文本到视频预训练、监督微调、带因果一致性奖励的强化学习(GRPO)。
- Result: 模型在新构建的大规模NSP数据集上实现了最先进的性能,提升了通用多模态系统预测未来事件的能力。
- Conclusion: Next Scene Prediction任务成功推动了统一视频模型的时空推理能力,为通用多模态系统的未来发展提供了新方向。
[130] Comprehensive Deployment-Oriented Assessment for Cross-Environment Generalization in Deep Learning-Based mmWave Radar Sensing
Tomoya Tanaka,Tomonori Ikeda,Ryo Yonemoto
Main category: cs.CV
TL;DR: 该研究首次全面评估了空间泛化技术,针对室内人员计数任务,系统比较了多种方法,发现基于幅度的预处理和迁移学习能显著提升雷达传感系统在不同环境下的性能。
- Motivation: 深度学习在射频传感中的实际部署需要解决空间泛化问题,即模型在不同环境中的适应能力。本研究旨在系统评估各种空间泛化技术,为开发鲁棒的雷达传感系统提供指导。
- Method: 使用FMCW MIMO雷达进行室内人员计数,系统研究多种方法:基于幅度的统计预处理(Sigmoid加权和阈值归零)、频域滤波、基于自编码器的背景抑制、数据增强策略和迁移学习。在两个不同布局的环境中收集实验数据进行比较。
- Result: Sigmoid幅度加权在跨环境性能上表现最佳,相比基线方法分别减少50.1%的RMSE和55.2%的MAE。数据增强提供额外但有限的改进(MAE最多提升8.8%)。迁移学习对于大空间变化至关重要,使用540个目标域样本时分别减少82.1%的RMSE和91.3%的MAE。
- Conclusion: 通过结合深度学习模型、基于幅度的预处理和高效的迁移学习,可以开发出在空间变化下保持鲁棒准确性的雷达传感系统。Sigmoid幅度加权是有效的预处理方法,而迁移学习对于大环境差异是必要的。
[131] SneakPeek: Future-Guided Instructional Streaming Video Generation
Cheeun Hong,German Barquero,Fadime Sener,Markos Georgopoulos,Edgar Schönfeld,Stefan Popov,Yuming Du,Oscar Mañas,Albert Pumarola
Main category: cs.CV
TL;DR: SneakPeek是一个基于扩散的自回归框架,用于生成精确的分步教学视频,通过预测性因果适应、未来引导自强制和多提示条件等技术解决现有模型在长时间序列中的一致性和可控性问题。
- Motivation: 教学视频生成在内容创作、教育和人机交互中具有广泛应用前景,但现有的视频扩散模型在生成多步骤的长序列时难以保持时间一致性和可控性。
- Method: 提出了一个未来驱动的流式教学视频生成管道SneakPeek,包含三个关键技术:1) 预测性因果适应,通过因果模型学习下一帧预测和未来关键帧预测;2) 未来引导自强制,采用双区域KV缓存方案解决推理时的曝光偏差问题;3) 多提示条件,提供对多步骤指令的细粒度程序控制。
- Result: 实验结果表明,该方法能够生成时间一致、语义忠实且准确遵循复杂多步骤任务描述的教学视频。
- Conclusion: SneakPeek通过创新的预测和条件机制,有效缓解了时间漂移问题,保持了运动一致性,并实现了交互式视频生成,其中未来提示更新能够动态影响正在进行的流式视频生成。
[132] Motus: A Unified Latent Action World Model
Hongzhe Bi,Hengkai Tan,Shenghao Xie,Zeyuan Wang,Shuhe Huang,Haitian Liu,Ruowen Zhao,Yao Feng,Chendong Xiang,Yinze Rong,Hongyan Zhao,Hanyu Liu,Zhizhong Su,Lei Ma,Hang Su,Jun Zhu
Main category: cs.CV
TL;DR: Motus是一个统一的潜在动作世界模型,通过混合Transformer架构整合理解、视频生成和动作三个专家模块,利用光流学习潜在动作,在仿真和真实世界场景中显著优于现有方法。
- Motivation: 当前方法将理解、世界建模和控制分离为孤立模型,这种碎片化阻碍了多模态生成能力的统一,也妨碍了从大规模异构数据中学习。需要构建一个统一的系统来整合这些功能。
- Method: 提出Motus统一潜在动作世界模型:1)采用混合Transformer架构整合理解、视频生成和动作三个专家模块;2)使用UniDiffuser风格调度器实现不同建模模式间的灵活切换;3)利用光流学习潜在动作,提取像素级"delta动作";4)采用三阶段训练流程和六层数据金字塔进行大规模动作预训练。
- Result: 在仿真场景中:相比X-VLA提升15%,相比Pi0.5提升45%;在真实世界场景中:提升11%~48%。证明了统一建模所有功能和先验知识能显著提升下游机器人任务性能。
- Conclusion: Motus通过统一的潜在动作世界模型成功整合了多模态生成能力,利用现有预训练模型和丰富的可共享运动信息,在仿真和真实世界任务中都取得了显著性能提升,证明了统一建模方法对具身智能系统的重要性。
[133] Comprehensive Evaluation of Rule-Based, Machine Learning, and Deep Learning in Human Estimation Using Radio Wave Sensing: Accuracy, Spatial Generalization, and Output Granularity Trade-offs
Tomoya Tanaka,Tomonori Ikeda,Ryo Yonemoto
Main category: cs.CV
TL;DR: 首次系统比较了FMCW MIMO雷达中基于规则的方法、传统机器学习模型和深度学习模型在无线电波感知中的表现,发现深度学习在相同环境下精度最高但易受领域偏移影响,而基于规则的方法虽无法提供细粒度输出但具有鲁棒性。
- Motivation: 在无线电波感知领域,缺乏对不同方法(基于规则、传统机器学习、深度学习)在FMCW MIMO雷达中的系统比较,特别是在不同室内环境布局下的性能评估。
- Method: 在两种不同布局的室内环境中,系统评估了五种方法:1) 基于规则的连通分量方法;2) 三种传统机器学习模型(k近邻、随机森林、支持向量机);3) 结合卷积神经网络和长短期记忆的深度学习模型。
- Result: 在训练环境中,CNN-LSTM模型精度最高,传统机器学习模型表现中等。但在新布局中,所有基于学习的方法性能显著下降,而基于规则的方法保持稳定。对于人员存在与否的二元检测,所有模型在不同布局中均保持高精度。
- Conclusion: 高容量模型能在相同环境中提供高精度的细粒度输出,但对领域偏移敏感;基于规则的方法虽无法提供细粒度输出但具有鲁棒性。无论模型类型,都存在空间泛化性能与输出粒度之间的明确权衡。
[134] Bi-Erasing: A Bidirectional Framework for Concept Removal in Diffusion Models
Hao Chen,Yiwei Wang,Songze Li
Main category: cs.CV
TL;DR: 提出双向图像引导概念擦除框架Bi-Erasing,通过同时抑制有害概念和增强安全替代方案,平衡概念移除效果与生成质量
- Motivation: 现有概念擦除方法通常采用单向策略(要么抑制目标概念,要么强化安全替代),难以在概念移除和生成质量之间取得平衡
- Method: 基于文本提示和对应图像的联合表示,引入两个解耦的图像分支:负分支负责抑制有害语义,正分支为安全替代提供视觉指导;通过联合优化这两个互补方向,并应用基于掩码的过滤防止无关内容干扰
- Result: 在广泛的实验评估中,Bi-Erasing在平衡概念移除效果和视觉保真度方面优于基线方法
- Conclusion: 提出的双向框架通过同时执行概念抑制和安全增强,实现了擦除效果和生成可用性之间的更好平衡
[135] GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training
Tong Wei,Yijun Yang,Changhao Zhang,Junliang Xing,Yuanchun Shi,Zongqing Lu,Deheng Ye
Main category: cs.CV
TL;DR: GTR-Turbo:一种高效的多模态智能体强化学习方法,无需昂贵教师模型,通过合并训练中的检查点权重作为免费教师,显著提升性能并降低计算成本。
- Motivation: 现有基于视觉语言模型的多模态智能体多轮强化学习方法依赖昂贵的特权教师模型(如GPT、Gemini)提供步级反馈,导致成本高、实用性差且难以复现。
- Method: GTR-Turbo在RL训练过程中合并检查点权重,使用这个合并模型作为"免费"教师,通过监督微调或软logit蒸馏指导后续RL训练,避免依赖特权VLM。
- Result: 在多种视觉智能体任务中,GTR-Turbo将基线模型准确率提升10-30%,相比GTR减少50%的训练时间和60%的计算成本,同时缓解了"熵崩溃"问题。
- Conclusion: GTR-Turbo提供了一种高效实用的多模态智能体强化学习方案,无需昂贵教师模型,显著降低了训练成本和复杂性,同时保持稳定的训练过程。
[136] Towards Test-time Efficient Visual Place Recognition via Asymmetric Query Processing
Jaeyoon Kim,Yoonki Cho,Sung-Eui Yoon
Main category: cs.CV
TL;DR: 提出了一种高效的非对称视觉地点识别框架,使用高容量图库模型离线提取特征,轻量查询网络在线处理,通过地理记忆库和隐式嵌入增强技术降低计算成本并提升性能。
- Motivation: 尽管DINOv2等基础模型在视觉地点识别(VPR)中表现出色,但其高计算成本使得在资源受限设备上部署不切实际。需要一种既能保持高性能又能降低计算负担的解决方案。
- Method: 1) 非对称VPR框架:高容量图库模型离线提取特征,轻量查询网络在线处理;2) 地理记忆库:利用VPR数据库中的地理元数据结构化图库特征,避免昂贵的k-NN计算;3) 隐式嵌入增强:增强查询网络以建模特征变化,弥补其有限容量。
- Result: 该方法显著降低了计算成本,并在性能上超越了现有的非对称检索技术,为资源受限环境下的VPR建立了新的基准。
- Conclusion: 提出的非对称VPR框架通过地理记忆库和隐式嵌入增强技术,成功解决了异构网络兼容性问题,在保持高性能的同时大幅降低了计算需求,适用于资源受限环境。
[137] Forging a Dynamic Memory: Retrieval-Guided Continual Learning for Generalist Medical Foundation Models
Zizhi Chen,Yizhen Gao,Minghao Han,Yizhou Liu,Zhaoyu Chen,Dingkang Yang,Lihua Zhang
Main category: cs.CV
TL;DR: 提出一个结合检索增强生成和动态知识蒸馏的持续学习框架,用于解决多模态生物医学视觉语言模型在持续学习中保持细粒度模态内特征与跨越模态域鸿沟的核心困境。
- Motivation: 多模态生物医学视觉语言模型在持续学习中面临核心困境:如何在保持细粒度模态内特征的同时,跨越不同模态之间的显著域鸿沟。现有方法难以平衡这两个相互冲突的目标。
- Method: 1) 基于PubMed科学论文构建1800万规模的多模态医学检索数据库;2) 首次将检索增强生成集成到持续学习中,采用多模态、多层RAG系统为模型微调提供实时指导;3) 提出动态知识蒸馏框架,根据所需细节级别动态调节参数空间重要性、蒸馏知识粒度和参考数据集分布。
- Result: 在设计的医疗通才任务增量学习基准上进行了广泛实验,该方法在所有指标上都达到了最先进的性能,验证了其临床价值。
- Conclusion: 提出的综合框架有效解决了多模态生物医学视觉语言模型在持续学习中的核心困境,通过检索增强生成和动态知识蒸馏的结合,实现了在保持细粒度特征的同时跨越模态域鸿沟,为医疗AI的持续学习提供了创新解决方案。
[138] Heart Disease Prediction using Case Based Reasoning (CBR)
Mohaiminul Islam Bhuiyan,Chan Hue Wah,Nur Shazwani Kamarudin,Nur Hafieza Ismail,Ahmad Fakhri Ab Nasir
Main category: cs.CV
TL;DR: 本研究比较了三种智能系统方法(模糊逻辑、神经网络、案例推理)用于心脏病预测,最终选择案例推理方法,在预处理后的数据集上取得了97.95%的准确率。
- Motivation: 传统心脏病预测方法依赖医生经验,缺乏精确性,需要更准确的智能系统替代方案来提高预测精度。
- Method: 比较模糊逻辑、神经网络和案例推理三种智能系统方法,最终选择案例推理进行心脏病预测,包括数据预处理(清洗和分割为训练/测试集)和预测阶段。
- Result: 案例推理方法在心脏病预测中达到97.95%的准确率,男性心脏病概率为57.76%,女性为42.24%,吸烟和饮酒是重要风险因素,尤其对男性影响显著。
- Conclusion: 案例推理是有效的智能系统方法,能显著提高心脏病预测准确率,性别差异和生活方式因素(吸烟、饮酒)对心脏病风险有重要影响。
[139] DiRe: Diversity-promoting Regularization for Dataset Condensation
Saumyaranjan Mohanty,Aravind Reddy,Konda Reddy Mopuri
Main category: cs.CV
TL;DR: 提出多样性正则器(DiRe)用于数据集压缩,通过余弦相似度和欧氏距离减少合成数据冗余,提高多样性,可即插即用到现有方法
- Motivation: 现有数据集压缩方法合成的数据集存在显著冗余,需要减少冗余并提高合成数据集的多样性
- Method: 提出由余弦相似度和欧氏距离组成的多样性正则器(DiRe),可即插即用到各种最先进的压缩方法中
- Result: 在CIFAR-10到ImageNet-1K等多个基准数据集上,添加该正则器提高了最先进压缩方法的泛化性能和多样性指标
- Conclusion: DiRe正则器能有效减少数据集压缩中的冗余,提高合成数据多样性,可广泛应用于现有压缩方法
[140] UniVCD: A New Method for Unsupervised Change Detection in the Open-Vocabulary Era
Ziqiang Zhu,Bowei Yang
Main category: cs.CV
TL;DR: UniVCD:基于冻结SAM2和CLIP的无监督开放词汇变化检测方法,无需标注数据即可实现跨场景、跨成像几何的类别无关变化检测
- Motivation: 传统变化检测方法依赖监督学习,性能受数据集限制,标注成本高,且只能检测预定义类别,泛化能力差。随着视觉基础模型(如SAM2和CLIP)的兴起,为放松这些限制提供了新机会。
- Method: 提出UniVCD方法:1)基于冻结的SAM2和CLIP构建无监督开放词汇变化检测;2)引入轻量级特征对齐模块,桥接SAM2的空间细节表示和CLIP的语义先验;3)采用简化的后处理流程抑制噪声和伪变化
- Result: 在多个公开BCD和SCD基准测试中,UniVCD在F1和IoU等关键指标上表现一致强劲,匹配或超越了现有开放词汇变化检测方法
- Conclusion: 基于冻结视觉基础模型和轻量级多模态对齐的无监督变化检测是开放词汇变化检测的实用有效范式,代码和预训练模型将开源
[141] ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning
Feng Zhang,Zezhong Tan,Xinhong Ma,Ziqiang Dong,Xi Leng,Jianfei Zhao,Xin Sun,Yang Yang
Main category: cs.CV
TL;DR: ADHint通过自适应难度感知的提示调度和优势估计,在监督微调和强化学习之间取得更好平衡,提升推理能力和泛化性能。
- Motivation: 现有基于提示的强化学习方法在调度提示比例和估计相对优势时忽略了难度因素,导致学习不稳定和过度模仿离策略提示,需要在探索和模仿之间取得更好平衡。
- Method: 提出ADHint框架:1) 自适应提示调度基于样本难度先验评估每个样本难度并相应调度提示比例;2) 一致性梯度调制和选择性掩码保护防止偏置和破坏性更新;3) 基于推演难度后验的优势估计利用有/无提示推演的相对难度估计各自优势。
- Result: 在多种模态、模型规模和领域的广泛实验中,ADHint在推理能力和分布外泛化方面表现优异,在pass@1和avg@8指标上一致超越现有方法。
- Conclusion: ADHint通过将难度作为提示调度和优势估计的关键因素,实现了探索和模仿的更好平衡,显著提升了推理泛化能力,为结合监督微调和强化学习的优势提供了有效解决方案。
[142] Harmonizing Generalization and Specialization: Uncertainty-Informed Collaborative Learning for Semi-supervised Medical Image Segmentation
Wenjing Lu,Yi Hong,Yang Yang
Main category: cs.CV
TL;DR: UnCoL:基于不确定性协同学习的双教师框架,通过融合基础模型的通用知识和任务特定表示,提升半监督医学图像分割性能
- Motivation: 现有视觉基础模型在医学图像分割中表现出良好的泛化能力,但在标注有限或罕见病理变化的情况下,由于通用先验与任务特定需求不匹配,难以适应专业临床任务
- Method: 提出不确定性协同学习(UnCoL)框架:1)使用冻结的基础模型教师提取视觉和语义表示传递通用知识;2)维护渐进适应的教师捕捉细粒度的任务特定表示;3)通过预测不确定性自适应调节伪标签学习,抑制不可靠监督并稳定模糊区域学习
- Result: 在多种2D和3D分割基准测试中,UnCoL一致优于最先进的半监督方法和基础模型基线,在显著减少标注需求的情况下达到接近全监督的性能
- Conclusion: UnCoL通过双教师框架有效协调了泛化与专业化,为半监督医学图像分割提供了一种平衡通用知识和任务特定需求的解决方案
[143] FID-Net: A Feature-Enhanced Deep Learning Network for Forest Infestation Detection
Yan Zhang,Baoxin Li,Han Sun,Yuhang Gao,Mingtai Zhang,Pei Wang
Main category: cs.CV
TL;DR: 提出FID-Net深度学习模型,从无人机可见光图像检测病虫害树木,并通过三种空间指标进行虫害分析,在新疆天山森林实验中表现优于主流YOLO模型。
- Motivation: 传统方法在大规模、细粒度森林病虫害监测中存在局限,需要准确识别感染树木并分析虫害模式,以支持智能病虫害监测和精准管理。
- Method: 基于YOLOv8n构建FID-Net,引入轻量级特征增强模块提取病害敏感特征,自适应多尺度特征融合模块对齐融合RGB和FEM增强特征,高效通道注意力机制增强判别信息。从检测结果构建虫害分析框架:核密度估计定位感染热点、邻域评估健康树感染风险、DBSCAN聚类识别高密度健康集群作为优先保护区域。
- Result: 在新疆天山32个森林样地的无人机图像实验中,FID-Net达到86.10%精确率、75.44%召回率、82.29% mAP@0.5和64.30% mAP@0.5:0.95,优于主流YOLO模型。分析确认感染树木呈现明显聚类模式。
- Conclusion: FID-Net能够准确区分树木健康状况,结合空间指标为智能病虫害监测、早期预警和精准管理提供可靠数据支持,感染树木的聚类特征支持针对性森林保护。
[144] Diffusion-Based Restoration for Multi-Modal 3D Object Detection in Adverse Weather
Zhijian He,Feifei Liu,Yuwei Li,Zhanpeng Liu,Jintao Cheng,Xieyuanli Chen,Xiaoyu Tang
Main category: cs.CV
TL;DR: DiffFusion:基于扩散模型的多模态3D目标检测框架,通过图像和点云恢复以及双向自适应融合,提升恶劣天气条件下的鲁棒性。
- Motivation: 现有多模态3D目标检测在恶劣天气条件下效果有限,主要受天气引起的图像失真和不同模态数据不对齐问题影响。需要提升系统在挑战性天气条件下的鲁棒性。
- Method: 提出DiffFusion框架:1) Diffusion-IR:基于扩散模型恢复受天气影响的图像;2) Point Cloud Restoration (PCR):利用图像目标线索补偿受损的LiDAR数据;3) BAFAM:双向自适应融合对齐模块,实现动态多模态融合和双向BEV对齐以保持空间一致性。
- Result: 在三个公开数据集上的实验表明,DiffFusion在恶劣天气条件下实现了最先进的鲁棒性,同时保持了良好的干净数据性能。在真实世界DENSE数据集上的零样本结果进一步验证了其泛化能力。
- Conclusion: DiffFusion通过扩散模型恢复和自适应跨模态融合,有效提升了多模态3D目标检测在恶劣天气条件下的鲁棒性,具有实际应用价值,并将开源实现。
[145] DePT3R: Joint Dense Point Tracking and 3D Reconstruction of Dynamic Scenes in a Single Forward Pass
Vivek Alumootil,Tuan-Anh Vu,M. Khalid Jawed
Main category: cs.CV
TL;DR: DePT3R:无需相机位姿的单次前向传播框架,同时实现动态场景的密集点追踪与3D重建
- Motivation: 现有动态场景密集3D点追踪方法通常依赖成对处理、需要已知相机位姿或假设时序输入,限制了灵活性和适用性。同时,大规模无位姿图像集合的3D重建技术取得进展,为统一动态场景理解提供了机会。
- Method: 提出DePT3R框架,通过强大骨干网络提取深度时空特征,使用密集预测头回归像素级映射,在单次前向传播中同时完成密集点追踪和3D重建,无需相机位姿。
- Result: 在多个动态场景挑战性基准测试中验证了DePT3R的优越性能,相比现有最先进方法在内存效率方面有显著提升。
- Conclusion: DePT3R通过统一的多任务学习方法,实现了无需相机位姿的动态场景密集点追踪与3D重建,提高了适应性和效率,特别适用于快速变化的动态环境。
[146] LeafTrackNet: A Deep Learning Framework for Robust Leaf Tracking in Top-Down Plant Phenotyping
Shanghua Liu,Majharulislam Babor,Christoph Verduyn,Breght Vandenberghe,Bruno Betoni Parodi,Cornelia Weltzien,Marina M. -C. Höhne
Main category: cs.CV
TL;DR: 提出CanolaTrack数据集和LeafTrackNet框架,用于复杂作物(油菜)的叶片追踪,在真实条件下实现高精度叶片跟踪
- Motivation: 现有叶片追踪方法存在局限性:要么限于小型物种,要么依赖受限成像条件;通用多目标追踪方法不适合动态生物场景;缺乏大规模真实条件数据集
- Method: 结合YOLOv10叶片检测器和MobileNetV3嵌入网络,采用基于嵌入的记忆关联策略保持叶片身份随时间的一致性
- Result: LeafTrackNet在CanolaTrack数据集上优于现有植物专用追踪器和最先进的多目标追踪基线,HOTA指标提升9%
- Conclusion: 为真实条件下的叶片级追踪提供了新标准,贡献了农业作物叶片追踪的最大数据集,将促进植物表型研究
[147] Weight Space Correlation Analysis: Quantifying Feature Utilization in Deep Learning Models
Chun Kit Wong,Paraskevas Pegios,Nina Weng,Emilie Pi Fogtmann Sejer,Martin Grønnebæk Tolsgaard,Anders Nymark Christensen,Aasa Feragen
Main category: cs.CV
TL;DR: 提出Weight Space Correlation Analysis方法,通过分析分类头权重向量的相关性来量化特征使用,验证深度学习模型是否真正利用临床相关特征而非元数据捷径。
- Motivation: 医学影像深度学习模型容易陷入捷径学习,依赖扫描仪型号等元数据而非真正的临床信号。关键问题是模型是否主动利用嵌入中的这些信息进行最终预测,需要可解释的方法来验证模型可信度。
- Method: 引入权重空间相关性分析,通过测量主临床任务分类头与辅助元数据任务分类头之间的对齐程度来量化特征使用。首先用人工诱导的捷径学习验证方法,然后应用于SA-SonoNet模型分析早产预测任务。
- Result: 成功检测到人工诱导的捷径学习。在早产预测模型中,虽然嵌入包含大量元数据,但早产分类器的权重向量与临床相关因素(如出生体重)高度相关,而与临床无关的采集因素(如扫描仪)解耦。
- Conclusion: 该方法为验证模型可信度提供了工具,证明在没有诱导偏置的情况下,临床模型会选择性地利用与真实临床信号相关的特征,而非元数据捷径。
[148] StarryGazer: Leveraging Monocular Depth Estimation Models for Domain-Agnostic Single Depth Image Completion
Sangmin Hong,Suyoung Lee,Kyoung Mu Lee
Main category: cs.CV
TL;DR: StarryGazer是一个无需真实深度标签的深度补全框架,通过结合单目深度估计模型和稀疏深度信息,在多个数据集上优于现有无监督方法。
- Motivation: 现有无监督深度补全方法需要辅助数据估计深度值,与真实场景不符。单目深度估计模型能产生相对深度图,但无法与稀疏深度图有效结合,简单的仿射变换会导致高误差。
- Method: 使用预训练单目深度估计模型生成相对深度图,通过分割和随机缩放创建合成训练对,训练细化网络结合相对深度图和RGB图像来提升精度和鲁棒性。
- Result: StarryGazer在多个数据集上优于现有无监督方法和变换后的单目深度估计结果,证明框架能有效利用单目深度估计模型并利用稀疏深度信息修正误差。
- Conclusion: 该框架展示了如何在不依赖真实深度标签的情况下,通过结合单目深度估计和稀疏深度信息实现高质量的深度补全,为实际应用提供了有效解决方案。
[149] Intrinsic Image Fusion for Multi-View 3D Material Reconstruction
Peter Kocsis,Lukas Höllein,Matthias Nießner
Main category: cs.CV
TL;DR: 提出Intrinsic Image Fusion方法,从多视角图像重建高质量物理材质,通过单视角先验和扩散模型生成候选分解,使用低维参数函数和鲁棒优化框架融合最一致预测,最终通过逆路径追踪优化参数。
- Motivation: 材质重建高度欠约束,传统基于分析-合成的方法需要昂贵且噪声大的路径追踪。需要更好的约束来优化重建过程。
- Method: 结合单视角先验,使用扩散式材质估计器生成候选分解;拟合显式低维参数函数减少不一致性;提出鲁棒优化框架,通过软每视角预测选择和基于置信度的软多视角内点集,将最一致预测融合到一致的参数材质空间;最后使用逆路径追踪优化低维参数。
- Result: 在合成和真实场景的材质解缠任务中优于现有最先进方法,产生清晰干净的重建结果,适合高质量重光照。
- Conclusion: Intrinsic Image Fusion方法通过融合单视角先验和多视角一致性约束,成功实现了高质量的物理材质重建,解决了传统方法中的约束不足和计算成本高的问题。
[150] A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis
Xianchao Guan,Zhiyuan Fan,Yifeng Wang,Fuqiang Chen,Yanjiang Zhou,Zengyang Che,Hongxue Meng,Xin Li,Yaowei Wang,Hongpeng Wang,Min Zhang,Heng Tao Shen,Zheng Zhang,Yongbing Zhang
Main category: cs.CV
TL;DR: CRAFTS是一个用于病理学文本到图像合成的生成基础模型,通过相关性调节对齐框架解决生成模型在病理图像中的语义漂移问题,能够生成30种癌症类型的多样化病理图像,增强临床任务性能。
- Motivation: 临床级病理人工智能发展受限于高质量标注数据的稀缺性,现有生成模型存在语义不稳定和形态学幻觉问题,影响诊断可靠性。
- Method: 提出CRAFTS框架,采用双阶段训练策略处理280万图像-文本对,引入新颖的对齐机制抑制语义漂移,确保生物学准确性;结合ControlNet实现从核分割掩码和荧光图像等输入对组织架构的精确控制。
- Result: 模型成功生成30种癌症类型的多样化病理图像,质量通过客观指标和病理学家评估验证;CRAFTS增强的数据集提升了分类、跨模态检索、自监督学习和视觉问答等多种临床任务的性能。
- Conclusion: CRAFTS克服了数据稀缺和隐私问题,为病理学提供了无限多样化的标注组织学数据源,有助于开发针对罕见和复杂癌症表型的稳健诊断工具。
[151] Seeing the Whole Picture: Distribution-Guided Data-Free Distillation for Semantic Segmentation
Hongxuan Sun,Tao Wu
Main category: cs.CV
TL;DR: DFSS:一种专门为语义分割设计的数据无关知识蒸馏框架,通过利用教师模型的BN统计信息指导近似分布采样,并采用加权分布渐进蒸馏策略,显著提升了语义分割任务的数据无关蒸馏性能。
- Motivation: 现有数据无关知识蒸馏方法主要针对分类任务设计,忽略了语义分割中对象的空间连续性和结构一致性,导致直接应用于分割任务时性能显著下降。需要专门为语义分割设计的数据无关蒸馏框架。
- Method: 1. 利用教师模型的Batch Normalization统计信息指导近似分布采样,选择更接近原始训练分布的数据;2. 提出加权分布渐进蒸馏策略,动态优先处理可靠样本,逐步引入更具挑战性的样本,模拟人类感知的自然学习过程。
- Result: 在标准基准测试上的广泛实验表明,DFSS在语义分割的数据无关知识蒸馏方法中始终优于现有方法,实现了最先进的结果,同时显著减少了对辅助数据的依赖。
- Conclusion: DFSS通过尊重真实场景的结构和上下文连续性,为语义分割任务提供了有效的解决方案,克服了现有数据无关蒸馏方法在处理空间连续对象时的局限性。
[152] MMDrive: Interactive Scene Understanding Beyond Vision with Multi-representational Fusion
Minghui Hou,Wei-Hsing Huang,Shaofeng Liang,Daizong Liu,Tai-Hao Wen,Gang Wang,Runwei Guan,Weiping Ding
Main category: cs.CV
TL;DR: MMDrive是一个多模态视觉语言模型框架,将传统2D图像理解扩展到3D场景理解,结合占用地图、激光雷达点云和文本描述,通过自适应跨模态融合和关键信息提取,显著提升自动驾驶场景理解性能。
- Motivation: 现有视觉语言模型受限于2D平面图像理解范式,难以感知3D空间信息和进行深度语义融合,导致在复杂自动驾驶环境中表现不佳。需要突破传统图像理解限制,实现更强大的多模态推理能力。
- Method: 提出MMDrive框架,整合三种互补模态:占用地图、激光雷达点云和文本场景描述。引入两个新组件:1)面向文本的多模态调制器,根据问题语义动态加权各模态贡献;2)跨模态抽象器,使用可学习抽象令牌生成紧凑的跨模态摘要,突出关键区域和语义。
- Result: 在DriveLM和NuScenes-QA基准测试中表现优异:DriveLM上BLEU-4得分54.56,METEOR得分41.78;NuScenes-QA上准确率62.7%,显著优于现有自动驾驶视觉语言模型。
- Conclusion: MMDrive成功突破了传统纯图像理解的限制,实现了复杂驾驶环境中的鲁棒多模态推理,为可解释的自动驾驶场景理解提供了新基础。
[153] CoRA: A Collaborative Robust Architecture with Hybrid Fusion for Efficient Perception
Gong Chen,Chaokun Zhang,Pengcheng Lv,Xiaohui Xie
Main category: cs.CV
TL;DR: CoRA提出了一种新颖的协作感知架构,通过混合特征级融合和对象级校正分支,在保证高性能的同时提升通信鲁棒性,显著降低通信量并提高恶劣通信条件下的性能。
- Motivation: 现有协作感知方法(特别是中间融合方法)在恶劣通信条件下性能下降严重,主要原因是数据传输导致的对齐误差,这阻碍了实际部署。需要一种既能保持高性能又具备通信鲁棒性的解决方案。
- Method: CoRA采用混合融合范式,包含两个分支:1)特征级融合分支,选择关键特征进行高效融合以保证性能和可扩展性;2)对象级校正分支,利用语义相关性校正空间位移,保证对姿态误差的鲁棒性。
- Result: 在极端场景下,CoRA相比基线方法在AP@0.7指标上提升约19%,同时通信量减少5倍以上,实现了高性能与通信鲁棒性的平衡。
- Conclusion: 中间融合和晚期融合的优势不是权衡关系而是互补配对。CoRA通过混合架构成功解耦了性能与鲁棒性,为鲁棒协作感知提供了有前景的解决方案。
[154] POLAR: A Portrait OLAT Dataset and Generative Framework for Illumination-Aware Face Modeling
Zhuo Chen,Chengqun Yang,Zhuo Su,Zheng Lv,Jingnan Gao,Xiaoyuan Zhang,Xiaokang Yang,Yichao Yan
Main category: cs.CV
TL;DR: 提出POLAR数据集和POLARNet模型,通过大规模物理校准的单光源数据集和基于流的生成模型,实现可控、可扩展的人脸重光照
- Motivation: 人脸重光照研究受限于大规模、物理一致的光照数据,需要解决数据稀缺问题以实现更真实、可控的重光照效果
- Method: 1) 构建POLAR数据集:包含200+受试者、156个光照方向、多视角和表情的OLAT数据集;2) 开发POLARNet:基于流的生成模型,从单张肖像预测每个光源的OLAT响应
- Result: 建立了统一的照明学习框架,将真实数据、生成合成和物理基础重光照联系起来,形成可扩展、可复现的"鸡与蛋"循环
- Conclusion: POLAR和POLARNet为肖像照明提供了可扩展且可复现的解决方案,通过物理可解释的连续变换实现可控重光照,超越了依赖统计或上下文线索的现有方法
[155] Ego-EXTRA: video-language Egocentric Dataset for EXpert-TRAinee assistance
Francesco Ragusa,Michele Mazzamuto,Rosario Forte,Irene D'Ambra,James Fort,Jakob Engel,Antonino Furnari,Giovanni Maria Farinella
Main category: cs.CV
TL;DR: Ego-EXTRA是一个用于专家-学员辅助的50小时第一人称视频语言数据集,包含真实专家指导学员执行程序性活动的对话,创建了超过15k视觉问答对用于评估多模态大语言模型。
- Motivation: 当前缺乏高质量的第一人称视角专家指导数据集,需要创建能够评估多模态大语言模型在提供专家级辅助方面能力的基准数据集。
- Method: 采用"绿野仙踪"数据收集范式,专家通过可穿戴智能助手从学员的第一人称视角观察活动,回答问题或主动提供建议,记录双向对话并转录,创建视觉问答基准。
- Result: 创建了包含50小时未脚本第一人称视频和超过15k高质量视觉问答对的Ego-EXTRA数据集,评估显示当前多模态大语言模型在提供专家级辅助方面存在局限性。
- Conclusion: Ego-EXTRA是一个具有挑战性的数据集,突显了当前模型在提供专家级用户辅助方面的不足,为第一人称视频语言助手基准提供了公开可用的资源。
[156] STARCaster: Spatio-Temporal AutoRegressive Video Diffusion for Identity- and View-Aware Talking Portraits
Foivos Paraperas Papantoniou,Stathis Galanakis,Rolandos Alexandros Potamias,Bernhard Kainz,Stefanos Zafeiriou
Main category: cs.CV
TL;DR: STARCaster是一个统一的身份感知时空视频扩散模型,能够同时处理语音驱动肖像动画和自由视角说话肖像合成,通过软身份约束和隐式3D感知实现更好的运动多样性和身份保持。
- Motivation: 现有2D语音到视频扩散模型过度依赖参考指导,导致运动多样性有限;而3D感知动画通常依赖预训练的三平面生成器反演,导致重建不完美和身份漂移。需要重新思考参考和几何范式。
- Method: 采用组合方法:1)引入软身份约束而非严格参考条件;2)利用视频数据的多视图特性在2D视频域隐式实现3D感知;3)解耦学习分别训练视图一致性和时间连贯性;4)自强制训练方案学习比推理时更长的时序上下文。
- Result: 综合评估表明,STARCaster能有效泛化到不同任务和身份,在各种基准测试中持续超越先前方法,解决了现有自回归方法中常见的过于静态动画问题。
- Conclusion: STARCaster通过重新思考参考和几何范式,在统一框架中实现了更好的语音驱动肖像动画和自由视角说话肖像合成,为4D视听数据稀缺问题提供了有效解决方案。
[157] Toward Ambulatory Vision: Learning Visually-Grounded Active View Selection
Juil Koo,Daehyeon Choi,Sangwoo Youn,Phillip Y. Lee,Minhyuk Sung
Main category: cs.CV
TL;DR: VG-AVS任务:仅基于当前视觉信息选择最具信息量的下一视点,无需场景记忆或外部知识,提升视觉问答性能
- Motivation: 现有视觉语言模型局限于静态图像推理,而具身智能体需要主动移动获取更信息丰富的视角。需要解决如何仅基于当前视觉信息选择最优下一视点的问题。
- Method: 1) 构建合成数据集,包含自动生成的配对查询-目标视点和问答提示;2) 提出框架:先通过监督微调预训练VLM,再进行基于强化学习的策略优化
- Result: 方法在视点选择基础上实现了强大的问答性能,能泛化到未见过的合成和真实场景。将VG-AVS框架集成到现有基于场景探索的EQA系统中,提高了下游问答准确性。
- Conclusion: VG-AVS任务和框架有效解决了仅基于当前视觉信息选择信息丰富视点的问题,提升了视觉问答性能,并为具身智能体提供了重要的主动视觉能力。
[158] CogniEdit: Dense Gradient Flow Optimization for Fine-Grained Image Editing
Yan Li,Lin Liu,Xiaopeng Zhang,Wei Xue,Wenhan Luo,Yike Guo,Qi Tian
Main category: cs.CV
TL;DR: CogniEdit:通过多模态推理与密集奖励优化的统一框架,解决扩散模型在遵循细粒度指令(颜色、位置、数量等)编辑图像时的困难,实现轨迹级梯度传播
- Motivation: 现有基于指令的图像编辑方法难以处理需要精确属性(如颜色、位置、数量)的细粒度指令。虽然最近的方法使用GRPO进行对齐,但仅在单个采样步骤优化,反馈稀疏,限制了轨迹级控制能力。
- Method: CogniEdit包含三个组件:1)多模态大语言模型将复杂指令分解为可执行指令;2)动态令牌焦点重定位自适应强调细粒度属性;3)基于密集GRPO的优化,在连续去噪步骤间传播梯度,实现轨迹级监督。
- Result: 在基准数据集上的大量实验表明,CogniEdit在平衡细粒度指令遵循、视觉质量和可编辑性保持方面达到了最先进的性能。
- Conclusion: CogniEdit通过结合多模态推理和密集奖励优化,实现了对扩散模型图像编辑的轨迹级控制,显著提升了细粒度指令遵循能力,同时保持了视觉质量和编辑性。
[159] Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?
Jiaqi Wang,Weijia Wu,Yi Zhan,Rui Zhao,Ming Hu,James Cheng,Wei Liu,Philip Torr,Kevin Qinghong Lin
Main category: cs.CV
TL;DR: 提出了Video Reality Test基准,用于评估AI生成视频在音频-视觉耦合下的真实感,发现当前最佳视频生成模型能欺骗大多数视觉语言模型,但人类专家仍能较好识别。
- Motivation: 随着视频生成技术快速发展,AI生成的视频越来越逼真,但现有检测基准大多只关注无音频视频、宽泛叙事领域和分类任务,缺乏对音频-视觉耦合下真实感的系统评估。
- Method: 基于精心挑选的真实ASMR视频构建基准,采用对抗性的创作者-评审者协议:视频生成模型作为创作者试图欺骗评审者,而视觉语言模型作为评审者尝试识别虚假内容。
- Result: 最佳创作者Veo3.1-Fast能欺骗大多数VLM,最强评审者Gemini 2.5-Pro仅达到56%准确率(随机为50%),远低于人类专家的81.25%。添加音频有助于真实-虚假判别,但水印等表面线索仍会显著误导模型。
- Conclusion: 该研究界定了当前视频生成真实感的边界,并揭示了视觉语言模型在感知保真度和音频-视觉一致性方面的局限性,为未来视频生成和检测技术发展提供了重要基准。
[160] CausalCLIP: Causally-Informed Feature Disentanglement and Filtering for Generalizable Detection of Generated Images
Bo Liu,Qiao Qin,Qinghui He
Main category: cs.CV
TL;DR: CausalCLIP:基于因果推理的图像生成检测框架,通过解耦因果与非因果特征提升跨生成模型的泛化能力
- Motivation: 现有生成图像检测方法(包括基于视觉语言模型的方法)产生的表征高度纠缠,混合了任务相关的取证线索(因果特征)和虚假/无关模式(非因果特征),限制了跨不同生成技术的泛化能力。
- Method: 提出CausalCLIP框架:1)使用结构因果模型建模生成过程;2)通过Gumbel-Softmax特征掩码和希尔伯特-施密特独立性准则约束实现统计独立性,解耦因果与非因果特征;3)基于因果推理原则进行针对性过滤,只保留最具可迁移性和判别性的取证线索。
- Result: 在未见过的不同系列生成模型上测试,CausalCLIP表现出强大的泛化能力,相比最先进方法在准确率上提升6.83%,平均精度提升4.06%。
- Conclusion: 通过显式解耦因果特征与非因果特征,并基于因果推理原则进行特征过滤,CausalCLIP能够提取稳定、可迁移的取证线索,显著提升生成图像检测器在多样化生成技术上的泛化性能。
[161] LINA: Learning INterventions Adaptively for Physical Alignment and Generalization in Diffusion Models
Shu Yu,Chaochao Lu
Main category: cs.CV
TL;DR: LINA框架通过因果干预解决扩散模型在物理对齐和OOD指令遵循上的问题,在因果生成任务和Winoground数据集上取得SOTA性能。
- Motivation: 扩散模型在图像和视频生成方面取得了显著成功,但仍然存在两个主要问题:(1) 物理对齐困难,(2) 分布外(OOD)指令遵循能力不足。作者认为这些问题源于模型未能学习因果方向和因果因子的解耦表示。
- Method: 提出了LINA框架,包含三个关键组成部分:1) 引入因果场景图(CSG)和物理对齐探针(PAP)数据集进行诊断干预;2) 在提示和视觉潜在空间中实施针对性指导;3) 采用重新分配的、因果感知的去噪调度策略。
- Result: LINA框架在图像和视频扩散模型中有效增强了物理对齐和OOD指令遵循能力,在具有挑战性的因果生成任务和Winoground数据集上实现了最先进的性能。
- Conclusion: 通过因果干预和自适应学习,LINA框架成功解决了扩散模型在物理对齐和OOD指令遵循方面的核心问题,为因果感知的生成模型提供了新的研究方向。
[162] ShowTable: Unlocking Creative Table Visualization with Collaborative Reflection and Refinement
Zhihang Liu,Xiaoyi Bao,Pandeng Li,Junjie Zhou,Zhaohe Liao,Yefei He,Kaixun Jiang,Chen-Wei Xie,Yun Zheng,Hongtao Xie
Main category: cs.CV
TL;DR: ShowTable是一个结合多模态大语言模型和扩散模型的创新表格可视化生成系统,通过渐进式自我纠正过程,能够根据表格数据生成忠实且美观的信息图表。
- Motivation: 现有生成模型在需要深度推理、规划和精确数据到视觉映射能力的任务上表现不足,特别是在超越一般场景的创造性表格可视化任务中。为了突破这些限制,作者提出了创造性表格可视化这一新挑战性任务。
- Method: 提出ShowTable管道,将多模态大语言模型(MLLM)与扩散模型通过渐进式自我纠正过程协同工作。MLLM作为中央协调器,负责推理视觉计划和判断视觉错误以提供精炼指令,扩散模型执行MLLM的命令。同时开发了三个自动化数据构建管道来训练不同模块,并创建了TableVisBench基准测试。
- Result: 实验表明,使用不同模型实例化的ShowTable管道显著优于基线方法,突显了其有效的多模态推理、生成和错误纠正能力。
- Conclusion: ShowTable成功解决了创造性表格可视化这一挑战性任务,通过MLLM和扩散模型的协同工作实现了高质量的信息图表生成,为数据可视化领域提供了新的解决方案。
[163] KlingAvatar 2.0 Technical Report
Kling Team,Jialu Chen,Yikang Ding,Zhixue Fang,Kun Gai,Yuan Gao,Kang He,Jingyun Hua,Boyuan Jiang,Mingming Lao,Xiaohan Li,Hui Liu,Jiwen Liu,Xiaoqiang Liu,Yuan Liu,Shun Lu,Yongsen Mao,Yingchao Shao,Huafeng Shi,Xiaoyu Shi,Peiqin Sun,Songlin Tang,Pengfei Wan,Chao Wang,Xuebo Wang,Haoxian Zhang,Yuanxing Zhang,Yan Zhou
Main category: cs.CV
TL;DR: KlingAvatar 2.0是一个时空级联框架,通过蓝图关键帧生成和子片段细化,解决了长时高分辨率视频生成的效率问题,并引入协同推理导演增强多模态指令对齐。
- Motivation: 现有头像视频生成模型在生成长时高分辨率视频时存在效率低下、时间漂移、质量下降和提示跟随弱等问题,需要更高效的解决方案。
- Method: 提出时空级联框架:1)先生成低分辨率蓝图视频关键帧捕获全局语义和运动;2)使用首尾帧策略将关键帧细化为高分辨率、时间连贯的子片段;3)引入协同推理导演(三个模态特定LLM专家)增强跨模态指令融合;4)负向导演优化负提示;5)扩展到ID特定的多角色控制。
- Result: 实验表明该模型能高效生成多模态对齐的长时高分辨率视频,具有增强的视觉清晰度、逼真的唇齿渲染与准确的口型同步、强身份保持和连贯的多模态指令跟随能力。
- Conclusion: KlingAvatar 2.0通过时空级联框架和协同推理导演,有效解决了长时高分辨率头像视频生成的效率和多模态对齐挑战,实现了高质量、连贯的视频生成。
[164] Face Identity Unlearning for Retrieval via Embedding Dispersion
Mikhail Zakharov
Main category: cs.CV
TL;DR: 本文研究人脸检索系统中的身份遗忘问题,提出一种基于分散的遗忘方法,使特定身份无法被检索,同时保持其他身份的检索性能。
- Motivation: 人脸识别系统虽然能有效进行身份检索,但存在严重的隐私问题,可能被用于未经授权的身份追踪。现有的机器遗忘方法在人脸检索场景下的适用性尚未充分探索,特别是对于现代基于嵌入的识别模型。
- Method: 评估了多种现有的近似类别遗忘方法(如随机标记、梯度上升、边界遗忘等),并提出了一种简单而有效的基于分散的遗忘方法。该方法通过在超球面上分散目标身份的嵌入表示,防止形成紧凑的身份聚类,从而实现遗忘效果。
- Result: 在标准基准数据集(VGGFace2、CelebA)上的大量实验表明,该方法在实现优越遗忘效果的同时,能够保持模型的检索效用。
- Conclusion: 本文首次系统研究了人脸检索系统中的身份遗忘问题,提出的基于分散的遗忘方法能有效保护特定身份的隐私,同时维持系统对其他身份的正常检索功能,为人脸识别系统的隐私保护提供了实用解决方案。
[165] Automated User Identification from Facial Thermograms with Siamese Networks
Elizaveta Prozorova,Anton Konev,Vladimir Faerman
Main category: cs.CV
TL;DR: 该研究分析热成像技术用于基于面部热图的生物识别,比较不同红外光谱范围,提出使用孪生神经网络进行自动识别,在专有数据集上达到约80%准确率,并探讨可见光与红外混合系统的潜力。
- Motivation: 开发可靠的安全系统需要有效的生物识别技术,热成像技术通过面部热图提供独特的生物特征,不受光照条件影响,具有全天候工作能力,但需要系统研究其在不同红外光谱范围的性能和实际应用要求。
- Method: 1. 比较分析四种红外光谱范围(NIR、SWIR、MWIR、LWIR)的热成像性能;2. 定义热成像相机在生物识别系统中的关键要求(传感器分辨率、热灵敏度、至少30Hz帧率);3. 提出使用孪生神经网络自动化识别过程;4. 在专有数据集上进行实验验证;5. 探索可见光与红外光谱混合系统。
- Result: 1. 提出的方法在专有数据集上达到约80%的识别准确率;2. 确定了热成像相机在生物识别应用中的关键参数要求;3. 发现不同红外光谱范围各有优劣;4. 混合系统显示出克服单一模态局限性的潜力;5. 热成像技术被证明是开发可靠安全系统的有前景技术。
- Conclusion: 热成像技术是基于面部热图的生物识别的有效方法,孪生神经网络能有效自动化识别过程,混合可见光和红外光谱的系统能进一步提升性能,热成像技术是开发可靠安全系统的有前景方向,未来研究应关注多模态融合和实际应用优化。
[166] Unlocking Generalization in Polyp Segmentation with DINO Self-Attention "keys"
Carla Monteiro,Valentina Corbetta,Regina Beets-Tan,Luís F. Teixeira,Wilson Silva
Main category: cs.CV
TL;DR: 提出一个利用DINO自注意力"key"特征进行息肉分割的框架,通过简单卷积解码器实现,在数据受限和挑战性场景中表现出优异的泛化能力。
- Motivation: 当前深度学习息肉分割方法存在泛化能力不足的问题,特别是在数据受限或挑战性场景中,且许多方法依赖复杂的任务特定架构。
- Method: 利用DINO自注意力模块的"key"特征,而不是从ViT最深层提取token,结合简单的卷积解码器来预测息肉掩码,实现增强的性能和更好的泛化性。
- Result: 在域泛化(DG)和极端单域泛化(ESDG)协议下,使用多中心数据集验证,实现了最先进的性能,显著提升了泛化能力,特别是在数据稀缺和挑战性场景中。
- Conclusion: 该框架避免了息肉特定架构,超越了nnU-Net和UM-Net等成熟模型,同时提供了DINO框架演变的系统性基准,量化了架构进步对下游息肉分割性能的具体影响。
[167] Beyond the Visible: Disocclusion-Aware Editing via Proxy Dynamic Graphs
Anran Qi,Changjian Li,Adrien Bousseau,Niloy J. Mitra
Main category: cs.CV
TL;DR: 提出一种图像到视频生成方法,通过用户可编辑的代理动态图(PDG)分离运动规范与外观合成,实现对新显露区域的可控内容生成。
- Motivation: 现有图像到视频方法能产生合理运动,但难以生成可预测的关节运动,同时无法在视频中新显露区域强制执行用户指定的内容。
- Method: 引入轻量级用户可编辑的代理动态图(PDG)来确定性驱动部件运动,使用冻结的扩散先验合成跟随该运动的合理外观。用户标注和重新摆位PDG,计算密集运动流以利用扩散作为运动引导着色器,然后编辑图像新显露区域的外观,利用PDG编码的可见性信息进行潜在空间合成。
- Result: 在关节物体、家具、车辆和可变形物体的图像转短视频任务上,相比现有方法展现出明显优势,实现了可控关节运动和用户对新显露区域的控制。
- Conclusion: 该方法将生成控制(宽松姿态和结构)与可预测控制(新显露区域的外观规范)相结合,无需微调即可实现可控关节运动和用户对新显露区域的控制,开辟了新的图像到视频工作流程。
[168] rNCA: Self-Repairing Segmentation Masks
Malte Silbernagel,Albert Alonso,Jens Petersen,Bulat Ibragimov,Marleen de Bruijne,Madeleine K. Wyburd
Main category: cs.CV
TL;DR: 使用神经细胞自动机(NCA)作为分割掩码的细化机制,通过局部迭代更新修复拓扑错误,提升分割质量
- Motivation: 现有分割模型常产生碎片化或不连续的掩码输出,修复这些拓扑错误通常需要手工设计的细化规则或特定任务架构,需要一种通用有效的细化方法
- Method: 将神经细胞自动机(NCA)重新用作细化机制,训练NCA在不完美掩码和真实标注上学习目标形状的结构特性,仅依赖局部信息进行迭代更新,修复断裂区域、修剪松散碎片
- Result: 在视网膜血管分割中,Dice/clDice提升2-3%,Betti误差显著改善(β0误差减少60%,β1减少20%);在心肌分割中,零样本设置下修复61.5%的断裂案例,ASSD和HD分别降低19%和16%
- Conclusion: 神经细胞自动机可作为有效且广泛适用的分割细化器,通过局部迭代更新修复拓扑错误,提升分割掩码的拓扑一致性
[169] End2Reg: Learning Task-Specific Segmentation for Markerless Registration in Spine Surgery
Lorenzo Pettinari,Sidaty El Hadramy,Michael Wehrli,Philippe C. Cattin,Daniel Studer,Carol C. Hasler,Maria Licci
Main category: cs.CV
TL;DR: End2Reg是一个端到端深度学习框架,联合优化分割和配准,无需弱分割标签,在脊柱手术导航中实现毫米级精度。
- Motivation: 当前脊柱手术导航系统基于术中放射成像和骨锚定标记,具有侵入性、辐射强且工作流程中断的问题。现有无标记RGB-D配准方法依赖弱分割标签,可能传播误差。
- Method: 提出End2Reg端到端深度学习框架,联合优化分割和配准。网络学习专门为配准优化的分割掩码,仅通过配准目标引导,无需直接分割监督。
- Result: 在离体和在体基准测试中达到最先进性能:中位目标配准误差降低32%至1.83mm,均方根误差降低45%至3.95mm。消融研究证实端到端优化显著提高配准精度。
- Conclusion: 该端到端RGB-D配准管道消除了对弱标签和手动步骤的依赖,推进了完全自动、无标记的术中导航。
[170] Computer vision training dataset generation for robotic environments using Gaussian splatting
Patryk Niżeniec,Marcin Iwanowski
Main category: cs.CV
TL;DR: 提出基于3D高斯泼溅的合成数据生成流程,通过物理模拟和两阶段渲染技术创建高质量标注数据集,结合少量真实数据实现最佳检测性能
- Motivation: 解决机器人视觉任务中合成数据与真实数据的领域差距问题,以及手动标注耗时耗力的瓶颈,需要大规模、高质量、自动标注的数据集
- Method: 使用3D高斯泼溅创建逼真环境表示,在游戏引擎中进行物理模拟生成自然布局,采用两阶段渲染技术结合泼溅真实感和代理网格生成的阴影图,自动生成像素级分割掩码
- Result: 实验表明,结合少量真实图像和大量合成数据的混合训练策略,在目标检测和分割任务上获得最佳性能,证实这是实现鲁棒准确模型的高效策略
- Conclusion: 提出的管道能够生成大规模、高质量、自动标注的合成数据集,有效缩小合成与真实数据的领域差距,为机器人视觉任务提供高效的数据解决方案
[171] USTM: Unified Spatial and Temporal Modeling for Continuous Sign Language Recognition
Ahmed Abul Hasanaath,Hamzah Luqman
Main category: cs.CV
TL;DR: USTM框架通过Swin Transformer骨干网络和轻量级时间适配器TAPE,统一建模时空特征,在连续手语识别中实现最先进性能。
- Motivation: 现有CSLR方法使用CNN空间骨干结合时间卷积或循环模块,无法捕捉细粒度手部和面部线索,且难以建模长程时间依赖关系。
- Method: 提出统一时空建模框架USTM,结合Swin Transformer骨干和轻量级时间适配器TAPE,通过位置嵌入增强,从RGB视频中同时捕获细粒度空间特征和长短时时间上下文。
- Result: 在PHOENIX14、PHOENIX14T和CSL-Daily数据集上,USTM在RGB方法和多模态方法中都达到最先进性能,且与多流方法性能相当。
- Conclusion: USTM框架有效解决了CSLR中的时空建模挑战,仅使用RGB输入就能实现强大的手语识别能力,展示了其在CSLR任务中的优势和有效性。
[172] Learning to Generate Cross-Task Unexploitable Examples
Haoxuan Qu,Qiuchi Xiang,Yujun Cai,Yirui Wu,Majid Mirmehdi,Hossein Rahmani,Jun Liu
Main category: cs.CV
TL;DR: 提出MCT-UEG框架,通过元跨任务训练生成广泛不可利用的个人图像,保护在线隐私
- Motivation: 现有方法生成的不可利用示例在实际应用中存在局限性,无法跨不同计算机视觉任务广泛适用,需要提高实用性和泛化能力
- Method: 提出MCT-UEG框架,采用面向平坦最小值的元训练和测试方案,优化不可利用示例生成器,使其能产生广泛不可利用的示例
- Result: 大量实验证明了该框架的有效性
- Conclusion: 提出的MCT-UEG框架能够生成跨任务广泛不可利用的个人图像,提高了不可利用示例生成的实际应用价值
[173] RecTok: Reconstruction Distillation along Rectified Flow
Qingyu Shi,Size Wu,Jinbin Bai,Kaidong Yu,Yujing Wang,Yunhai Tong,Xiangtai Li,Xuelong Li
Main category: cs.CV
TL;DR: RecTok提出了一种新的视觉tokenizer方法,通过流语义蒸馏和重建对齐蒸馏,解决了高维潜在空间中重建质量与生成质量之间的权衡问题,在保持语义丰富性的同时实现了SOTA生成性能。
- Motivation: 现有视觉tokenizer在潜在空间维度与生成质量之间存在根本性权衡,高维tokenizer通常性能不如低维版本。虽然已有工作利用视觉基础模型增强语义,但高维tokenizer仍然表现不佳。
- Method: RecTok采用两种关键创新:1) 流语义蒸馏 - 将视觉基础模型的语义信息蒸馏到流匹配的前向流轨迹中;2) 重建对齐蒸馏 - 引入掩码特征重建损失进一步增强语义。核心洞察是将扩散transformer的训练空间聚焦于流匹配的前向流而非传统潜在空间。
- Result: RecTok在图像重建、生成质量和判别性能方面表现优异,在gFID-50K基准测试中(无论是否使用分类器自由引导)均达到SOTA结果。随着潜在维度增加,性能持续提升。
- Conclusion: RecTok成功克服了高维视觉tokenizer的局限性,通过创新的蒸馏策略实现了语义丰富性与生成质量的平衡,为视觉tokenizer设计提供了新方向。
[174] MineTheGap: Automatic Mining of Biases in Text-to-Image Models
Noa Cohen,Nurit Spingarn-Eliezer,Inbar Huberman-Spiegelglas,Tomer Michaeli
Main category: cs.CV
TL;DR: 本文提出MineTheGap方法,通过遗传算法自动挖掘导致文本到图像模型生成偏见输出的提示词,使用新颖的偏见评分系统评估偏见严重程度。
- Motivation: 文本到图像模型在处理模糊提示时会产生偏见,这些偏见可能带来社会影响(如职业与种族的刻板印象)和用户体验问题(生成冗余而非多样化的图像)。现有方法仅能检测给定提示的偏见,而无法主动发现导致偏见的提示。
- Method: 提出MineTheGap方法:1)使用遗传算法迭代优化提示池,寻找能暴露偏见的提示;2)设计新颖的偏见评分系统,通过比较生成图像分布与LLM生成的文本变体分布来评估偏见严重程度;3)在已知偏见数据集上验证评分系统。
- Result: 方法能够自动挖掘导致文本到图像模型产生偏见的提示词,超越了仅检测给定提示偏见的能力。偏见评分系统能够有效评估偏见的严重程度,并在已知偏见数据集上得到验证。
- Conclusion: MineTheGap提供了一种系统化的方法来发现文本到图像模型的偏见触发因素,有助于更好地理解和缓解模型偏见问题,代码和示例已在项目网页公开。
[175] A Domain-Adapted Lightweight Ensemble for Resource-Efficient Few-Shot Plant Disease Classification
Anika Islam,Tasfia Tahsin,Zaarin Anjum,Md. Bakhtiar Hasan,Md. Hasanul Kabir
Main category: cs.CV
TL;DR: 提出一个轻量级少样本学习框架,结合MobileNet特征提取器和Bi-LSTM注意力分类器,用于数据稀缺环境下的植物叶片病害识别。
- Motivation: 现有深度学习方法依赖大量标注数据和计算密集型模型,不适用于数据稀缺和资源受限的农业环境,需要开发轻量级、高效的少样本学习方案。
- Method: 使用MobileNetV2和MobileNetV3作为特征提取器,结合特征融合技术生成鲁棒特征表示,然后通过增强注意力的Bi-LSTM分类器捕获序列依赖关系,聚焦最相关特征。
- Result: 在PlantVillage数据集上15-shot达到98.23%准确率,接近SOTA的99.98%;在真实环境Dhan Shomadhan数据集上15-shot达到69.28%;模型仅40MB大小,计算复杂度约1.12 GFLOPs。
- Conclusion: 该框架为数据稀缺地区提供了可扩展、移动就绪的植物病害诊断基础,在保持轻量级的同时实现了接近SOTA的性能。
[176] IMILIA: interpretable multiple instance learning for inflammation prediction in IBD from H&E whole slide images
Thalyssa Baiocco-Rodrigues,Antoine Olivier,Reda Belbahri,Thomas Duboudin,Pierre-Antoine Bannier,Benjamin Adjadj,Katharina Von Loga,Nathan Noiry,Maxime Touzot,Hector Roux de Bezieux
Main category: cs.CV
TL;DR: IMILIA是一个用于炎症性肠病组织切片分析的端到端框架,结合多示例学习预测炎症存在,并通过可解释性模块自动计算驱动预测的组织区域标记物。
- Motivation: 随着IBD治疗目标转向组织学缓解,准确评估微观炎症对于评估疾病活动性和治疗反应变得至关重要,需要自动化工具来预测炎症存在并解释预测结果。
- Method: IMILIA包含炎症预测模块(基于多示例学习的模型)和可解释性模块(HistoPLUS用于细胞检测、分割和分类,EpiSeg用于上皮分割),是一个端到端框架。
- Result: 在发现队列中获得交叉验证ROC-AUC 0.83,在两个外部验证队列中获得ROC-AUC 0.99和0.84。可解释性模块显示高预测分数区域免疫细胞密度增加,低分数区域主要为正常上皮细胞。
- Conclusion: IMILIA能够准确预测IBD组织切片的炎症存在,并提供生物学一致的可解释性结果,有助于评估疾病活动性和治疗反应。
[177] Test-Time Modification: Inverse Domain Transformation for Robust Perception
Arpit Jadon,Joshua Niemeijer,Yuki M. Asano
Main category: cs.CV
TL;DR: 提出一种测试时域泛化方法,使用扩散模型将目标域图像映射回源域分布,无需大规模合成数据生成,在分割、检测和分类任务上取得显著提升
- Motivation: 生成式基础模型包含广泛的视觉知识并能产生多样化的图像变体,但用于训练数据增强时合成全面的目标域变体仍然缓慢、昂贵且不完整。需要一种更高效的域泛化方法。
- Method: 在测试时使用扩散模型将目标域图像映射回源域分布,仅需源域描述,保留任务模型,无需大规模合成数据生成。包括增强鲁棒性的集成变体。
- Result: 在真实到真实的域泛化场景中,对分割、检测和分类任务取得一致改进:BDD100K-Night相对提升137%,ImageNet-R提升68%,DarkZurich提升62%。
- Conclusion: 测试时使用扩散模型进行域映射是一种有效的域泛化方法,能够显著提升模型在未知目标分布下的性能,同时避免了传统数据增强方法的计算成本和局限性。
[178] PoseAnything: Universal Pose-guided Video Generation with Part-aware Temporal Coherence
Ruiyan Wang,Teng Hu,Kaihui Huang,Zihan Su,Ran Yi,Lizhuang Ma
Main category: cs.CV
TL;DR: PoseAnything:首个通用姿态引导视频生成框架,支持人类和非人类角色,实现任意骨骼输入,并引入部件感知时序一致性模块和运动解耦CFG策略,显著提升生成质量和泛化能力。
- Motivation: 当前姿态引导视频生成方法仅支持人类姿态输入,对其他主体(如动物、虚构角色)泛化能力差,限制了在动画等领域的应用。需要开发能够处理任意主体姿态的通用框架。
- Method: 1. 提出PoseAnything通用框架,支持任意骨骼输入;2. 引入部件感知时序一致性模块,通过部件分割、对应关系建立和跨帧注意力实现细粒度一致性;3. 提出主体与相机运动解耦CFG策略,通过分别注入控制信息实现独立相机运动控制;4. 构建XPose高质量非人类姿态-视频数据集和自动化标注流程。
- Result: PoseAnything在效果和泛化能力上显著优于现有方法,能够生成高质量的人类和非人类角色视频,实现精确的姿态控制和独立的相机运动控制。
- Conclusion: PoseAnything是首个通用姿态引导视频生成框架,突破了现有方法仅支持人类姿态的限制,通过创新的时序一致性模块和运动解耦策略,实现了对任意主体的高质量视频生成和独立相机控制,为动画制作等应用提供了强大工具。
[179] Transform Trained Transformer: Accelerating Naive 4K Video Generation Over 10
Jiangning Zhang,Junwei Zhu,Teng Hu,Yabiao Wang,Donghao Luo,Weijian Cao,Zhenye Gan,Xiaobin Hu,Zhucun Xue,Chengjie Wang
Main category: cs.CV
TL;DR: T3-Video通过改造预训练Transformer的前向逻辑,引入多尺度权重共享窗口注意力机制,在保持全注意力模型架构不变的情况下,显著降低4K视频生成的计算需求,实现10倍加速同时提升生成质量。
- Motivation: 原生4K视频生成面临计算复杂度随时空分辨率呈二次方爆炸增长的挑战,现有模型难以在效率和质量之间取得平衡。需要一种既能保持预训练模型性能又能大幅降低计算成本的方法。
- Method: 提出T3(Transform Trained Transformer)改造策略,不改变全注意力预训练模型的核心架构,而是优化其前向逻辑。具体包括:多尺度权重共享窗口注意力机制、分层分块以及轴保持全注意力设计,实现"注意力模式"的转换。
- Result: 在4K-VBench上,T3-Video显著优于现有方法:VQA提升4.29分,VTC提升0.08分,同时将原生4K视频生成加速超过10倍。
- Conclusion: T3-Video通过创新的Transformer改造策略,成功解决了4K视频生成的计算效率问题,在保持高质量的同时实现大幅加速,为高分辨率视频生成提供了实用解决方案。
[180] Soul: Breathe Life into Digital Human for High-fidelity Long-term Multimodal Animation
Jiangning Zhang,Junwei Zhu,Zhenye Gan,Donghao Luo,Chuming Lin,Feifan Xu,Xu Peng,Jianlong Hu,Yuansen Liu,Yijia Hong,Weijian Cao,Han Feng,Xu Chen,Chencan Fu,Keke He,Xiaobin Hu,Chengjie Wang
Main category: cs.CV
TL;DR: Soul是一个多模态驱动的数字人动画框架,能从单帧肖像、文本提示和音频生成高保真长期动画,实现精准唇形同步、生动表情和身份保持。
- Motivation: 解决现有数字人动画方法在长期生成一致性、多模态融合和数据稀缺方面的挑战,为虚拟主播、影视制作等实际应用提供高质量解决方案。
- Method: 基于Wan2.2-5B主干,集成音频注入层、多种训练策略和阈值感知码本替换来保证长期一致性;使用步长/CFG蒸馏和轻量VAE优化推理效率;构建Soul-1M百万级标注数据集和Soul-Bench评估基准。
- Result: 在视频质量、视频-文本对齐、身份保持和唇形同步准确性方面显著优于当前领先的开源和商业模型;推理速度提升11.4倍且质量损失可忽略;在虚拟主播、影视制作等实际场景中展示广泛应用潜力。
- Conclusion: Soul框架通过创新的多模态融合、数据构建和效率优化技术,为高质量长期数字人动画提供了有效解决方案,在多个评估维度上达到最先进水平。
[181] Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model
Siyan Chen,Yanfei Chen,Ying Chen,Zhuo Chen,Feng Cheng,Xuyan Chi,Jian Cong,Qinpeng Cui,Qide Dong,Junliang Fan,Jing Fang,Zetao Fang,Chengjian Feng,Han Feng,Mingyuan Gao,Yu Gao,Qiushan Guo,Boyang Hao,Qingkai Hao,Bibo He,Qian He,Tuyen Hoang,Ruoqing Hu,Xi Hu,Weilin Huang,Zhaoyang Huang,Zhongyi Huang,Siqi Jiang,Wei Jiang,Yunpu Jiang,Zhuo Jiang,Ashley Kim,Jianan Kong,Zhichao Lai,Shanshan Lao,Ai Li,Feiya Li,Gen Li,Huixia Li,JiaShi Li,Liang Li,Ming Li,Tao Li,Xian Li,Xiaojie Li,Xiaoyang Li,Xingxing Li,Yameng Li,Yifu Li,Yiying Li,Chao Liang,Ying Liang,Zhiqiang Liang,Wang Liao,Yalin Liao,Heng Lin,Kengyu Lin,Shanchuan Lin,Xi Lin,Zhijie Lin,Feng Ling,Fangfang Liu,Gaohong Liu,Jiawei Liu,Jie Liu,Shouda Liu,Shu Liu,Sichao Liu,Songwei Liu,Xin Liu,Xue Liu,Yibo Liu,Zikun Liu,Zuxi Liu,Junlin Lyu,Lecheng Lyu,Qian Lyu,Han Mu,Xiaonan Nie,Jingzhe Ning,Xitong Pan,Yanghua Peng,Lianke Qin,Xueqiong Qu,Yuxi Ren,Yuchen Shen,Guang Shi,Lei Shi,Yan Song,Yinglong Song,Fan Sun,Li Sun,Renfei Sun,Zeyu Sun,Wenjing Tang,Zirui Tao,Feng Wang,Furui Wang,Jinran Wang,Junkai Wang,Ke Wang,Kexin Wang,Qingyi Wang,Rui Wang,Sen Wang,Shuai Wang,Tingru Wang,Weichen Wang,Xin Wang,Yanhui Wang,Yue Wang,Yuping Wang,Yuxuan Wang,Ziyu Wang,Guoqiang Wei,Wanru Wei,Di Wu,Guohong Wu,Hanjie Wu,Jian Wu,Jie Wu,Ruolan Wu,Xinglong Wu,Yonghui Wu,Ruiqi Xia,Liang Xiang,Fei Xiao,XueFeng Xiao,Pan Xie,Shuangyi Xie,Shuang Xu,Jinlan Xue,Bangbang Yang,Ceyuan Yang,Jiaqi Yang,Runkai Yang,Tao Yang,Yang Yang,Yihang Yang,ZhiXian Yang,Ziyan Yang,Yifan Yao,Zilyu Ye,Bowen Yu,Chujie Yuan,Linxiao Yuan,Sichun Zeng,Weihong Zeng,Xuejiao Zeng,Yan Zeng,Chuntao Zhang,Heng Zhang,Jingjie Zhang,Kuo Zhang,Liang Zhang,Liying Zhang,Manlin Zhang,Ting Zhang,Weida Zhang,Xiaohe Zhang,Xinyan Zhang,Yan Zhang,Yuan Zhang,Zixiang Zhang,Fengxuan Zhao,Huating Zhao,Yang Zhao,Hao Zheng,Jianbin Zheng,Xiaozheng Zheng,Yangyang Zheng,Yijie Zheng,Jiexin Zhou,Kuan Zhu,Shenhan Zhu,Wenjia Zhu,Benhui Zou,Feilong Zuo
Main category: cs.CV
TL;DR: Seedance 1.5 pro是一个用于原生音视频联合生成的基础模型,采用双分支扩散Transformer架构,通过跨模态联合模块和多阶段数据管道实现卓越的音画同步和生成质量。
- Motivation: 随着视频生成技术的进步,需要开发能够统一音频和视觉生成的基础模型,实现高质量的音画同步内容创作。
- Method: 采用双分支扩散Transformer架构,集成跨模态联合模块和专门的多阶段数据管道;实施监督微调(SFT)和基于人类反馈的强化学习(RLHF);引入加速框架提升推理速度10倍以上。
- Result: 模型实现了精确的多语言和方言口型同步、动态电影级摄像机控制、增强的叙事连贯性,成为专业级内容创作的强大引擎。
- Conclusion: Seedance 1.5 pro作为音视频联合生成的基础模型,通过先进架构和优化技术实现了高质量的音画同步生成,现已部署在火山引擎平台供专业内容创作使用。
[182] TARA: Simple and Efficient Time Aware Retrieval Adaptation of MLLMs for Video Understanding
Piyush Bagad,Andrew Zisserman
Main category: cs.CV
TL;DR: TARA通过简单高效的适配方法将多模态大语言模型转化为时间感知的视频-文本嵌入模型,无需视频数据,在时间感知检索基准上超越现有模型
- Motivation: 构建通用的时间感知视频-文本嵌入模型,解决现有模型在时间感知检索方面的不足
- Method: 提出TARA(Time Aware Retrieval Adaptation)方法,无需视频数据,通过适配多模态大语言模型来创建时间感知的视频-文本嵌入模型
- Result: 在时间感知检索基准上超越所有现有视频-文本模型,同时在标准基准上表现优异;还具备否定感知能力,在动词和副词理解上达到SOTA
- Conclusion: TARA产生了强大、通用、时间感知的视频-文本嵌入模型,具有最先进的零样本性能
[183] Pancakes: Consistent Multi-Protocol Image Segmentation Across Biomedical Domains
Marianne Rakic,Siyu Gai,Etienne Chollet,John V. Guttag,Adrian V. Dalca
Main category: cs.CV
TL;DR: Pancakes框架能够自动为医学图像生成多种语义一致的协议分割图,解决了现有模型只能处理单一协议或需要手动提示的问题。
- Motivation: 现有医学图像分割模型通常只能处理单一分割协议,或者需要人工指定分割方式,无法自动为同一图像生成多种语义一致的分割结果。
- Method: 提出Pancakes框架,采用新的问题表述方式,能够为未见过的医学图像自动生成多个协议的多标签分割图,并保持跨图像的语义一致性。
- Result: 在7个保留数据集上的实验表明,该模型在生成多个语义一致的整图分割方面显著优于现有基础模型。
- Conclusion: Pancakes框架解决了医学图像多协议自动分割的问题,实现了现有基础模型无法达到的功能,具有重要的临床应用价值。
[184] 3D Human-Human Interaction Anomaly Detection
Shun Maeda,Chunzhi Gu,Koichiro Kamide,Katsuya Hotta,Shangce Gao,Chao Zhang
Main category: cs.CV
TL;DR: 提出H2IAD新任务检测人类互动异常,开发IADNet模型,通过TASM和DREM模块捕捉时空交互特征,在基准测试中优于现有单人类异常检测方法。
- Motivation: 现有的人类异常检测主要针对单个人,但人类行为本质上是协作的,异常也可能来自人际互动。现有单人类AD模型无法有效捕捉复杂不对称的交互动态,导致检测精度低。
- Method: 提出IADNet模型:1) 时间注意力共享模块(TASM)共享编码的运动嵌入以同步协作运动相关性;2) 距离关系编码模块(DREM)捕捉人际空间配置和社会线索;3) 使用标准化流进行异常评分。
- Result: 在人类-人类运动基准测试中,IADNet在H2IAD任务上优于现有的人类中心异常检测基线方法。
- Conclusion: 成功定义了H2IAD新任务,提出的IADNet模型能有效检测协作3D人类动作中的交互异常,通过时空特征建模显著提升检测性能。
[185] MMhops-R1: Multimodal Multi-hop Reasoning
Tao Zhang,Ziqi Zhang,Zongyang Ma,Yuxin Chen,Bing Li,Chunfeng Yuan,Guangting Wang,Fengyun Rao,Ying Shan,Weiming Hu
Main category: cs.CV
TL;DR: 提出了MMhops基准测试和MMhops-R1框架,用于评估和提升多模态多跳推理能力,通过强化学习优化动态推理路径规划。
- Motivation: 现有多模态大语言模型主要局限于单步推理,缺乏评估和驱动多跳推理能力的复杂基准测试,无法应对需要跨模态整合外部知识的复杂现实挑战。
- Method: 1) 提出MMhops基准数据集,包含Bridging和Comparison两种任务格式;2) 提出MMhops-R1框架,基于多模态检索增强生成,使用强化学习优化动态推理路径规划、目标查询制定和多层次信息合成。
- Result: MMhops-R1在MMhops基准上显著优于强基线模型,证明动态规划和多模态知识整合对复杂推理至关重要。该框架在需要固定跳数推理的任务上也表现出强大的泛化能力。
- Conclusion: 本研究贡献了一个具有挑战性的新基准测试和强大的基线模型,将发布相关代码、数据和权重,以推动这一关键领域的未来研究。
[186] Lighting in Motion: Spatiotemporal HDR Lighting Estimation
Christophe Bolduc,Julien Philip,Li Ma,Mingming He,Paul Debevec,Jean-François Lalonde
Main category: cs.CV
TL;DR: LiMo是一种基于扩散模型的时空光照估计方法,通过生成不同曝光下的镜面和漫反射球体来预测高频细节和准确照度,结合深度和几何条件实现空间控制,最终合成HDRI光照图。
- Motivation: 现有光照估计方法难以同时实现真实的高频细节预测和准确的照度估计,需要一种能够处理时空变化光照的先进方法。
- Method: 基于扩散模型,在大型定制数据集上微调,生成不同曝光下的镜面和漫反射球体;引入新的几何条件(场景相对于目标3D位置的相对位置)增强空间控制;通过可微分渲染将不同曝光的预测组合成单一HDRI图。
- Result: LiMo在空间控制和预测准确性方面达到最先进水平,能够同时实现高质量的高频细节和准确的照度估计。
- Conclusion: LiMo通过创新的扩散模型方法和几何条件,成功解决了时空光照估计中高频细节与照度准确性的平衡问题,为光照估计领域提供了新的解决方案。
[187] DA-SSL: self-supervised domain adaptor to leverage foundational models in turbt histopathology slides
Haoyue Zhang,Meera Chappidi,Erolcan Sayar,Helen Richards,Zhijun Chen,Lucas Liu,Roxanne Wadia,Peter A Humphrey,Fady Ghali,Alberto Contreras-Sanz,Peter Black,Jonathan Wright,Stephanie Harmon,Michael Haffner
Main category: cs.CV
TL;DR: 提出DA-SSL方法,通过自监督域适配将病理基础模型特征对齐到TURBT领域,无需微调基础模型,用于预测膀胱癌新辅助化疗反应
- Motivation: 现有病理基础模型在特定癌症类型(如TURBT)上存在领域偏移问题,因为训练数据中很少包含这类样本,且TURBT样本包含组织碎片和电灼伪影等特征
- Method: 提出轻量级域自适应自监督适配器(DA-SSL),通过自监督学习将预训练病理基础模型特征重新对齐到TURBT领域,不微调基础模型本身
- Result: 在多中心研究中,DA-SSL在五折交叉验证中AUC达到0.77±0.04,外部测试准确率0.84,敏感性0.71,特异性0.91(多数投票)
- Conclusion: 轻量级域自适应与自监督学习能有效增强基于病理基础模型的MIL流程,适用于临床挑战性病理学任务
[188] LongVie 2: Multimodal Controllable Ultra-Long Video World Model
Jianxiong Gao,Zhaoxi Chen,Xian Liu,Junhao Zhuang,Chengming Xu,Jianfeng Feng,Yu Qiao,Yanwei Fu,Chenyang Si,Ziwei Liu
Main category: cs.CV
TL;DR: LongVie 2是一个三阶段训练的端到端自回归视频世界模型框架,通过多模态指导、退化感知训练和历史上下文指导,实现了长视频生成的可控性、高质量和时序一致性,支持长达5分钟的连续视频生成。
- Motivation: 基于预训练视频生成系统构建视频世界模型是实现通用时空智能的重要但具有挑战性的步骤。世界模型需要具备三个关键特性:可控性、长期视觉质量和时序一致性。
- Method: 采用渐进式方法:1) 多模态指导,整合密集和稀疏控制信号提供隐式世界级监督;2) 输入帧的退化感知训练,弥合训练与长期推理之间的差距;3) 历史上下文指导,对齐相邻片段间的上下文信息确保时序一致性。
- Result: LongVie 2在长程可控性、时序一致性和视觉保真度方面达到最先进性能,支持长达5分钟的连续视频生成。同时提出了LongVGenBench基准测试,包含100个高分辨率一分钟视频。
- Conclusion: LongVie 2在视频世界建模方面迈出了重要一步,通过三阶段训练框架有效解决了可控性、长期视觉质量和时序一致性的挑战,为统一的视频世界建模奠定了基础。
[189] DBT-DINO: Towards Foundation model based analysis of Digital Breast Tomosynthesis
Felix J. Dorfner,Manon A. Dorster,Ryan Connolly,Oscar Gentilhomme,Edward Gibbs,Steven Graham,Seth Wander,Thomas Schultz,Manisha Bahl,Dania Daye,Albert E. Kim,Christopher P. Bridge
Main category: cs.CV
TL;DR: 开发了首个数字乳腺断层合成(DBT)基础模型DBT-DINO,在乳腺密度分类和癌症风险预测任务上表现优异,但在病灶检测任务上优势不明显。
- Motivation: 尽管基础模型在医学影像领域显示出潜力,但针对三维成像模态(如数字乳腺断层合成DBT)的基础模型仍未被充分探索。目前尚无DBT基础模型,而DBT是乳腺癌筛查的重要工具。
- Method: 采用DINOv2方法进行自监督预训练,使用来自27,990名患者的487,975个DBT体积中的超过2500万个2D切片。评估了三个下游任务:乳腺密度分类(5000个筛查检查)、5年乳腺癌风险预测(106,417个筛查检查)和病灶检测(393个标注体积)。
- Result: 乳腺密度分类:DBT-DINO准确率0.79,优于MetaAI DINOv2基线(0.73)和DenseNet-121(0.74)。5年风险预测:DBT-DINO AUROC为0.78,与DINOv2的0.76无显著差异。病灶检测:DINOv2平均敏感度0.67优于DBT-DINO的0.62,但DBT-DINO对癌性病灶检测率更高(78.8% vs 77.3%)。
- Conclusion: DBT-DINO是首个DBT基础模型,在乳腺密度分类和癌症风险预测任务上表现优异。但领域特定预训练在检测任务上的优势有限,表明局部检测任务需要进一步的方法学开发。
[190] Do-Undo: Generating and Reversing Physical Actions in Vision-Language Models
Shweta Mahajan,Shreya Kadambi,Hoang Le,Munawar Hayat,Fatih Porikli
Main category: cs.CV
TL;DR: 提出Do-Undo任务和基准,用于评估视觉语言模型对物理动作驱动的场景变换的理解和生成能力,要求模型模拟物理动作结果并准确反转,测试物理因果推理。
- Motivation: 当前视觉语言模型在理解物理世界中的因果关系方面存在不足,特别是对真实世界动作驱动的场景变换缺乏物理合理性判断。现有研究多关注对象级编辑,而忽略了物理动作的可逆性这一重要维度。
- Method: 1. 提出Do-Undo任务:要求模型模拟物理动作结果并准确反转;2. 从真实世界视频中构建大规模可逆动作数据集;3. 设计训练策略以增强动作定位的一致性;4. 建立评估基准测试物理推理能力。
- Result: 实验表明当前模型在物理可逆性方面表现不佳,验证了该任务对评估模型物理推理能力的重要性。Do-Undo为多模态系统的物理推理评估提供了直观测试平台。
- Conclusion: Do-Undo任务填补了视觉语言模型在物理动作理解和生成方面的空白,对具身AI、机器人和物理感知生成建模具有重要意义,为物理推理研究提供了新的评估框架。
[191] SCR2-ST: Combine Single Cell with Spatial Transcriptomics for Efficient Active Sampling via Reinforcement Learning
Junchao Zhu,Ruining Deng,Junlin Guo,Tianyuan Yao,Chongyu Qu,Juming Xiong,Siqi Lu,Zhengyi Lu,Yanfan Zhu,Marilyn Lionts,Yuechen Yang,Yalin Zheng,Yu Wang,Shilin Zhao,Haichun Yang,Yuankai Huo
Main category: cs.CV
TL;DR: SCR2-ST是一个利用单细胞先验知识指导空间转录组学数据高效采集和准确预测的统一框架,通过强化学习主动采样和混合回归-检索网络,在有限测序预算下实现最优数据采集和表达预测。
- Motivation: 空间转录组学(ST)技术昂贵且传统固定网格采样策略导致冗余测量,数据稀缺限制了现有方法。单细胞测序领域提供了丰富的生物学数据可作为有效辅助来源来缓解这一限制。
- Method: 提出SCR2-ST统一框架:1) 单细胞引导的强化学习(SCRL)主动采样,结合单细胞基础模型嵌入和空间密度信息构建生物学基础奖励信号;2) SCR2Net混合回归-检索预测网络,通过多数细胞类型过滤机制抑制噪声匹配,检索的表达谱作为辅助监督的软标签。
- Result: 在三个公共ST数据集上评估,在采样效率和预测准确性方面均达到最先进水平,特别是在低预算场景下表现优异。
- Conclusion: SCR2-ST通过整合单细胞先验知识,实现了空间转录组学数据的高效采集和准确预测,为解决ST数据稀缺和昂贵问题提供了有效解决方案。
[192] MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning
Haoyu Fu,Diankun Zhang,Zongchuang Zhao,Jianfeng Cui,Hongwei Xie,Bing Wang,Guang Chen,Dingkang Liang,Xiang Bai
Main category: cs.CV
TL;DR: MindDrive提出了一种用于自动驾驶的VLA框架,通过将连续动作空间转换为离散语言决策空间,解决了在线强化学习中探索效率低的问题,在Bench2Drive基准测试中取得了显著性能提升。
- Motivation: 当前自动驾驶中的VLA范式主要依赖模仿学习,存在分布偏移和因果混淆问题。在线强化学习虽然能通过试错学习解决这些问题,但在连续动作空间中探索效率低下,阻碍了其在VLA模型中的应用。
- Method: 提出MindDrive框架:使用一个LLM配备两组不同的LoRA参数,分别作为决策专家(负责场景推理和驾驶决策)和动作专家(将语言决策动态映射为可行轨迹)。通过将轨迹级奖励反馈到推理空间,在有限离散语言驾驶决策空间中进行试错学习,而非直接在连续动作空间中操作。
- Result: 在Bench2Drive基准测试中取得了驾驶评分78.04和成功率55.09%的优异表现。这是首个证明在线强化学习在自动驾驶VLA模型中有效性的工作。
- Conclusion: MindDrive通过将连续动作空间转换为离散语言决策空间,有效平衡了复杂场景中的最优决策、类人驾驶行为和在线强化学习的高效探索,为自动驾驶VLA模型提供了一种有效的在线强化学习解决方案。
[193] Charge: A Comprehensive Novel View Synthesis Benchmark and Dataset to Bind Them All
Michal Nazarczuk,Thomas Tanay,Arthur Moreau,Zhensong Zhang,Eduardo Pérez-Pellitero
Main category: cs.CV
TL;DR: 提出了一个用于新视角合成的高质量动态场景数据集,包含多种模态数据和三种基准测试场景
- Motivation: 现有的新视角合成数据集在视觉质量、动态场景覆盖和多模态数据方面存在不足,需要高质量、细节丰富且包含多种标注的数据集来推动4D场景重建和新视角生成模型的发展
- Method: 从高质量动画电影中生成数据集,提供RGB图像、深度、表面法线、物体分割和光流等多种模态数据,并组织成三种基准测试场景:密集多视角相机设置、稀疏相机排列和单目视频序列
- Result: 创建了一个视觉丰富、标注质量高、实验设置多样的数据集,能够支持不同数据稀疏程度下的新视角合成和3D视觉研究
- Conclusion: 该数据集为推进视角合成和3D视觉领域的研究提供了独特资源,特别适合训练和评估最先进的4D场景重建和新视角生成模型
[194] Grab-3D: Detecting AI-Generated Videos from 3D Geometric Temporal Consistency
Wenhan Chen,Sezer Karaoglu,Theo Gevers
Main category: cs.CV
TL;DR: 提出Grab-3D框架,利用三维几何一致性检测AI生成视频,通过灭点分析揭示真实与生成视频的几何差异,在静态场景数据集上验证效果显著。
- Motivation: 随着扩散模型生成视频技术日益逼真,现有检测方法对三维几何模式的探索有限,需要更可靠的检测机制来区分真实与AI生成视频。
- Method: 使用灭点作为三维几何模式的显式表示,构建静态场景的AI生成视频数据集,提出几何感知Transformer框架,包含几何位置编码、时空几何注意力和EMA几何分类器头。
- Result: Grab-3D显著优于现有最先进检测器,在未见过的生成器上表现出强大的跨域泛化能力。
- Conclusion: 三维几何一致性是检测AI生成视频的有效线索,Grab-3D框架通过显式注入几何感知能力,在检测性能和泛化能力方面取得突破。
[195] AgentIAD: Tool-Augmented Single-Agent for Industrial Anomaly Detection
Junwen Miao,Penghui Du,Yi Liu,Yu Wang,Yan Wang
Main category: cs.CV
TL;DR: AgentIAD是一个基于工具驱动的代理框架,用于工业异常检测,通过多阶段视觉检查、感知缩放和比较检索来提升对小缺陷的检测能力,在MMAD数据集上达到97.62%的分类准确率。
- Motivation: 工业异常检测面临正常样本稀缺和缺陷微小、局部化的挑战。现有的单次视觉语言模型往往忽略小异常,缺乏与标准正常模式进行比较的明确机制。
- Method: 提出AgentIAD框架,配备感知缩放器进行局部细粒度分析,以及比较检索器在证据模糊时查询正常样本。使用MMAD数据集构建结构化的感知和比较轨迹,通过监督微调和强化学习两阶段训练,采用感知奖励和行为奖励的双重奖励设计。
- Result: 在MMAD数据集上达到97.62%的分类准确率,创下新的最先进水平,超越了之前基于MLLM的方法,同时产生透明可解释的检查轨迹。
- Conclusion: AgentIAD通过工具驱动的代理框架实现了有效的多阶段工业异常检测,通过逐步观察、缩放和验证来完善判断,为工业检测提供了透明可解释的解决方案。
[196] Towards Interactive Intelligence for Digital Humans
Yiyi Cai,Xuangeng Chu,Xiwei Gao,Sitong Gong,Yifei Huang,Caixin Kang,Kunhang Li,Haiyang Liu,Ruicong Liu,Yun Liu,Dianwen Ng,Zixiong Su,Erwin Wu,Yuhan Wu,Dingkun Yan,Tianyu Yan,Chang Zeng,Bo Zheng,You Zhou
Main category: cs.CV
TL;DR: 提出交互智能新范式Mio框架,实现人格对齐表达、自适应交互和自我进化的数字人,通过五模块统一架构和新建基准测试展现优越性能
- Motivation: 当前数字人主要停留在表面模仿阶段,缺乏真正的智能交互能力。需要超越单纯的外观模仿,实现具有人格对齐表达、自适应交互和自我进化能力的交互智能
- Method: 提出Mio(多模态交互全能化身)端到端框架,包含五个专门模块:思考者、说话者、面部动画师、身体动画师和渲染器,将认知推理与实时多模态具身化统一整合
- Result: 建立了新的基准测试来严格评估交互智能能力,大量实验表明该框架在所有评估维度上都优于现有最先进方法
- Conclusion: 这些贡献推动数字人从表面模仿向智能交互迈进,实现了人格对齐表达、自适应交互和自我进化的交互智能新范式
[197] JoVA: Unified Multimodal Learning for Joint Video-Audio Generation
Xiaohu Huang,Hao Zhou,Qiangpeng Yang,Shilei Wen,Kai Han
Main category: cs.CV
TL;DR: JoVA是一个统一的视频-音频联合生成框架,通过联合自注意力机制实现跨模态交互,无需额外对齐模块,并引入基于面部关键点的嘴部区域损失来提升唇语同步质量。
- Motivation: 现有方法存在两个关键局限:1) 大多只能生成环境音,缺乏生成与唇部动作同步的人类语音的能力;2) 现有统一视频-音频生成方法通常依赖显式融合或模态特定对齐模块,增加了架构复杂性并削弱了原始Transformer的简洁性。
- Method: JoVA采用联合自注意力机制,在Transformer层的视频和音频token之间进行直接高效的跨模态交互,无需额外对齐模块。同时引入基于面部关键点检测的嘴部区域损失,在训练过程中增强对关键嘴部区域的监督,而不影响架构简洁性。
- Result: 在基准测试上的广泛实验表明,JoVA在唇语同步准确性、语音质量和整体视频-音频生成保真度方面优于或与最先进的统一和音频驱动方法相竞争。
- Conclusion: JoVA作为一个优雅的框架,能够实现高质量的多模态生成,为视频-音频联合生成提供了简洁而有效的解决方案。
[198] Feedforward 3D Editing via Text-Steerable Image-to-3D
Ziqi Ma,Hongqiao Chen,Yisong Yue,Georgia Gkioxari
Main category: cs.CV
TL;DR: Steer3D:一种前馈方法,为图像到3D模型添加文本可操控性,实现用语言编辑生成的3D资产
- Motivation: AI生成的3D资产在实际应用中需要易于编辑的能力,现有方法缺乏有效的文本操控性
- Method: 受ControlNet启发,将文本操控性适配到图像到3D生成;构建可扩展的数据引擎自动生成数据;采用基于流匹配训练和直接偏好优化(DPO)的两阶段训练方案
- Result: 相比竞争方法,Steer3D更忠实遵循语言指令,与原始3D资产保持更好一致性,速度提升2.4倍到28.5倍
- Conclusion: Steer3D证明仅需10万数据即可为预训练的图像到3D生成模型添加新的文本操控模态,实现高效3D资产编辑
[199] LASER: Layer-wise Scale Alignment for Training-Free Streaming 4D Reconstruction
Tianye Ding,Yiming Xie,Yiqing Liang,Moitreya Chatterjee,Pedro Miraldo,Huaizu Jiang
Main category: cs.CV
TL;DR: LASER:一种无需训练的流式视频重建框架,通过层尺度对齐将离线模型转换为流式系统,解决深度尺度不一致问题,实现高效实时重建。
- Motivation: 现有前馈重建模型(如VGGT和π³)虽然重建质量优秀,但二次内存复杂度使其无法处理流式视频,限制了实际部署。现有流式方法需要大量重新训练,且无法充分利用先进离线模型的几何先验。
- Method: 提出LASER框架:1)通过连续时间窗口预测对齐将离线模型转换为流式系统;2)发现简单相似变换对齐因深度层尺度不一致而失败;3)引入层尺度对齐:将深度预测分割为离散层,计算每层尺度因子,并在相邻窗口和时间戳间传播。
- Result: 在相机姿态估计和点云重建方面达到最先进性能,在RTX A6000 GPU上以14 FPS运行,峰值内存仅6 GB,能够处理公里级流式视频。
- Conclusion: LASER提供了一种无需训练的方法,将高质量离线重建模型高效转换为流式系统,解决了深度尺度对齐问题,实现了实际部署的可行性。
[200] I-Scene: 3D Instance Models are Implicit Generalizable Spatial Learners
Lu Ling,Yunhao Ge,Yichen Sheng,Aniket Bera
Main category: cs.CV
TL;DR: 重新编程预训练的3D实例生成器作为场景级学习器,利用模型中心的空间监督而非数据集监督,解锁生成器的可迁移空间知识,实现对新布局和对象组合的泛化。
- Motivation: 现有基于学习的方法在有限场景数据集上建立空间理解,限制了向新布局的泛化能力。需要解决3D场景生成中的泛化挑战。
- Method: 重新编程预训练的3D实例生成器作为场景级学习器,用模型中心的空间监督替代数据集监督。采用以视角为中心的场景空间表述,直接从实例模型中学习空间关系。
- Result: 即使训练场景是随机组合的对象,空间推理能力仍然涌现。生成器的可迁移场景先验为从纯几何线索推断邻近性、支撑和对称性提供了丰富的学习信号。
- Conclusion: 3D实例生成器是隐式的空间学习器和推理器,为交互式3D场景理解和生成的基础模型指明了方向。
[201] Recurrent Video Masked Autoencoders
Daniel Zoran,Nikhil Parthasarathy,Yi Yang,Drew A Hudson,Joao Carreira,Andrew Zisserman
Main category: cs.CV
TL;DR: RVM是一种基于循环神经网络的视频掩码自编码器,通过聚合密集图像特征来捕捉时空结构,在视频任务上达到SOTA性能,同时在参数效率上比竞品高30倍。
- Motivation: 现有视频表示学习方法通常需要复杂的训练目标或知识蒸馏,计算成本高且难以捕捉长时程的时空结构。需要一种更高效、通用的视频编码器。
- Method: 使用基于Transformer的循环神经网络聚合密集图像特征,通过非对称掩码预测任务和标准像素重建目标进行学习,实现高效的特征传播。
- Result: 在动作识别、点/目标跟踪等视频任务上达到与VideoMAE、V-JEPA等SOTA模型竞争的性能;在几何和密集空间理解任务上优于DINOv2等图像模型;小模型无需知识蒸馏,参数效率比竞品高30倍。
- Conclusion: RVM是一种高效通用的视频编码器,通过循环结构实现长时程稳定特征传播,学习到丰富的场景语义、结构和运动表示,在参数效率和性能上都有显著优势。
[202] Towards Scalable Pre-training of Visual Tokenizers for Generation
Jingfeng Yao,Yuda Song,Yucong Zhou,Xinggang Wang
Main category: cs.CV
TL;DR: VTP提出统一的视觉分词器预训练框架,通过联合优化图像-文本对比、自监督和重建损失,解决传统VAE预训练中低层信息偏置问题,实现更好的生成扩展性。
- Motivation: 传统基于重建的视觉分词器训练产生偏向低层信息的潜在空间,导致像素级精度提升无法转化为生成质量提升,形成"预训练扩展问题"。
- Method: 提出VTP统一框架,首次联合优化图像-文本对比损失、自监督损失和重建损失,使潜在空间能简洁表示高层语义。
- Result: VTP在ImageNet上达到78.2%零样本准确率和0.36 rFID,生成收敛速度比先进蒸馏方法快4.1倍,且具有更好的扩展性:仅增加预训练FLOPS就能实现65.8% FID改进。
- Conclusion: 理解是生成的关键驱动力,VTP框架解决了视觉分词器预训练扩展问题,证明高层语义表示对生成模型的重要性,且扩展性远超传统自编码器。
[203] LitePT: Lighter Yet Stronger Point Transformer
Yuanwen Yue,Damien Robert,Jianyuan Wang,Sunghwan Hong,Jan Dirk Wegner,Christian Rupprecht,Konrad Schindler
Main category: cs.CV
TL;DR: LitePT:一种新的3D点云处理骨干网络,早期层使用卷积提取低层几何特征,深层使用注意力机制捕获高层语义,通过PointROPE位置编码保持空间信息,在减少参数和计算量的同时达到或超越SOTA性能。
- Motivation: 当前3D点云处理网络同时包含卷积层和注意力块,但如何最佳组合它们尚不明确。研究发现卷积适合在早期高分辨率层提取低层几何特征,而注意力在深层低分辨率层更高效地捕获高层语义和上下文信息。
- Method: 提出LitePT模型,早期阶段使用卷积,深层切换到注意力机制。为避免丢弃冗余卷积层时丢失空间布局信息,引入无需训练的新型3D位置编码PointROPE。
- Result: LitePT比最先进的Point Transformer V3参数减少3.6倍,运行速度快2倍,内存使用减少2倍,但在多个任务和数据集上匹配甚至超越其性能。
- Conclusion: 通过合理组合卷积和注意力机制,可以在显著减少计算资源的同时保持或提升3D点云处理性能,为高效点云网络设计提供了新思路。
[204] DiffusionBrowser: Interactive Diffusion Previews via Multi-Branch Decoders
Susung Hong,Chongjian Ge,Zhifei Zhang,Jui-Hsien Wang
Main category: cs.CV
TL;DR: DiffusionBrowser:一个模型无关的轻量级解码器框架,可在去噪过程中任何时间点交互式生成预览,支持RGB和场景内在表示,速度超实时4倍以上,并提供新的控制能力
- Motivation: 视频扩散模型虽然革新了视频生成,但存在不精确、速度慢、生成过程不透明的问题,用户在生成过程中长时间处于"黑盒"状态
- Method: 提出DiffusionBrowser框架,训练轻量级解码器在去噪过程的任何时间步或Transformer块生成多模态预览(RGB和场景内在表示),支持随机性重注入和模态引导进行交互控制
- Result: 能够以超过4倍实时速度生成预览(4秒视频不到1秒),预览与最终视频具有一致的外观和运动,实现了中间步骤的交互式引导控制,并揭示了去噪过程中场景和物体的组合方式
- Conclusion: DiffusionBrowser解决了视频扩散模型的透明度和速度问题,提供了交互式预览和控制能力,同时为理解去噪过程的内部机制提供了新工具
cs.MM
[205] AutoMV: An Automatic Multi-Agent System for Music Video Generation
Xiaoxuan Tang,Xinping Lei,Chaoran Zhu,Shiyun Chen,Ruibin Yuan,Yizhi Li,Changjae Oh,Ge Zhang,Wenhao Huang,Emmanouil Benetos,Yang Liu,Jiaheng Liu,Yinghao Ma
Main category: cs.MM
TL;DR: AutoMV是一个多智能体系统,能够直接从完整歌曲生成音乐视频,解决了现有方法生成短视频片段、缺乏音乐结构对齐和时间一致性的问题。
- Motivation: 现有音乐到视频生成方法只能产生短小、不连贯的视频片段,无法与音乐结构、节拍和歌词对齐,且缺乏时间一致性,难以生成完整的音乐视频。
- Method: AutoMV采用多智能体系统:首先提取音乐属性(结构、人声轨道、时间对齐歌词),然后通过编剧和导演智能体设计脚本、角色档案和摄像机指令,调用图像生成器生成关键帧,使用不同视频生成器处理"故事"和"歌手"场景,并通过验证智能体评估输出。
- Result: AutoMV在提出的包含4大类12个细粒度标准的评测基准中显著优于现有基线方法,在所有四个类别上都表现出色,缩小了与专业音乐视频的差距。
- Conclusion: AutoMV展示了多智能体系统在生成完整音乐视频方面的有效性,虽然大型多模态模型作为自动评测工具具有潜力,但仍落后于人类专家,未来还有改进空间。
[206] JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation
Jianghan Chao,Jianzhang Gao,Wenhui Tan,Yuchong Sun,Ruihua Song,Liyun Ru
Main category: cs.MM
TL;DR: JointAVBench是一个新的音频-视频联合理解基准测试,通过自动化流程生成严格需要视听联合推理的问题,涵盖5个认知维度、4种音频类型和3种场景跨度,用于全面评估多模态大语言模型。
- Motivation: 现有数据集在评估多模态大语言模型(Omni-LLMs)时存在不足,未能全面覆盖三个关键方面:1)多模态依赖性(问题不能仅通过视觉或音频单独回答);2)多样的音频信息类型;3)不同的场景跨度。这限制了严格而全面的评估。
- Method: 提出自动化流程,利用最先进的视觉大模型、音频大模型和通用大模型合成严格需要音频-视频联合理解的问题和答案。构建的JointAVBench基准包含5个认知维度、4种音频信息类型(语音、声音事件、音乐、人声特征)和3种场景跨度(单场景、跨场景、全场景)。
- Result: 评估了领先的纯视觉、纯音频和多模态大语言模型。结果显示,即使表现最好的多模态大语言模型平均准确率也只有62.6%,虽然优于单模态基线,但在跨场景推理等方面仍有很大改进空间。
- Conclusion: JointAVBench填补了现有基准测试的空白,能够严格评估多模态大语言模型的音频-视频联合理解能力。结果表明当前模型在跨场景推理等复杂任务上仍有显著不足,为未来研究提供了重要方向。
cs.CL
[207] Enhancing Urban Visual Place Recognition for Crowdsourced Flood Imagery via LLM-Guided Attention
Fengyi Xu,Jun Ma,Waishan Qiu,Cui Guo
Main category: cs.CL
TL;DR: VPR-AttLLM是一个模型无关的框架,通过将大语言模型的语义推理和地理空间知识集成到现有视觉地点识别系统中,提升对社交媒体街景图像(如洪水灾害图像)的地理定位性能。
- Motivation: 社交媒体提供的街景图像虽然能实时反映城市洪水等危机事件,但往往缺乏可靠的地理元数据。现有的视觉地点识别模型在处理这类图像时,由于视觉失真和跨源场景的域偏移,性能显著下降。
- Method: 提出VPR-AttLLM框架,利用大语言模型识别城市环境中具有位置信息的区域并抑制瞬态视觉噪声,通过注意力引导的描述符增强来改进检索性能,无需模型重新训练或额外数据。
- Result: 在扩展基准测试(包括SF-XL、合成洪水场景和新的HK-URBAN数据集)中,将VPR-AttLLM与三种最先进的VPR模型(CosPlace、EigenPlaces、SALAD)集成,召回性能持续提升,相对增益通常在1-3%,在最具挑战性的真实洪水图像上可达8%。
- Conclusion: VPR-AttLLM不仅提高了检索准确性,还为LLM引导的多模态融合在视觉检索系统中建立了可推广的范式。其即插即用设计、强大的跨源鲁棒性和可解释性,突显了其在可扩展城市监测和危机图像快速地理定位方面的潜力。
[208] KH-FUNSD: A Hierarchical and Fine-Grained Layout Analysis Dataset for Low-Resource Khmer Business Document
Nimol Thuon,Jun Du
Main category: cs.CL
TL;DR: KH-FUNSD是首个公开可用的高棉语表单文档理解数据集,包含收据、发票和报价单,采用三层标注框架支持布局分析和信息提取。
- Motivation: 高棉语作为柬埔寨超过1700万人使用的语言,在文档AI工具开发中关注度低,特别是商业文档资源匮乏,而这类文档对公共管理和私营企业至关重要。
- Method: 提出三层标注框架:1)区域检测(标题、表单字段、页脚等核心区域);2)FUNSD风格标注(问题、答案、标题等实体及其关系);3)细粒度分类(字段标签、值、标题、页脚、符号等语义角色)。
- Result: 建立了首个公开可用的高棉语商业文档数据集,为多个领先模型提供了基准测试结果,首次为非拉丁语低资源脚本的商业文档分析提供了基线。
- Conclusion: KH-FUNSD填补了高棉语文档AI资源的空白,其多层标注框架支持全面的布局分析和精确信息提取,为低资源非拉丁语脚本的文档理解研究提供了重要资源。
astro-ph.IM
[209] Pre-training vision models for the classification of alerts from wide-field time-domain surveys
Nabeel Rehemtulla,Adam A. Miller,Mike Walmsley,Ved G. Shah,Theophile Jegou du Laz,Michael W. Coughlin,Argyro Sasli,Joshua Bloom,Christoffer Fremling,Matthew J. Graham,Steven L. Groom,David Hale,Ashish A. Mahabal,Daniel A. Perley,Josiah Purdum,Ben Rusholme,Jesper Sollerman,Mansi M. Kasliwal
Main category: astro-ph.IM
TL;DR: 本文探讨在时域天文学警报分类中采用预训练模型和标准化架构的效果,发现预训练在星系图像上的模型性能优于传统定制CNN,且标准化架构更高效。
- Motivation: 时域天文学研究通常使用定制CNN架构并从零开始训练,而计算机视觉领域已普遍采用预训练模型和标准化架构。随着LSST等大规模巡天项目的到来,需要探索更先进的视觉模型实践。
- Method: 比较不同预训练方案和标准化模型架构在警报分类任务上的性能:包括在ImageNet上预训练、在Galaxy Zoo星系图像上预训练、从零开始训练,并与传统定制CNN基线进行比较。
- Result: 1) 预训练模型性能匹配或优于传统定制CNN;2) 在Galaxy Zoo星系图像上预训练的效果优于ImageNet预训练或从零训练;3) 标准化架构比定制CNN基线更优化,推理时间和内存需求显著减少,尽管参数更多。
- Conclusion: 在LSST等图像差分巡天时代,时域天文学应转向采用计算机视觉领域的最新实践,使用预训练模型和标准化架构,以获得更好的性能、时间和数据效率。
[210] Semantic search for 100M+ galaxy images using AI-generated captions
Nolan Koblischke,Liam Parker,Francois Lanusse,Irina Espejo Morales,Jo Bovy,Shirley Ho
Main category: astro-ph.IM
TL;DR: 开发了一个用于天文图像的语义搜索引擎AION-Search,利用视觉语言模型生成描述,通过对比对齐训练,实现了对1.4亿张未标记星系图像的语义搜索,在罕见现象发现上达到SOTA性能。
- Motivation: 传统手动标注方法限制了从数十亿张望远镜星系图像中探索科学有趣现象的能力,需要一种能够处理大规模未标记图像数据的语义搜索解决方案。
- Method: 使用视觉语言模型为星系图像生成描述,然后通过对比对齐将预训练的多模态天文基础模型与这些嵌入描述对齐,生成可搜索的嵌入向量。还引入了基于VLM的重排序方法。
- Result: AION-Search在罕见现象发现的零样本性能上达到SOTA,尽管训练数据是随机选择而非刻意筛选的。VLM重排序方法在top-100结果中使最具挑战性目标的召回率几乎翻倍。
- Conclusion: 首次实现了可扩展到1.4亿张星系图像的灵活语义搜索,为大规模未标记科学图像档案的语义搜索提供了通用方法,可扩展到地球观测、显微镜等领域。
cs.RO
[211] Benchmarking Tesla's Traffic Light and Stop Sign Control: Field Dataset and Behavior Insights
Zheng Li,Peng Zhang,Shixiao Liang,Hang Zhou,Chengyuan Ma,Handong Yao,Qianwen Li,Xiaopeng Li
Main category: cs.RO
TL;DR: 本文通过实地实验收集特斯拉交通信号灯和停车标志控制系统的车辆轨迹数据,开发了ADAS与交通控制设备交互行为分类,并校准了全速度差模型来量化描述各种行为模式。
- Motivation: 高级驾驶辅助系统与交通控制设备的交互对交通运行有重要影响,但这一领域缺乏深入的实证研究。需要理解ADAS如何感知和响应交通信号灯、停车标志等设备,为系统设计、安全评估和交通仿真提供基础。
- Method: 设计并执行了在不同限速和交通控制设备类型下的实地实验,收集同步的高分辨率车辆轨迹数据和驾驶员视角视频。开发了ADAS-TCD交互行为分类(停止、加速、跟车),并校准全速度差模型来量化描述每种行为模式。
- Result: 识别出跟车行为的阈值(约90米)。校准结果显示:停止行为对期望速度偏差和相对速度都有强烈响应;加速行为更为保守;交叉口跟车行为比标准跟车行为具有更平滑的动态特性和更小的车头时距。
- Conclusion: 建立的数据集、行为定义和模型特征为未来的仿真、安全评估和ADAS-TCD交互逻辑设计提供了基础。数据集已在GitHub上公开。
[212] ReGlove: A Soft Pneumatic Glove for Activities of Daily Living Assistance via Wrist-Mounted Vision
Rosh Ho,Jian Zhang
Main category: cs.RO
TL;DR: ReGlove将低成本商业气动手套改造为视觉引导辅助矫形器,通过手腕摄像头和边缘计算实现无需可靠肌肉信号的上下文感知抓握,成本低于250美元。
- Motivation: 慢性上肢障碍影响全球数百万人,但现有辅助技术要么过于昂贵,要么依赖不可靠的生物信号,需要更经济、可靠的解决方案。
- Method: 集成手腕摄像头与Raspberry Pi 5边缘计算引擎,采用实时YOLO计算机视觉模型,将商业气动康复手套改造为视觉引导辅助系统。
- Result: 实现96.73%的抓握分类准确率,端到端延迟低于40毫秒;在YCB物体操作测试中达到82.71%成功率,在27项日常生活活动中表现可靠。
- Conclusion: ReGlove为基于视觉的上肢辅助提供了技术基础,成本低于250美元,使用全商业组件,可惠及传统EMG控制设备无法覆盖的人群。
[213] Aion: Towards Hierarchical 4D Scene Graphs with Temporal Flow Dynamics
Iacopo Catalano,Eduardo Montijano,Javier Civera,Julio A. Placed,Jorge Pena-Queralta
Main category: cs.RO
TL;DR: Aion框架将时间流动态嵌入到分层3D场景图中,通过基于图的稀疏动态地图表示运动流,提升动态环境中的导航规划能力。
- Motivation: 现有3D场景图主要关注静态语义结构,缺乏对动态环境的建模;而动态地图通常基于网格离散化,缺乏语义感知且扩展性差。需要结合两者的优势来支持复杂动态环境中的自主导航。
- Method: Aion框架将时间流动态直接嵌入到分层3D场景图中,采用基于图的稀疏动态地图表示来捕捉任意时间间隔的运动流,并将这些动态信息附加到场景图的导航节点上。
- Result: 该方法产生了更可解释和可扩展的预测,能够改善复杂动态环境中的规划和交互能力。
- Conclusion: Aion成功地将时间维度整合到3D场景图中,通过结合语义结构和动态模式,为动态环境中的自主导航提供了更有效的空间表示。
[214] Navigation Around Unknown Space Objects Using Visible-Thermal Image Fusion
Eric J. Elias,Michael Esswein,Jonathan P. How,David W. Miller
Main category: cs.RO
TL;DR: 热红外与可见光图像融合提升未知空间目标导航性能
- Motivation: 在轨操作需要精确导航未知空间目标,但传统相机在阴影期性能受限,激光雷达笨重耗能,热红外相机分辨率低且特征少,需要结合两者优势
- Method: 对低轨目标卫星进行可见光和热红外波段的光真实感模拟,使用像素级融合方法创建可见光/热红外复合图像,比较单目SLAM算法在不同光照和轨迹下的导航误差
- Result: 融合图像相比仅使用可见光或仅使用热红外的方法,导航性能显著提升
- Conclusion: 可见光与热红外图像融合能有效克服单一传感器的局限性,在复杂光照条件下提供更可靠的导航性能
[215] SLIM-VDB: A Real-Time 3D Probabilistic Semantic Mapping Framework
Anja Sheppard,Parker Ewen,Joey Wilson,Advaith V. Sethuraman,Benard Adewole,Anran Li,Yuzhen Chen,Ram Vasudevan,Katherine A. Skinner
Main category: cs.RO
TL;DR: SLIM-VDB:基于OpenVDB数据结构的轻量级语义建图系统,支持闭集和开集语义融合,显著降低内存和计算时间
- Motivation: 现有语义建图系统缺乏同时支持固定类别和开放语言标签预测的统一框架,且OpenVDB数据结构在机器人语义建图中尚未得到充分探索
- Method: 利用OpenVDB数据结构,提出统一的贝叶斯更新框架,支持闭集和开集语义融合,实现轻量级3D语义建图
- Result: 相比现有最先进的语义建图方法,显著减少了内存占用和集成时间,同时保持可比的建图精度
- Conclusion: SLIM-VDB为机器人场景理解提供了一个高效、统一的语义建图框架,支持闭集和开集语义融合,在计算效率和内存使用方面具有显著优势
[216] Tackling Snow-Induced Challenges: Safe Autonomous Lane-Keeping with Robust Reinforcement Learning
Amin Jalal Aghdasian,Farzaneh Abdollahi,Ali Kamali Iglie
Main category: cs.RO
TL;DR: 本文提出了两种用于雪天道路条件下自动驾驶车道保持系统的深度强化学习算法:AR-RDPG和AR-CADPG,通过模拟和真实实验验证了其有效性。
- Motivation: 自动驾驶车辆在雪天道路条件下面临不确定性和打滑等挑战,需要开发能够处理这些复杂情况的鲁棒车道保持系统。
- Method: 提出了两种基于深度强化学习的算法:1) AR-RDPG:使用多尺度神经网络去噪相机图像,通过预训练DCNN提取中心线系数,结合驾驶特征进行控制;2) AR-CADPG:端到端方法,将CNN和注意力机制集成到DRL框架中。
- Result: 两种方法在CARLA模拟器中训练并在多种雪天场景下验证,在Jetson Nano自动驾驶平台上进行真实实验。AR-CADPG方法在路径跟踪精度和鲁棒性方面表现更优。
- Conclusion: 结合时间记忆、对抗鲁棒性和注意力机制的AR-CADPG方法在雪天道路条件下表现出更好的车道保持性能,证明了深度强化学习在复杂驾驶环境中的有效性。
[217] Post-Training and Test-Time Scaling of Generative Agent Behavior Models for Interactive Autonomous Driving
Hyunki Seong,Jeong-Kyun Lee,Heesoo Myeong,Yongho Shin,Hyun-Mook Cho,Duck Hoon Kim,Pranav Desai,Monu Surana
Main category: cs.RO
TL;DR: 提出GRBO强化学习后训练方法和Warm-K采样策略,提升多智能体交互运动行为的安全性和一致性
- Motivation: 现有模仿学习模型存在数据集偏见,在安全关键场景中鲁棒性不足,且大多依赖开环评估,忽略了闭环执行中的误差累积问题
- Method: 1) GRBO:基于群体相对优势最大化和人类正则化的强化学习后训练方法,微调预训练行为模型;2) Warm-K:基于预热启动的Top-K采样策略,平衡运动选择的一致性和多样性
- Result: GRBO仅使用10%训练数据即可提升40%以上的安全性能,同时保持行为真实性;Warm-K在测试时无需重新训练即可增强行为一致性和反应性
- Conclusion: 通过GRBO和Warm-K两种互补策略,有效解决了多智能体交互运动行为学习中的安全性和一致性挑战
[218] World Models Can Leverage Human Videos for Dexterous Manipulation
Raktim Gautam Goswami,Amir Bar,David Fan,Tsung-Yen Yang,Gaoyue Zhou,Prashanth Krishnamurthy,Michael Rabbat,Farshad Khorrami,Yann LeCun
Main category: cs.RO
TL;DR: DexWM是一个灵巧操作世界模型,通过预测环境潜在状态来提升机器人灵巧操作能力,在零样本泛化中表现优异
- Motivation: 灵巧操作具有挑战性,需要理解细微手部运动如何通过物体接触影响环境。现有灵巧操作数据集稀缺,且仅预测视觉特征不足以实现精细灵巧性。
- Method: 提出DexWM模型,基于过去状态和灵巧动作预测环境潜在状态。使用900多小时人类和非灵巧机器人视频训练。引入辅助手部一致性损失确保准确的手部配置。
- Result: DexWM优于基于文本、导航和全身动作的先验世界模型,未来状态预测更准确。在Franka Panda机械臂上零样本泛化到未见操作技能,在抓取、放置和到达任务中平均超越Diffusion Policy超过50%。
- Conclusion: DexWM通过预测潜在状态和手部一致性约束,有效解决了灵巧操作的数据稀缺和精细控制问题,展示了强大的零样本泛化能力。
[219] RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics
Enshen Zhou,Cheng Chi,Yibo Li,Jingkun An,Jiayuan Zhang,Shanyu Rong,Yi Han,Yuheng Ji,Mengzhen Liu,Pengwei Wang,Zhongyuan Wang,Lu Sheng,Shanghang Zhang
Main category: cs.RO
TL;DR: RoboTracer:首个实现3D空间指代与测量的3D感知视觉语言模型,通过空间编码器和回归监督解码器增强尺度感知,结合强化微调实现多步度量推理,在空间追踪任务上大幅超越现有方法。
- Motivation: 空间追踪作为机器人基础交互能力,需要多步度量推理、复杂空间指代和真实世界度量测量,现有方法难以处理这种组合任务。
- Method: 提出RoboTracer:1)通过通用空间编码器和回归监督解码器实现3D空间指代与测量;2)采用强化微调(RFT)结合度量敏感过程奖励,监督关键中间感知线索;3)构建TraceSpatial数据集(30M QA对)和TraceSpatial-Bench基准。
- Result: 平均成功率79.1%,在TraceSpatial-Bench上大幅超越基线,比Gemini-2.5-Pro准确率高36%;可集成多种控制策略,在UR5、G1人形机器人上执行长时程动态任务。
- Conclusion: RoboTracer首次实现了3D空间指代与测量,通过SFT和RFT结合的方法显著提升了空间追踪能力,为机器人在复杂真实场景中的交互提供了有效解决方案。
cs.LG
[220] On the Design of One-step Diffusion via Shortcutting Flow Paths
Haitao Lin,Peiyan Hu,Minsi Ren,Zhifeng Gao,Zhi-Ming Ma,Guolin ke,Tailin Wu,Stan Z. Li
Main category: cs.LG
TL;DR: 论文提出了一个用于代表性捷径模型的通用设计框架,该框架提供了理论依据并解耦了组件级选择,从而实现了系统改进,在ImageNet-256x256上达到了2.85的SOTA FID分数。
- Motivation: 当前few-step扩散模型的理论推导和实际实现紧密耦合,这模糊了设计空间。需要解耦理论框架和具体实现,以便进行系统性的组件级创新。
- Method: 提出了一个通用设计框架,为代表性捷径模型提供理论依据,并解耦具体的组件级选择。通过该框架识别改进点,构建了改进后的一步模型。
- Result: 改进后的一步模型在ImageNet-256x256上达到了2.85的FID50k分数(在classifier-free guidance设置下),创造了新的最先进水平。该模型不需要预训练、蒸馏或课程学习。
- Conclusion: 该工作降低了捷径模型组件级创新的门槛,促进了设计空间的原则性探索。通用框架有助于理解现有模型并指导未来改进。
[221] Soft Decision Tree classifier: explainable and extendable PyTorch implementation
Reuben R Shamir
Main category: cs.LG
TL;DR: 使用PyTorch实现软决策树(SDT)和短期记忆软决策树(SM-SDT),在模拟和临床数据集上测试,可视化SDT展示可解释性潜力,SDT、SM-SDT和XGBoost的AUC值相似且优于其他方法。
- Motivation: 开发具有可解释性的机器学习模型,结合决策树的透明性和神经网络的表现力,为临床决策提供既准确又可解释的工具。
- Method: 使用PyTorch实现软决策树(SDT)和短期记忆软决策树(SM-SDT),在模拟和临床数据集上进行广泛测试,可视化SDT结构以展示其可解释性。
- Result: SDT、SM-SDT和XGBoost的AUC值相似,均优于随机森林、逻辑回归和传统决策树。临床数据集结果显示,除传统决策树外,所有测试的分类方法表现相当。
- Conclusion: 软决策树方法在保持与XGBoost相当性能的同时,提供了更好的可解释性,适合需要透明决策过程的临床应用。代码和数据集已在GitHub开源。
[222] On the Dangers of Bootstrapping Generation for Continual Learning and Beyond
Daniil Zverev,A. Sophia Koepke,Joao F. Henriques
Main category: cs.LG
TL;DR: 研究发现重复使用合成数据训练会导致模型崩溃,合成数据引入显著偏差和方差,削弱最大似然估计可靠性,现有生成经验回放方法无法维持潜在空间对齐。
- Motivation: 随着合成数据训练成为常见实践,重复使用合成数据训练引发对分布漂移和性能退化的担忧,需要研究这种自举过程的后果。
- Method: 通过持续学习的视角研究,建立与生成经验回放方法的联系,进行统计分析显示合成数据引入的偏差和方差,提供经验证据展示流行生成模型在重复合成数据训练下的崩溃。
- Result: 合成数据引入显著偏差和方差,削弱最大似然估计可靠性;流行生成模型在重复合成数据训练下崩溃;最先进的生成经验回放方法无法维持潜在空间对齐。
- Conclusion: 研究结果对在持续学习中使用合成数据提出严重关切,合成数据训练存在根本性风险,需要新的方法来缓解分布漂移问题。
[223] PerNodeDrop: A Method Balancing Specialized Subnets and Regularization in Deep Neural Networks
Gelesh G Omathil,Sreeja CS
Main category: cs.LG
TL;DR: PerNodeDrop是一种轻量级随机正则化方法,通过逐样本、逐节点的扰动打破现有技术的均匀噪声注入,保留有用协同适应同时进行正则化,提升泛化能力。
- Motivation: 深度神经网络容易过拟合,神经元倾向于协同适应,虽然能捕捉复杂特征交互,但也强化了虚假不可泛化的模式。现有噪声正则化方法(如Dropout、DropConnect)的噪声通常是均匀的,可能同时抑制有害和有益的协同适应。
- Method: 提出PerNodeDrop方法,应用逐样本、逐节点的扰动,打破噪声的均匀性。与DropConnect不同,它在样本级别而非批次级别丢弃权重。通过期望损失分析形式化其扰动如何衰减过度协同适应同时保留预测性交互。
- Result: 在视觉、文本和音频基准测试上的实证评估表明,相对于标准噪声正则化方法,PerNodeDrop提高了泛化性能,缩小了训练和验证性能之间的差距,提升了在未见数据上的可靠性。
- Conclusion: PerNodeDrop通过逐样本、逐节点的扰动机制,能够更精细地控制正则化强度,在抑制有害协同适应的同时保留有益的特征交互,从而有效提升深度神经网络的泛化能力。
[224] Reassessing the Role of Supervised Fine-Tuning: An Empirical Study in VLM Reasoning
Yongcan Yu,Lingxiao He,Shuo Lu,Lijun Sheng,Yinuo Xu,Yanbo Wang,Kuangpu Guo,Jianjie Cheng,Meng Wang,Qianlong Xie,Xingxing Wang,Dapeng Hu,Jian Liang
Main category: cs.LG
TL;DR: 本文重新评估了监督微调(SFT)与强化学习(RL)在视觉语言模型推理中的作用,挑战了当前"RL优于SFT"的主流观点,发现SFT在多种场景下仍具关键价值。
- Motivation: 当前视觉语言模型推理领域过度强调强化学习的作用,普遍认为监督微调不仅无效甚至有害。本文旨在通过系统对比重新评估SFT的实际价值,挑战RL-centric的偏见。
- Method: 使用相同数据源进行SFT和RL的系统性对比实验,控制变量分析模型容量、数据规模和分布对两种方法效果的影响。
- Result: 发现SFT在三种场景中至关重要:1)对较弱模型更有效;2)数据效率高(2K SFT ≈ 20K RL);3)跨模态泛化能力强。同时发现RL存在欺骗性奖励问题。
- Conclusion: SFT的作用被低估,不应被RL完全取代。建议采用更平衡的后训练流程,将SFT和RL作为互补组件,而非对立选择。
[225] Federated Learning with Feedback Alignment
Incheol Baek,Hyungbin Kim,Minseo Kim,Yon Dohn Chung
Main category: cs.LG
TL;DR: 提出FLFA框架,将反馈对齐融入联邦学习,通过全局模型权重作为共享反馈矩阵来减轻非IID数据导致的局部漂移问题
- Motivation: 联邦学习在数据异构(非IID)场景下存在局部漂移问题,这会阻碍全局模型的收敛,需要一种高效且通信开销小的解决方案
- Method: FLFA框架在本地训练的反向传播过程中,使用全局模型的权重作为共享反馈矩阵,从而对齐本地更新与全局模型方向
- Result: 理论分析表明FLFA能有效缓解局部漂移并保证收敛;实证评估显示FLFA能提升其他FL方法的性能,且计算开销小、无额外通信成本
- Conclusion: FLFA是一种有效解决联邦学习中数据异构问题的框架,通过反馈对齐机制在保持低计算和通信成本的同时提升模型性能
[226] GradID: Adversarial Detection via Intrinsic Dimensionality of Gradients
Mohammad Mahdi Razmjoo,Mohammad Mahdi Sharifian,Saeed Bagheri Shouraki
Main category: cs.LG
TL;DR: 该论文提出了一种基于模型输入损失景观几何特性的对抗样本检测方法,通过分析梯度参数的内在维度来区分自然数据和对抗数据,在多个数据集和攻击策略上取得了最先进的检测效果。
- Motivation: 深度神经网络虽然性能卓越,但对微小的对抗扰动非常脆弱,这些扰动可能导致模型预测发生剧烈变化。在医疗诊断和自动驾驶等可靠性要求极高的应用中,检测对抗攻击至关重要。
- Method: 研究模型输入损失景观的几何特性,分析模型梯度参数的内在维度(ID),该维度量化了描述底层流形上数据点所需的最小坐标数。发现自然数据和对抗数据的内在维度存在明显且一致的差异,并以此为基础构建检测方法。
- Result: 在两个不同操作场景中验证了方法的有效性:1)在批处理场景中识别恶意数据组,在MNIST和SVHN数据集上表现出高效性;2)在关键的单样本场景中,在CIFAR-10和MS COCO等挑战性基准测试中取得了新的最先进结果。检测器在CIFAR-10上对包括CW和AutoAttack在内的多种攻击实现了92%以上的检测率。
- Conclusion: 该方法证明了内在维度是跨不同数据集和攻击策略的对抗检测的强大指纹,几何方法具有鲁棒性,为对抗样本检测提供了有效的解决方案。
[227] On-Device Continual Learning for Unsupervised Visual Anomaly Detection in Dynamic Manufacturing
Haoyu Ren,Kay Koehle,Kirill Dorofeev,Darko Anicic
Main category: cs.LG
TL;DR: 本文提出了一种基于设备端持续学习的无监督视觉异常检测方法,通过轻量级特征提取器和增量核心集更新机制,实现快速、内存高效的模型适应,适用于动态智能制造环境。
- Motivation: 现代制造业中动态灵活的生产环境带来三大挑战:1) 小批量按需生产需要快速模型更新;2) 边缘硬件资源有限无法训练大型AI模型;3) 异常和正常训练数据稀缺,特别是新产品变体。需要解决这些挑战以实现自动化检测和产品质量一致性。
- Method: 扩展PatchCore方法,结合设备端持续学习,采用轻量级特征提取器和基于k-center选择的增量核心集更新机制,实现在线学习,无需昂贵的云端重新训练。
- Result: 在模拟灵活生产的工业用例测试中,该方法相比基线AUROC提升12%,内存使用减少80%,训练速度比批量重新训练更快。
- Conclusion: 该方法提供了准确、资源高效且自适应的视觉异常检测方案,适用于动态智能制造环境,能够应对频繁产品变化、边缘硬件限制和数据稀缺的挑战。
[228] Image Diffusion Preview with Consistency Solver
Fu-Yun Wang,Hao Zhou,Liangzhe Yuan,Sanghyun Woo,Boqing Gong,Bohyung Han,Ming-Hsuan Yang,Han Zhang,Yukun Zhu,Ting Liu,Long Zhao
Main category: cs.LG
TL;DR: 提出Diffusion Preview范式,通过快速低步采样生成预览供用户评估,满意后再进行全步细化。提出ConsistencySolver,一种基于强化学习优化的轻量级可训练高阶求解器,提升预览质量和一致性。
- Motivation: 图像扩散模型的推理过程缓慢,严重影响交互式用户体验。现有加速方法(包括免训练求解器和训练后蒸馏)难以提供高质量预览或确保预览与最终输出的一致性。
- Method: 提出Diffusion Preview范式,采用快速低步采样生成预览。提出ConsistencySolver,基于通用线性多步方法,通过强化学习优化的轻量级可训练高阶求解器,专门提升预览质量和一致性。
- Result: ConsistencySolver在低步数场景下显著提升生成质量和一致性,FID分数与Multistep DPM-Solver相当但减少47%步数,优于蒸馏基线。用户研究表明该方法减少近50%用户交互时间同时保持生成质量。
- Conclusion: Diffusion Preview范式结合ConsistencySolver能够有效解决扩散模型推理缓慢问题,提供高效预览-细化工作流,显著改善用户体验。
[229] From Code to Field: Evaluating the Robustness of Convolutional Neural Networks for Disease Diagnosis in Mango Leaves
Gabriel Vitorino de Andrade,Saulo Roberto dos Santos,Itallo Patrick Castro Alves da Silva,Emanuel Adler Medeiros Pereira,Erick de Andrade Barboza
Main category: cs.LG
TL;DR: 该研究提出了一种评估卷积神经网络在芒果叶病害诊断中鲁棒性的方法,通过创建包含19种人工损坏的MangoLeafDB-C数据集,比较了五种CNN架构在恶劣条件下的性能,发现轻量级专用模型LCNN在真实场景损坏下表现优于复杂模型。
- Motivation: 尽管芒果具有全球重要性,但缺乏针对芒果叶病害诊断模型鲁棒性的研究。AI模型需要通过鲁棒性评估来保证在真实世界挑战(如图像损坏)中的可靠性能,特别是在农业应用中。
- Method: 研究提出了一种评估CNN在恶劣条件下鲁棒性的方法:1)将MangoLeafDB数据集适配为MangoLeafDB-C,包含19种人工损坏类型和5个严重级别;2)对5种架构(ResNet-50、ResNet-101、VGG-16、Xception和轻量级专用架构LCNN)进行基准测试;3)使用F1分数、损坏错误率(CE)和相对平均损坏错误率(relative mCE)作为评估指标。
- Result: LCNN在真实场景可能出现的损坏(如散焦模糊、运动模糊)中表现优于复杂模型,并获得了最低的mCE。现代架构(如ResNet-101)虽然在理想条件下准确率高,但在损坏场景中性能显著下降。轻量级专用模型在边缘设备应用中更具优势。
- Conclusion: 轻量级和专用模型可能更适合边缘设备的真实世界应用,其中鲁棒性和效率至关重要。研究强调了在农业智能系统开发中纳入鲁棒性评估的必要性,特别是在技术受限地区。
[230] Directional Textual Inversion for Personalized Text-to-Image Generation
Kunhee Kim,NaHyeon Park,Kibeom Hong,Hyunjung Shim
Main category: cs.LG
TL;DR: DTI通过固定嵌入向量的模长并仅优化方向,解决了TI中嵌入模长膨胀导致复杂提示失效的问题,在保持主体相似性的同时显著提升了文本保真度。
- Motivation: 文本反演(TI)在复杂提示上经常失败,作者追踪到失败原因是嵌入模长膨胀:学习到的token漂移到分布外的幅度,在预归一化Transformer中降低了提示条件作用。
- Method: 提出方向性文本反演(DTI):固定嵌入幅度到分布内尺度,仅通过黎曼SGD在单位超球面上优化方向。将方向学习建模为具有von Mises-Fisher先验的MAP估计,产生恒定方向先验梯度。
- Result: 在个性化任务中,DTI相比TI及其变体提高了文本保真度,同时保持了主体相似性。其超球面参数化实现了学习概念间的平滑、语义连贯插值(slerp)。
- Conclusion: 仅优化方向是鲁棒且可扩展的提示忠实个性化路径。嵌入模长膨胀是TI失败的关键机制,而方向优化能有效解决这一问题。
physics.optics
[231] JPEG-Inspired Cloud-Edge Holography
Shuyang Xie,Jie Zhou,Jun Wang,Renjing Xu
Main category: physics.optics
TL;DR: 提出JPEG启发的云边全息系统,通过可学习的变换编解码器实现高效全息图流式传输,云端处理复杂计算,边缘设备仅需轻量解码,无需神经网络推理。
- Motivation: 当前神经全息图生成方法在紧凑型眼镜设备上部署困难,计算和能耗受限;云端卸载传输会失真相位信息且带宽需求高;神经压缩方法虽减少带宽但边缘设备需要重型神经网络解码器,增加延迟和硬件需求。
- Method: 设计基于可学习变换编解码器的JPEG启发式云边全息系统,保持JPEG的块结构和硬件友好特性;所有重型神经处理移至云端,边缘设备仅执行轻量解码;实现自定义CUDA内核进行熵编码以提升吞吐量。
- Result: 在<2比特/像素下达到32.15 dB峰值信噪比,解码延迟低至4.2毫秒;数值模拟和光学实验均证实全息图的高重建质量。
- Conclusion: 通过将全息图生成与保留JPEG结构效率的可学习编解码器结合,该框架能够在资源受限的可穿戴设备上实现低延迟、带宽高效的全息图流式传输,仅需现代片上系统支持的简单块基解码,无需神经解码器或专用硬件。
eess.IV
[232] Resolution-Independent Neural Operators for Multi-Rate Sparse-View CT
Aujasvit Datta,Jiayun Wang,Asad Aali,Armeet Singh Jatyani,Anima Anandkumar
Main category: eess.IV
TL;DR: CTO是一个统一的CT重建框架,通过扩展到连续函数空间实现跨采样率和图像分辨率的泛化,无需重新训练。
- Motivation: 稀疏视图CT重建是一个不适定逆问题。现有深度学习方法虽然能实现高保真重建,但通常过拟合到固定的采集设置,无法泛化到不同的采样率和图像分辨率。
- Method: 提出CTO框架,在正弦图和图像域中通过旋转等变的离散-连续卷积联合操作,这些卷积在函数空间中参数化,使其天生具有分辨率和采样无关性。
- Result: CTO实现了跨采样率和跨分辨率的一致性能,平均比CNN高出>4dB PSNR。相比最先进的扩散方法,CTO推理速度快500倍,平均PSNR增益3dB。
- Conclusion: CTO在多个采样率和分辨率上优于最先进的基线方法,提供了一个可扩展且可泛化的解决方案,使自动化CT重建更易于实际部署。
[233] V-Rex: Real-Time Streaming Video LLM Acceleration via Dynamic KV Cache Retrieval
Donghyuk Kim,Sejeong Yang,Wonjin Shin,Joo-Young Kim
Main category: eess.IV
TL;DR: V-Rex是首个软硬件协同设计的加速器,通过ReSV算法和动态KV缓存检索引擎,解决了流式视频LLM中的KV缓存膨胀问题,实现了边缘设备上的实时高效推理。
- Motivation: 流式视频大语言模型在实时多模态任务中面临关键挑战:KV缓存随连续视频输入急剧增长,导致计算量大、数据传输多、精度下降,尤其在边缘部署中问题更为严重。
- Method: 提出V-Rex软硬件协同设计:1) ReSV算法利用时空相似性进行token聚类,无需训练即可动态减少KV缓存;2) 硬件加速器配备动态KV缓存检索引擎,采用比特级和提前退出计算单元。
- Result: 在边缘部署中实现3.9-8.3 FPS的实时推理,精度损失可忽略。相比AGX Orin GPU,获得1.9-19.7倍加速和3.1-18.5倍能效提升,DRE仅占2.2%功耗和2.0%面积。
- Conclusion: V-Rex首次从算法和硬件层面全面解决KV缓存检索问题,使资源受限的边缘设备能够实现实时流式视频LLM推理,为边缘AI应用开辟了新途径。
[234] Leveraging Compression to Construct Transferable Bitrate Ladders
Krishna Srikar Durbha,Hassene Tmar,Ping-Hao Wu,Ioannis Katsavounidis,Alan C. Bovik
Main category: eess.IV
TL;DR: 提出新的基于机器学习的比特率阶梯构建技术,通过分析压缩过程和源视频的感知相关测量,准确预测压缩视频的VMAF分数,相比传统方法显著降低计算开销。
- Motivation: 现有的每标题和每镜头视频编码技术虽然相比传统固定比特率阶梯有显著增益,但为每个视频构建凸包会产生巨大的计算开销。需要一种更高效的比特率阶梯构建方法。
- Method: 提出新的基于机器学习的比特率阶梯构建框架,通过分析压缩过程并在压缩前对源视频进行感知相关测量,训练ML模型来预测压缩视频的VMAF分数,从而构建内容自适应比特率阶梯。
- Result: 在大规模视频语料库上评估,提出的框架相比现有领先方法表现优异。同时研究了每镜头比特率阶梯在不同编码设置下的性能,并与固定比特率阶梯和最优凸包进行对比。
- Conclusion: 提出的ML-based比特率阶梯构建技术能够准确预测VMAF分数,显著降低计算开销,为视频编码提供高效的内容自适应比特率阶梯解决方案。
[235] Self-Supervised Ultrasound Representation Learning for Renal Anomaly Prediction in Prenatal Imaging
Youssef Megahed,Inok Lee,Robin Ducharme,Kevin Dick,Adrian D. C. Chan,Steven Hawken,Mark C. Walker
Main category: eess.IV
TL;DR: 本文提出一种基于自监督学习的超声基础模型(USF-MAE),用于胎儿肾脏异常的自动分类,相比传统卷积网络在多项指标上均有显著提升,特别是在多分类任务中表现突出。
- Motivation: 产前超声是检测先天性肾脏和尿路异常的主要手段,但存在操作者依赖性和成像条件不理想等限制。需要开发自动化、可靠的分类方法来提高诊断准确性。
- Method: 使用969张二维超声图像数据集,采用预训练的超声自监督基础模型(USF-MAE)进行微调,用于正常肾脏、尿路扩张和多囊性肾发育不良的二元和多分类任务。与DenseNet-169卷积基线模型进行比较,并使用Score-CAM可视化增强模型可解释性。
- Result: USF-MAE在所有评估指标上均优于基线模型:验证集上AUC提升1.87%、F1分数提升7.8%;独立测试集上AUC提升2.32%、F1分数提升4.33%。多分类任务中提升最显著:AUC提升16.28%、F1分数提升46.15%。可视化显示模型关注临床相关的肾脏结构。
- Conclusion: 超声特定的自监督学习能够生成有效的表示作为下游诊断任务的基础。该框架为产前肾脏异常检测提供了稳健、可解释的方法,展示了基础模型在产科影像中的潜力。
cs.CY
[236] A Reproducible Workflow for Scraping, Structuring, and Segmenting Legacy Archaeological Artifact Images
Juan Palomeque-Gonzalez
Main category: cs.CY
TL;DR: 开发可重复工作流,将考古图像收藏转换为结构化、可用于分割的数据集,包含网络爬取和图像处理两个开源工具
- Motivation: 考古数据服务(ADS)收藏了大量标准化照片,但缺乏批量下载和自动化处理机制,需要将基于网络的考古图像收藏转换为机器学习友好格式
- Method: 开发两个开源工具:1)网络爬取脚本,获取记录页面、提取元数据、下载图像;2)图像处理流水线,重命名文件、通过传统计算机视觉生成二值掩码和边界框,将所有信息存储在COCO兼容的JSON文件中
- Result: 创建了轻量级、可重复使用的方法,将网络考古图像收藏转换为机器学习友好格式,仅共享掩码、轮廓和标注等衍生产品,不重新分发原始图像
- Conclusion: 该工作流促进了数字考古中更可重复的研究实践,为下游分析提供了便利,有助于将基于网络的考古图像收藏转换为结构化数据集
[237] Assessing Greenspace Attractiveness with ChatGPT, Claude, and Gemini: Do AI Models Reflect Human Perceptions?
Milad Malekzadeh,Magdalena Biernacka,Elias Willberg,Jussi Torkko,Edyta Łaszkiewicz,Tuuli Toivonen
Main category: cs.CY
TL;DR: 研究评估多模态大语言模型(GPT-4o、Claude 3.5 Haiku、Gemini 2.0 Flash)使用街景图像评估绿地吸引力的能力,并与人类评估对比,发现模型在正式绿地评估上表现良好,但在非正式绿地评估上存在偏差。
- Motivation: 现有绿地吸引力评估方法往往忽视非正式或临时性空间,且资源密集难以大规模捕捉主观感知。研究旨在探索多模态大语言模型是否能够像人类一样评估绿地吸引力,为城市设计提供可扩展的评估工具。
- Method: 使用GPT-4o、Claude 3.5 Haiku和Gemini 2.0 Flash三种多模态大语言模型,基于Google街景图像评估波兰罗兹市正式(公园、管理绿地)和非正式(草地、荒地)绿地的吸引力。将模型输出与当地居民的地理问卷回答进行比较,分析吸引力判断的一致性和解释理由的分类。
- Result: AI与人类在吸引人的正式绿地和缺乏吸引力的非正式空间上高度一致,但在吸引人的非正式绿地和缺乏吸引力的正式绿地上一致性较低。模型过度强调美学和设计特征,而低估了安全性、功能基础设施和本地嵌入性等人类重视的要素。
- Conclusion: 多模态大语言模型具有可扩展预评估潜力,但不能替代人类监督和参与式方法。模型可以支持但不能替代规划实践中需要情境敏感性的绿地评估。
[238] Aesthetic Alignment Risks Assimilation: How Image Generation and Reward Models Reinforce Beauty Bias and Ideological "Censorship"
Wenqi Marshall Guo,Qingyun Qian,Khalad Hasan,Shan Du
Main category: cs.CY
TL;DR: 研究发现图像生成模型过度对齐到广义审美偏好会与用户意图冲突,特别是在用户请求"反审美"输出用于艺术或批判目的时,这种对齐优先考虑开发者价值观,损害用户自主性和审美多元性。
- Motivation: 当前图像生成模型过度对齐到广义审美偏好,当用户需要"反审美"输出用于艺术或批判目的时,这种对齐会与用户意图冲突,优先考虑开发者价值观而损害用户自主性和审美多元性。
- Method: 构建宽谱审美数据集,评估最先进的生成模型和奖励模型,通过图像到图像编辑和与真实抽象艺术作品的比较来确认系统性偏见。
- Result: 审美对齐的生成模型经常默认输出传统美丽图像,无法尊重低质量或负面图像的指令;奖励模型即使反审美图像完全匹配用户提示也会惩罚它们;通过图像编辑和真实抽象艺术比较确认了这种系统性偏见。
- Conclusion: 图像生成模型的审美过度对齐存在系统性偏见,优先考虑开发者价值观而损害用户自主性,需要重新思考对齐策略以支持审美多元性和用户意图。
quant-ph
[239] Quantum Implicit Neural Representations for 3D Scene Reconstruction and Novel View Synthesis
Yeray Cordero,Paula García-Molina,Fernando Vilariño
Main category: quant-ph
TL;DR: Q-NeRF首次将量子隐式表示网络集成到神经辐射场框架中,通过量子电路缓解经典网络的频谱偏差问题,在有限计算资源下实现竞争性的3D场景重建质量。
- Motivation: 经典隐式神经表示网络存在频谱偏差问题,难以捕捉高频细节。量子参数化电路具有固有的傅里叶结构,能够超越经典MLP进行紧凑而表达性强的频率建模。
- Method: 提出Q-NeRF混合量子-经典框架,将QIREN模块集成到Nerfacto主干网络中,保留其高效采样、姿态优化和体渲染策略,同时用量子增强组件替换选定的密度和辐射预测部分。
- Result: 在标准多视角室内数据集上评估三种混合配置,使用PSNR、SSIM和LPIPS指标与经典基线比较。结果显示混合模型在有限计算资源下达到竞争性重建质量,量子模块在表示精细尺度、视角相关外观方面特别有效。
- Conclusion: 尽管当前实现依赖量子电路模拟器且限于少量子比特体系,但结果突显了量子编码在缓解隐式表示频谱偏差方面的潜力。Q-NeRF为可扩展的量子增强3D场景重建奠定了基础,并为未来量子神经渲染研究提供了基准。
cs.DL
[240] Hybrid Retrieval-Augmented Generation for Robust Multilingual Document Question Answering
Anthony Mudet,Souhail Bakkali
Main category: cs.DL
TL;DR: 开发了一个针对历史报纸文档的多语言检索增强生成管道,通过语义查询扩展、多查询融合和严格证据基础,提高在OCR噪声、多语言变体和语言漂移情况下的问答质量。
- Motivation: 大规模数字化项目产生了大量历史报纸收藏,但OCR错误、多语言拼写变体和时间语言漂移阻碍了有效的计算访问,需要专门针对噪声历史文档的问答解决方案。
- Method: 采用多语言检索增强生成管道,包括:1) 使用语义查询扩展和互惠排名融合的多查询融合提高检索鲁棒性;2) 精心设计的生成提示,强制严格基于检索证据并明确弃权;3) 模块化架构支持系统组件评估。
- Result: 通过消融研究验证了实体提取中句法连贯性的重要性,以及密集检索中性能-效率的平衡权衡。管道能为有充分证据的查询生成忠实答案,同时正确弃权无法回答的问题。混合检索策略提高了召回稳定性。
- Conclusion: 提出的多语言RAG管道为噪声历史文档问答提供了鲁棒解决方案,通过语义查询扩展、多查询融合和严格证据基础,有效处理了OCR错误、多语言变体和语言漂移等挑战。
q-bio.QM
[241] Vision Foundry: A System for Training Foundational Vision AI Models
Mahmut S. Gokmen,Mitchell A. Klusty,Evan W. Damron,W. Vaiden Logan,Aaron D. Mullen,Caroline N. Leach,Emily B. Collier,Samuel E. Armstrong,V. K. Cody Bumgardner
Main category: q-bio.QM
TL;DR: Vision Foundry是一个无需编码、符合HIPAA标准的平台,旨在降低临床研究人员使用自监督学习的技术门槛,支持基础视觉模型的预训练、适配和部署。
- Motivation: 自监督学习可以利用大量未标注的医学数据,但技术门槛过高限制了临床研究人员的采用。需要一种工具来弥合先进表示学习与实际应用之间的差距。
- Method: 平台整合DINO-MX框架,抽象分布式基础设施的复杂性,并实现专门策略如放大感知蒸馏(MAD)和参数高效微调(PEFT)。在神经病理学分割、肺细胞密度估计和冠状动脉钙化评分等多个领域进行验证。
- Result: 通过Vision Foundry训练的模型在分割保真度和回归准确性方面显著优于通用基线,同时在跨成像协议上表现出强大的零样本泛化能力。
- Conclusion: Vision Foundry使领域专家能够以最小的标注开销开发最先进的临床AI工具,将重点从工程优化转向临床发现,实现了先进表示学习与实际应用的桥梁。
cs.AI
[242] Towards Unified Co-Speech Gesture Generation via Hierarchical Implicit Periodicity Learning
Xin Guo,Yifan Zhao,Jia Li
Main category: cs.AI
TL;DR: 提出分层隐式周期性学习框架,通过显式建模不同运动单元间的内在相关性,提升语音驱动3D手势生成的协调性和自然度
- Motivation: 现有语音驱动3D手势生成方法多为端到端方案,未能充分建模头部、身体和手部等不同运动单元之间的内在相关性,导致生成动作不自然且协调性差
- Method: 提出分层隐式周期性学习框架:1) 使用周期性自编码器探索手势运动相位流形,从真实分布中学习人类自然运动模式,同时结合非周期性特征保持实例级多样性;2) 通过级联引导机制建模面部、身体和手部动作的层次关系
- Result: 在3D虚拟人上的实验表明,该方法在定量和定性评估上均优于现有的语音驱动手势生成方法
- Conclusion: 通过显式建模不同运动单元间的内在相关性,提出的分层隐式周期性学习框架能够生成更自然协调的语音驱动3D手势,代码和模型将公开
cs.CG
[243] Continuous Edit Distance, Geodesics and Barycenters of Time-varying Persistence Diagrams
Sebastien Tchitchek,Mohamed Kissi,Julien Tierny
Main category: cs.CG
TL;DR: 提出连续编辑距离(CED),一种用于时变持久性图(TVPDs)的测地弹性距离,结合局部替换成本和惩罚性删除/插入操作,提供可解释的测地线和实用的重心求解器。
- Motivation: 为时变持久性图(TVPDs)的分析提供一种原则性的距离度量,能够直接支持对齐、比较、平均和聚类操作,解决现有方法在时空扰动下的鲁棒性问题。
- Method: 扩展编辑距离概念到TVPDs,结合局部替换成本和惩罚性删除/插入操作,使用两个参数(α控制时间错位与图差异的权衡,β控制间隔惩罚),构建CED测地线,并提出随机和贪心两种重心求解器。
- Result: CED对时空加性扰动具有鲁棒性,能够恢复时间偏移,支持时间模式搜索;在实际数据集上,CED的聚类性能与标准弹性差异相当或更好,基于CED重心的聚类获得更优的分类结果。
- Conclusion: CED为TVPD分析提供了原则性距离、可解释测地线和实用重心求解器,实现了在TVPD空间中的直接对齐、比较、平均和聚类,并提供了C++实现以确保可复现性。
[244] VoroLight: Learning Quality Volumetric Voronoi Meshes from General Inputs
Jiayin Lu,Ying Jiang,Yin Yang,Chenfanfu Jiang
Main category: cs.CG
TL;DR: VoroLight是一个基于Voronoi网格的可微分3D形状重建框架,能够从多种输入生成平滑、水密表面和拓扑一致的体积网格
- Motivation: 需要从多样化的输入(图像、隐式形状水平集场、点云和网格)直接生成高质量的3D重建,特别是需要平滑、水密表面和拓扑一致的体积网格
- Method: 采用三阶段方法:1)使用可微分Voronoi公式初始化表面;2)通过多边形面球训练阶段细化表面质量;3)重用可微分Voronoi公式进行体积优化,添加内部生成点
- Result: 能够从多种输入类型生成平滑、水密表面和拓扑一致的体积网格,提供了统一的3D重建框架
- Conclusion: VoroLight提供了一个有效的可微分框架,能够从多样化输入生成高质量的3D重建,具有表面平滑性和拓扑一致性的优势
Powered by Deepseek & arXiv Daily AI Enhanced