Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Leveraging Synthetic Priors for Monocular Depth Estimation in Specular Surgical Environments
Ankan Aich,Yangming Lee
Main category: cs.CV
TL;DR: 利用Depth Anything V2的高保真合成先验,通过DV-LORA高效适应医疗领域,在手术内镜单目深度估计中实现最先进性能
- Motivation: 手术内镜环境中的镜面反射和液体填充使得单目深度估计变得脆弱,现有方法在薄手术工具和透明表面上存在边界崩溃问题
- Method: 采用Depth Anything V2架构的高保真合成先验,使用动态向量低秩适应(DV-LORA)高效适应医疗领域,并在SCARED数据集上引入物理分层评估协议
- Result: 在SCARED数据集上达到98.1%的准确率(<1.25),平方相对误差比现有基线降低超过17%,在恶劣手术光照条件下表现出卓越鲁棒性
- Conclusion: 通过合成先验和高效领域适应,显著提升了手术内镜单目深度估计的准确性和鲁棒性,特别是在高镜面反射区域
[2] Video-Based Performance Evaluation for ECR Drills in Synthetic Training Environments
Surya Rayala,Marcos Quinones-Grueiro,Naveeduddin Mohammed,Ashwin T S,Benjamin Goldberg,Randall Spain,Paige Lawton,Gautam Biswas
Main category: cs.CV
TL;DR: 提出基于视频的自动评估管道,利用计算机视觉从训练视频中提取2D骨架、注视向量和运动轨迹,开发特定任务指标来衡量心理运动流畅性、情境意识和团队协调性,用于城市作战训练评估。
- Motivation: 城市作战训练需要情境意识和肌肉记忆,但传统评估方法依赖昂贵传感器或主观观察,难以实现客观、可扩展的认知、心理运动和团队技能评估。
- Method: 使用计算机视觉模型从训练视频中提取2D骨架、注视向量和运动轨迹,开发任务特定指标,通过扩展的认知任务分析(CTA)层次结构进行加权组合,生成团队合作和认知的总体表现分数。
- Result: 通过真实世界"进入并清理房间"(ECR)演练的案例研究,展示了该方法能够提供可操作的、特定领域的指标,捕捉个人和团队表现,支持行动后审查。
- Conclusion: 视频分析为合成训练环境中的可扩展评估提供了可行方案,未来工作包括扩展到3D视频数据,解决跟踪困难、地面真实验证等限制。
[3] Pretraining Frame Preservation in Autoregressive Video Memory Compression
Lvmin Zhang,Shengqu Cai,Muyang Li,Chong Zeng,Beijia Lu,Anyi Rao,Song Han,Gordon Wetzstein,Maneesh Agrawala
Main category: cs.CV
TL;DR: PFP是一种神经网络结构,用于将长视频压缩为短上下文,通过显式预训练目标保留任意时间位置单帧的高频细节,可作为记忆编码器用于自回归视频模型。
- Motivation: 解决长视频处理中上下文长度限制的问题,传统方法难以在压缩视频时保持单帧的高频细节,需要一种既能压缩长视频又能保留视觉细节的方法。
- Method: 提出PFP神经网络结构,使用显式预训练目标来保留任意时间位置单帧的高频细节。模型可将20秒视频压缩到约5k长度的上下文,随机帧可被检索且感知外观得到保留。
- Result: 预训练模型可直接微调作为自回归视频模型的记忆编码器,实现长历史记忆且上下文成本低、保真度损失相对较小。通过消融实验评估框架并讨论神经网络架构设计的权衡。
- Conclusion: PFP提供了一种有效的长视频压缩方法,能在保持视觉细节的同时显著减少上下文长度,为自回归视频模型的长历史记忆处理提供了实用解决方案。
[4] Lifelong Domain Adaptive 3D Human Pose Estimation
Qucheng Peng,Hongfei Xue,Pu Wang,Chen Chen
Main category: cs.CV
TL;DR: 提出终身域自适应3D人体姿态估计新任务,通过GAN框架结合3D姿态生成器、2D姿态判别器和3D姿态估计器,解决非平稳目标域和灾难性遗忘问题。
- Motivation: 现有3D人体姿态估计方法依赖受控环境标注数据,难以泛化到真实场景。现有域自适应方法忽略了目标域数据的非平稳性问题,需要解决连续适应多个目标域时的灾难性遗忘问题。
- Method: 提出终身域自适应3D HPE新任务,设计GAN框架包含3D姿态生成器、2D姿态判别器和3D姿态估计器。构建新颖的3D姿态生成器范式,集成姿态感知、时序感知和域感知知识,增强当前域适应并缓解对先前域的灾难性遗忘。
- Result: 在多个域自适应3D HPE数据集上进行广泛实验,证明了方法的优越性能。
- Conclusion: 首次将终身域自适应引入3D人体姿态估计任务,提出的GAN框架能有效缓解域偏移和对齐原始与增强姿态,解决非平稳目标域适应和灾难性遗忘问题。
[5] MRI-to-CT Synthesis With Cranial Suture Segmentations Using A Variational Autoencoder Framework
Krithika Iyer,Austin Tapp,Athelia Paulli,Gabrielle Dickerson,Syed Muhammad Anwar,Natasha Lepore,Marius George Linguraru
Main category: cs.CV
TL;DR: 提出一个深度学习框架,将儿童T1加权MRI转换为合成CT,实现颅骨分割和颅缝分割,填补MRI无法显示骨骼和颅缝的空白。
- Motivation: CT常用于评估儿童颅骨和颅缝畸形,但具有电离辐射风险;MRI无辐射但无法显示颅缝和评估骨密度。需要一种非侵入性方法来量化儿童颅骨发育和颅缝骨化。
- Method: 使用深度学习驱动的流程:将0.2-2岁儿童的T1加权MRI转换为合成CT,预测详细的颅骨分割,生成颅缝概率热图,并从热图直接分割颅缝。采用领域特定的变分自编码器。
- Result: 合成CT与真实CT的结构相似度达99%,Fréchet inception距离为1.01。颅骨分割在七个颅骨上的平均Dice系数为85%,颅缝分割Dice系数为80%。通过TOST检验证实合成CT与真实CT在分割上的等效性。
- Conclusion: 这是首个能从MRI衍生的合成CT实现颅缝分割的儿科颅骨CT合成框架,填补了非侵入性颅骨评估的关键空白,为无辐射的儿童颅骨发育评估提供了新方法。
[6] Scaling Remote Sensing Foundation Models: Data Domain Tradeoffs at the Peta-Scale
Charith Wickrema,Eliza Mace,Hunter Brown,Heidys Cabrera,Nick Krall,Matthew O'Neill,Shivangi Sarkar,Lowell Weissman,Eric Hughes,Guido Zarrella
Main category: cs.CV
TL;DR: 该论文研究了在超大规模高分辨率遥感数据上训练基础模型的缩放行为,发现即使使用千万亿像素级别的数据,性能仍受数据限制而非模型参数限制。
- Motivation: 遥感领域缺乏像自然图像领域那样的成熟缩放规律,而现代多模态AI应用需要强大的领域专用编码器。研究旨在为遥感基础模型的大规模训练提供实用指导。
- Method: 使用超过千万亿像素的商业卫星电光数据,在MITRE联邦AI沙盒中训练逐渐增大的视觉变换器(ViT)骨干网络,分析在拍字节规模下的成功与失败模式。
- Result: 即使在如此大规模下,性能仍处于数据限制状态而非模型参数限制状态。研究观察到了拍字节规模下的具体成功与失败模式,并为跨遥感模态的领域差距提供了分析。
- Conclusion: 这些实用见解旨在指导数据收集策略、计算预算和优化计划,推动前沿规模遥感基础模型的未来发展。
[7] Learning to learn skill assessment for fetal ultrasound scanning
Yipei Wang,Qianye Yang,Lior Drukker,Aris T. Papageorghiou,Yipeng Hu,J. Alison Noble
Main category: cs.CV
TL;DR: 提出基于双层优化的胎儿超声技能评估框架,通过任务执行质量自动评估技能水平,无需人工标注技能评级
- Motivation: 传统超声技能评估依赖专家监督,存在主观性强、耗时的问题;现有自动化方法多采用监督学习,局限于预定义的影响因素
- Method: 提出双层优化框架,包含临床任务预测器和技能预测器,通过联合优化同时精炼两个网络,以任务执行质量作为技能指标
- Result: 在真实临床胎儿头部超声视频上验证,证明框架能有效预测超声技能,将优化的任务性能量化为技能指标
- Conclusion: 该框架实现了无需人工预定义技能评级的自动化超声技能评估,为客观、高效的技能量化提供了新方法
[8] MGML: A Plug-and-Play Meta-Guided Multi-Modal Learning Framework for Incomplete Multimodal Brain Tumor Segmentation
Yulong Zou,Bo Liu,Cun-Jing Zheng,Yuan-ming Geng,Siyue Li,Qiankun Zuo,Shuihua Wang,Yudong Zhang,Jin Hong
Main category: cs.CV
TL;DR: 提出MGML框架,通过元参数化自适应模态融合和一致性正则化模块,解决临床MRI多模态数据不完整时的脑肿瘤分割问题。
- Motivation: 临床实践中多模态MRI数据常不完整,难以充分利用可用信息,因此最大化利用不完整多模态信息成为关键研究挑战。
- Method: 提出元引导多模态学习框架,包含元参数化自适应模态融合和一致性正则化模块。Meta-AMF根据可用模态生成自适应软标签监督信号,促进更一致的多模态融合;一致性正则化增强分割性能并提升框架鲁棒性。
- Result: 在BraTS2020和BraTS2023数据集上优于多种SOTA方法。在BraTS2020的15种缺失模态组合平均Dice分数:全肿瘤87.55、肿瘤核心79.36、增强肿瘤62.67。
- Conclusion: MGML框架能有效处理不完整多模态MRI数据,不改变原始模型架构,可方便集成到训练流程中,在脑肿瘤分割任务上表现优异。
[9] Learnable Query Aggregation with KV Routing for Cross-view Geo-localisation
Hualin Ye,Bingxi Liu,Jixiang Du,Yu Qin,Ziyi Chen,Hong Zhang
Main category: cs.CV
TL;DR: 提出一种新颖的跨视角地理定位系统,通过DINOv2骨干网络、多尺度通道重分配模块和改进的聚合模块,有效处理视角差异,在减少参数量的同时实现竞争性性能。
- Motivation: 跨视角地理定位中显著的视角差异给特征聚合和对齐带来了巨大挑战,需要更有效的特征表示和匹配方法。
- Method: 1) 使用DINOv2骨干网络配合卷积适配器微调增强模型对跨视角变化的适应性;2) 提出多尺度通道重分配模块增强空间表示的多样性和稳定性;3) 提出改进的聚合模块,将专家混合路由集成到特征聚合过程中,在交叉注意力框架中动态选择专家子空间处理异构输入域。
- Result: 在University-1652和SUES-200数据集上的大量实验表明,该方法以更少的训练参数实现了竞争性性能。
- Conclusion: 提出的跨视角地理定位系统通过三个关键改进有效解决了视角差异问题,在参数效率方面表现出色,为跨视角匹配任务提供了有效的解决方案。
[10] Kinematic-Based Assessment of Surgical Actions in Microanastomosis
Yan Meng,Daniel Donoho,Marcelle Altshuler,Omar Arnaout
Main category: cs.CV
TL;DR: 提出基于AI的微血管吻合手术自动动作分割与技能评估框架,实现92.4%的动作分割准确率和85.5%的技能分类准确率。
- Motivation: 神经外科微血管吻合手术需要精细操作技能,传统评估依赖专家主观评价,存在评分者间变异、不一致性和时间消耗等问题,需要自动化、可扩展的客观评估方案。
- Method: 提出三模块AI框架:1) 基于YOLO和DeepSORT的器械尖端跟踪定位;2) 基于自相似矩阵的动作边界检测和无监督聚类的动作分割;3) 用于评估手术手势熟练度的监督分类模块。
- Result: 在58个专家评分的微血管吻合视频数据集上验证,帧级动作分割准确率达到92.4%,技能分类准确率达到85.5%,能够有效复现专家评估结果。
- Conclusion: 该方法能够为显微外科教育提供客观、实时的反馈,实现更标准化、数据驱动的培训协议,推动高风险手术环境中的能力评估进步。
[11] U-Net-Like Spiking Neural Networks for Single Image Dehazing
Huibin Li,Haoran Liu,Mingzhe Liu,Yulong Xiao,Peng Li,Guibin Zan
Main category: cs.CV
TL;DR: 提出DehazeSNN,一种结合U-Net架构和脉冲神经网络的图像去雾方法,通过OLIFBlock增强跨通道通信,在减少计算量的同时实现高效去雾。
- Motivation: 传统去雾方法依赖大气散射模型,而深度学习方法如CNN和Transformer各有局限:CNN难以捕捉长距离依赖,Transformer计算资源需求高。需要一种既能处理多尺度特征又能高效管理局部和长距离依赖的轻量级架构。
- Method: 提出DehazeSNN架构,结合U-Net设计和脉冲神经网络(SNN)。引入正交泄漏积分发放块(OLIFBlock)增强跨通道通信,有效捕捉多尺度图像特征,同时管理局部和长距离依赖。
- Result: 在基准数据集上实验表明,DehazeSNN与最先进方法竞争力相当,能生成高质量无雾图像,同时具有更小的模型规模和更少的乘加运算量。
- Conclusion: DehazeSNN通过SNN和U-Net架构的创新结合,解决了现有去雾方法的计算效率和长距离依赖问题,为图像去雾提供了高效轻量的解决方案。
[12] T2VAttack: Adversarial Attack on Text-to-Video Diffusion Models
Changzhen Li,Yuecong Min,Jie Zhang,Zheng Yuan,Shiguang Shan,Xilin Chen
Main category: cs.CV
TL;DR: T2VAttack:针对文本到视频扩散模型的对抗攻击研究,从语义和时间两个维度评估模型鲁棒性,发现微小提示修改即可显著降低生成质量
- Motivation: 尽管文本到视频(T2V)扩散模型在生成高质量、时间连贯的视频方面取得了显著进展,但其对抗攻击的脆弱性尚未得到充分研究。本文旨在填补这一空白,从语义和时间两个角度全面评估T2V模型的对抗鲁棒性。
- Method: 提出T2VAttack框架,包含两个攻击目标:语义目标(评估视频-文本对齐)和时间目标(评估时间动态)。开发两种攻击方法:T2VAttack-S(通过贪婪搜索识别关键词并用同义词替换)和T2VAttack-I(迭代插入优化词以最小化提示扰动)。
- Result: 在ModelScope、CogVideoX、Open-Sora、HunyuanVideo等最先进的T2V模型上进行全面评估,实验表明即使单个词的替换或插入也能导致语义保真度和时间动态的显著下降,揭示了当前T2V扩散模型的关键脆弱性。
- Conclusion: 当前T2V扩散模型对对抗攻击高度脆弱,微小的提示修改即可显著影响生成质量。这凸显了提高T2V模型鲁棒性的迫切需求,为未来安全可靠的视频生成系统开发提供了重要见解。
[13] DriveExplorer: Images-Only Decoupled 4D Reconstruction with Progressive Restoration for Driving View Extrapolation
Yuang Jia,Jinlong Wang,Jiayi Zhao,Chunlam Li,Shunzhou Wang,Wei Gao
Main category: cs.CV
TL;DR: 提出一种仅需图像和可选相机位姿的自驾场景视图外推方法,通过4D高斯模型与视频扩散模型的迭代优化,无需昂贵传感器或标注数据。
- Motivation: 现有基于扩散模型的方法严重依赖激光雷达点云、3D边界框和车道标注等先验信息,需要昂贵传感器或人工标注,限制了实际部署应用。
- Method: 1) 仅用图像和可选相机位姿估计全局静态点云和逐帧动态点云,融合为统一表示;2) 使用可变形4D高斯框架重建场景;3) 初始训练的4D高斯模型渲染降质伪图像训练视频扩散模型;4) 逐步偏移的高斯渲染通过扩散模型迭代优化,增强结果作为4DGS训练数据;5) 重复直到外推至目标视点。
- Result: 相比基线方法,该方法在新型外推视点上生成更高质量的图像。
- Conclusion: 该方法仅需图像和可选相机位姿,无需昂贵传感器或标注,通过4D高斯与视频扩散模型的迭代优化,实现了高质量的自驾场景视图外推。
[14] Anomaly detection in satellite imagery through temporal inpainting
Bertrand Rouet-Leduc,Claudia Hulbert
Main category: cs.CV
TL;DR: 基于深度学习的卫星时间序列异常检测方法,通过训练修复模型预测地表正常状态,从而高灵敏度检测地表变化
- Motivation: 卫星影像地表变化检测对灾害响应和环境监测至关重要,但面临大气噪声、季节变化和传感器伪影等复杂因素的挑战
- Method: 使用基于SATLAS基础模型的修复模型,利用全球分布的Sentinel-2时间序列数据训练,通过预测地表正常状态来检测异常
- Result: 在2023年土耳其-叙利亚地震序列中成功检测到Tepehan的断裂特征,检测灵敏度比传统方法高约3倍,优于时间中值和Reed-Xiaoli异常检测器
- Conclusion: 该方法为利用免费多光谱卫星数据实现自动化、全球尺度的地表变化监测提供了可行路径
[15] GCA-ResUNet: Medical Image Segmentation Using Grouped Coordinate Attention
Jun Ding,Shang Gao
Main category: cs.CV
TL;DR: 提出GCA-ResUNet,一种结合分组坐标注意力的高效医学图像分割框架,在保持CNN效率优势的同时增强全局表示能力,在Synapse和ACDC数据集上优于现有方法。
- Motivation: 传统U-Net等CNN方法在建模长距离上下文依赖方面存在局限,尤其在多器官和低对比度区域;Transformer方法虽能解决此问题但计算资源需求高,不利于临床部署。需要一种既高效又能捕捉全局依赖的解决方案。
- Method: 提出GCA-ResUNet框架,核心是轻量级即插即用的分组坐标注意力(GCA)模块。GCA将通道上下文建模解耦为多个组以处理通道间的语义异质性,并集成方向感知坐标编码来捕捉水平和垂直轴的结构化空间依赖。
- Result: 在Synapse和ACDC基准测试中分别达到86.11%和92.64%的Dice分数,优于Swin-UNet、TransUNet等代表性CNN和Transformer方法。特别是在复杂边界的小解剖结构分割上表现一致提升。
- Conclusion: GCA-ResUNet在分割精度和计算效率之间取得了良好平衡,为临床部署提供了实用且可扩展的解决方案。该方法增强了全局表示能力,同时保持了CNN骨干网络的效率优势。
[16] Bridging Structure and Appearance: Topological Features for Robust Self-Supervised Segmentation
Haotang Li,Zhenyu Qi,Hao Qin,Huanrui Yang,Sen He,Kebin Peng
Main category: cs.CV
TL;DR: GASeg是一个自监督语义分割框架,通过引入拓扑信息解决外观模糊问题,使用可微分盒计数模块和拓扑增强策略,在多个基准测试中达到SOTA性能。
- Motivation: 自监督语义分割方法在面对外观模糊(如阴影、眩光、局部纹理)时经常失败,这是因为过度依赖不稳定的外观特征。需要引入更稳定的几何拓扑信息来解决这个问题。
- Method: 1. 可微分盒计数(DBC)模块:从几何特征流和外观特征流中量化多尺度拓扑统计信息;2. 拓扑增强(TopoAug):通过形态学操作模拟真实世界模糊的对抗策略;3. GALoss:多目标损失函数,显式强制几何特征和外观特征的跨模态对齐。
- Result: 在COCO-Stuff、Cityscapes、PASCAL等四个基准测试中实现了最先进的性能,验证了通过拓扑信息桥接几何和外观的方法有效性。
- Conclusion: GASeg通过引入稳定的拓扑信息成功解决了自监督语义分割中的外观模糊问题,证明了桥接几何和外观特征的重要性,为语义分割提供了更鲁棒的解决方案。
[17] Improved 3D Gaussian Splatting of Unknown Spacecraft Structure Using Space Environment Illumination Knowledge
Tae Ha Park,Simone D'Amico
Main category: cs.CV
TL;DR: 提出一种从RPO图像序列重建未知航天器3D结构的新方法,使用3D高斯溅射模型并融入太阳位置先验知识以改善光照变化下的渲染质量。
- Motivation: 在空间交会对接操作中,从动态光照条件下的图像序列重建未知航天器的3D结构具有挑战性。传统3DGS需要静态场景假设,与空间环境中的动态光照条件不符,且渲染质量直接影响下游的相机姿态估计任务。
- Method: 使用3D高斯溅射模型表示目标航天器的几何和外观,并将服务航天器估计的太阳位置先验知识融入训练流程,以改善3DGS渲染的光度质量,使其能适应空间快速变化的光照条件。
- Result: 实验研究表明,该方法能有效处理空间快速变化的光照条件,学习到的3DGS模型能反映全局阴影和自遮挡,提高了渲染的光度准确性。
- Conclusion: 通过融入太阳位置先验知识,提出的方法能在动态光照条件下重建几何准确的3DGS模型,并提高渲染光度质量,有利于下游的相机姿态估计任务。
[18] Bridging the Perception-Cognition Gap:Re-engineering SAM2 with Hilbert-Mamba for Robust VLM-based Medical Diagnosis
Hao Wu,Hui Li,Yiyun Su
Main category: cs.CV
TL;DR: Hilbert-VLM:一种用于3D多模态医学图像分析的两阶段融合框架,通过Hilbert空间填充曲线改进SAM2架构,结合分割和文本属性生成增强提示,指导VLM进行疾病分类。
- Motivation: 当前视觉语言模型在医学诊断中潜力巨大,但处理复杂3D多模态医学图像面临挑战:难以有效整合互补信息,且容易忽略细微但关键的病理特征。
- Method: 提出Hilbert-VLM两阶段融合框架:1) HilbertMed-SAM模块进行精确病灶分割,利用Hilbert空间填充曲线改进SAM2的Mamba SSM扫描机制,保留3D数据空间局部性;引入Hilbert-Mamba交叉注意力和尺度感知解码器捕捉细粒度细节;2) 提示增强模块将分割掩码和文本属性统一为信息密集提示,指导VLM进行疾病分类。
- Result: 在BraTS2021分割基准测试中,Dice分数达到82.35%,诊断分类准确率(ACC)为78.85%,显著提升了医学VLM分析的准确性和可靠性。
- Conclusion: Hilbert-VLM模型通过创新的架构设计和两阶段融合策略,有效解决了3D多模态医学图像分析中的信息整合和细节捕捉问题,为基于VLM的医学分析提供了更准确可靠的解决方案。
[19] On Exact Editing of Flow-Based Diffusion Models
Zixiang Li,Yue Song,Jianing Peng,Ting Liu,Jun Huang,Xiaochao Qu,Luoqi Liu,Wei Wang,Yao Zhao,Yunchao Wei
Main category: cs.CV
TL;DR: 提出CVC框架,通过双视角速度转换机制和基于经验贝叶斯推断的后验一致性更新,解决流式扩散编辑中的速度误差累积问题,实现稳定可解释的潜在动态和忠实重建。
- Motivation: 现有流式扩散编辑方法在源图像和目标图像分布间直接转换时,潜在轨迹存在累积速度误差,导致语义不一致和结构保真度损失。
- Method: 提出条件速度校正(CVC)框架,将流式编辑重新定义为由已知源先验驱动的分布转换问题。引入双视角速度转换机制,将潜在演化分解为:保持源轨迹一致性的结构保留分支,以及驱动向目标分布可控偏移的语义引导分支。通过经验贝叶斯推断和Tweedie校正进行后验一致性更新,对条件速度场进行数学基础误差补偿。
- Result: CVC产生稳定可解释的潜在动态,实现忠实重建和平滑局部语义转换。综合实验表明,CVC在不同任务中始终实现更优的保真度、更好的语义对齐和更可靠的编辑行为。
- Conclusion: CVC通过理论严谨的速度校正机制,有效解决了流式扩散编辑中的轨迹漂移问题,为分布转换提供了稳定可靠的框架。
[20] FitControler: Toward Fit-Aware Virtual Try-On
Lu Yang,Yicheng Liu,Yanan Li,Xiang Bai,Hao Lu
Main category: cs.CV
TL;DR: FitControler是一个可学习的插件,能够集成到现有的虚拟试穿模型中,实现服装合身度的精确控制,解决了传统VTON方法忽略服装合身度这一关键风格因素的问题。
- Motivation: 现有虚拟试穿方法主要关注服装细节的忠实渲染,但忽略了塑造整体风格的关键因素——服装合身度。合身度定义了服装与穿着者身体的贴合方式,是时尚设计的基本要素,对整体风格协调至关重要。
- Method: FitControler包含两个核心组件:1)合身度感知的布局生成器,基于精心处理的服装无关表示重新绘制身体-服装布局;2)多尺度合身度注入器,将布局线索传递给VTON模型实现布局驱动的虚拟试穿。研究还构建了包含13,000个不同合身度身体-服装对的Fit4Men数据集。
- Result: 实验表明FitControler能够与各种VTON模型协同工作,实现精确的合身度控制。研究还引入了两种合身度一致性指标来评估生成结果的合身度。
- Conclusion: FitControler成功解决了虚拟试穿中合身度控制的关键挑战,通过可学习的插件架构实现了与现有VTON模型的无缝集成,为虚拟试穿系统提供了重要的合身度定制能力。
[21] Structure-Guided Allocation of 2D Gaussians for Image Representation and Compression
Huanxiong Liang,Yunuo Chen,Yicheng Pan,Sixian Wang,Jincheng Dai,Guo Lu,Wenjun Zhang
Main category: cs.CV
TL;DR: 提出结构引导的2D高斯泼溅分配方法,通过结构感知初始化、自适应位宽量化和几何一致正则化,在保持毫秒级解码速度的同时显著提升率失真性能。
- Motivation: 现有2D高斯泼溅方法在分配表示容量和参数精度时忽略了图像结构,导致在低比特率下的率失真效率受限。需要一种能显式结合图像结构与表示能力的方法。
- Method: 1) 结构引导初始化:根据自然图像的空间结构先验分配2D高斯分布,实现局部化和语义有意义的分布;2) 自适应位宽量化:对协方差参数进行自适应比特宽度量化,复杂区域的小尺度高斯分配更高精度;3) 几何一致正则化:将高斯方向与局部梯度方向对齐以保持结构细节。
- Result: 方法在保持超过1000 FPS解码速度的同时,显著提升了2DGS的表示能力和RD性能。相比基线GSImage,在Kodak数据集上BD-rate降低43.44%,在DIV2K数据集上降低29.91%。
- Conclusion: 提出的结构引导分配原则通过显式结合图像结构与表示容量和量化精度,在保持快速解码的同时显著提升了2D高斯泼溅的率失真效率,为紧凑图像表示提供了有效解决方案。
[22] FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing
Yunkai Dang,Donghao Wang,Jiacheng Yang,Yifan Jiang,Meiyi Zhu,Yuekun Yang,Cong Wang,Qi Fan,Wenbin Li,Yang Gao
Main category: cs.CV
TL;DR: MF-RSVLM是一个多特征融合的遥感视觉语言模型,通过提取多尺度视觉特征并结合全局上下文与局部细节,解决了现有遥感VLM在细粒度特征提取和视觉遗忘方面的问题。
- Motivation: 现有的大型视觉语言模型在遥感领域应用时面临挑战,因为遥感图像与自然图像存在本质差异。现有的遥感VLM往往无法提取细粒度视觉特征,并且在深度语言处理过程中会出现视觉遗忘问题。
- Method: 提出MF-RSVLM模型,学习多尺度视觉表示,结合全局上下文与局部细节,改进对遥感场景中复杂小结构的捕捉。采用循环视觉特征注入方案,确保语言模型在生成过程中保持视觉证据的接地性,减少视觉遗忘。
- Result: 在多个遥感基准测试上的广泛实验表明,MF-RSVLM在遥感分类、图像描述和视觉问答任务上达到了最先进或极具竞争力的性能。
- Conclusion: MF-RSVLM通过有效的多特征融合和循环视觉特征注入,显著提升了遥感视觉语言模型的性能,解决了细粒度特征提取和视觉遗忘问题。
[23] RSAgent: Learning to Reason and Act for Text-Guided Segmentation via Multi-Turn Tool Invocations
Xingqi He,Yujie Zhang,Shuyong Gao,Wenjie Li,Lingyi Hong,Mingxi Chen,Kaixun Jiang,Jiyuan Fu,Wenqiang Zhang
Main category: cs.CV
TL;DR: RSAgent:基于多模态大语言模型的智能体,通过多轮工具调用实现文本引导分割,支持验证、重新聚焦和细化
- Motivation: 现有文本引导分割方法通常作为一次性定位处理,模型在单次前向传播中预测像素提示来驱动外部分割器,当初始定位错误时缺乏验证、重新聚焦和细化的能力
- Method: 提出RSAgent智能体MLLM,通过多轮工具调用交替进行推理和分割动作;构建数据管道合成多轮推理分割轨迹,采用两阶段训练框架:冷启动监督微调 + 带有细粒度任务特定奖励的智能体强化学习
- Result: 在ReasonSeg测试集上达到66.5% gIoU的零样本性能,比Seg-Zero-7B提升9%;在RefCOCOg上达到81.5% cIoU,在域内和域外基准测试中均达到最先进性能
- Conclusion: RSAgent通过智能体方法实现了文本引导分割的迭代改进,克服了传统一次性定位方法的局限性,在多个基准测试中表现出色
[24] PipeFlow: Pipelined Processing and Motion-Aware Frame Selection for Long-Form Video Editing
Mustafa Munir,Md Mostafijur Rahman,Kartikeya Bhardwaj,Paul Whatmough,Radu Marculescu
Main category: cs.CV
TL;DR: PipeFlow:一种可扩展的流水线视频编辑方法,通过运动分析跳过低运动帧、流水线任务调度和神经网络插值,实现长视频编辑的线性时间增长和显著加速
- Motivation: 长视频编辑面临计算成本指数级增长的挑战,特别是联合编辑和DDIM反演在长序列上的计算开销巨大,需要一种可扩展的解决方案
- Method: 1) 基于SSIM和光流的运动分析,识别并跳过低运动帧的编辑;2) 流水线任务调度算法,将视频分割成多个片段并行执行DDIM反演和联合编辑;3) 神经网络插值技术平滑片段边界帧并插值跳过的帧
- Result: PipeFlow实现了编辑时间与视频长度的线性增长,相比TokenFlow加速9.6倍,相比DMT加速31.7倍,理论上可以编辑无限长的视频
- Conclusion: PipeFlow通过创新的运动分析、流水线调度和插值技术,有效解决了长视频编辑的计算瓶颈问题,实现了可扩展的高效视频编辑
[25] Reinforced Diffusion: Learning to Push the Limits of Anisotropic Diffusion for Image Denoising
Xinran Qin,Yuhui Quan,Ruotao Xu,Hui Ji
Main category: cs.CV
TL;DR: 提出基于强化学习的可训练各向异性扩散框架,通过深度Q学习选择扩散动作序列,构建自适应图像结构的随机扩散过程,在图像去噪任务中表现优异。
- Motivation: 传统各向异性扩散方法使用显式扩散算子,难以适应复杂图像结构,性能不及基于学习的方法。需要开发能够自适应图像结构的可训练扩散框架。
- Method: 将去噪过程建模为一系列由深度Q学习排序的朴素扩散动作序列,构建基于强化学习的可训练各向异性扩散框架。通过深度Q学习在不同迭代中选择扩散动作,形成自适应不同图像结构的随机各向异性扩散过程。
- Result: 该方法在去除三种常见噪声类型上表现优异,超越了现有基于扩散的方法,并能与代表性的深度CNN方法竞争。
- Conclusion: 基于强化学习的可训练各向异性扩散框架能够有效适应复杂图像结构,在图像去噪任务中实现了对传统扩散方法的改进,为扩散型方法提供了新的学习范式。
[26] Neighbor-aware Instance Refining with Noisy Labels for Cross-Modal Retrieval
Yizhi Liu,Ruitao Pu,Shilin Xu,Yingke Chen,Quan-Hui Liu,Yuan Sun
Main category: cs.CV
TL;DR: 提出NIRNL框架,通过跨模态边界保持和邻居感知实例精炼,解决带噪声标签的跨模态检索问题,在三种基准数据集上取得SOTA性能。
- Motivation: 跨模态检索在多模态分析中取得进展,但大规模标注数据收集耗时费力,多模态数据标注不可避免地包含噪声,这会降低模型的检索性能。现有鲁棒CMR方法(鲁棒学习范式、标签校准策略、实例选择机制)往往无法同时满足模型性能上限、校准可靠性和数据利用率。
- Method: 提出NIRNL框架:1) 跨模态边界保持(CMP):调整正负样本对的相对距离,增强样本对之间的区分度;2) 邻居感知实例精炼(NIR):通过跨模态邻居共识识别纯子集、困难子集和噪声子集;3) 为这种细粒度划分构建不同的定制优化策略,最大化利用所有可用数据同时减轻错误传播。
- Result: 在三种基准数据集上的大量实验表明,NIRNL实现了最先进的性能,表现出显著的鲁棒性,特别是在高噪声率下。
- Conclusion: 提出的NIRNL框架通过跨模态边界保持和邻居感知实例精炼,有效解决了带噪声标签的跨模态检索问题,在保持模型性能的同时提高了数据利用率和校准可靠性。
[27] Pathology Context Recalibration Network for Ocular Disease Recognition
Zunjie Xiao,Xiaoqing Zhang,Risa Higashita,Jiang Liu
Main category: cs.CV
TL;DR: PCRNet:一种结合病理学上下文和专家经验先验的自动眼病识别网络,通过病理重校准模块和专家先验引导适配器提升识别性能和决策可解释性。
- Motivation: 现有深度神经网络在眼病识别中忽略了临床病理学上下文和专家经验先验,影响了识别性能和决策可解释性。需要探索如何利用这些临床先验知识来改进眼病识别系统。
- Method: 1. 设计病理重校准模块(PRM),结合像素级上下文压缩算子和病理分布集中算子来利用病理上下文先验;2. 应用专家先验引导适配器(EPGA),通过挖掘专家经验先验来突出重要像素级表示区域;3. 将PRM和EPGA集成到现代DNN中构建PCRNet;4. 引入集成损失(IL),考虑样本损失分布和训练标签频率的影响来提升性能。
- Result: 在三个眼病数据集上的广泛实验表明,PCRNet结合IL优于最先进的基于注意力的网络和先进的损失方法。可视化分析解释了PRM和EPGA影响DNN决策过程的内在行为。
- Conclusion: PCRNet通过有效整合病理学上下文和专家经验先验,显著提升了眼病识别的性能和决策可解释性,为临床诊断提供了更可靠的自动化工具。
[28] Balanced Hierarchical Contrastive Learning with Decoupled Queries for Fine-grained Object Detection in Remote Sensing Images
Jingzhou Chen,Dexin Chen,Fengchao Xiong,Yuntao Qian,Liang Xiao
Main category: cs.CV
TL;DR: 提出平衡层次对比损失与解耦学习策略,解决细粒度遥感检测中层次标签不平衡和分类-定位任务干扰问题,在三个数据集上超越SOTA方法。
- Motivation: 细粒度遥感数据集通常采用层次标签结构进行粗到细的对象区分,但将语义层次嵌入表示学习空间以提升检测性能仍具挑战。现有研究在不同层次应用监督对比学习,但忽视了两个关键问题:1) 标签层次中数据分布不平衡导致高频类别主导学习过程;2) 类别间语义关系学习干扰类别无关的定位任务。
- Method: 在DETR框架中提出平衡层次对比损失与解耦学习策略。平衡对比损失引入可学习的类别原型,在每个层次上均衡不同类别对梯度的贡献,确保每个层次类别在每个小批次中对损失计算贡献相等。解耦策略将DETR的对象查询分为分类和定位两组,实现任务特定的特征提取和优化。
- Result: 在三个具有层次标注的细粒度数据集上的实验表明,该方法优于最先进的现有方法。
- Conclusion: 通过平衡层次对比损失解决类别不平衡问题,通过解耦学习策略分离分类和定位任务,有效提升了细粒度遥感目标检测性能。
[29] RainFusion2.0: Temporal-Spatial Awareness and Hardware-Efficient Block-wise Sparse Attention
Aiyue Chen,Yaofu Liu,Junjian Huang,Guang Lian,Yiwu Yao,Wangli Lan,Jing Lin,Zhixin Ma,Tingting Zhou,Harry Yang
Main category: cs.CV
TL;DR: RainFusion2.0提出了一种在线自适应、硬件高效、低开销的稀疏注意力机制,用于加速视频和图像生成模型,在保持质量的同时实现80%稀疏度和1.5-1.8倍端到端加速。
- Motivation: 扩散Transformer模型在视频和图像生成任务中计算成本极高,限制了实际应用。现有稀疏注意力方法存在稀疏模式预测开销大和缺乏硬件通用性的问题,大多数方法仅针对GPU设计。
- Method: 采用三种关键技术:(1)利用块级均值作为代表性token进行稀疏掩码预测;(2)实现时空感知的token排列;(3)针对视频生成场景引入首帧下沉机制。
- Result: RainFusion2.0能够实现80%的稀疏度,在保持视频质量的同时获得1.5-1.8倍的端到端加速。该方法在各种生成模型上有效,并在多种硬件平台上验证了其泛化能力。
- Conclusion: RainFusion2.0成功解决了现有稀疏注意力方法的局限性,提供了一种硬件高效、低开销的解决方案,能够加速视频和图像生成模型,并在多种硬件平台上保持良好性能。
[30] Factorized Learning for Temporally Grounded Video-Language Models
Wenzheng Zeng,Difei Gao,Mike Zheng Shou,Hwee Tou Ng
Main category: cs.CV
TL;DR: D²VLM:通过解耦学习和因子化偏好优化,提升视频语言模型的事件级时间定位和文本响应能力
- Motivation: 现有视频语言模型在事件级感知的时间定位方面存在不足,时间定位和文本响应这两个关键任务通常耦合处理,缺乏清晰的逻辑层次结构,导致次优目标
- Method: 提出D²VLM框架,采用"先定位后基于证据回答"范式,引入证据令牌进行证据定位;开发因子化偏好优化算法,将概率时间定位建模显式纳入优化目标;构建合成数据集支持因子化偏好学习
- Result: 在各种任务上的实验表明该方法具有明显优势
- Conclusion: 通过解耦学习和因子化偏好优化,D²VLM有效提升了视频语言模型的时间定位和文本响应能力,为事件级视频理解提供了新思路
[31] Think Before You Move: Latent Motion Reasoning for Text-to-Motion Generation
Yijie Qian,Juncheng Wang,Yuxiang Feng,Chao Xu,Wang Lu,Yang Liu,Baigui Sun,Yiqiang Chen,Yong Liu,Shujun Wang
Main category: cs.CV
TL;DR: 本文提出Latent Motion Reasoning (LMR)框架,通过两阶段"思考-行动"决策过程解决文本到动作生成中的语义-运动阻抗不匹配问题,显著提升语义对齐和物理合理性。
- Motivation: 当前文本到动作生成方法将问题视为直接翻译,面临语义-运动阻抗不匹配的根本理论瓶颈:难以一次性将语义密集的离散语言意图映射到运动密集的高频运动数据中。
- Method: 提出Latent Motion Reasoning (LMR)框架,采用两阶段"思考-行动"决策过程:1) 思考阶段在压缩的语义丰富推理潜在空间中规划全局拓扑;2) 行动阶段在高频执行潜在空间中实例化具体帧。核心是新型双粒度分词器,将运动解耦为两个不同的流形。
- Result: 在T2M-GPT和MotionStreamer两个代表性基线模型上实现LMR,实验表明该方法在语义对齐和物理合理性方面均带来非平凡改进,验证了运动规划的最佳基础是学习的运动对齐概念空间而非自然语言。
- Conclusion: 通过引入潜在系统2推理架构,将文本到动作生成重新定义为两阶段决策过程,有效弥合语言与物理之间的不可言说性鸿沟,为运动生成提供了更优的解决方案。
[32] Guided Diffusion-based Generation of Adversarial Objects for Real-World Monocular Depth Estimation Attacks
Yongtao Chen,Yanbo Wang,Wentao Zhao,Guole Shen,Tianchen Deng,Jingchuan Wang
Main category: cs.CV
TL;DR: 提出一种无需训练、基于扩散模型的对抗攻击框架,生成自然且场景一致的对抗物体,用于攻击自动驾驶中的单目深度估计系统。
- Motivation: 现有物理对抗攻击主要依赖纹理贴片,存在放置限制严格、真实性有限的问题,在复杂驾驶环境中效果不佳。深度估计错误会传播到下游决策系统,影响交通安全。
- Method: 提出训练免费的生成对抗攻击框架,包含:1) 显著区域选择模块识别对深度估计影响最大的区域;2) Jacobian向量积引导机制,将对抗梯度引导到预训练扩散模型支持的更新方向。
- Result: 数字和物理实验表明,该方法在有效性、隐蔽性和物理可部署性方面显著优于现有攻击方法。
- Conclusion: 该方法能够生成物理上合理的对抗物体,引发显著的对抗深度偏移,对自动驾驶安全评估具有重要的实际意义。
[33] GeoBench: Rethinking Multimodal Geometric Problem-Solving via Hierarchical Evaluation
Yuan Feng,Yue Yang,Xiaohan He,Jiatong Zhao,Jianlong Chen,Zijun Chen,Daocheng Fu,Qi Liu,Renqiu Xia,Bo Zhang,Junchi Yan
Main category: cs.CV
TL;DR: GeoBench是一个用于评估视觉语言模型几何推理能力的层次化基准,包含四个推理级别,通过六个形式化验证任务系统评估从属性提取到逻辑错误纠正的能力。
- Motivation: 当前几何推理评估存在三个主要问题:1)教科书基准可能导致测试数据污染;2)过于关注最终答案而非推理过程;3)诊断粒度不足。需要更全面、分层次的评估框架。
- Method: 提出GeoBench基准,包含四个推理层次:视觉感知、目标导向规划、严格定理应用、自我反思回溯。通过TrustGeoGen生成六个形式化验证任务,系统评估不同能力。
- Result: 实验显示:1)推理模型(如OpenAI-o3)优于通用MLLMs;2)任务复杂度增加时性能显著下降;3)子目标分解和无关前提过滤对最终准确性至关重要;4)思维链提示在某些任务中意外降低性能。
- Conclusion: GeoBench为几何问题解决提供了全面的评估基准,并为开发几何问题解决系统提供了可操作的指导方针,揭示了当前模型在复杂几何推理中的局限性。
[34] Enhancing LLM-Based Neural Network Generation: Few-Shot Prompting and Efficient Validation for Automated Architecture Design
Chandini Vysyaraju,Raghuvir Duvvuri,Avi Goyal,Dmitry Ignatov,Radu Timofte
Main category: cs.CV
TL;DR: 本文提出FSAP(Few-Shot Architecture Prompting)方法,系统研究LLM在计算机视觉架构生成中的支持示例数量,发现n=3最佳;同时引入Whitespace-Normalized Hash Validation轻量去重方法,在7个视觉基准上生成1900个独特架构。
- Motivation: 自动化神经网络架构设计在计算机视觉中仍具挑战。任务多样性和计算约束需要有效的架构和高效的搜索方法。LLM为计算密集的NAS提供了有前景的替代方案,但在计算机视觉架构生成中的应用尚未系统研究,特别是在提示工程和验证策略方面。
- Method: 1. 提出Few-Shot Architecture Prompting (FSAP):首次系统研究LLM架构生成中支持示例数量(n=1-6),发现n=3最佳平衡架构多样性和上下文聚焦;2. 引入Whitespace-Normalized Hash Validation:轻量去重方法(<1ms),比AST解析快100倍,防止重复训练;3. 基于任务无关的NNGPT/LEMUR框架;4. 在7个计算机视觉基准上进行大规模实验。
- Result: 在7个计算机视觉基准(MNIST, CIFAR-10, CIFAR-100, CelebA, ImageNette, SVHN, Places365)上生成1900个独特架构。FSAP发现n=3示例最佳平衡架构多样性和上下文聚焦。Whitespace-Normalized Hash Validation提供100倍加速的去重能力。引入数据集平衡评估方法解决异构视觉任务比较挑战。
- Conclusion: 这些贡献为计算机视觉中基于LLM的架构搜索提供了可操作的指导方针,并建立了严格的评估实践,使自动化设计对计算资源有限的研究人员更加可及。FSAP和轻量去重方法使LLM在计算机视觉架构生成中的应用更加系统和高效。
[35] Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning
Chubin Chen,Sujie Hu,Jiashu Zhu,Meiqi Wu,Jintao Chen,Yanxun Li,Nisha Huang,Chengyu Fang,Jiahong Wu,Xiangxiang Chu,Xiu Li
Main category: cs.CV
TL;DR: 提出D²-Align框架解决文本到图像扩散模型对齐中的偏好模式崩溃问题,通过方向性校正奖励信号来保持生成多样性
- Motivation: 现有基于人类反馈的强化学习方法虽然能在自动奖励指标上获得高分,但会导致偏好模式崩溃(PMC)——模型收敛到狭窄的高分输出(如单一风格或普遍过曝),严重降低生成多样性
- Method: 提出方向性解耦对齐(D²-Align)框架:1)在奖励模型的嵌入空间中学习方向性校正(保持模型冻结);2)在优化过程中将校正应用于奖励信号,防止模型崩溃到特定模式
- Result: 综合评估(定性分析和质量与多样性的定量指标)显示,D²-Align在保持多样性的同时实现了与人类偏好的更好对齐
- Conclusion: D²-Align通过方向性校正奖励信号有效缓解了偏好模式崩溃问题,在文本到图像扩散模型对齐中实现了质量与多样性的更好平衡
[36] Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal Dataset
TsaiChing Ni,ZhenQi Chen,YuanFu Yang
Main category: cs.CV
TL;DR: IMDD-1M是首个大规模工业多模态缺陷数据集,包含100万对齐的图像-文本对,涵盖60多种材料类别和400多种缺陷类型,并基于此训练了面向工业场景的扩散式视觉语言基础模型。
- Motivation: 工业制造和质量检测领域缺乏大规模、高质量的多模态数据集,限制了多模态学习在工业场景中的应用。需要构建专门针对工业缺陷的数据集来推动制造智能的发展。
- Method: 1. 构建IMDD-1M数据集:包含100万对齐的图像-文本对,涵盖60+材料类别和400+缺陷类型,每对数据都有专家验证的标注和细粒度文本描述;2. 基于该数据集从头训练扩散式视觉语言基础模型,专门针对工业场景设计;3. 通过轻量级微调将基础模型适配到特定领域。
- Result: 1. 创建了首个大规模工业多模态缺陷数据集IMDD-1M;2. 训练的扩散式视觉语言基础模型具有很好的泛化能力;3. 仅需不到5%的任务特定数据即可达到专用专家模型的性能,展示了数据高效的基础模型适配潜力。
- Conclusion: IMDD-1M数据集和相应的基础模型为工业检测和生成任务提供了可扩展、领域自适应、知识基础的制造智能解决方案,推动了工业多模态学习的发展。
[37] Bayesian Self-Distillation for Image Classification
Anton Adelöw,Matteo Gamba,Atsuto Maki
Main category: cs.CV
TL;DR: BSD是一种基于贝叶斯推理的自蒸馏方法,通过模型自身预测构建样本特定的目标分布,无需硬标签,显著提升模型精度、校准性和鲁棒性。
- Motivation: 传统深度学习分类训练依赖硬标签,导致模型过度自信、校准性差、泛化能力有限。现有自蒸馏方法虽然利用模型预测信息,但仍依赖硬标签,效果受限。
- Method: 提出贝叶斯自蒸馏(BSD),基于贝叶斯推理利用模型自身预测构建样本特定的目标分布。初始化后完全不依赖硬标签,可结合对比损失进一步提升性能。
- Result: 在多种深度架构和数据集上,BSD相比现有自蒸馏方法:测试精度显著提升(如ResNet-50在CIFAR-100上+1.4%);预期校准误差大幅降低(-40%);对数据损坏、扰动和标签噪声的鲁棒性增强;结合对比损失时在标签噪声下达到单阶段单网络方法的SOTA鲁棒性。
- Conclusion: BSD是一种无需硬标签的贝叶斯自蒸馏方法,能同时提升模型精度、校准性和鲁棒性,为深度学习训练提供了更有效的正则化方案。
[38] DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models
Zefeng He,Xiaoye Qu,Yafu Li,Tong Zhu,Siyuan Huang,Yu Cheng
Main category: cs.CV
TL;DR: DiffThinker提出了一种基于扩散模型的生成式多模态推理框架,将多模态推理重新定义为图像到图像的生成任务,在视觉中心任务中实现了更好的逻辑一致性和空间精度。
- Motivation: 当前多模态大语言模型(MLLMs)的推理过程主要基于文本,导致在复杂长视野的视觉中心任务中表现不佳。需要一种更原生、更精确的视觉推理方法。
- Method: 建立生成式多模态推理范式,引入DiffThinker——基于扩散模型的推理框架,将多模态推理重新定义为图像到图像的生成任务。
- Result: 在四个领域(顺序规划、组合优化、约束满足、空间配置)的实验中,DiffThinker显著优于GPT-5(+314.2%)、Gemini-3-Flash(+111.6%)和微调的Qwen3-VL-32B基线(+39.0%)。
- Conclusion: 生成式多模态推理是视觉中心推理的有前景方法,DiffThinker展示了该范式的四个核心特性:效率、可控性、原生并行性和协作性。
[39] Deep Global Clustering for Hyperspectral Image Segmentation: Concepts, Applications, and Open Challenges
Yu-Tang Chang,Pin-Wei Chen,Shih-Fang Chen
Main category: cs.CV
TL;DR: 提出Deep Global Clustering (DGC)框架,用于内存高效的高光谱图像分割,通过局部补丁学习全局聚类结构,无需预训练,在消费级硬件上30分钟内完成训练。
- Motivation: 高光谱图像分析面临计算瓶颈,数据量超过可用内存。现有基础模型在遥感数据集上预训练,但难以迁移到近距离农业监测等特定领域,因为光谱特征、空间尺度和语义目标存在根本差异。
- Method: DGC框架在重叠的小补丁上操作,通过一致性约束学习全局聚类结构,保持恒定内存使用。使用多目标损失函数,但存在优化不稳定性问题。
- Result: 在叶片病害数据集上,DGC实现背景-组织分离(平均IoU 0.925),通过可导航的语义粒度展示无监督病害检测能力。但存在聚类过度合并问题。
- Conclusion: DGC设计理念有价值,但稳定实现需要动态损失平衡的原则性方法。该工作为后续研究提供知识框架。
[40] Guiding a Diffusion Transformer with the Internal Dynamics of Itself
Xingyu Zhou,Qifan Li,Xiaobin Hu,Hai Chen,Shuhang Gu
Main category: cs.CV
TL;DR: 提出内部引导(IG)策略,通过在训练过程中引入中间层辅助监督,在采样过程中外推中间层和深层输出来提升扩散模型的生成质量和训练效率。
- Motivation: 扩散模型虽然能捕捉完整的数据分布,但由于缺乏足够训练和数据覆盖低概率区域,模型在这些区域生成高质量图像时会受到惩罚。现有的引导策略如CFG会导致样本过度简化或失真,而基于坏版本引导的方法需要精心设计的退化策略、额外训练和采样步骤。
- Method: 提出内部引导(IG)策略:1)训练过程中在中间层引入辅助监督;2)采样过程中外推中间层和深层输出来获得生成结果。这是一种简单但有效的策略,无需额外训练或复杂采样步骤。
- Result: 在各种基准上显著提升了训练效率和生成质量:在ImageNet 256x256上,SiT-XL/2+IG在80和800轮分别达到FID=5.31和1.75;LightningDiT-XL/1+IG达到FID=1.34,大幅超越现有方法;结合CFG后达到当前最先进的FID=1.19。
- Conclusion: 内部引导(IG)是一种简单而有效的策略,能够显著提升扩散模型的训练效率和生成质量,在多个基准上取得了最先进的结果,为扩散模型优化提供了新思路。
[41] PointRAFT: 3D deep learning for high-throughput prediction of potato tuber weight from partial point clouds
Pieter M. Blok,Haozhou Wang,Hyun Kwon Suh,Peicheng Wang,James Burridge,Wei Guo
Main category: cs.CV
TL;DR: 提出PointRAFT网络,直接从部分点云预测马铃薯块茎重量,解决RGB-D相机因自遮挡导致的重量低估问题,实现高吞吐量实时处理。
- Motivation: 马铃薯产量是优化农业栽培实践的关键指标。使用RGB-D相机在收割机上估计产量时,由于自遮挡导致重建的点云不完整,系统性地低估了块茎重量。
- Method: 提出PointRAFT高吞吐量点云回归网络,直接从部分点云预测连续3D形状属性(如块茎重量)。关键创新是引入对象高度嵌入,将块茎高度作为额外的几何线索,改善实际收割条件下的重量预测。
- Result: 在来自4个品种、3个生长季节的859个马铃薯块茎的26,688个部分点云数据集上训练和评估。测试集(5,254个点云,172个块茎)上,PointRAFT达到平均绝对误差12.0克,均方根误差17.2克,显著优于线性回归基线和标准PointNet++回归网络。平均推理时间6.3毫秒/点云,支持高达150个块茎/秒的处理速率。
- Conclusion: PointRAFT提供了一种直接从部分点云预测3D形状属性的高效方法,满足商业马铃薯收割机的高吞吐量要求,并适用于广泛的3D表型分析和机器人感知任务。
[42] CorGi: Contribution-Guided Block-Wise Interval Caching for Training-Free Acceleration of Diffusion Transformers
Yonglak Son,Suhyeok Kim,Seungryong Kim,Young Geun Kim
Main category: cs.CV
TL;DR: CorGi是一种无需训练、基于贡献度引导的块级间隔缓存框架,通过选择性重用DiT模型中transformer块的输出来减少去噪步骤间的冗余计算,实现推理加速。
- Motivation: 扩散变换器(DiT)在视觉生成方面表现出色,但其迭代去噪过程结合大模型容量导致推理成本高昂。现有研究表明DiT模型的迭代去噪过程在步骤间存在大量冗余计算。
- Method: 提出CorGi框架,通过评估transformer块的贡献度,缓存低贡献度块并在后续步骤中重用,减少冗余计算。对于文本到图像任务,进一步提出CorGi+,利用跨注意力图识别重要token并应用部分注意力更新来保护对象细节。
- Result: 在最先进的DiT模型上评估显示,CorGi和CorGi+平均可实现高达2.0倍的加速,同时保持高质量生成效果。
- Conclusion: CorGi和CorGi+是有效的训练免费DiT推理加速框架,通过选择性重用transformer块输出来减少冗余计算,在保持生成质量的同时显著提升推理速度。
[43] Medical Image Classification on Imbalanced Data Using ProGAN and SMA-Optimized ResNet: Application to COVID-19
Sina Jahromi,Farshid Hajati,Alireza Rezaee,Javaher Nourian
Main category: cs.CV
TL;DR: 提出一种渐进式生成对抗网络来生成合成数据,以解决医学图像分类中的不平衡数据问题,特别是在COVID-19检测中。通过加权结合合成与真实数据,并使用多目标优化算法调整分类器参数,在胸部X光数据集上取得了优异性能。
- Motivation: 医学图像分类(特别是COVID-19检测)面临严重的数据不平衡问题,即患病与健康样本数量差异悬殊。疫情期间这种不平衡更加严重,而现有AI方法因缺乏足够平衡的数据而受限。
- Method: 1. 提出渐进式生成对抗网络(progressive GAN)生成合成数据补充真实数据;2. 采用加权方法将合成数据与真实数据结合后输入深度网络分类器;3. 使用多目标元启发式群体优化算法优化分类器超参数。
- Result: 在大型不平衡COVID-19胸部X光图像数据集上,该模型在4类不平衡分类问题中达到95.5%准确率,在2类不平衡分类问题中达到98.5%准确率,优于现有方法。
- Conclusion: 提出的模型能有效处理疫情期间医学图像分类中的不平衡数据问题,通过生成合成数据和优化分类器参数,显著提升了分类性能。
[44] ARM: A Learnable, Plug-and-Play Module for CLIP-based Open-vocabulary Semantic Segmentation
Ziquan Liu,Zhewei Zhu,Xuyang Shi
Main category: cs.CV
TL;DR: ARM是一个轻量级可学习模块,通过自适应融合CLIP的层次特征来提升开放词汇语义分割性能,采用"训练一次,随处使用"的范式,无需额外计算开销。
- Motivation: 现有训练免费方法要么依赖昂贵的外部基础模型(如SAM、DINO),要么使用静态启发式方法处理CLIP特征,计算成本高或效果欠佳。CLIP的图像级表示缺乏像素级细节,限制了开放词汇语义分割性能。
- Method: 提出注意力精炼模块(ARM),包含语义引导的交叉注意力块(用深层特征K、V选择和精炼细节丰富的浅层特征Q)和自注意力块。采用"训练一次,随处使用"范式,在通用数据集(如COCO-Stuff)上训练后可作为通用即插即用后处理器。
- Result: ARM在多个基准测试中持续提升基线性能,推理开销可忽略不计,为训练免费的开放词汇语义分割建立了高效有效的范式。
- Conclusion: ARM通过自适应融合CLIP的层次特征,有效释放和精炼CLIP的内部潜力,为训练免费的开放词汇语义分割提供了轻量级、高效的解决方案。
[45] Mirage: One-Step Video Diffusion for Photorealistic and Coherent Asset Editing in Driving Scenes
Shuyun Wang,Haiyang Sun,Bing Wang,Hangjun Ye,Xin Yu
Main category: cs.CV
TL;DR: Mirage是一个用于驾驶场景资产编辑的一步视频扩散模型,通过结合2D和3D编码器特征保持时空一致性,并引入两阶段数据对齐策略解决分布不匹配问题。
- Motivation: 视觉中心自动驾驶系统需要多样化和可扩展的训练数据,现有视频对象编辑方法难以同时保持高视觉保真度和时间一致性。
- Method: 基于文本到视频扩散先验,注入时间无关的2D编码器潜在特征到3D解码器以恢复细节,同时采用粗粒度3D对齐和细粒度2D精化的两阶段数据对齐策略。
- Result: Mirage在多样编辑场景中实现了高真实感和时间一致性,并能泛化到其他视频到视频转换任务。
- Conclusion: Mirage为驾驶场景资产编辑提供了可靠的解决方案,可作为未来研究的基准。
[46] MotivNet: Evolving Meta-Sapiens into an Emotionally Intelligent Foundation Model
Rahul Medicharla,Alper Yilmaz
Main category: cs.CV
TL;DR: MotivNet是基于Meta-Sapiens基础模型的面部情绪识别系统,无需跨域训练就能在不同数据集上取得有竞争力的性能,解决了现有FER模型在真实世界泛化能力弱的问题。
- Motivation: 当前最先进的面部情绪识别模型在多样化数据上泛化能力弱,导致在真实世界应用中性能下降,阻碍了FER作为研究领域的发展。虽然研究者提出了复杂架构来解决泛化问题,但这些方法需要跨域训练,这与真实世界应用需求相矛盾。
- Method: 使用Meta-Sapiens作为骨干网络,这是一个通过大规模掩码自编码器预训练获得优秀真实世界泛化能力的人类视觉基础模型。将MotivNet作为Sapiens的额外下游任务,并定义了三个评估标准:基准性能、模型相似性和数据相似性。
- Result: MotivNet在不同领域的数据集上展现出良好的泛化能力,能够与现有最先进模型进行基准比较,并满足所有列出的评估标准,验证了其作为Sapiens下游任务的可行性。
- Conclusion: MotivNet被验证为Sapiens的有效下游任务,使面部情绪识别在真实世界应用中更具激励性,代码已在GitHub开源。
[47] MambaSeg: Harnessing Mamba for Accurate and Efficient Image-Event Semantic Segmentation
Fuqiang Gu,Yuanke Li,Xianlei Long,Kangping Ji,Chao Chen,Qingyi Gu,Zhenliang Ni
Main category: cs.CV
TL;DR: MambaSeg:一种新颖的双分支语义分割框架,使用并行Mamba编码器处理RGB和事件数据,通过双维交互模块实现时空融合,在保持高效计算的同时达到最先进的分割性能。
- Motivation: RGB相机在快速运动、低光照或高动态范围条件下性能下降,而事件相机缺乏颜色和纹理信息。现有多模态融合方法计算成本高且主要关注空间融合,忽略了事件流的时间动态特性。
- Method: 提出MambaSeg框架:1) 使用并行Mamba编码器分别处理RGB图像和事件流;2) 引入双维交互模块(DDIM),包含跨空间交互模块(CSIM)和跨时间交互模块(CTIM),实现时空维度的细粒度融合。
- Result: 在DDD17和DSEC数据集上的实验表明,MambaSeg实现了最先进的语义分割性能,同时显著降低了计算成本,展示了其在高效、可扩展和鲁棒多模态感知方面的潜力。
- Conclusion: MambaSeg通过有效的时空融合机制,成功结合了RGB和事件相机的互补优势,为计算高效的多模态语义分割提供了有前景的解决方案。
[48] Physically-Grounded Manifold Projection with Foundation Priors for Metal Artifact Reduction in Dental CBCT
Zhi Li,Yaqi Wang,Bingtao Ma,Yifan Zhang,Huiyu Zhou,Shuai Wang
Main category: cs.CV
TL;DR: 提出PGMP框架解决牙科CBCT金属伪影问题,结合物理模拟、确定性流形投影和医学先验,实现单次前向推理的高效去伪影
- Motivation: 牙科CBCT中的金属伪影严重遮挡解剖结构,影响诊断。现有深度学习方法存在局限:监督方法因"回归到均值"导致频谱模糊,无监督方法存在结构幻觉风险,而扩散模型虽能生成真实结果但依赖缓慢的随机迭代采样,不适合临床应用。
- Method: 提出Physically-Grounded Manifold Projection (PGMP)框架:1) Anatomically-Adaptive Physics Simulation (AAPS)管道通过蒙特卡洛频谱建模和患者特异性数字孪生合成高保真训练对;2) DMP-Former采用Direct x-Prediction范式,将恢复重构为确定性流形投影,单次前向推理恢复干净解剖结构;3) Semantic-Structural Alignment (SSA)模块利用医学基础模型(MedDINOv3)的先验锚定解决方案。
- Result: 在合成和多中心临床数据集上的实验表明,PGMP在未见解剖结构上优于最先进方法,在效率和诊断可靠性方面设定了新基准。
- Conclusion: PGMP框架通过物理模拟、确定性流形投影和医学先验的有效结合,解决了牙科CBCT金属伪影减少的关键挑战,实现了高效且临床可靠的去伪影性能。
[49] Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation
Zhe Huang,Hao Wen,Aiming Hao,Bingze Song,Meiqi Wu,Jiahong Wu,Xiangxiang Chu,Sheng Lu,Haoqian Wang
Main category: cs.CV
TL;DR: 提出DualityForge框架,通过可控扩散视频编辑将真实视频转化为反事实场景,生成高质量QA对,构建DualityVidQA数据集,并设计DNA-Train训练方法,显著减少MLLM在反事实视频中的幻觉问题。
- Motivation: 多模态大语言模型在视频理解方面取得显著进展,但存在严重缺陷:过度依赖语言先验,导致视觉未接地幻觉,特别是在处理违背常识的反事实视频时。由于文本和视频数据内在不平衡,且收集标注反事实数据成本高昂,这一问题难以解决。
- Method: 提出DualityForge框架:1)使用可控扩散视频编辑将真实视频转化为反事实场景;2)在视频编辑和QA生成过程中嵌入结构化上下文信息,自动生成高质量QA对及原始-编辑视频对用于对比训练;3)构建DualityVidQA大规模视频数据集;4)提出DNA-Train两阶段SFT-RL训练机制,在RL阶段应用成对ℓ1优势归一化,实现更稳定高效的政策优化。
- Result: 在DualityVidQA-Test上,该方法显著减少了模型在反事实视频中的幻觉,相比Qwen2.5-VL-7B基线相对提升24.0%。此外,在幻觉和通用基准测试中都取得了显著增益,显示出强大的泛化能力。
- Conclusion: DualityForge框架通过合成高质量反事实数据,结合DNA-Train训练方法,有效解决了MLLM在视频理解中的视觉未接地幻觉问题,提升了模型在反事实场景下的鲁棒性和泛化能力。作者将开源数据集和代码。
[50] LiftProj: Space Lifting and Projection-Based Panorama Stitching
Yuan Jia,Ruimin Wu,Rui Song,Jiaojiao Li,Bin Song
Main category: cs.CV
TL;DR: 提出空间提升全景拼接框架,将2D图像提升为3D点云表示,通过全局融合和等距圆柱投影生成几何一致的360°全景图,显著减少视差和遮挡场景中的几何失真和重影。
- Motivation: 传统图像拼接技术主要使用2D单应性变换和网格变形,对于近似共面或视差较小的场景有效,但在真实3D场景(具有多个深度层和遮挡)中,非重叠区域会出现重影、结构弯曲和拉伸失真。这些挑战在多视角累积和360°闭环拼接场景中尤为突出。
- Method: 1. 将每个输入图像提升为统一坐标系中的密集3D点表示,通过置信度度量进行全局跨视图融合;2. 在3D空间中建立统一投影中心,使用等距圆柱投影将融合数据映射到单一全景流形;3. 在画布域进行空洞填充,处理视点转换揭示的未知区域,恢复连续纹理和语义一致性。
- Result: 实验评估表明,该方法在涉及显著视差和复杂遮挡的场景中,大幅减少了几何失真和重影伪影,产生了更自然和一致的全景结果。
- Conclusion: 该框架将拼接从2D变形范式重新概念化为3D一致性范式,能够灵活整合各种3D提升和补全模块,为复杂3D场景的全景拼接提供了更有效的解决方案。
[51] One-shot synthesis of rare gastrointestinal lesions improves diagnostic accuracy and clinical training
Jia Yu,Yan Zhu,Peiyao Fu,Tianyi Chen,Zhihua Wang,Fei Wu,Quanlin Li,Pinghong Zhou,Shuo Wang,Xian Yang
Main category: cs.CV
TL;DR: EndoRare:基于单张参考图像生成罕见胃肠道病变图像的框架,通过语言引导的概念解耦分离病理特征与非诊断属性,用于AI模型增强和临床培训。
- Motivation: 罕见胃肠道病变在常规内镜检查中较少见,导致可用于开发可靠AI模型和培训新手临床医生的数据不足,需要数据高效的方法来弥合罕见疾病的数据缺口。
- Method: 提出EndoRare框架:一次性、无需重新训练的生成方法,利用语言引导的概念解耦将病变特征与非诊断属性分离,将病理特征编码为可学习的原型嵌入,同时变化非诊断属性以确保多样性。
- Result: 在四种罕见病理上验证:专家判定合成图像具有临床可信度;用于数据增强显著提升下游AI分类器性能(在低假阳性率下提高真阳性率);盲法阅读研究显示新手内镜医生接触EndoRare生成案例后,召回率提高0.400,精确率提高0.267。
- Conclusion: EndoRare为计算机辅助诊断和临床教育中的罕见疾病数据缺口提供了实用、数据高效的解决方案,能够同时提升AI模型性能和临床医生培训效果。
[52] Virtual-Eyes: Quantitative Validation of a Lung CT Quality-Control Pipeline for Foundation-Model Cancer Risk Prediction
Md. Enamul Hoq,Linda Larson-Prior,Fred Prior
Main category: cs.CV
TL;DR: Virtual-Eyes CT预处理管道提升通用基础模型在低剂量CT肺癌筛查中的性能,但对专用模型有负面影响
- Motivation: 深度学习在低剂量CT肺癌筛查中缺乏对预处理影响的量化评估,需要开发临床导向的质量控制管道来评估其对不同类型模型的影响
- Method: 开发Virtual-Eyes 16位CT质量控制管道:强制512x512平面分辨率、筛选诊断性序列、通过HU滤波和双侧肺覆盖评分提取连续肺块。使用765名NLST患者数据,评估RAD-DINO、Merlin、Sybil和ResNet-18在原始输入与Virtual-Eyes预处理下的性能
- Result: Virtual-Eyes显著提升RAD-DINO性能(切片级AUC从0.576到0.610,患者级AUC从0.646到0.683),改善校准性。但Sybil和ResNet-18性能下降(Sybil AUC从0.886到0.837),Merlin转移性有限
- Conclusion: 解剖学导向的质量控制能稳定并改进通用基础模型工作流,但可能破坏已适应原始临床环境的专用模型,强调了预处理策略需要与模型类型匹配的重要性
[53] UniAct: Unified Motion Generation and Action Streaming for Humanoid Robots
Nan Jiang,Zimo He,Wanhe Yu,Lexi Pang,Yunhao Li,Hongjie Li,Jieming Cui,Yuhan Li,Yizhou Wang,Yixin Zhu,Siyuan Huang
Main category: cs.CV
TL;DR: UniAct是一个两阶段框架,通过微调MLLM和因果流式管道,实现人形机器人以低于500毫秒延迟执行多模态指令,在零样本跟踪不完美参考动作方面成功率提升19%。
- Motivation: 人形机器人领域长期目标是实现能够遵循多样化多模态指令的通用智能体,但现有方法难以将语言、音乐、轨迹等异构指令转化为稳定、实时的全身动作执行,高层多模态感知与全身执行之间存在显著瓶颈。
- Method: 提出UniAct两阶段框架:1) 使用微调的多模态大语言模型(MLLM)理解指令;2) 通过因果流式管道生成动作。使用FSQ共享离散码本统一输入,确保跨模态对齐同时将动作约束在物理可行流形上。
- Result: 在20小时的人形动作基准UniMoCap上验证,实现了低于500毫秒的延迟,零样本跟踪不完美参考动作的成功率提升19%,在多样化现实场景中展示出鲁棒的泛化能力。
- Conclusion: UniAct标志着向响应式通用人形助手迈出关键一步,通过统一感知与控制实现无缝交互,为人形机器人执行多模态指令提供了有效解决方案。
[54] Robust Egocentric Referring Video Object Segmentation via Dual-Modal Causal Intervention
Haijing Liu,Zhiyuan Song,Hefeng Wu,Tao Pu,Keze Wang,Liang Lin
Main category: cs.CV
TL;DR: 提出CERES因果框架,通过双模态因果干预解决自我中心视频中语言偏差和视觉混淆问题,提升指代视频对象分割性能
- Motivation: 自我中心指代视频对象分割(Ego-RVOS)面临两大挑战:1)训练数据中的对象-动作配对偏差导致模型学习虚假相关性;2)自我中心视角固有的视觉混淆因素如快速运动和频繁遮挡。现有方法难以稳健处理这些问题。
- Method: CERES是一个即插即用的因果框架,对预训练的RVOS主干网络进行双模态因果干预:1)使用后门调整原则对抗语言表示偏差;2)利用前门调整概念整合语义视觉特征和几何深度信息,创建对自我中心扭曲更稳健的表示。
- Result: 在Ego-RVOS基准测试中达到最先进的性能,证明了因果推理在构建更可靠的自我中心视频理解模型方面的潜力。
- Conclusion: CERES通过因果干预有效解决了自我中心视频中的语言偏差和视觉混淆问题,为更广泛的自我中心视频理解任务提供了可靠的建模框架。
[55] SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning
Yong Xien Chng,Tao Hu,Wenwen Tong,Xueheng Li,Jiandong Chen,Haojia Yu,Jiefan Lu,Hewei Guo,Hanming Deng,Chengjun Xie,Gao Huang,Dahua Lin,Lewei Lu
Main category: cs.CV
TL;DR: SenseNova-MARS是一个通过强化学习赋予视觉语言模型交错视觉推理和工具使用能力的多模态代理推理与搜索框架,在搜索导向基准测试中超越GPT-5等专有模型。
- Motivation: 当前视觉语言模型在复杂任务中主要局限于文本导向的思维链或孤立工具调用,缺乏人类般的动态工具操作与连续推理交错能力,特别是在需要协调外部工具(如搜索和图像裁剪)的知识密集型和视觉复杂场景中。
- Method: 提出SenseNova-MARS多模态代理推理与搜索框架,通过强化学习动态集成图像搜索、文本搜索和图像裁剪工具;开发BN-GSPO算法提升训练稳定性;创建HR-MMSearch基准测试用于评估。
- Result: SenseNova-MARS在开源搜索和细粒度图像理解基准测试中达到最先进性能:在MMSearch上得分为67.84,在HR-MMSearch上得分为41.64,超越了Gemini-3-Flash和GPT-5等专有模型。
- Conclusion: SenseNova-MARS通过提供有效且鲁棒的工具使用能力,代表了向代理视觉语言模型发展的有前景的一步,将发布所有代码、模型和数据集以促进该领域研究。
[56] Spatial-aware Vision Language Model for Autonomous Driving
Weijie Wei,Zhipeng Luo,Ling Feng,Venice Erin Liong
Main category: cs.CV
TL;DR: LVLDrive是一个将LiDAR点云融入视觉语言模型的自动驾驶框架,通过渐进融合机制解决3D数据对预训练模型的干扰问题,显著提升了3D空间理解和驾驶决策能力。
- Motivation: 当前基于图像的视觉语言模型在自动驾驶中存在瓶颈,主要问题是缺乏精确的度量空间推理和几何推断能力,导致驾驶策略不可靠,需要引入3D数据来提升安全性和可靠性。
- Method: 提出LVLDrive框架,通过渐进融合Q-Former逐步注入LiDAR特征,避免3D数据对预训练VLM的灾难性干扰;同时构建空间感知问答数据集来专门训练模型的3D感知和推理能力。
- Result: 在多个驾驶基准测试中,LVLDrive在场景理解、度量空间感知和可靠驾驶决策方面均优于纯视觉方法,证明了3D度量数据对构建可信VLM自动驾驶系统的必要性。
- Conclusion: 研究表明,显式的3D度量数据对于构建可信赖的基于视觉语言模型的自动驾驶系统至关重要,LVLDrive通过融合LiDAR点云有效提升了模型的3D空间理解能力。
[57] The Mechanics of CNN Filtering with Rectification
Liam Frija-Altrac,Matthew Toews
Main category: cs.CV
TL;DR: 该论文提出了一种基于基本信息力学的新模型,将卷积滤波与整流操作的机械特性与狭义相对论和量子力学中的能量-动量关系联系起来。
- Motivation: 受物理理论启发,旨在建立卷积神经网络中信息处理与物理能量-动量关系之间的理论联系,为理解CNN工作机制提供新的物理视角。
- Method: 将卷积核分解为正交的偶分量和奇分量,偶分量导致图像内容各向同性扩散(类似势能),奇分量导致质心位移(类似动能)。通过离散余弦变换在频域分析奇偶特性,关注小卷积核(如3×3)的低频基(DC和梯度分量)。
- Result: 信息位移速度与奇分量能量占总能量之比呈线性关系,揭示了CNN信息传播的基本模式与物理能量-动量关系的对应性。
- Conclusion: 首次证明了通用CNN中信息处理与相对论物理基石——能量-动量关系之间的联系,为理解深度学习提供了新的物理框架。
[58] DermaVQA-DAS: Dermatology Assessment Schema (DAS) & Datasets for Closed-Ended Question Answering & Segmentation in Patient-Generated Dermatology Images
Wen-wai Yim,Yujuan Fu,Asma Ben Abacha,Meliha Yetisgen,Noel Codella,Roberto Andres Novoa,Josep Malvehy
Main category: cs.CV
TL;DR: DermaVQA-DAS扩展了皮肤病视觉问答数据集,引入专家开发的皮肤病评估框架DAS,支持封闭式问答和皮肤病变分割任务,并评估了多模态模型性能。
- Motivation: 现有皮肤病图像分析基准主要关注皮肤镜图像,缺乏患者查询和临床背景,限制了其在以患者为中心的护理中的应用。
- Method: 提出Dermatology Assessment Schema (DAS)框架,包含36个高级和27个细粒度评估问题;扩展DermaVQA数据集支持封闭式问答和分割任务;评估多种提示策略和多模态模型。
- Result: 分割任务中,默认提示在Mean-of-Max和Mean-of-Mean评估中表现最佳,增强提示在多数投票评估中Jaccard指数0.395,Dice分数0.566;封闭式问答中,o3模型准确率最高(0.798),GPT-4.1(0.796)和Gemini-1.5-Pro(0.783)表现竞争性。
- Conclusion: DermaVQA-DAS填补了患者中心皮肤病视觉语言建模的空白,DAS框架提供了标准化评估方法,公开数据集和评估协议将加速该领域研究。
[59] Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems
Song Wang,Lingdong Kong,Xiaolu Liu,Hao Shi,Wentong Li,Jianke Zhu,Steven C. H. Hoi
Main category: cs.CV
TL;DR: 该论文提出了一个用于多模态预训练的综合框架,旨在从相机和LiDAR等多模态传感器数据中实现真正的空间智能,为自动驾驶和无人机等自主系统服务。
- Motivation: 随着自动驾驶车辆和无人机等自主系统的快速发展,迫切需要从多模态车载传感器数据中实现真正的空间智能。虽然基础模型在单模态场景中表现出色,但整合相机、LiDAR等不同传感器的能力以创建统一理解仍然是一个重大挑战。
- Method: 提出了一个多模态预训练的综合框架,分析了基础传感器特性与学习策略之间的相互作用,评估了平台特定数据集的作用。核心贡献是制定了预训练范式的统一分类法:从单模态基线到学习整体表示的复杂统一框架,用于3D目标检测和语义占据预测等高级任务。还研究了文本输入和占据表示的集成,以促进开放世界感知和规划。
- Result: 提出了一个全面的多模态预训练框架和统一分类法,能够处理从单模态到统一多模态表示的各种预训练方法。识别了计算效率和模型可扩展性等关键瓶颈。
- Conclusion: 为实现真实世界部署的稳健空间智能,需要开发通用多模态基础模型。论文提出了解决计算效率和模型可扩展性等瓶颈的路线图,为未来实现真正空间智能的多模态基础模型发展指明了方向。
[60] RedunCut: Measurement-Driven Sampling and Accuracy Performance Modeling for Low-Cost Live Video Analytics
Gur-Eyal Sela,Kumar Krishna Agrawal,Bharathan Balaji,Joseph Gonzalez,Ion Stoica
Main category: cs.CV
TL;DR: RedunCut是一个动态模型大小选择系统,通过智能采样和轻量级性能预测,在保持精度的同时减少14-62%的计算成本
- Motivation: 实时视频分析在大规模摄像头网络中运行成本高昂,现有动态模型大小选择方法在移动视频和低精度目标场景下泛化能力差,主要问题是采样成本过高和精度预测不准确
- Method: RedunCut采用测量驱动的规划器来估计采样的成本效益权衡,并使用轻量级数据驱动的性能模型来改进精度预测
- Result: 在道路车辆、无人机和监控视频以及多种模型家族和任务中,RedunCut在固定精度下减少14-62%的计算成本,对有限历史数据和漂移具有鲁棒性
- Conclusion: RedunCut通过解决采样效率问题和改进精度预测,显著提升了动态模型大小选择系统的性能和泛化能力
[61] DyStream: Streaming Dyadic Talking Heads Generation via Flow Matching-based Autoregressive Model
Bohong Chen,Haiyang Liu
Main category: cs.CV
TL;DR: DyStream:基于流匹配的自回归模型,实时生成双人对话头部视频,延迟低于100ms,实现高质量唇形同步
- Motivation: 现有基于分块的方法需要完整的非因果上下文窗口,引入显著延迟,无法满足实时对话中即时非语言反馈的需求
- Method: 采用流友好的自回归框架,结合流匹配头部进行概率建模;提出由前瞻模块增强的因果编码器,融入短期未来上下文(如60ms)以提升质量同时保持低延迟
- Result: 每帧生成时间34ms,系统总延迟低于100ms;在HDTF数据集上获得离线8.13和在线7.61的唇形同步置信度得分,达到最先进的唇形同步质量
- Conclusion: DyStream通过创新的因果架构设计,在保证超低延迟的同时实现了高质量的对话头部视频生成,为实时交互应用提供了可行解决方案
[62] AI-Driven Evaluation of Surgical Skill via Action Recognition
Yan Meng,Daniel A. Donoho,Marcelle Altshuler,Omar Arnaout
Main category: cs.CV
TL;DR: 提出基于AI的微血管吻合术自动评估框架,使用改进的TimeSformer视频transformer和YOLO目标检测,实现手术技能客观评估
- Motivation: 传统手术技能评估依赖专家监督,存在主观性、评估者间差异大、耗时耗力等问题,尤其在低收入国家难以推广,需要客观、可扩展的自动化评估方法
- Method: 采用基于TimeSformer的视频transformer架构,改进为分层时间注意力和加权空间注意力机制,结合YOLO目标检测跟踪提取精细运动特征,从五个维度评估微血管吻合术技能
- Result: 在58个专家标注视频数据集上验证,动作分割帧级准确率达87.7%(后处理提升至93.62%),技能分类平均准确率76%,能复现专家评估结果
- Conclusion: 该系统能提供客观、一致、可解释的反馈,有望实现标准化、数据驱动的手术培训评估,解决传统评估方法的局限性
[63] Exploring Compositionality in Vision Transformers using Wavelet Representations
Akshad Shyam Purushottamdas,Pranav K Nayak,Divya Mehul Rajparia,Deekshith Patel,Yashmitha Gogineni,Konda Reddy Mopuri,Sumohana S. Channappayya
Main category: cs.CV
TL;DR: 本文提出一个框架来分析Vision Transformer编码器中的组合性,使用离散小波变换获取视觉基元,通过评估组合表示重构原始图像表示的能力来验证ViT表示空间的组合性。
- Motivation: 虽然对Transformer模型的理解主要来自语言任务分析,但本文旨在通过组合性的视角研究Vision Transformer编码器学习的表示,探索ViT如何结构化视觉信息。
- Method: 引入一个框架,使用离散小波变换获取输入相关的视觉基元,通过评估组合表示重构原始图像表示的能力来测试ViT编码器表示空间的组合性。
- Result: 研究发现,单层离散小波变换分解得到的基元产生的编码器表示在潜在空间中近似组合,为理解ViT如何结构化信息提供了新视角。
- Conclusion: ViT编码器表示空间展现出组合性特性,离散小波变换是获取视觉基元的有效工具,这为理解ViT内部表示结构提供了新见解。
[64] Spectral and Spatial Graph Learning for Multispectral Solar Image Compression
Prasiddha Siwakoti,Atefeh Khoshkhahtinat,Piyush M. Mehta,Barbara J. Thompson,Michael S. F. Kirk,Daniel da Silva
Main category: cs.CV
TL;DR: 提出一种针对太阳多光谱图像的自适应学习压缩框架,通过图嵌入和注意力机制在有限带宽下保持光谱和空间细节
- Motivation: 太空任务中多光谱太阳图像的高保真压缩面临挑战,需要在有限带宽与保持精细光谱空间细节之间取得平衡
- Method: 采用两个互补模块:1)iSWGE(光谱间窗口图嵌入)显式建模波段间关系;2)WSGA-C(窗口空间图注意力与卷积块注意力)结合稀疏图注意力和卷积注意力减少空间冗余
- Result: 在SDOML数据集上,相比现有方法实现了20.15%的MSID降低、1.09%的PSNR提升和1.62%的MS-SSIM增益,在相同比特率下提供更清晰、光谱保真的重建
- Conclusion: 该学习压缩框架有效提升了多光谱太阳图像的压缩质量,在保持光谱保真度和空间细节方面优于现有方法
[65] F2IDiff: Real-world Image Super-resolution using Feature to Image Diffusion Foundation Model
Devendra K. Jangid,Ripon K. Saha,Dilshan Godaliyadda,Jing Li,Seok-Jun Lee,Hamid R. Sheikh
Main category: cs.CV
TL;DR: 提出基于DINOv2特征的条件扩散模型F2IDiff,用于智能手机图像超分辨率,通过低级特征提供更严格的条件约束,避免生成式AI的幻觉问题。
- Motivation: 传统基于文本到图像扩散模型(T2IDiff)的超分辨率方法在智能手机摄影中存在两个问题:1) 文本特征无法准确描述图像中的细微纹理;2) 智能手机LR图像分辨率高(≥12MP),而T2IDiff模型设计用于较小图像(<1MP),导致需要分块处理时文本特征描述不准确,容易产生幻觉。
- Method: 提出特征到图像扩散基础模型(F2IDiff FM),使用DINOv2低级特征作为条件输入。这些低级特征提供更严格的条件约束,同时能丰富描述小图像块,从而在保持高保真度的同时进行最小化的无幻觉生成。
- Result: 该方法解决了智能手机摄影中超分辨率的关键问题:1) 避免了基于文本条件的幻觉问题;2) 能够处理高分辨率智能手机图像;3) 在保持图像真实性的同时进行有效的超分辨率重建。
- Conclusion: 通过使用低级特征(如DINOv2)代替文本特征作为扩散模型的条件输入,可以构建更适合智能手机摄影的超分辨率系统,在保持高保真度的同时避免生成式AI的幻觉问题,实现更可靠、更真实的图像增强。
[66] Using Large Language Models To Translate Machine Results To Human Results
Trishna Niraula,Jonathan Stubblefield
Main category: cs.CV
TL;DR: 该研究提出一个结合YOLO目标检测模型和大型语言模型的管道,用于从胸部X光图像生成放射学报告,评估了YOLOv5和YOLOv8的性能差异以及GPT-4生成的报告质量。
- Motivation: 当前AI医疗影像系统通常只输出结构化预测结果,需要放射科医生将其转化为完整的叙述性报告。本研究旨在利用大型语言模型(如GPT-4)来填补这一空白,自动从结构化发现生成诊断性叙述报告。
- Method: 开发了一个集成YOLOv5和YOLOv8进行胸部X光图像异常检测的管道,将检测结果(边界框预测和类别标签)输入大型语言模型(LLM)生成描述性发现和临床总结。比较了YOLOv5和YOLOv8在检测精度、推理延迟方面的表现,并评估了生成文本的质量。
- Result: 结果显示AI生成报告与人工报告具有强语义相似性。人类评估表明GPT-4在清晰度方面表现出色(4.88/5),但在自然写作流畅度方面得分较低(2.81/5)。这表明当前系统能达到临床准确性,但在文体风格上与放射科医生撰写的文本仍有区别。
- Conclusion: 该研究证明了结合目标检测模型和大型语言模型生成放射学报告的可行性,系统在临床准确性方面表现良好,但在自然语言流畅度方面仍需改进,以更接近放射科医生的写作风格。
[67] Hierarchical Vector-Quantized Latents for Perceptual Low-Resolution Video Compression
Manikanta Kotthapalli,Banafsheh Rekabdar
Main category: cs.CV
TL;DR: 提出一种用于低分辨率视频的多尺度向量量化变分自编码器(MS-VQ-VAE),生成紧凑、高保真的潜在表示,适用于边缘设备部署和带宽敏感场景。
- Motivation: 视频流量指数增长对带宽和存储基础设施带来巨大压力,传统视频编解码器(如H.264、HEVC)主要为像素域重建设计,缺乏对机器学习中心潜在表示的原生支持,限制了与深度学习管道的集成。
- Method: 扩展VQ-VAE-2框架到时空设置,引入基于3D残差卷积的两级分层潜在结构,模型轻量(约1850万参数),针对64x64分辨率视频片段优化,并加入基于预训练VGG16网络的感知损失。
- Result: 在UCF101数据集上训练(2秒视频片段,32帧,16FPS),测试集达到25.96 dB PSNR和0.8375 SSIM,验证集相比单尺度基线提升1.41 dB PSNR和0.0248 SSIM。
- Conclusion: 该框架适用于带宽敏感场景的可扩展视频压缩,包括实时流媒体、移动视频分析和CDN级存储优化,特别适合边缘设备部署。
[68] PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation
Yuanhao Cai,Kunpeng Li,Menglin Jia,Jialiang Wang,Junzhe Sun,Feng Liang,Weifeng Chen,Felix Juefei-Xu,Chu Wang,Ali Thabet,Xiaoliang Dai,Xuan Ju,Alan Yuille,Ji Hou
Main category: cs.CV
TL;DR: 提出PhyGDPO框架,通过物理增强数据管道和基于物理引导的奖励优化,提升文本到视频生成中的物理一致性
- Motivation: 现有文本到视频生成方法在遵循物理规律方面存在挑战,缺乏包含丰富物理交互的训练数据,需要显式的物理推理机制
- Method: 1) PhyAugPipe:利用视觉语言模型和思维链推理构建大规模物理视频数据集PhyVidGen-135K;2) PhyGDPO:基于分组Plackett-Luce概率模型的物理感知直接偏好优化框架,包含物理引导奖励方案和LoRA切换参考机制
- Result: 在PhyGenBench和VideoPhy2基准测试中显著优于现有开源方法,生成视频具有更好的物理一致性
- Conclusion: 通过构建物理增强数据集和设计物理感知优化框架,有效提升了文本到视频生成的物理真实性,为物理一致的视频生成提供了新方法
[69] OCP-LS: An Efficient Algorithm for Visual Localization
Jindi Zhong,Hongxia Wang,Huanshui Zhang
Main category: cs.CV
TL;DR: 提出一种新颖的二阶优化算法,通过OCP方法和Hessian矩阵对角元素近似,解决深度学习中的大规模优化问题,在视觉定位任务中表现优异。
- Motivation: 解决深度学习中的大规模优化问题,传统优化算法在收敛速度、训练稳定性和噪声鲁棒性方面存在不足。
- Method: 结合OCP方法并适当近似Hessian矩阵的对角元素,提出新颖的二阶优化算法。
- Result: 在多个标准视觉定位基准测试中表现显著优越,相比传统优化算法,在保持竞争性定位精度的同时,收敛更快、训练更稳定、对噪声干扰更鲁棒。
- Conclusion: 提出的二阶优化算法在视觉定位任务中具有显著优势,为深度学习中的大规模优化问题提供了有效解决方案。
[70] RGBT-Ground Benchmark: Visual Grounding Beyond RGB in Complex Real-World Scenarios
Tianyi Zhao,Jiawen Xi,Linhui Xiao,Junnan Li,Xue Yang,Maoxun Yuan,Xingxing Wei
Main category: cs.CV
TL;DR: 提出了首个面向复杂现实场景的大规模视觉定位基准RGBT-Ground,包含对齐的RGB和热红外图像对,并设计了支持单模态和多模态输入的RGBT-VGNet基线模型,在夜间和远距离场景表现优异。
- Motivation: 现有视觉定位基准大多基于COCO等干净环境数据集,场景多样性有限,无法反映真实世界中光照、天气等复杂条件的变化,而这些对于评估模型在安全关键应用中的鲁棒性和泛化能力至关重要。
- Method: 1) 构建RGBT-Ground基准:包含空间对齐的RGB和热红外图像对,高质量的指代表达式、物体边界框,以及场景、环境和物体级别的细粒度标注;2) 设计统一的视觉定位框架,支持单模态(RGB或TIR)和多模态(RGB-TIR)输入;3) 提出RGBT-VGNet基线模型,有效融合互补的视觉模态。
- Result: 实验结果表明,提出的RGBT-VGNet显著优于现有方法的适配版本,特别是在夜间和远距离场景中表现突出。所有资源将公开以促进复杂现实环境中鲁棒视觉定位的研究。
- Conclusion: RGBT-Ground基准填补了复杂现实场景视觉定位评估的空白,RGBT-VGNet展示了多模态融合在提升模型鲁棒性方面的有效性,为安全关键应用中的视觉定位研究提供了重要基础。
[71] Improving Few-Shot Change Detection Visual Question Answering via Decision-Ambiguity-guided Reinforcement Fine-Tuning
Fuyu Dong,Ke Li,Di Wang,Nan Luo,Yiming Zhang,Kaiyu Li,Jianfei Yang,Quan Wang
Main category: cs.CV
TL;DR: 论文提出DARFT框架,通过决策模糊性引导的强化微调来解决CDVQA中的决策模糊问题,显著提升模型性能
- Motivation: 研究发现CDVQA中许多失败案例并非明显错误预测,而是决策模糊性导致模型对正确答案和强干扰项赋予相似置信度。这种决策模糊样本(DAS)阻碍了模型判别能力和鲁棒性提升。
- Method: 提出DARFT框架:1)使用SFT训练的参考策略挖掘DAS;2)在挖掘的子集上应用组相对策略优化;3)利用多样本解码和组内相对优势,无需额外监督即可抑制强干扰项并锐化决策边界。
- Result: 大量实验表明,DARFT在SFT基线上取得一致性能提升,特别是在少样本设置下表现尤为显著。
- Conclusion: 明确优化决策模糊样本对提升CDVQA模型的判别能力和鲁棒性至关重要,DARFT框架通过决策模糊性引导的强化微调有效解决了这一问题。
[72] SliceLens: Fine-Grained and Grounded Error Slice Discovery for Multi-Instance Vision Tasks
Wei Zhang,Chaoqun Wang,Zixuan Guan,Sam Kao,Pengfei Zhao,Peng Wu,Sifeng He
Main category: cs.CV
TL;DR: SliceLens是一个利用LLM和VLM进行假设驱动视觉推理的框架,用于发现细粒度、可解释的错误切片,并在新基准FeSD上实现了最先进的性能。
- Motivation: 现有切片发现方法主要针对图像分类任务,难以应用于检测、分割、姿态估计等多实例任务。现有方法缺乏细粒度推理能力,无法处理复杂视觉关系导致的错误切片,且现有基准存在算法特定性或偏向图像分类的问题。
- Method: 提出SliceLens框架,利用大型语言模型和视觉语言模型生成和验证多样化的失败假设,通过基于视觉的推理实现可靠、细粒度、可解释的错误切片识别。
- Result: 在FeSD基准上,SliceLens的Precision@10达到0.73,相比基线方法(0.31)提升了0.42。实验证明该方法能识别可解释的切片,并通过模型修复实验验证了其促进模型改进的有效性。
- Conclusion: SliceLens通过假设驱动的视觉推理框架,有效解决了多实例视觉任务中细粒度错误切片发现的挑战,在首个专门设计的FeSD基准上实现了最先进的性能,并能提供可操作的模型改进见解。
[73] 3D Semantic Segmentation for Post-Disaster Assessment
Nhut Le,Maryam Rahnemoonfar
Main category: cs.CV
TL;DR: 该研究构建了首个针对飓风灾害的3D语义分割数据集,评估现有SOTA模型在灾后场景中的表现,发现现有方法存在显著局限性,呼吁开发专门的3D基准数据集和改进分割技术。
- Motivation: 自然灾害频发对人类生命和经济造成严重威胁,而现有的3D语义分割模型缺乏专门针对灾后环境设计的数据集,这限制了灾后评估的准确性和效率。
- Method: 使用无人机采集飓风伊恩(2022)灾区的航拍影像,通过运动恢复结构(SfM)和多视角立体(MVS)技术重建3D点云,构建专门的数据集。然后评估Fast Point Transformer(FPT)、Point Transformer v3(PTv3)和OA-CNNs等SOTA 3D语义分割模型在该数据集上的表现。
- Result: 评估发现现有最先进的3D语义分割模型在灾后区域存在显著局限性,无法有效处理灾害场景的复杂性,暴露了当前方法的不足。
- Conclusion: 迫切需要推进3D分割技术的发展,并开发专门的3D基准数据集,以改善灾后场景理解和响应能力。
[74] Collaborative Low-Rank Adaptation for Pre-Trained Vision Transformers
Zheng Liu,Jinchao Zhu,Gao Huang
Main category: cs.CV
TL;DR: CLoRA是一种新的视觉Transformer微调方法,通过基础空间共享和样本无关多样性增强组件,在保持参数效率的同时提升学习性能。
- Motivation: 现有LoRA方法要么牺牲微调性能,要么引入过多可训练参数,无法在学习性能和参数效率之间取得平衡。
- Method: 提出协作低秩适应(CLoRA),包含基础空间共享和样本无关多样性增强(SADE)组件。所有低秩模块共享一组下/上投影空间,从共享空间获得的低秩矩阵协作构建每个低秩模块,SADE正则化矩阵间相似性以鼓励多样化表示。
- Result: 在广泛使用的图像和点云数据集上实验表明,CLoRA在学习性能和参数效率之间取得更好平衡,在点云分析中需要最少的GFLOPs。
- Conclusion: CLoRA通过协作低秩适应机制,有效解决了现有方法在参数效率和性能之间的权衡问题,为视觉Transformer微调提供了更优方案。
[75] MoniRefer: A Real-world Large-scale Multi-modal Dataset based on Roadside Infrastructure for 3D Visual Grounding
Panquan Yang,Junfei Huang,Zongzhangbao Yin,Yingsong Hu,Anni Xu,Xinyi Luo,Xueqi Sun,Hai Wu,Sheng Ao,Zhaoxing Zhu,Chenglu Wen,Cheng Wang
Main category: cs.CV
TL;DR: 该论文提出了面向室外监控场景的3D视觉定位新任务,并构建了首个大规模真实世界多模态数据集MoniRefer,同时提出了端到端方法Moni3DVG。
- Motivation: 现有3D视觉定位研究主要关注室内和自动驾驶场景,而路边基础设施监控场景由于缺乏配对点云-文本数据而未被探索。基础设施系统需要理解自然语言并在复杂交通环境中定位目标物体。
- Method: 提出了端到端方法Moni3DVG,利用图像提供的丰富外观信息以及点云的几何和光学信息进行多模态特征学习和3D物体定位。
- Result: 构建了MoniRefer数据集,包含约136,018个物体和411,128个自然语言描述,来自真实世界复杂交通路口。在提出的基准测试上进行了广泛实验和消融研究,证明了方法的优越性和有效性。
- Conclusion: 该工作填补了室外监控场景3D视觉定位的空白,为基础设施级交通场景理解提供了新任务、数据集和方法,将发布数据集和代码。
[76] LLHA-Net: A Hierarchical Attention Network for Two-View Correspondence Learning
Shuyuan Lin,Yu Guo,Xiao Chen,Yanjie Liang,Guobao Xiao,Feiran Huang
Main category: cs.CV
TL;DR: 提出Layer-by-Layer Hierarchical Attention Network,通过分层注意力机制和阶段融合解决特征点匹配中的离群点问题,提高匹配精度和鲁棒性。
- Motivation: 特征点匹配是计算机视觉的基础任务,但大量离群点的存在严重影响匹配结果的准确性和鲁棒性。当离群点比例很高时,如何在减少负样本误差的同时提取高质量信息是一个挑战。
- Method: 提出Layer-by-Layer Hierarchical Attention Network,包含:1) 逐层通道融合模块,保留各阶段特征语义信息并实现整体融合;2) 分层注意力模块,通过注意力机制自适应捕获和融合全局感知与结构语义信息;3) 两种架构来提取和整合特征以提高网络适应性。
- Result: 在YFCC100M和SUN3D两个公开数据集上的实验表明,该方法在离群点去除和相机姿态估计方面优于多个最先进技术。
- Conclusion: 提出的分层注意力网络通过阶段融合、分层提取和注意力机制,有效解决了特征点匹配中的离群点问题,提高了匹配精度和鲁棒性,在多个任务上表现出优越性能。
[77] FireRescue: A UAV-Based Dataset and Enhanced YOLO Model for Object Detection in Fire Rescue Scenes
Qingyu Xu,Runtong Zhang,Zihuan Qiu,Fanman Meng
Main category: cs.CV
TL;DR: 本文针对消防救援场景目标检测构建了FireRescue数据集并提出FRS-YOLO模型,通过多维协同增强注意力模块和动态特征采样器提升检测性能。
- Motivation: 现有研究主要关注山林等环境,对更频繁且结构复杂的城市救援场景关注不足;现有检测系统类别有限(如火焰、烟雾),缺乏对消防车、消防员等指挥决策关键目标的全面覆盖。
- Method: 1) 构建FireRescue数据集,覆盖城市、山地、森林、水域等多场景,包含8个关键类别共15,980张图像;2) 提出FRS-YOLO改进模型,引入即插即用的多维协同增强注意力模块处理类间混淆,集成动态特征采样器增强前景特征以应对烟雾遮挡和背景干扰。
- Result: 实验结果表明消防救援场景目标检测具有高度挑战性,所提方法有效提升了YOLO系列模型在该场景下的检测性能。
- Conclusion: 通过构建综合数据集和改进检测模型,解决了消防救援场景中目标检测的现有局限性,为消防指挥决策提供了更有效的技术支持。
[78] From Sequential to Spatial: Reordering Autoregression for Efficient Visual Generation
Siyang Wang,Hanting Li,Wei Li,Jie Hu,Xinghao Chen,Feng Zhao
Main category: cs.CV
TL;DR: RadAR:一种基于径向拓扑的并行自回归视觉生成框架,通过环状并行预测和嵌套注意力机制,在保持表示能力的同时显著提升生成效率。
- Motivation: 传统自回归模型在视觉生成中采用顺序解码机制,导致推理效率低下。视觉token具有强烈的局部依赖性和空间相关性,但标准光栅扫描解码顺序未能充分利用这一特性。
- Method: 提出径向拓扑生成框架:1)选择初始token作为中心点;2)根据空间距离将所有其他token分组到多个同心环中;3)按从内到外的环状方式进行生成,实现同一环内所有token的并行预测;4)引入嵌套注意力机制动态修正不一致的预测输出。
- Result: RadAR在保持视觉场景结构局部性和空间连贯性的同时,显著提高了并行化程度,有效缓解了错误累积和模型崩溃问题,大幅提升了生成效率。
- Conclusion: 通过径向并行预测与动态输出修正的结合,RadAR为高效自回归视觉生成提供了一种新颖的解决方案,在保持表示能力的同时实现了显著的效率提升。
[79] Renormalization Group Guided Tensor Network Structure Search
Maolin Wang,Bowen Yu,Sheng Zhang,Linjie Mi,Wanyu Wang,Yiqi Wang,Pengyue Jia,Xuetao Wei,Zenglin Xu,Ruocheng Guo,Xiangyu Zhao
Main category: cs.CV
TL;DR: RGTN是一种基于重整化群思想的张量网络结构搜索框架,通过多尺度变换实现连续结构演化,相比现有方法在计算效率、结构适应性和优化鲁棒性上有显著提升。
- Motivation: 现有张量网络结构搜索方法面临三个主要挑战:单尺度优化无法捕捉多尺度结构、离散搜索空间阻碍平滑结构演化、结构-参数分离优化导致计算效率低下。需要一种更高效、自适应且鲁棒的张量网络结构搜索方法。
- Method: 提出RGTN框架,基于重整化群思想实现多尺度张量网络搜索。核心创新包括:可学习的边门用于优化阶段拓扑修改;基于物理量的智能提议(如测量局部应力的节点张力和量化连接重要性的边信息流);从低复杂度粗尺度开始逐步细化到细尺度的搜索策略。
- Result: 在光场数据、高阶合成张量和视频补全任务上的实验表明,RGTN实现了最先进的压缩比,运行速度比现有方法快4-600倍,验证了物理启发方法的有效性。
- Conclusion: RGTN通过重整化群引导的多尺度搜索框架,成功解决了传统张量网络结构搜索方法的局限性,在计算效率、结构适应性和优化鲁棒性方面取得了显著改进,为高维数据表示提供了高效的张量分解方法。
[80] Evolving, Not Training: Zero-Shot Reasoning Segmentation via Evolutionary Prompting
Kai Ye,Xiaotong You,Jianghang Lin,Jiayi Ji,Pingyang Dai,Liujuan Cao
Main category: cs.CV
TL;DR: EVOL-SAM3:一种零样本推理分割框架,通过推理时进化搜索过程,采用"生成-评估-进化"循环迭代优化提示假设,显著超越静态方法和有监督方法。
- Motivation: 当前推理分割方法存在严重缺陷:SFT方法有灾难性遗忘和领域依赖问题;RL方法训练不稳定且依赖预定义奖励函数;训练免费方法受限于静态推理范式,缺乏深度推理和自我纠正能力。
- Method: 提出EVOL-SAM3框架,将推理分割重新定义为推理时进化搜索过程。维护提示假设种群,通过"生成-评估-进化"循环迭代优化:1) 视觉竞技场进行无参考成对比赛评估提示适应性;2) 语义变异算子注入多样性并纠正语义错误;3) 异构竞技场模块整合几何先验与语义推理确保最终选择鲁棒性。
- Result: 在ReasonSeg基准测试中,EVOL-SAM3不仅大幅超越静态基线方法,还在零样本设置下显著超过完全监督的最先进方法。
- Conclusion: EVOL-SAM3通过进化搜索范式成功解决了现有推理分割方法的局限性,实现了更深度、更鲁棒的推理分割能力,为推理分割任务提供了新的有效解决方案。
[81] FlowBlending: Stage-Aware Multi-Model Sampling for Fast and High-Fidelity Video Generation
Jibin Song,Mingi Kwon,Jaeseok Jeong,Youngjung Uh
Main category: cs.CV
TL;DR: FlowBlending:一种阶段感知的多模型采样策略,在扩散模型推理中,根据时间步对模型容量的敏感性,在关键阶段使用大模型,在中间阶段使用小模型,实现加速推理同时保持生成质量。
- Motivation: 研究发现模型容量在不同时间步的影响不同:在早期和晚期阶段至关重要,但在中间阶段影响不大。这为通过混合不同容量模型来加速推理提供了机会。
- Method: 提出FlowBlending策略:1)使用大模型处理容量敏感阶段(早期和晚期),小模型处理中间阶段;2)引入简单准则选择阶段边界;3)使用速度散度分析作为识别容量敏感区域的有效代理。
- Result: 在LTX-Video (2B/13B)和WAN 2.1 (1.3B/14B)上,FlowBlending实现高达1.65倍推理加速,减少57.35% FLOPs,同时保持大模型的视觉保真度、时间一致性和语义对齐。与现有采样加速技术兼容,可实现额外2倍加速。
- Conclusion: FlowBlending通过阶段感知的模型混合策略,在保持生成质量的同时显著加速扩散模型推理,为高效视频生成提供了实用解决方案。
[82] EchoFoley: Event-Centric Hierarchical Control for Video Grounded Creative Sound Generation
Bingxuan Li,Yiming Cui,Yicheng He,Yiwei Wang,Shu Zhang,Longyin Wen,Yulei Niu
Main category: cs.CV
TL;DR: EchoFoley:视频声音生成新任务,解决现有VT2A模型的视觉主导、细粒度控制不足和指令理解弱三大问题,通过符号化声音事件表示实现精细控制,构建6k数据集,提出EchoVidia框架在可控性和感知质量上显著超越现有方法。
- Motivation: 现有视频-文本到音频(VT2A)方法存在三个关键限制:1)视觉和文本条件不平衡导致视觉主导;2)缺乏细粒度可控生成的具体定义;3)指令理解和跟随能力弱,因为现有数据集依赖简短的分类标签。需要解决这些问题以实现更好的视频声音生成。
- Method: 提出EchoFoley新任务,使用符号化声音事件表示(指定何时、什么、如何产生声音),支持声音生成、插入和编辑等细粒度控制。构建EchoFoley-6k大规模专家标注数据集(6000+视频-指令-标注三元组)。提出EchoVidia框架,采用慢-快思维策略的声音事件中心代理生成方法。
- Result: EchoVidia在可控性上比现有VT2A模型提升40.7%,在感知质量上提升12.5%,显著超越了现有方法。
- Conclusion: EchoFoley任务和EchoVidia框架有效解决了VT2A的三大限制,通过符号化声音事件表示实现了细粒度控制,在可控性和感知质量上都取得了显著提升,为视频声音生成提供了新方向。
[83] Splatwizard: A Benchmark Toolkit for 3D Gaussian Splatting Compression
Xiang Liu,Yimin Zhou,Jinxiang Wang,Yujun Huang,Shuzhao Xie,Shiyu Qin,Mingyao Hong,Jiawei Li,Yaowei Wang,Zhi Wang,Shu-Tao Xia,Bin Chen
Main category: cs.CV
TL;DR: Splatwizard是一个专门用于评估3D高斯泼溅(3DGS)压缩模型的统一基准测试工具包,填补了现有评估工具在压缩任务标准化评估方面的空白。
- Motivation: 随着3DGS算法的快速发展,现有基准测试工具缺乏针对压缩任务的标准化和全面评估指标,无法全面评估不同方法在渲染速度、率失真权衡、内存效率和几何精度等方面的独特特性。
- Method: 开发了Splatwizard统一基准测试工具包,提供易于使用的框架来实施新的3DGS压缩模型,并集成了自动化计算关键性能指标的管道,包括图像质量指标、重建网格的Chamfer距离、渲染帧率和计算资源消耗。
- Result: Splatwizard为3DGS压缩模型提供了标准化的评估工具,能够全面评估不同方法的性能表现,代码已在GitHub上开源。
- Conclusion: Splatwizard填补了3DGS压缩模型评估领域的空白,为研究人员提供了统一的基准测试框架,有助于推动3DGS压缩技术的发展。
[84] UniC-Lift: Unified 3D Instance Segmentation via Contrastive Learning
Ankit Dhiman,Srinath R,Jaswanth Reddy,Lokesh R Boregowda,Venkatesh Babu Radhakrishnan
Main category: cs.CV
TL;DR: 提出统一框架,通过可学习的特征嵌入和Embedding-to-Label过程,解决多视角2D实例标签不一致问题,提升3D分割性能。
- Motivation: 现有3D分割方法面临多视角2D实例标签不一致的挑战,导致3D预测质量差。现有方法要么采用两阶段方法(对比学习+聚类),要么预处理标签以保证一致性,但存在训练时间长、超参数敏感等问题。
- Method: 1. 统一框架合并分割步骤,为高斯基元引入可学习的特征嵌入;2. 通过新颖的"Embedding-to-Label"过程高效解码为实例标签;3. 针对边界伪影问题,提出边界硬挖掘策略;4. 在计算三元组损失前对光栅化特征嵌入应用线性层以稳定训练。
- Result: 在ScanNet、Replica3D和Messy-Rooms数据集上,方法在定性和定量评估中均优于基线方法。
- Conclusion: 提出的统一框架通过可学习特征嵌入和稳定的边界优化策略,有效解决了多视角标签不一致问题,显著提升了3D实例分割性能,同时减少了训练时间。
[85] Projection-based Adversarial Attack using Physics-in-the-Loop Optimization for Monocular Depth Estimation
Takeru Kusakabe,Yudai Hirose,Mashiho Mukaida,Satoshi Ono
Main category: cs.CV
TL;DR: 提出一种基于投影的对抗攻击方法,通过将扰动光线投影到目标物体上,成功使基于DNN的单目深度估计模型产生深度误判,导致物体部分从场景中消失。
- Motivation: 深度神经网络对对抗攻击的脆弱性同样威胁到基于DNN的单目深度估计模型的可靠性,在实际应用中需要增强鲁棒性。本研究旨在验证DNN-based MDE模型的脆弱性。
- Method: 提出投影式对抗攻击方法,将扰动光线投影到目标物体上。采用物理在环优化,在实际环境中评估候选解以考虑设备规格和干扰,并利用分布式协方差矩阵自适应进化策略。
- Result: 实验证实该方法成功创建了导致深度误判的对抗样本,使目标场景中物体的部分区域消失。
- Conclusion: 该方法有效验证了DNN-based MDE模型的脆弱性,为实际应用中的鲁棒性增强提供了重要参考。
[86] Nonlinear Noise2Noise for Efficient Monte Carlo Denoiser Training
Andrew Tinits,Stephen Mann
Main category: cs.CV
TL;DR: 提出一种方法,允许在Noise2Noise训练中对噪声目标应用特定非线性函数而不引入显著偏差,解决了HDR图像去噪中动态范围压缩的问题。
- Motivation: Noise2Noise训练虽然不需要干净目标图像,但对噪声目标应用非线性函数会产生偏差,限制了预处理选项。这在处理HDR图像时尤其成问题,因为需要非线性色调映射来压缩动态范围。
- Method: 建立理论框架分析非线性函数的影响,识别出一类引入最小偏差的非线性函数。针对HDR图像去噪,探索特定损失函数和色调映射函数的组合,在压缩动态范围的同时保持训练稳定性。
- Result: 该方法成功应用于基于机器学习的蒙特卡洛去噪器,仅使用噪声训练数据就能达到接近原始实现(使用高样本数参考图像训练)的性能。
- Conclusion: 证明了某些非线性函数可以与Noise2Noise训练兼容,扩展了其应用范围,特别是在需要非线性预处理的HDR图像去噪场景中。
[87] Video and Language Alignment in 2D Systems for 3D Multi-object Scenes with Multi-Information Derivative-Free Control
Jason Armitage,Rico Sennnrich
Main category: cs.CV
TL;DR: 提出一种新方法,通过基于遗憾最小化的无导数优化改进多元互信息估计,使现成的2D跨模态系统能在3D场景中在线适应物体遮挡和特征区分
- Motivation: 跨模态系统在2D视觉输入上训练,但在处理3D场景时面临维度转换问题。场景内相机可以弥合维度差距,但需要学习控制模块
- Method: 通过基于遗憾最小化的无导数优化改进多元互信息估计,将表达能力强的度量与基于值的优化相结合,控制场景内相机直接从视觉语言模型的噪声输出中学习
- Result: 该方法使现成的2D跨模态系统能够在多物体3D场景中在线适应物体遮挡和区分特征,无需预训练或微调即可提升跨模态任务性能
- Conclusion: 提出的方法有效解决了2D跨模态系统处理3D场景时的维度转换问题,通过优化互信息估计和控制场景相机,实现了在复杂3D环境中的自适应性能提升
[88] CropTrack: A Tracking with Re-Identification Framework for Precision Agriculture
Md Ahmed Al Muzaddid,Jordan A. James,William J. Beksi
Main category: cs.CV
TL;DR: CropTrack是一个用于农业场景的多目标跟踪框架,通过结合外观和运动信息,解决了农业环境中目标外观相似、频繁遮挡等问题,在身份保持和关联准确性方面优于传统方法。
- Motivation: 农业环境中的多目标跟踪面临重复模式、相似外观、光照突变和频繁遮挡等挑战。现有跟踪器主要依赖运动信息,但在目标频繁强遮挡时难以保持身份一致性。由于目标外观高度相似,基于外观的关联在农业场景中难以有效集成。
- Method: CropTrack提出一个结合外观和运动信息的MOT框架,包含:1)重排序增强的外观关联;2)基于外观冲突解决策略的一对多关联;3)指数移动平均原型特征库来改进基于外观的关联。
- Result: 在公开的农业MOT数据集上评估,CropTrack展现出持续的身份保持能力,优于传统的基于运动的跟踪方法。与最先进方法相比,CropTrack在识别F1分数和关联准确率方面取得显著提升,同时身份切换数量更低。
- Conclusion: CropTrack通过有效结合外观和运动信息,成功解决了农业场景中多目标跟踪的挑战,特别是在身份保持方面表现出色,为农业环境下的目标跟踪提供了更可靠的解决方案。
[89] VLN-MME: Diagnosing MLLMs as Language-guided Visual Navigation agents
Xunyi Zhao,Gengze Zhou,Qi Wu
Main category: cs.CV
TL;DR: 本文提出了VLN-MME评估框架,用于在视觉语言导航任务中测试多模态大语言模型的零样本能力,发现增强推理链和自反思反而导致性能下降,揭示了MLLMs在具身导航中上下文感知和空间推理能力的不足。
- Motivation: 多模态大语言模型在多种视觉语言任务中表现出色,但作为具身智能体(需要多轮对话、空间推理和序列动作预测)的性能仍需探索。本文旨在通过标准化评估框架系统评估MLLMs在视觉语言导航任务中的零样本能力。
- Method: 提出了VLN-MME评估框架,将传统导航数据集转化为标准化基准,采用高度模块化和易访问的设计。通过该框架对多种MLLM架构、智能体设计和导航任务进行结构化比较和组件级消融实验。
- Result: 意外发现:增强基线智能体(添加推理链和自反思)反而导致性能下降。这表明MLLMs在具身导航任务中上下文感知能力差,虽然能遵循指令并结构化输出,但3D空间推理保真度低。
- Conclusion: VLN-MME为系统评估通用MLLMs在具身导航设置中的能力奠定了基础,揭示了它们在序列决策能力方面的局限性。这些发现为MLLMs作为具身智能体的后训练提供了重要指导。
[90] OFL-SAM2: Prompt SAM2 with Online Few-shot Learner for Efficient Medical Image Segmentation
Meng Lan,Lefei Zhang,Xiaomeng Li
Main category: cs.CV
TL;DR: OFL-SAM2是一个无需手动提示的SAM2框架,用于标签高效的医学图像分割,通过轻量级映射网络和在线参数更新实现少样本学习。
- Motivation: 虽然SAM2在视频分割中表现出色,但将其应用于医学图像分割面临两大挑战:1)需要大量标注数据进行微调;2)需要高质量的手动提示,这两者都依赖医学专家且劳动密集。
- Method: 提出OFL-SAM2框架,核心是训练轻量级映射网络来捕获医学知识,将通用图像特征转换为目标特征。包含两个关键技术:1)在线少样本学习器,用有限数据训练映射网络生成目标特征;2)自适应融合模块,动态整合目标特征与冻结SAM2生成的内存注意力特征。
- Result: 在三个不同的医学图像分割数据集上进行广泛实验,OFL-SAM2在有限训练数据下实现了最先进的性能。
- Conclusion: OFL-SAM2通过消除手动提示需求并支持在线参数更新,为标签高效的医学图像分割提供了有效的解决方案,在少样本场景下表现出色。
[91] FinMMDocR: Benchmarking Financial Multimodal Reasoning with Scenario Awareness, Document Understanding, and Multi-Step Computation
Zichen Tang,Haihong E,Rongjin Li,Jiacheng Liu,Linwei Jia,Zhuodi Hao,Zhongjun Yang,Yuanze Li,Haolin Tian,Xinyi Hu,Peizhi Zhao,Yuan Liu,Zhengyu Wang,Xianghe Wang,Yiling Huang,Xueyuan Lin,Ruofei Bai,Zijian Xie,Qian Huang,Ruining Cao,Haocheng Gao
Main category: cs.CV
TL;DR: FinMMDocR是一个新颖的双语多模态基准测试,用于评估多模态大语言模型在真实世界金融数值推理任务上的表现,包含1200个专家标注的问题、837份中英文金融文档,要求模型进行多步骤推理和跨页面证据整合。
- Motivation: 现有基准测试在真实世界金融数值推理评估方面存在不足,特别是在场景意识、文档理解和多步骤计算方面。需要创建一个更贴近实际金融场景、包含丰富金融文档类型和复杂推理要求的基准来推动MLLM在复杂多模态推理任务上的改进。
- Method: 创建了包含1200个专家标注问题的双语多模态基准,其中57.9%的问题融入了12种隐含金融场景;收集了837份中英文金融文档,涵盖9种类型,平均50.8页;设计了需要平均11步推理(5.3步提取+5.7步计算)的问题,65%的问题需要跨页面证据整合。
- Result: 最佳表现的MLLM仅达到58.0%的准确率,不同检索增强生成(RAG)方法在该任务上表现出显著的性能差异,表明现有模型在复杂金融多模态推理方面仍有很大提升空间。
- Conclusion: FinMMDocR基准测试能够有效评估和推动MLLM及推理增强方法在真实世界复杂多模态推理任务上的改进,特别是在金融数值推理领域,为未来研究提供了重要的评估工具。
[92] Semi-Supervised Diversity-Aware Domain Adaptation for 3D Object detection
Bartłomiej Olber,Jakub Winter,Paweł Wawrzyński,Andrii Gamalii,Daniel Górniak,Marcin Łojek,Robert Nowak,Krystian Radlak
Main category: cs.CV
TL;DR: 提出基于神经元激活模式的LiDAR域自适应方法,仅需标注少量目标域代表性样本,结合持续学习技术防止权重漂移,在3D目标检测中取得SOTA性能。
- Motivation: 3D目标检测器在自动驾驶感知系统中至关重要,但在不同地理区域(如美国、亚洲、欧洲)之间存在显著的域泛化问题,导致模型性能下降。
- Method: 基于神经元激活模式选择少量代表性目标域样本进行标注,结合持续学习启发的后训练技术防止权重漂移,实现高效的域自适应。
- Result: 该方法在少量标注预算下,性能优于线性探测和现有域自适应技术,实现了最先进的域自适应效果。
- Conclusion: 通过精心选择少量代表性目标域样本并采用持续学习技术,可以有效解决3D目标检测器的域自适应问题,显著提升模型在新地理区域的性能。
[93] HaineiFRDM: Explore Diffusion to Restore Defects in Fast-Movement Films
Rongji Xun,Junjie Yuan,Zhongjie Wang
Main category: cs.CV
TL;DR: 提出HaineiFRDM扩散模型框架,通过补丁式训练测试策略、全局提示融合模块和全局-局部频率模块,实现高分辨率胶片修复,性能优于现有开源方法。
- Motivation: 现有开源胶片修复方法性能有限,主要因为使用低质量合成数据训练、采用噪声光流,且未探索高分辨率胶片修复。需要利用扩散模型强大的内容理解能力帮助专家修复难以识别的胶片缺陷。
- Method: 1) 补丁式训练测试策略,使24GB显存GPU能处理高分辨率胶片;2) 位置感知全局提示和帧融合模块;3) 全局-局部频率模块保持不同补丁间纹理一致性;4) 先修复低分辨率结果作为全局残差减少块状伪影;5) 构建包含真实修复胶片和合成数据的胶片修复数据集。
- Result: 综合实验结果表明,该模型在缺陷修复能力上明显优于现有开源方法,能够有效处理高分辨率胶片修复任务。
- Conclusion: HaineiFRDM框架成功利用扩散模型的内容理解能力,通过创新的训练策略和模块设计,实现了高质量的高分辨率胶片修复,填补了开源方法在该领域的空白。
[94] CPJ: Explainable Agricultural Pest Diagnosis via Caption-Prompt-Judge with LLM-Judged Refinement
Wentao Zhang,Tao Fang,Lina Lu,Lifei Wang,Weihe Zhong
Main category: cs.CV
TL;DR: 提出CPJ框架,无需训练即可通过结构化图像描述提升农业病虫害VQA性能,在CDDMBench上显著优于无描述基线
- Motivation: 现有作物病害诊断方法依赖昂贵的监督微调,且在领域转移时表现不佳,需要更准确、可解释且无需训练的方法
- Method: CPJ框架:使用大视觉语言模型生成多角度图像描述,通过LLM-as-Judge模块迭代优化,基于描述进行双答案VQA(识别和管理响应)
- Result: 在CDDMBench上,使用GPT-5-mini描述时,GPT-5-Nano在病害分类上提升22.7个百分点,QA分数提升19.5分,优于无描述基线
- Conclusion: CPJ框架提供了透明、基于证据的推理,无需微调即可实现稳健且可解释的农业诊断,代码和数据已开源
[95] ProDM: Synthetic Reality-driven Property-aware Progressive Diffusion Model for Coronary Calcium Motion Correction in Non-gated Chest CT
Xinran Gong,Gorkem Durak,Halil Ertugrul Aktas,Vedat Cicek,Jinkui Hao,Ulas Bagci,Nilay S. Shah,Bo Zhou
Main category: cs.CV
TL;DR: ProDM是一种生成扩散模型,用于从非门控胸部CT中恢复无运动伪影的钙化病变,提高冠状动脉钙化评分的准确性。
- Motivation: 冠状动脉钙化评分是心血管疾病风险评估的重要工具,但非门控胸部CT存在严重运动伪影,而ECG门控心脏CT使用受限。需要一种方法从常规非门控CT中准确量化钙化。
- Method: 提出ProDM(属性感知渐进校正扩散模型),包含三个关键组件:1)CAC运动模拟数据引擎,从心脏门控CT合成具有多样运动轨迹的非门控采集数据;2)属性感知学习策略,通过可微钙化一致性损失融入钙化特异性先验;3)渐进校正方案,在扩散步骤中逐步减少伪影。
- Result: 在真实患者数据集上,ProDM显著提高了CAC评分准确性、空间病变保真度和风险分层性能。真实非门控扫描的读者研究证实ProDM能抑制运动伪影并提高临床可用性。
- Conclusion: ProDM展示了渐进、属性感知框架在从常规胸部CT成像中进行可靠CAC量化的潜力,为心血管风险评估提供了更易获取的替代方案。
[96] VIPER: Process-aware Evaluation for Generative Video Reasoning
Yifan Li,Yukai Gu,Yingqian Min,Zikang Liu,Yifan Du,Kun Zhou,Min Yang,Wayne Xin Zhao,Minghui Qiu
Main category: cs.CV
TL;DR: VIPER是一个用于生成视频推理的过程感知评估基准,包含16个任务,提出POC@r指标来评估中间步骤和最终结果的一致性,发现当前视频模型只有约20%的过程一致性且存在显著的结果黑客问题。
- Motivation: 现有的视频生成模型评估框架通常依赖单帧评估,这可能导致结果黑客问题——模型通过错误的过程得出正确结论。需要一种过程感知的评估范式来真正评估生成视频推理能力。
- Method: 提出VIPER基准,涵盖16个任务,包括时间、结构、符号、空间、物理和规划推理。提出过程-结果一致性(POC@r)指标,使用VLM-as-Judge和分层评分标准来评估中间步骤的有效性和最终结果。
- Result: 实验表明,最先进的视频模型仅达到约20%的POC@1.0,表现出显著的结果黑客问题。测试时缩放和采样鲁棒性分析揭示了当前视频生成与真正广义视觉推理之间的巨大差距。
- Conclusion: 需要过程感知评估来准确衡量生成视频推理能力,当前模型在过程一致性方面表现不佳,存在结果黑客问题,距离真正的广义视觉推理还有很大差距。VIPER基准将公开发布以促进该领域发展。
[97] ShowUI- : Flow-based Generative Models as GUI Dexterous Hands
Siyuan Hu,Kevin Qinghong Lin,Mike Zheng Shou
Main category: cs.CV
TL;DR: ShowUI-π:首个基于流的GUI灵巧手模型,统一离散点击和连续拖拽操作,在ScreenDrag基准上超越现有GUI代理
- Motivation: 现有GUI代理仅支持离散点击预测,无法处理需要连续感知和调整的自由形式闭环轨迹(如拖动进度条),限制了实现类人灵巧操作的能力
- Method: 1) 统一离散-连续动作:在共享模型中集成离散点击和连续拖拽;2) 基于流的动作生成:通过轻量级动作专家从连续视觉观察预测增量光标调整;3) 拖拽训练数据和基准:收集合成20K拖拽轨迹,创建ScreenDrag基准
- Result: 在ScreenDrag基准上,ShowUI-π(仅450M参数)得分为26.98,显著优于现有最佳GUI代理(Gemini-2.5-CUA得22.18,Operator得13.27),证明了方法的有效性
- Conclusion: 该工作首次实现了基于流的GUI灵巧手模型,统一了离散和连续操作,在拖拽任务上超越现有方法,推动了GUI代理向类人灵巧控制的发展
[98] Evaluating the Impact of Compression Techniques on the Robustness of CNNs under Natural Corruptions
Itallo Patrick Castro Alves Da Silva,Emanuel Adler Medeiros Pereira,Erick de Andrade Barboza,Baldoino Fonseca dos Santos Neto,Marcio de Medeiros Ribeiro
Main category: cs.CV
TL;DR: 该论文系统评估了量化、剪枝和权重聚类三种模型压缩技术对CNN鲁棒性的影响,发现某些压缩策略不仅能保持甚至能提升模型在自然损坏环境下的鲁棒性。
- Motivation: 在资源受限设备上部署计算机视觉系统需要压缩深度学习模型,但模型压缩可能影响鲁棒性,特别是在自然损坏环境下。因此需要在验证计算机视觉系统时考虑鲁棒性评估。
- Method: 对ResNet-50、VGG-19和MobileNetV2三种卷积神经网络,应用量化、剪枝和权重聚类三种压缩技术(单独和组合使用),使用CIFAR-10-C和CIFAR-100-C数据集,分析鲁棒性、准确率和压缩率之间的权衡关系。
- Result: 结果显示某些压缩策略不仅能保持甚至能提升鲁棒性,特别是在更复杂的网络架构上。通过多目标评估确定了最佳配置,表明定制的技术组合能产生有益的多目标结果。
- Conclusion: 该研究为在损坏的真实世界环境中选择和部署鲁棒且高效的模型压缩方法提供了重要见解。
[99] DarkEQA: Benchmarking Vision-Language Models for Embodied Question Answering in Low-Light Indoor Environments
Yohan Park,Hyunwoo Ha,Wonjun Jo,Tae-Hyun Oh
Main category: cs.CV
TL;DR: DarkEQA是一个开源基准测试,用于在多种低光照条件下评估视觉语言模型在具身问答任务中的感知能力,揭示现有模型在黑暗环境中的局限性。
- Motivation: 现有基准测试主要在理想光照条件下评估视觉语言模型,但实际24/7运行的具身智能体需要在各种视觉退化条件下工作,特别是在夜间或黑暗环境中的低光照条件,这一核心需求被严重忽视。
- Method: 提出DarkEQA基准测试,通过控制视觉退化来评估第一人称视角下的问答能力。关键设计特点是物理保真度:在原始RAW空间模拟物理光照衰减和传感器噪声,然后通过ISP渲染管道处理,从而隔离感知瓶颈。
- Result: 评估了多种最先进的视觉语言模型和低光照图像增强模型,系统性地揭示了这些模型在挑战性视觉条件下的局限性。
- Conclusion: DarkEQA填补了低光照条件下具身智能体感知评估的空白,为未来研究提供了重要的基准测试工具,代码和数据集将在接受后发布。
[100] Bi-C2R: Bidirectional Continual Compatible Representation for Re-indexing Free Lifelong Person Re-identification
Zhenyu Cui,Jiahuan Zhou,Yuxin Peng
Main category: cs.CV
TL;DR: 提出RFL-ReID新任务:无需重新索引历史图库图像的终身行人重识别,解决传统L-ReID中因隐私和成本问题无法重新索引导致的特征不兼容问题
- Motivation: 传统终身行人重识别(L-ReID)需要重新索引历史图库图像,但面临数据隐私问题和高昂计算成本,导致新旧模型特征不兼容,严重影响重识别性能
- Method: 提出双向连续兼容表示(Bi-C2R)框架,持续更新旧模型提取的图库特征,实现兼容的终身行人重识别
- Result: 在多个基准测试上的实验表明,该方法在RFL-ReID新任务和传统L-ReID任务上均取得领先性能
- Conclusion: RFL-ReID是比L-ReID更具挑战性的新任务,Bi-C2R框架通过特征兼容性学习有效解决了无需重新索引的终身行人重识别问题
[101] FoundationSLAM: Unleashing the Power of Depth Foundation Models for End-to-End Dense Visual SLAM
Yuchen Wu,Jiahe Li,Fabio Tosi,Matteo Poggi,Jin Zheng,Xiao Bai
Main category: cs.CV
TL;DR: FoundationSLAM是一个基于学习的单目稠密SLAM系统,通过融合基础深度模型的几何指导,解决了先前基于光流方法缺乏几何一致性的问题,实现了准确鲁棒的跟踪与建图。
- Motivation: 先前基于光流的SLAM方法缺乏几何一致性,导致跟踪和建图不够准确和鲁棒。本文旨在通过结合基础深度模型的几何指导来弥补这一缺陷。
- Method: 1. 开发混合光流网络生成几何感知的对应关系;2. 提出双向一致束调整层联合优化关键帧位姿和深度;3. 引入可靠性感知细化机制动态调整光流更新过程。
- Result: 在多个挑战性数据集上实现了优越的轨迹精度和稠密重建质量,实时运行速度达18FPS,展现出对各种场景的强大泛化能力和实际应用价值。
- Conclusion: FoundationSLAM通过有效结合光流估计与几何推理,成功解决了基于光流SLAM方法的几何一致性问题,为单目稠密SLAM提供了准确、鲁棒且实用的解决方案。
[102] From Inpainting to Editing: A Self-Bootstrapping Framework for Context-Rich Visual Dubbing
Xu He,Haoxian Zhang,Hejia Chen,Changyuan Zheng,Liyang Chen,Songlin Tang,Jiehui Huang,Xiaoqiang Liu,Pengfei Wan,Zhiyong Wu
Main category: cs.CV
TL;DR: 提出自引导框架,将视觉配音从修复任务重构为视频编辑问题,使用DiT生成对齐训练数据,实现精确唇部同步和身份保持
- Motivation: 现有视觉配音方法面临缺乏理想训练数据的根本挑战——需要唇部运动不同但其他视觉条件完全相同的配对视频。现有方法采用基于掩码的修复范式,导致模型同时需要生成缺失内容和同步唇部,产生视觉伪影、身份漂移和同步不良
- Method: 提出自引导框架:1) 使用Diffusion Transformer作为数据生成器,为每个真实样本合成唇部修改的配对视频,形成视觉对齐的视频对;2) 训练基于DiT的音频驱动编辑器,利用完整对齐的输入视频帧专注于精确的音频驱动唇部修改;3) 引入时间步自适应多阶段学习策略,解耦不同扩散时间步的编辑目标;4) 提出ContextDubBench基准数据集
- Result: 方法实现了高度准确的唇部同步、忠实的身份保持,并在具有挑战性的野外场景中表现出卓越的鲁棒性。完整帧对齐的输入条件为编辑器提供了丰富的视觉上下文,包括完整的身份线索、场景交互和连续时空动态
- Conclusion: 通过将视觉配音重构为条件良好的视频到视频编辑问题,并利用自引导框架生成理想训练数据,该方法在唇部同步精度、身份保持和鲁棒性方面显著优于现有方法,为实际应用场景提供了有效的解决方案
[103] FineTec: Fine-Grained Action Recognition Under Temporal Corruption via Skeleton Decomposition and Sequence Completion
Dian Shao,Mingfei Shi,Like Liu
Main category: cs.CV
TL;DR: FineTec:用于时间损坏骨架序列的细粒度动作识别统一框架,通过上下文感知补全、空间分解和物理驱动估计来恢复丢失数据并捕捉细微运动线索
- Motivation: 现实场景中在线姿态估计常产生大量缺失数据,现有方法难以准确恢复时间动态和细粒度空间结构,导致丢失区分相似动作的关键细微运动线索
- Method: 1) 上下文感知补全生成基础骨架序列;2) 空间分解模块将骨架分为5个语义区域,再按运动方差分为动态/静态子组,通过针对性扰动生成两个增强序列;3) 物理驱动估计模块使用拉格朗日动力学估计关节加速度;4) 融合骨架位置序列和加速度序列输入GCN识别头
- Result: 在粗粒度(NTU-60, NTU-120)和细粒度(Gym99, Gym288)基准测试中显著优于现有方法,在Gym99-severe和Gym288-severe上分别达到89.1%和78.1%的top-1准确率
- Conclusion: FineTec能有效处理时间损坏的骨架序列,通过结合空间分解和物理动力学建模,在细粒度动作识别任务中表现出优异的鲁棒性和泛化能力
[104] Edit3r: Instant 3D Scene Editing from Sparse Unposed Images
Jiageng Liu,Weijie Lyu,Xueting Li,Yejie Guo,Ming-Hsuan Yang
Main category: cs.CV
TL;DR: Edit3r:无需优化或位姿估计的单次前馈3D场景重建与编辑框架,通过SAM2重着色策略解决多视角一致性监督缺失问题,在DL3DV-Edit-Bench上表现优于现有方法且推理速度更快。
- Motivation: 现有3D场景编辑方法通常需要逐场景优化,计算成本高且无法实时应用。同时,缺乏多视角一致的编辑图像监督数据是训练此类模型的主要挑战。
- Method: 提出前馈框架Edit3r,直接从无位姿、视角不一致的指令编辑图像中预测指令对齐的3D编辑。采用SAM2重着色策略生成可靠的跨视角一致监督,以及非对称输入策略(重着色参考视图+原始辅助视图)鼓励网络融合和对齐不同观察。
- Result: 在DL3DV-Edit-Bench基准测试(20个场景、4种编辑类型、共100个编辑)上,Edit3r在语义对齐和3D一致性方面优于现有基线方法,同时推理速度显著更快,能够处理训练中未见的2D方法(如InstructPix2Pix)编辑的图像。
- Conclusion: Edit3r实现了快速、逼真的3D场景编辑,无需优化或位姿估计,在语义对齐和3D一致性方面表现优异,推理速度快,有望应用于实时3D编辑场景。
[105] GaMO: Geometry-aware Multi-view Diffusion Outpainting for Sparse-View 3D Reconstruction
Yi-Chuan Huang,Hao-Jen Chien,Chin-Yang Lin,Ying-Huan Chen,Yu-Lun Liu
Main category: cs.CV
TL;DR: GaMO通过多视角外推而非生成新视角来改进稀疏视图3D重建,在保持几何一致性的同时扩展场景覆盖范围,实现了25倍速度提升。
- Motivation: 现有基于扩散的方法在稀疏视图3D重建中存在三个关键问题:已知视角外围覆盖不足、生成视图间几何不一致、计算流程昂贵。需要一种既能保持几何一致性又能高效扩展场景覆盖的方法。
- Method: 提出GaMO框架,通过多视角外推而非生成新视角来扩展现有相机姿态的视野范围。采用多视角条件化和几何感知去噪策略,以零样本方式无需训练。
- Result: 在Replica和ScanNet++数据集上,在3、6、9个输入视图下均达到最先进的重建质量,PSNR和LPIPS指标优于先前方法,相比SOTA扩散方法实现25倍加速,处理时间低于10分钟。
- Conclusion: GaMO通过多视角外推重新构建稀疏视图重建问题,在保持几何一致性的同时有效扩展场景覆盖,实现了高质量且高效的3D重建。
[106] SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time
Zhening Huang,Hyeonho Jeong,Xuelin Chen,Yulia Gryaditskaya,Tuanfeng Y. Wang,Joan Lasenby,Chun-Hao Huang
Main category: cs.CV
TL;DR: SpaceTimePilot是一个视频扩散模型,能够解耦空间和时间进行可控生成渲染,可以独立改变相机视角和运动序列,实现连续的空间和时间探索。
- Motivation: 现有的视频生成模型难以实现对空间(相机视角)和时间(运动序列)的独立精确控制,缺乏能够同时处理空间和时间变化的统一框架。
- Method: 1. 引入动画时间嵌入机制,在扩散过程中显式控制输出视频的运动序列;2. 提出时间扭曲训练方案,利用现有多视角数据集模拟时间差异;3. 改进相机条件机制,允许从第一帧开始改变相机;4. 创建CamxTime合成数据集,提供完整的空间-时间视频轨迹。
- Result: 在真实世界和合成数据上的评估显示,SpaceTimePilot能够实现清晰的空间-时间解耦,相比先前工作取得了更强的结果,能够精确控制相机视角和运动序列。
- Conclusion: SpaceTimePilot通过创新的时间嵌入机制、时间扭曲训练方案和专门的数据集,成功实现了视频生成中空间和时间的解耦控制,为可控视频生成提供了新方法。
cs.CL
[107] Break Out the Silverware -- Semantic Understanding of Stored Household Items
Michaela Levi-Richter,Reuth Mirsky,Oren Glickman
Main category: cs.CL
TL;DR: 论文提出"存储家居物品挑战"基准任务,评估服务机器人预测日常物品存储位置的能力,并开发NOAM混合代理管道,结合视觉场景理解和语言模型推理,在预测准确率上接近人类水平。
- Motivation: 家庭服务机器人面临的核心挑战是缺乏常识推理能力来推断日常物品的存储位置。虽然视觉和操作技术有进展,但机器人仍无法理解"给我拿个盘子"这类简单指令中隐含的存储位置信息。
- Method: 提出NOAM(非可见物品分配模型)混合代理管道:1)将视觉输入转换为自然语言描述(空间上下文和可见容器);2)使用大语言模型(如GPT-4)推理最可能的隐藏存储位置;3)设计为模块化部署在更广泛的机器人系统中。
- Result: NOAM在预测准确率上显著优于基线方法(随机选择、视觉语言管道、多模态模型等),并接近人类表现水平。论文还创建了两个数据集:包含100个物品-图像对的真实世界评估集和6500个带存储多边形标注的开发集。
- Conclusion: NOAM展示了结合结构化场景理解和大语言模型推理的有效性,为家庭环境中部署具有认知能力的智能代理提供了最佳实践。该基准任务推动了服务机器人常识推理能力的发展。
quant-ph
[108] One-Shot Structured Pruning of Quantum Neural Networks via -Group Engineering and Quantum Geometric Metrics
Haijian Shao,Wei Liu,Xing Deng,Yingtao Jiang
Main category: quant-ph
TL;DR: 提出q-iPrune:基于q变形群代数结构和任务条件量子几何的单次结构化剪枝框架,用于减少量子神经网络的门级冗余,适用于NISQ设备。
- Motivation: 量子神经网络存在严重的门级冗余,阻碍了其在噪声中等规模量子设备上的部署。现有启发式或基于梯度的剪枝方法不够理想,需要更理论化的方法来直接处理门级冗余。
- Method: 基于q变形群的代数结构,使用任务条件q重叠距离在代数一致的子组内比较门的功能相似性。仅当用子组代表替换门时在所有任务可观测量上产生有界偏差时才移除门。引入噪声校准变形参数λ来适应硬件缺陷。
- Result: 建立了三个严格的理论保证:1) 冗余剪枝的完备性;2) 剪枝电路在显式任务条件误差界内功能等价;3) 剪枝过程计算可行,仅需多项式时间比较。实验表明q-iPrune能显著减少门数量同时保持有界任务性能退化。
- Conclusion: q-iPrune为量子神经网络提供了一种理论严格、计算高效的结构化剪枝框架,能够有效减少门级冗余,适用于噪声量子硬件,并通过理论保证确保性能有界退化。
cond-mat.mes-hall
[109] Towards autonomous time-calibration of large quantum-dot devices: Detection, real-time feedback, and noise spectroscopy
Anantha S. Rao,Barnaby van Straaten,Valentin John,Cécile X. Yu,Stefan D. Oosterhout,Lucas Stehouwer,Giordano Scappucci,M. D. Stewart,,Menno Veldhorst,Francesco Borsoi,Justyna P. Zwolak
Main category: cond-mat.mes-hall
TL;DR: 提出一种基于电荷稳定性图的多维探测方法,用于自主稳定半导体量子点阵列的静电环境,实现电压漂移检测、补偿更新和噪声分析。
- Motivation: 半导体量子点比特的性能和可扩展性受到静电漂移和电荷噪声的限制,这些噪声会改变工作点并破坏量子比特参数稳定性。随着系统扩展到大规模一维和二维阵列,手动重新校准变得不切实际,因此需要自主稳定框架。
- Method: 利用重复获取的双量子点电荷稳定性图中的完整电荷跃迁线网络作为多维探针,通过精确跟踪选定跃迁的时间运动来检测电压漂移、识别突发的电荷重配置,并应用补偿更新以维持稳定工作条件。
- Result: 在10量子点器件上展示了稳健的稳定性和实时诊断能力,实现了噪声功率谱密度提取、双能级涨落器识别以及阵列中空间噪声相关性分析。发现100μHz背景噪声以1/f²幂律漂移为主,伴随少数主导双能级涨落器,平均线性相关长度为(188±38)nm。
- Conclusion: 该方法为基于量子点的量子处理器提供了一个可扩展的自主校准和表征模块,为长时间、高保真度的量子比特操作提供了必要的反馈机制。
cs.LG
[110] A Granular Grassmannian Clustering Framework via the Schubert Variety of Best Fit
Karim Salta,Michael Kirby,Chris Peterson
Main category: cs.LG
TL;DR: 提出SVBF-LBG算法,用可训练的Schubert Variety作为子空间聚类的原型,替代传统均值,在多种数据上提升聚类纯度
- Motivation: 传统子空间聚类使用均值或中位数作为几何代表,但子空间数据位于Grassmann或flag流形上,需要更合适的几何原型来提升聚类效果
- Method: 引入Schubert Variety of Best Fit (SVBF)作为可训练原型,定义为与每个聚类成员在至少一个固定方向上尽可能相交的子空间,并集成到Linde-Buzo-Grey (LBG)流程中
- Result: SVBF-LBG在合成数据、图像数据、光谱数据和视频动作数据上均显示出改进的聚类纯度,同时保留了后续分析所需的数学结构
- Conclusion: SVBF作为子空间聚类的几何原型比传统均值更有效,SVBF-LBG算法在保持数学结构的同时显著提升了聚类性能
[111] GARDO: Reinforcing Diffusion Models without Reward Hacking
Haoran He,Yuxiao Ye,Jie Liu,Jiajun Liang,Zhiyong Wang,Ziyang Yuan,Xintao Wang,Hangyu Mao,Pengfei Wan,Ling Pan
Main category: cs.LG
TL;DR: GARDO:一种通过门控自适应正则化和多样性感知优化来解决扩散模型在线强化学习中奖励黑客、探索不足和模式崩溃问题的框架
- Motivation: 扩散模型通过在线强化学习进行微调时,由于使用不完全捕获真实目标的代理奖励,经常出现奖励黑客问题(代理分数提高但真实图像质量下降、生成多样性崩溃)。现有方法通过正则化参考策略来防止奖励黑客,但这会牺牲样本效率并阻碍对高奖励新区域的探索,因为参考策略通常是次优的。
- Method: 提出GARDO框架:1)门控正则化:仅对高不确定性样本子集进行选择性惩罚;2)自适应正则化:定期更新参考模型以匹配在线策略能力,确保正则化目标相关;3)多样性感知优化:对高质量且高多样性的样本放大奖励,鼓励模式覆盖而不破坏优化稳定性。
- Result: 在多种代理奖励和未见保留指标上的广泛实验表明,GARDO能有效缓解奖励黑客问题,增强生成多样性,同时不牺牲样本效率或探索能力,证明了其有效性和鲁棒性。
- Conclusion: GARDO通过选择性正则化、自适应参考模型更新和多样性奖励放大,成功解决了扩散模型强化学习中奖励黑客、探索不足和模式崩溃的竞争性需求,为文本到图像对齐提供了更有效的优化框架。
[112] Lifting Vision: Ground to Aerial Localization with Reasoning Guided Planning
Soham Pahari,M. Srinivas
Main category: cs.LG
TL;DR: ViReLoc是一个仅使用视觉表征进行规划和定位的视觉推理框架,通过强化学习优化视觉推理过程,在空间任务中超越基于文本的推理方法。
- Motivation: 当前多模态智能系统主要依赖文本信息进行推理,限制了在视觉导航和地理定位等空间任务中的有效性。文本推理难以理解空间依赖和几何关系。
- Method: 提出Geo-Consistent Visual Planning范式,ViReLoc框架学习空间依赖和几何关系,通过视觉域中的逐步推理和强化学习目标优化,结合对比学习和自适应特征交互来对齐跨视角并减少视点差异。
- Result: 在多种导航和定位场景中,ViReLoc在空间推理准确性和跨视角检索性能上均取得一致改进,无需实时GPS数据即可实现导航。
- Conclusion: 视觉推理是导航和定位任务的有力补充方法,证明此类任务可以在无需实时GPS数据的情况下完成,提供更安全的导航解决方案。
[113] Generative Classifiers Avoid Shortcut Solutions
Alexander C. Li,Ananya Kumar,Deepak Pathak
Main category: cs.LG
TL;DR: 生成式分类器通过建模所有特征(核心和虚假相关特征)来避免判别式分类器过度依赖虚假相关特征的问题,在分布偏移下表现更稳健。
- Motivation: 判别式分类器容易学习虚假相关特征,这些特征在训练分布中有效但在分布偏移下失效。需要一种能避免过度依赖虚假相关的方法。
- Method: 使用基于类别条件生成模型(如扩散模型和自回归模型)的生成式分类器,建模所有特征而非主要关注虚假相关特征。训练简单,无需特殊增强、强正则化、额外超参数或先验知识。
- Result: 在五个标准图像和文本分布偏移基准测试中达到最先进性能,在医疗和卫星数据集等实际应用中减少虚假相关影响。通过高斯玩具设置分析生成式分类器的归纳偏置。
- Conclusion: 生成式分类器能有效避免判别式分类器对虚假相关特征的过度依赖问题,在分布偏移下表现更稳健,且训练简单无需复杂调整。
eess.SP
[114] A multimodal Transformer for InSAR-based ground deformation forecasting with cross-site generalization across Europe
Wendong Yao,Binhua Huang,Soumyabrata Dev
Main category: eess.SP
TL;DR: 提出一种基于Transformer的多模态模型,用于从EGMS时序数据中预测下一时刻的地表位移图,在爱尔兰东部区域取得最佳性能。
- Motivation: 近实时区域尺度地面形变监测对城市规划、关键基础设施管理和自然灾害缓解日益重要。虽然InSAR和EGMS等服务提供了过去运动的密集观测,但由于长期趋势、季节周期和偶尔的突变(如地震阶跃)的叠加以及强烈的空间异质性,预测下一观测仍然具有挑战性。
- Method: 提出一种多模态基于块的Transformer模型,用于单步、固定间隔的下一时期位移图预报。模型输入包括:近期位移快照、从训练窗口计算的静态运动学指标(平均速度、加速度、季节振幅)、以及谐波年日编码。模型在64x64网格(100km×100km区域)上处理EGMS时间序列数据。
- Result: 在爱尔兰东部区域(E32N34)测试中,当所有模型接收相同的多模态输入时,多模态Transformer明显优于CNN-LSTM、CNN-LSTM+Attn和多模态STGCN,测试集上达到RMSE=0.90mm和R²=0.97的最佳阈值精度。
- Conclusion: 多模态Transformer模型能够有效整合位移观测、静态运动学指标和时间编码,在地表位移预报任务中表现出优越性能,为近实时地面形变监测提供了有前景的解决方案。
cs.RO
[115] Learning to Feel the Future: DreamTacVLA for Contact-Rich Manipulation
Guo Ye,Zexi Zhang,Xu Zhao,Shang Wu,Haoran Lu,Shihan Lu,Han Liu
Main category: cs.RO
TL;DR: DreamTacVLA:通过触觉世界模型预测未来触觉信号,增强视觉-语言-动作模型在接触丰富操作任务中的物理接触理解能力
- Motivation: 当前VLA模型在物理接触理解方面存在局限,无法处理需要力、纹理和滑动推理的接触丰富操作任务。现有方法仅使用低维触觉信号,无法捕捉高分辨率动态交互信息。
- Method: 采用分层感知架构,整合高分辨率触觉图像、腕部相机局部视觉和第三人称宏观视觉。使用分层空间对齐损失统一策略,并通过触觉世界模型预测未来触觉信号进行微调。构建混合大规模数据集(高保真数字孪生+真实世界实验)。
- Result: 在接触丰富操作任务中优于最先进的VLA基线,成功率高达95%,显著提升了机器人对物理接触的理解和操作能力。
- Conclusion: 通过触觉世界模型预测未来触觉状态,DreamTacVLA获得了丰富的接触物理模型,实现了对物理接触的深入理解,为构建鲁棒的触觉感知机器人智能体提供了重要途径。
[116] RANGER: A Monocular Zero-Shot Semantic Navigation Framework through Contextual Adaptation
Ming-Ming Yu,Yi Chen,Börje F. Karlsson,Wenjun Wu
Main category: cs.RO
TL;DR: RANGER:一种仅使用单目相机的零样本开放词汇语义导航框架,无需深度和姿态信息,通过短视频观察即可快速适应新环境
- Motivation: 现有零样本目标导航方法存在两个关键限制:1)过度依赖模拟器提供的精确深度和姿态信息,限制了在真实世界的应用;2)缺乏上下文学习能力,难以快速适应新环境
- Method: 基于强大的3D基础模型,集成关键帧3D重建、语义点云生成、视觉语言模型驱动的探索价值估计、高层自适应路径点选择和低层动作执行等组件
- Result: 在HM3D基准测试和真实世界环境中,RANGER在导航成功率和探索效率方面达到竞争性性能,同时展现出优越的上下文学习适应性,无需环境的先验3D地图
- Conclusion: RANGER框架成功解决了现有方法的局限性,实现了仅使用单目相机的零样本开放词汇语义导航,具备强大的环境适应能力,为真实世界机器人应用提供了实用解决方案
[117] Geometric Multi-Session Map Merging with Learned Local Descriptors
Yanlong Ma,Nakul S. Joshi,Christa S. Robison,Philip R. Osteen,Brett T. Lopez
Main category: cs.RO
TL;DR: GMLD是一个基于学习的局部描述符框架,用于大规模多会话点云地图合并,通过关键点感知编码器和平面几何变换器提取特征,结合因子图优化实现准确的地图对齐。
- Motivation: 大规模环境中长期自主操作需要多会话地图合并,但现有方法在跨会话地图对齐方面存在挑战,需要更鲁棒的特征提取和全局一致性优化。
- Method: 提出GMLD框架:1)使用关键点感知编码器提取特征;2)采用平面几何变换器增强特征判别性;3)在因子图优化阶段加入跨会话扫描匹配成本因子以提高全局一致性。
- Result: 在公开数据集和自采集数据上评估,结果显示地图合并准确且鲁棒,误差低,学习到的特征在闭环检测和相对位姿估计中表现优异。
- Conclusion: GMLD框架能够有效解决大规模多会话点云地图合并问题,通过学习到的局部描述符实现准确的地图对齐和全局一致性优化。
[118] Dream2Flow: Bridging Video Generation and Open-World Manipulation with 3D Object Flow
Karthik Dharmarajan,Wenlong Huang,Jiajun Wu,Li Fei-Fei,Ruohan Zhang
Main category: cs.RO
TL;DR: Dream2Flow利用视频生成模型预测物体运动,通过3D物体流作为中间表示,将生成的运动转换为机器人可执行的低级指令,实现零样本开放世界操作。
- Motivation: 生成视频模型能预测合理的物体运动,但难以直接转化为机器人所需的低级动作指令,存在"具身鸿沟"问题。
- Method: 提出Dream2Flow框架:1) 从初始图像和任务指令生成视频;2) 从生成视频重建3D物体运动;3) 将操作任务转化为物体轨迹跟踪;4) 通过轨迹优化或强化学习转换为低级指令。
- Result: Dream2Flow能够零样本指导机器人操作多种类型物体(刚性、铰接、可变形、颗粒状),在仿真和真实世界实验中验证了3D物体流作为通用接口的有效性。
- Conclusion: 3D物体流是连接视频生成模型与机器人操作的可扩展通用接口,通过分离状态变化与执行器实现,克服了具身鸿沟,支持开放世界零样本操作。
cs.CR
[119] Training-Free Color-Aware Adversarial Diffusion Sanitization for Diffusion Stegomalware Defense at Security Gateways
Vladimir Frants,Sos Agaian
Main category: cs.CR
TL;DR: 提出ADS方法对抗扩散模型隐写术,无需训练即可消除隐藏载荷,而非检测它们
- Motivation: 生成式AI的快速发展使大规模合成媒体创建常态化,基于扩散模型的隐写术方法能够嵌入高容量载荷而无需微调或辅助解码器,对检测和修复构成重大挑战。这些无载体技术难以对抗,因为它们直接从秘密数据生成图像载体,使攻击者能够绕过依赖载体-隐写差异的检测器
- Method: ADS(对抗扩散净化)使用现成的预训练去噪器作为扩散解码器的可微分代理,结合颜色感知的四元数耦合更新规则,在严格失真限制下减少伪影
- Result: 在对抗最先进的扩散隐写方法Pulsar的评估中,ADS将解码器成功率降至接近零,同时保持最小的感知影响。相比标准内容转换方法,ADS提供了更优的安全-效用权衡
- Conclusion: ADS提供了一种无需训练的有效防御策略,能够对抗扩散驱动的隐写术,通过消除隐藏载荷而非检测它们来保护安全网关
eess.IV
[120] Leveraging Machine Learning for Early Detection of Lung Diseases
Bahareh Rahmani,Harsha Reddy Bindela,Rama Kanth Reddy Gosula,Krishna Yedubati,Mohammad Amir Salari,Leslie Hinyard,Payam Norouzzadeh,Eli Snir,Martin Schoen
Main category: eess.IV
TL;DR: 该研究结合传统图像处理与神经网络,开发用于胸部X光诊断呼吸系统疾病(COVID-19、肺癌、肺炎)的深度学习模型,旨在提供快速、准确、非侵入性诊断方案。
- Motivation: 建立预测性和预防性医疗范式,为医疗资源有限地区提供快速准确的诊断方案,改善患者预后,特别是在放射科医生和医疗资源匮乏的地区。
- Method: 结合传统图像处理方法与先进神经网络,训练和验证多种深度学习模型,包括CNN、VGG16、InceptionV3和EfficientNetB0。
- Result: 模型在准确率、精确率、召回率和F1分数方面表现优异,证明了其在真实世界诊断应用中的可靠性和潜力。
- Conclusion: 深度学习模型能够为呼吸系统疾病提供快速、准确、非侵入性的诊断方案,特别适合医疗资源有限地区,具有重要的临床应用价值。
[121] Targeted Semantic Segmentation of Himalayan Glacial Lakes Using Time-Series SAR: Towards Automated GLOF Early Warning
Pawan Adhikari,Satish Raj Regmi,Hari Ram Shrestha
Main category: eess.IV
TL;DR: 本文提出了一個端到端的自動化深度學習管道,用於監測喜馬拉雅高風險冰川湖,採用時間優先訓練策略和U-Net架構,並設計了可擴展的工程架構。
- Motivation: 現有冰川湖潰決洪水監測方法存在兩個問題:一是優先最大化空間覆蓋範圍來訓練通用模型,二是依賴受雲層干擾的光學影像。需要一種針對高風險冰川湖的自動化監測方案。
- Method: 提出端到端自動化深度學習管道,使用Sentinel-1 SAR時間序列數據。採用"時間優先"訓練策略,使用EfficientNet-B3骨幹的U-Net模型,在4個冰川湖的數據集上訓練。設計了包含Docker化管道、ASF Search API自動數據攝取和RESTful端點的工程架構。
- Result: 模型達到了0.9130的IoU分數,驗證了"時間優先"策略的有效性。提出的工程架構實現了從靜態映射到動態自動化早期預警的範式轉變。
- Conclusion: 該方法為冰川湖潰決洪水早期預警系統提供了可擴展的架構基礎,成功實現了針對性監測並驗證了時間優先策略的必要性。
[122] Automated Classification of First-Trimester Fetal Heart Views Using Ultrasound-Specific Self-Supervised Learning
Youssef Megahed,Aylin Erman,Robin Ducharme,Mark C. Walker,Steven Hawken,Adrian D. C. Chan
Main category: eess.IV
TL;DR: USF-MAE自监督超声基础模型在早孕期胎儿心脏视图分类中表现优异,相比监督学习基线模型有显著提升
- Motivation: 先天性心脏病是最常见的先天性异常,也是新生儿发病和死亡的主要原因。虽然早孕期胎儿超声心动图提供了早期检测机会,但由于心脏结构小、信噪比低以及操作者间差异大,自动化分析具有挑战性。
- Method: 使用自监督超声基础模型USF-MAE,通过掩码自编码在超过37万张未标记超声图像上进行预训练,涵盖40多个解剖区域。然后针对早孕期胎儿心脏视图分类任务进行微调,分类5个类别:主动脉、房室血流、V征、X征和其他。与ResNet-18、ResNet-50和ImageNet预训练的ViT-B/16模型进行对比。
- Result: USF-MAE在独立测试集上取得了最佳性能:准确率90.57%,精确率91.15%,召回率90.57%,F1分数90.71%。相比最强基线ResNet-18,准确率提升2.03%,F1分数提升1.98%。模型在不依赖激进图像预处理或感兴趣区域裁剪的情况下表现出稳健性能,并改善了非诊断帧的区分能力。
- Conclusion: USF-MAE自监督超声基础模型在早孕期胎儿心脏视图分类任务中优于传统监督学习方法,为胎儿心脏异常的早期检测提供了有前景的自动化解决方案。
cs.GR
[123] PhysTalk: Language-driven Real-time Physics in 3D Gaussian Scenes
Luca Collorone,Mert Kiray,Indro Spinelli,Fabio Galasso,Benjamin Busam
Main category: cs.GR
TL;DR: PhysTalk:首个将3D高斯泼溅直接与物理模拟器耦合的框架,通过LLM生成代码实时修改3DGS参数,实现基于物理的交互式4D动画生成
- Motivation: 当前视觉特效生成流程缺乏物理真实性和有效的语言接口,需要耗时的离线优化。现有方法无法实现实时、基于物理的交互式动画生成
- Method: 使用3D高斯泼溅场景作为输入,通过大语言模型生成可执行代码,直接修改3DGS参数。采用轻量级代理和粒子动力学,无需耗时的网格提取,直接耦合3DGS与物理模拟器
- Result: 实现了首个无需训练、计算轻量的开放词汇4D动画生成框架,支持碰撞感知、基于物理的多材质对象操作,将工作流程从"渲染等待"转变为交互式对话
- Conclusion: PhysTalk通过创新的3DGS与物理模拟器直接耦合设计,使基于物理的实时交互式4D动画生成变得广泛可访问,代表了视觉特效生成的重要进展
physics.med-ph
[124] q3-MuPa: Quick, Quiet, Quantitative Multi-Parametric MRI using Physics-Informed Diffusion Models
Shishuai Wang,Florian Wiesinger,Noemi Sgambelluri,Carolin Pirkl,Stefan Klein,Juan A. Hernandez-Tamames,Dirk H. J. Poot
Main category: physics.med-ph
TL;DR: 提出了一种基于扩散模型的快速、静音多参数MRI映射方法q3-MuPa,结合生成模型与物理一致性约束,仅需1分钟扫描即可获得高质量定量图谱
- Motivation: 传统MRI扫描时间长、噪音大,影响患者舒适度和图像质量。MuPa-ZTE序列虽能实现静音扫描,但需要进一步改进定量映射的准确性和加速能力
- Method: 使用去噪扩散概率模型(DDPM)将MuPa-ZTE图像序列映射到定量MRI图谱,在推理过程中融入MuPa-ZTE前向信号模型作为显式数据一致性约束
- Result: 在合成数据、NISM/ISMRM体模、健康志愿者和脑转移患者上验证,相比基线方法,该方法能生成更准确、噪声更低、结构细节保留更好的3D定量图谱
- Conclusion: q3-MuPa框架结合MuPa-ZTE采集与物理信息扩散模型,展示了强大的临床潜力,仅用合成数据训练即可良好泛化到真实扫描
Powered by Deepseek & arXiv Daily AI Enhanced