Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Leveraging Synthetic Priors for Monocular Depth Estimation in Specular Surgical Environments
Ankan Aich,Yangming Lee
Main category: cs.CV
TL;DR: 提出一种基于Depth Anything V2架构的单目深度估计方法,通过DV-LORA高效适应医疗领域,在手术内窥镜环境中实现高精度深度估计,特别是在高反射区域表现优异。
- Motivation: 在机器人手术中,准确单目深度估计至关重要,但在内窥镜环境中(存在镜面反射和液体)现有方法表现脆弱。现有自监督方法依赖带噪声真实世界伪标签训练的基础模型,在薄手术工具和透明表面经常出现边界塌陷问题。
- Method: 利用Depth Anything V2架构的高保真合成先验(能捕捉薄结构的精确几何细节),通过动态向量低秩适应(DV-LORA)高效适应医疗领域,最小化参数预算同时弥合合成到真实的差距。在SCARED数据集上引入物理分层评估协议,严格量化高反射区域的性能。
- Result: 在SCARED数据集上建立了新的最先进水平:准确度(<1.25)达到98.1%,平方相对误差比现有基线降低超过17%,在不利手术光照条件下表现出卓越的鲁棒性。
- Conclusion: 通过结合Depth Anything V2的高保真合成先验和DV-LORA的高效领域适应,成功解决了手术内窥镜环境中的单目深度估计挑战,特别是在高反射区域和薄结构上表现出色,为机器人手术提供了更可靠的深度感知能力。
[2] Video-Based Performance Evaluation for ECR Drills in Synthetic Training Environments
Surya Rayala,Marcos Quinones-Grueiro,Naveeduddin Mohammed,Ashwin T S,Benjamin Goldberg,Randall Spain,Paige Lawton,Gautam Biswas
Main category: cs.CV
TL;DR: 提出基于视频的自动评估管道,利用计算机视觉提取骨骼、视线和轨迹数据,开发特定任务指标来衡量心理运动流畅性、情境意识和团队协调性,用于城市作战训练评估。
- Motivation: 城市作战训练需要情境意识和肌肉记忆,但传统评估方法依赖昂贵传感器或主观观察,限制了可扩展性和准确性。需要自动化的客观评估系统来分析认知、心理运动和团队协作技能。
- Method: 使用计算机视觉模型从训练视频中提取2D骨骼、视线向量和运动轨迹。基于这些数据开发特定任务指标,测量心理运动流畅性、情境意识和团队协调性。将这些指标输入扩展的认知任务分析(CTA)层次结构,通过加权组合生成团队协作和认知的整体性能分数。
- Result: 通过真实世界"进入并清理房间"(ECR)演练的案例研究,展示了该方法能够提供可操作的、领域特定的指标来捕捉个人和团队表现。这些见解可以支持行动后审查,在Gamemaster和GIFT框架中提供直观的反馈仪表板。
- Conclusion: 视频分析为合成训练环境中的可扩展评估提供了有前景的途径。当前方法存在跟踪困难、地面真实性验证和广泛适用性等限制。未来工作包括扩展到3D视频数据分析和进一步扩展评估能力。
[3] Pretraining Frame Preservation in Autoregressive Video Memory Compression
Lvmin Zhang,Shengqu Cai,Muyang Li,Chong Zeng,Beijia Lu,Anyi Rao,Song Han,Gordon Wetzstein,Maneesh Agrawala
Main category: cs.CV
TL;DR: PFP是一种神经网络结构,用于将长视频压缩成短上下文,通过预训练目标保持任意时间位置单帧的高频细节,可作为视频模型的记忆编码器。
- Motivation: 解决长视频处理中上下文长度限制的问题,传统方法难以在压缩视频时保持单帧的高频视觉细节,需要一种既能压缩长视频又能保留关键视觉信息的方案。
- Method: 提出PFP神经网络结构,具有明确的预训练目标来保持任意时间位置单帧的高频细节。基线模型可将20秒视频压缩到约5k长度的上下文,其中随机帧可以以感知保留的外观检索。预训练模型可直接微调作为自回归视频模型的记忆编码器。
- Result: 实现了长历史记忆的低上下文成本和相对较低的保真度损失。通过消融设置评估框架,并讨论了可能的神经网络架构设计的权衡。
- Conclusion: PFP提供了一种有效的视频压缩方法,能够在保持视觉细节的同时显著减少上下文长度,为长视频处理的自回归模型提供了实用的记忆编码解决方案。
[4] Lifelong Domain Adaptive 3D Human Pose Estimation
Qucheng Peng,Hongfei Xue,Pu Wang,Chen Chen
Main category: cs.CV
TL;DR: 提出终身域自适应3D人体姿态估计新任务,解决非平稳目标域数据问题,通过GAN框架集成3D姿态生成器、2D姿态判别器和3D姿态估计器,有效缓解域偏移和灾难性遗忘。
- Motivation: 现有3D人体姿态估计方法依赖受控环境标注数据,难以泛化到真实场景。传统域自适应方法(如通用DA和源自由DA)忽略了目标域数据的非平稳性问题,需要适应连续变化的域分布。
- Method: 提出终身域自适应3D HPE任务,设计GAN框架包含3D姿态生成器、2D姿态判别器和3D姿态估计器。构建新颖的3D姿态生成器范式,集成姿态感知、时序感知和域感知知识,增强当前域适应并减轻对先前域的灾难性遗忘。
- Result: 在多种域自适应3D HPE数据集上进行广泛实验,证明该方法在适应当前域姿态和保留先前域知识方面表现出优越性能,有效缓解域偏移和对齐原始与增强姿态。
- Conclusion: 首次将终身域自适应引入3D人体姿态估计任务,提出的GAN框架和3D姿态生成器范式有效解决了非平稳目标域数据的挑战,在适应新域的同时成功减轻了灾难性遗忘问题。
[5] MRI-to-CT Synthesis With Cranial Suture Segmentations Using A Variational Autoencoder Framework
Krithika Iyer,Austin Tapp,Athelia Paulli,Gabrielle Dickerson,Syed Muhammad Anwar,Natasha Lepore,Marius George Linguraru
Main category: cs.CV
TL;DR: 提出基于深度学习的儿科MRI转合成CT框架,实现颅骨分割和骨缝可视化,解决MRI无法显示骨结构的临床限制。
- Motivation: 儿科颅骨发育评估需要CT成像,但CT有辐射风险;MRI无辐射但无法显示颅骨和骨缝结构,临床存在诊断空白。
- Method: 使用深度学习方法,将T1加权MRI转换为合成CT,通过变分自编码器生成颅骨分割、骨缝概率热图,并从中提取直接骨缝分割。
- Result: 合成CT与真实CT结构相似度达99%,颅骨分割Dice系数85%,骨缝分割Dice系数80%,统计检验证实合成CT与真实CT等效。
- Conclusion: 首次实现从儿科MRI生成合成CT并进行骨缝分割,填补了无创颅骨评估的关键空白,为儿科颅骨发育障碍诊断提供新工具。
[6] Scaling Remote Sensing Foundation Models: Data Domain Tradeoffs at the Peta-Scale
Charith Wickrema,Eliza Mace,Hunter Brown,Heidys Cabrera,Nick Krall,Matthew O'Neill,Shivangi Sarkar,Lowell Weissman,Eric Hughes,Guido Zarrella
Main category: cs.CV
TL;DR: 该研究探索了在超高分辨率遥感数据上训练基础模型的扩展规律,发现即使在千万亿像素规模下,性能仍受数据而非模型参数限制。
- Motivation: 遥感领域缺乏像自然图像领域那样成熟的扩展规律,而现代多模态AI系统需要强大的领域专用编码器。研究旨在理解在遥感数据上训练基础模型的扩展行为。
- Method: 使用超过千万亿像素的商业卫星电光数据,在MITRE联邦AI沙箱中训练逐渐增大的视觉Transformer骨干网络,分析在千万亿规模下的成功和失败模式。
- Result: 即使在如此大规模下,性能仍符合数据限制而非模型参数限制的机制。研究观察到在千万亿规模下的具体成功和失败模式。
- Conclusion: 这些实践见解可为数据收集策略、计算预算和优化计划提供指导,推动前沿规模遥感基础模型的未来发展。
[7] Learning to learn skill assessment for fetal ultrasound scanning
Yipei Wang,Qianye Yang,Lior Drukker,Aris T. Papageorghiou,Yipeng Hu,J. Alison Noble
Main category: cs.CV
TL;DR: 提出一种新颖的双层优化框架,通过胎儿超声图像上的任务执行质量来评估超声技能,无需人工预定义技能评分。
- Motivation: 传统超声技能评估依赖专家监督和反馈,存在主观性强、耗时的问题。现有自动化评估方法多采用监督学习,局限于预定义的影响因素分析。
- Method: 提出双层优化框架,包含临床任务预测器和技能预测器,通过同时优化两个网络来联合训练。框架通过任务执行质量来评估技能,无需人工技能评分。
- Result: 在真实临床胎儿头部超声扫描视频上验证,结果表明该框架能够预测超声技能,将优化的任务性能量化为技能指标。
- Conclusion: 提出的框架能够通过任务执行质量评估超声技能,为自动化技能评估提供了新方法,避免了传统方法的主观性和局限性。
[8] MGML: A Plug-and-Play Meta-Guided Multi-Modal Learning Framework for Incomplete Multimodal Brain Tumor Segmentation
Yulong Zou,Bo Liu,Cun-Jing Zheng,Yuan-ming Geng,Siyue Li,Qiankun Zuo,Shuihua Wang,Yudong Zhang,Jin Hong
Main category: cs.CV
TL;DR: 提出MGML框架,通过元参数化自适应模态融合和一致性正则化模块,解决临床MRI多模态数据不完整时的脑肿瘤分割问题,在BraTS数据集上取得优异性能。
- Motivation: 临床实践中多模态MRI数据常常不完整,如何最大化利用不完整的多模态信息是重要研究挑战。现有方法难以有效整合不同输入条件下的多模态信息。
- Method: 提出元引导多模态学习框架,包含两个组件:1) 元参数化自适应模态融合,通过生成基于可用模态的自适应软标签监督信号,显式促进更一致的多模态融合;2) 一致性正则化模块,增强分割性能并隐式提升框架鲁棒性和泛化能力。
- Result: 在BraTS2020和BraTS2023数据集上优于多种SOTA方法。在BraTS2020上,针对15种缺失模态组合的平均Dice分数:全肿瘤87.55、肿瘤核心79.36、增强肿瘤62.67。
- Conclusion: MGML框架能有效处理不完整多模态MRI数据,无需改变原始模型架构,可方便集成到训练流程中进行端到端优化,在脑肿瘤分割任务中表现出色。
[9] Learnable Query Aggregation with KV Routing for Cross-view Geo-localisation
Hualin Ye,Bingxi Liu,Jixiang Du,Yu Qin,Ziyi Chen,Hong Zhang
Main category: cs.CV
TL;DR: 提出一种新的跨视角地理定位系统,通过DINOv2骨干网络、多尺度通道重分配模块和改进的聚合模块,在减少参数量的同时实现竞争性性能。
- Motivation: 跨视角地理定位中,显著的视角差异给特征聚合和对齐带来了巨大挑战,需要更有效的特征表示和匹配方法。
- Method: 1) 使用带卷积适配器的DINOv2骨干网络增强模型对跨视角变化的适应性;2) 提出多尺度通道重分配模块增强空间表示的多样性和稳定性;3) 提出改进的聚合模块,在特征聚合过程中集成Mixture-of-Experts路由,动态选择专家子空间处理异构输入域。
- Result: 在University-1652和SUES-200数据集上的大量实验表明,该方法以更少的训练参数实现了竞争性性能。
- Conclusion: 提出的CVGL系统通过三个关键改进有效解决了跨视角地理定位中的特征聚合和对齐挑战,在减少参数量的同时保持了高性能。
[10] Kinematic-Based Assessment of Surgical Actions in Microanastomosis
Yan Meng,Daniel Donoho,Marcelle Altshuler,Omar Arnaout
Main category: cs.CV
TL;DR: 提出AI驅動框架,用於自動化微血管吻合手術的動作分割與表現評估,實現92.4%的動作分割準確率與85.5%的技能分類準確率。
- Motivation: 傳統神經外科微血管吻合手術評估依賴專家評分,存在主觀性、評分者間變異性高、耗時等問題,需要自動化、可擴展的客觀評估方案。
- Method: 三階段框架:1) 基於YOLO和DeepSORT的器械尖端追蹤定位;2) 利用自相似矩陣進行動作邊界檢測與無監督聚類的動作分割;3) 評估手術手勢熟練度的監督分類模組。
- Result: 在58個專家評分的微血管吻合手術影片數據集上,達到92.4%的幀級動作分割準確率,以及85.5%的整體技能分類準確率,能有效複製專家評估。
- Conclusion: 該AI框架能提供客觀、即時的反饋,促進標準化、數據驅動的微外科訓練,提升高風險手術環境中的能力評估。
[11] U-Net-Like Spiking Neural Networks for Single Image Dehazing
Huibin Li,Haoran Liu,Mingzhe Liu,Yulong Xiao,Peng Li,Guibin Zan
Main category: cs.CV
TL;DR: 提出DehazeSNN架构,结合U-Net设计和脉冲神经网络,通过OLIFBlock增强跨通道通信,在图像去雾任务中实现高性能、低计算成本
- Motivation: 传统去雾方法依赖大气散射模型,而深度学习方法中CNN难以处理长距离依赖,Transformer计算成本高。需要一种既能有效捕获多尺度特征,又能高效处理局部和长距离依赖的轻量级架构。
- Method: 提出DehazeSNN架构,采用U-Net-like设计结合脉冲神经网络,引入正交泄漏积分发放块(OLIFBlock)增强跨通道通信,有效管理局部和长距离依赖关系。
- Result: 在基准数据集上表现出与最先进方法相当的竞争力,能够生成高质量无雾图像,同时模型尺寸更小,乘累加操作更少,计算效率更高。
- Conclusion: DehazeSNN成功解决了CNN和Transformer在图像去雾中的局限性,提供了一种高效、轻量级的解决方案,在保持高性能的同时显著降低计算成本。
[12] T2VAttack: Adversarial Attack on Text-to-Video Diffusion Models
Changzhen Li,Yuecong Min,Jie Zhang,Zheng Yuan,Shiguang Shan,Xilin Chen
Main category: cs.CV
TL;DR: T2VAttack:针对文本到视频扩散模型的对抗攻击研究,从语义和时间两个维度评估模型脆弱性,发现轻微提示修改即可导致视频质量显著下降。
- Motivation: 尽管文本到视频扩散模型在生成高质量视频方面取得显著进展,但其对抗攻击脆弱性尚未得到充分探索。考虑到视频数据的动态特性,需要从语义和时间两个维度全面评估模型的安全性。
- Method: 提出两种攻击目标:语义目标评估视频-文本对齐,时间目标评估时间动态性。开发两种攻击方法:T2VAttack-S通过贪婪搜索识别关键词并用同义词替换;T2VAttack-I迭代插入优化词实现最小提示扰动。
- Result: 在多个先进T2V模型(ModelScope、CogVideoX、Open-Sora、HunyuanVideo)上的实验表明,即使单个词的替换或插入也能导致语义保真度和时间动态性的显著下降,揭示了当前模型的严重脆弱性。
- Conclusion: 当前文本到视频扩散模型对对抗攻击高度脆弱,轻微提示修改即可破坏生成质量,凸显了提升模型鲁棒性的迫切需求,为未来安全研究提供了重要方向。
[13] DriveExplorer: Images-Only Decoupled 4D Reconstruction with Progressive Restoration for Driving View Extrapolation
Yuang Jia,Jinlong Wang,Jiayi Zhao,Chunlam Li,Shunzhou Wang,Wei Gao
Main category: cs.CV
TL;DR: 提出一种仅需图像和可选相机位姿的自动驾驶场景视图外推方法,通过4D高斯模型和视频扩散模型的迭代优化,无需昂贵传感器或标注数据
- Motivation: 现有方法依赖激光雷达点云、3D边界框和车道标注等先验信息,需要昂贵传感器或人工标注,限制了实际部署应用
- Method: 1) 仅使用图像和可选相机位姿估计全局静态点云和逐帧动态点云,融合为统一表示;2) 采用可变形4D高斯框架重建场景;3) 初始训练的4D高斯模型生成降质伪图像训练视频扩散模型;4) 渐进偏移的高斯渲染通过扩散模型迭代优化,增强结果作为4DGS训练数据;5) 持续迭代直到外推至目标视点
- Result: 相比基线方法,本方法能在新颖外推视点生成更高质量的图像
- Conclusion: 提出了一种无需昂贵传感器或标注数据的有效视图外推解决方案,通过4D高斯模型和视频扩散模型的协同优化,在自动驾驶场景中实现了高质量的新视点生成
[14] Anomaly detection in satellite imagery through temporal inpainting
Bertrand Rouet-Leduc,Claudia Hulbert
Main category: cs.CV
TL;DR: 基于深度学习的卫星时间序列异常检测方法,通过训练SATLAS基础模型的修复模型来预测地表变化,比传统方法灵敏度高3倍
- Motivation: 卫星影像地表变化检测对灾害响应和环境监测至关重要,但受大气噪声、季节变化和传感器伪影等因素影响,传统方法面临挑战
- Method: 使用SATLAS基础模型构建修复模型,利用全球分布的Sentinel-2时间序列训练数据,学习从先前观测预测最后一帧,通过预测与观测的差异检测异常
- Result: 在2023年土耳其-叙利亚地震序列中成功检测到Tepehan的断裂特征,检测灵敏度比时间中值法和Reed-Xiaoli异常检测器高3倍,具有更高的特异性和灵敏度
- Conclusion: 该方法为利用免费多光谱卫星数据实现自动化、全球尺度的地表变化监测提供了可行路径
[15] GCA-ResUNet: Medical Image Segmentation Using Grouped Coordinate Attention
Jun Ding,Shang Gao
Main category: cs.CV
TL;DR: 提出GCA-ResUNet,一种结合分组坐标注意力模块的轻量级医学图像分割框架,在保持CNN效率的同时增强全局表征能力,在Synapse和ACDC数据集上优于现有方法。
- Motivation: 现有U-Net等CNN方法在建模长距离上下文依赖方面有限,尤其在多器官和低对比度区域;Transformer方法虽能解决但计算资源需求高,不利于临床部署。需要一种既高效又能建模全局依赖的解决方案。
- Method: 提出GCA-ResUNet框架,核心是轻量级即插即用的分组坐标注意力(GCA)模块。该模块将通道上下文建模解耦为多个组以处理通道语义异质性,并集成方向感知坐标编码来捕获水平和垂直轴的结构化空间依赖。
- Result: 在Synapse和ACDC基准测试中分别达到86.11%和92.64%的Dice分数,优于Swin-UNet、TransUNet等代表性CNN和Transformer方法,特别是在复杂边界的小解剖结构分割上表现一致提升。
- Conclusion: GCA-ResUNet在分割精度和计算效率之间提供了有利的权衡,为临床部署提供了实用且可扩展的解决方案,尤其适合资源受限的临床环境。
[16] Bridging Structure and Appearance: Topological Features for Robust Self-Supervised Segmentation
Haotang Li,Zhenyu Qi,Hao Qin,Huanrui Yang,Sen He,Kebin Peng
Main category: cs.CV
TL;DR: GASeg是一个通过拓扑信息桥接几何与外观的自监督语义分割框架,使用可微分盒计数模块和拓扑增强策略来应对外观模糊性问题。
- Motivation: 自监督语义分割方法在面对外观模糊性时经常失败,这是因为过度依赖不稳定的外观特征(如阴影、眩光、局部纹理)。需要利用稳定的拓扑信息来桥接外观和几何特征。
- Method: 提出GASeg框架,核心是可微分盒计数模块,从几何特征流和外观特征流中量化多尺度拓扑统计。使用拓扑增强策略模拟真实世界模糊性,并通过GALoss多目标损失强制跨模态对齐。
- Result: 在四个基准测试(包括COCO-Stuff、Cityscapes和PASCAL)上实现了最先进的性能,验证了通过拓扑信息桥接几何和外观方法的有效性。
- Conclusion: 通过利用稳定的拓扑信息来桥接几何和外观特征,可以有效解决自监督语义分割中的外观模糊性问题,提升分割性能。
[17] Improved 3D Gaussian Splatting of Unknown Spacecraft Structure Using Space Environment Illumination Knowledge
Tae Ha Park,Simone D'Amico
Main category: cs.CV
TL;DR: 提出一种新方法,利用3D高斯泼溅模型从太空交会对接图像序列中重建未知航天器的3D结构,通过整合太阳位置先验知识改善光照条件变化下的渲染质量。
- Motivation: 在太空交会对接操作中,从图像序列恢复目标航天器的3D结构对导航和操作至关重要。传统3D高斯泼溅模型需要静态场景假设,而太空图像存在动态光照变化,影响模型的光度精度,进而影响下游的相机姿态估计任务。
- Method: 使用3D高斯泼溅模型表示目标航天器的几何和外观,并将服务航天器估计的太阳位置先验知识整合到训练流程中,通过光度优化改进渲染图像的光度质量,使模型能够适应太空中的快速光照变化。
- Result: 实验研究表明,所提方法有效改善了3D高斯泼溅模型在动态光照条件下的渲染质量,模型能够学习适应太空中的快速光照变化,并反映全局阴影和自遮挡效果。
- Conclusion: 通过整合太阳位置先验知识,提出的方法成功解决了太空交会对接图像中动态光照对3D高斯泼溅模型训练的挑战,提高了模型的几何和光度精度,对下游相机姿态估计任务具有重要价值。
[18] Bridging the Perception-Cognition Gap:Re-engineering SAM2 with Hilbert-Mamba for Robust VLM-based Medical Diagnosis
Hao Wu,Hui Li,Yiyun Su
Main category: cs.CV
TL;DR: Hilbert-VLM:一种用于3D多模态医学图像分析的两阶段融合框架,通过Hilbert空间填充曲线增强SAM2架构,结合分割和文本提示来指导视觉语言模型进行疾病分类。
- Motivation: 当前视觉语言模型在医学诊断中处理复杂3D多模态图像时面临两大挑战:1)难以有效整合互补信息;2)容易忽略细微但关键的病理特征。需要一种能更好处理3D医学图像空间局部性的方法。
- Method: 提出Hilbert-VLM两阶段框架:1)HilbertMed-SAM模块使用Hilbert空间填充曲线重新设计SAM2架构,在Mamba SSM扫描机制中保持3D数据的空间局部性,引入Hilbert-Mamba交叉注意力和尺度感知解码器;2)提示增强模块将分割掩码和文本属性统一为信息密集的提示,指导VLM进行疾病分类。
- Result: 在BraTS2021分割基准测试中,Dice分数达到82.35%,疾病分类准确率(ACC)为78.85%,显著提升了医学VLM分析的准确性和可靠性。
- Conclusion: Hilbert-VLM通过创新的Hilbert空间填充曲线集成和两阶段融合策略,有效解决了3D多模态医学图像分析中的信息整合和细节捕捉问题,为基于VLM的医学分析提供了更准确可靠的解决方案。
[19] On Exact Editing of Flow-Based Diffusion Models
Zixiang Li,Yue Song,Jianing Peng,Ting Liu,Jun Huang,Xiaochao Qu,Luoqi Liu,Wei Wang,Yao Zhao,Yunchao Wei
Main category: cs.CV
TL;DR: CVC提出条件速度校正框架,通过双视角速度转换机制和基于经验贝叶斯推断的后验一致更新,解决流式扩散编辑中的速度误差累积问题,实现更稳定、保真度更高的图像编辑。
- Motivation: 现有流式扩散编辑方法在源图像和目标图像分布间直接转换时,存在潜在轨迹速度误差累积问题,导致语义不一致和结构保真度损失。
- Method: 提出条件速度校正(CVC)框架,将流式编辑重新定义为由已知源先验驱动的分布转换问题。引入双视角速度转换机制,将潜在演化分解为结构保持分支和语义引导分支,并通过经验贝叶斯推断和Tweedie校正进行后验一致更新。
- Result: CVC在多种任务中实现稳定可解释的潜在动态,获得忠实重建和平滑局部语义转换,在保真度、语义对齐和编辑可靠性方面表现优异。
- Conclusion: CVC通过数学基础的速度校正机制,有效解决了流式扩散编辑中的误差累积问题,为分布转换提供了更稳定可靠的解决方案。
[20] FitControler: Toward Fit-Aware Virtual Try-On
Lu Yang,Yicheng Liu,Yanan Li,Xiang Bai,Hao Lu
Main category: cs.CV
TL;DR: 提出FitControler,一个可学习的插件,用于虚拟试穿中的服装合身度控制,解决现有方法忽视服装合身度对整体风格影响的问题。
- Motivation: 现有虚拟试穿方法主要关注服装细节的忠实渲染,但忽视了服装合身度这一塑造整体风格的关键因素。服装合身度描述了服装如何与穿着者的身体对齐,是时尚设计的基本元素。
- Method: 提出FitControler插件,包含两个组件:1)合身度感知布局生成器,基于服装无关表示重新绘制身体-服装布局;2)多尺度合身度注入器,将布局线索传递给VTON模型。构建了Fit4Men数据集,包含13,000个不同合身度的身体-服装对。
- Result: FitControler可以与各种VTON模型配合工作,实现精确的合身度控制。引入了两种合身度一致性指标来评估生成结果。
- Conclusion: 该工作首次将服装合身度控制引入虚拟试穿领域,通过FitControler插件实现了可定制的合身度控制,填补了现有方法的空白。
[21] Structure-Guided Allocation of 2D Gaussians for Image Representation and Compression
Huanxiong Liang,Yunuo Chen,Yicheng Pan,Sixian Wang,Jincheng Dai,Guo Lu,Wenjun Zhang
Main category: cs.CV
TL;DR: 提出结构引导的2D高斯泼溅分配方法,通过结构感知的初始化、自适应位宽量化和几何一致性正则化,显著提升2DGS的表示能力和率失真性能,同时保持毫秒级解码速度。
- Motivation: 现有2DGS方法在分配表示容量和参数精度时忽略了图像结构,导致在低比特率下的率失真效率受限。需要一种能够显式耦合图像结构与表示容量/量化精度的方法。
- Method: 1) 结构引导初始化:根据自然图像的空间结构先验分配2D高斯分布;2) 自适应位宽量化:对协方差参数进行自适应量化,复杂区域的小尺度高斯给予更高精度;3) 几何一致性正则化:对齐高斯方向与局部梯度方向以保持结构细节。
- Result: 方法在保持超过1000 FPS解码速度的同时,显著提升了2DGS的表示能力和率失真性能。相比基线GSImage,在Kodak数据集上BD-rate降低43.44%,在DIV2K数据集上降低29.91%。
- Conclusion: 提出的结构引导分配原则有效解决了现有2DGS方法忽略图像结构的问题,通过显式耦合结构与表示容量/量化精度,在保持快速解码的同时显著提升了率失真性能。
[22] FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing
Yunkai Dang,Donghao Wang,Jiacheng Yang,Yifan Jiang,Meiyi Zhu,Yuekun Yang,Cong Wang,Qi Fan,Wenbin Li,Yang Gao
Main category: cs.CV
TL;DR: MF-RSVLM是一个多特征融合的遥感视觉语言模型,通过提取和融合多尺度视觉特征来解决遥感图像与自然图像的差异问题,减少视觉遗忘,在遥感分类、图像描述和视觉问答任务中达到SOTA性能。
- Motivation: 现有遥感视觉语言模型在提取细粒度视觉特征方面存在不足,并且在深度语言处理过程中容易出现视觉遗忘问题,这限制了它们在遥感领域的应用效果。
- Method: 提出多特征融合方法,学习多尺度视觉表示,结合全局上下文和局部细节;采用循环视觉特征注入方案,确保语言模型在生成过程中保持对视觉证据的关注,减少视觉遗忘。
- Result: 在多个遥感基准测试中,MF-RSVLM在遥感分类、图像描述和视觉问答任务上取得了最先进的或极具竞争力的性能表现。
- Conclusion: MF-RSVLM通过有效的多特征融合和视觉特征注入机制,显著提升了遥感视觉语言模型的性能,为解决遥感图像与自然图像的差异问题提供了有效方案。
[23] RSAgent: Learning to Reason and Act for Text-Guided Segmentation via Multi-Turn Tool Invocations
Xingqi He,Yujie Zhang,Shuyong Gao,Wenjie Li,Lingyi Hong,Mingxi Chen,Kaixun Jiang,Jiyuan Fu,Wenqiang Zhang
Main category: cs.CV
TL;DR: RSAgent是一个基于多模态大语言模型的智能体,通过多轮工具调用实现文本引导的对象分割,结合推理和动作迭代优化分割结果。
- Motivation: 现有文本引导分割方法通常作为一次性定位处理,模型通过单次前向传播预测像素提示来驱动外部分割器,当初始定位错误时缺乏验证、重新聚焦和细化的能力。
- Method: 提出RSAgent智能体MLLM,通过多轮工具调用交替进行推理和分割动作;构建数据管道合成多轮推理分割轨迹;采用两阶段训练框架:冷启动监督微调后接基于细粒度任务特定奖励的智能体强化学习。
- Result: 在ReasonSeg测试集上达到66.5% gIoU的零样本性能,比Seg-Zero-7B提升9%;在RefCOCOg上达到81.5% cIoU,在领域内和领域外基准测试中都展示了最先进的性能。
- Conclusion: RSAgent通过智能体式的多轮推理和动作交替,有效解决了传统一次性分割方法的局限性,在文本引导分割任务上取得了显著性能提升。
[24] PipeFlow: Pipelined Processing and Motion-Aware Frame Selection for Long-Form Video Editing
Mustafa Munir,Md Mostafijur Rahman,Kartikeya Bhardwaj,Paul Whatmough,Radu Marculescu
Main category: cs.CV
TL;DR: PipeFlow:一种可扩展的流水线视频编辑方法,通过运动分析跳过低运动帧、流水线任务调度和神经网络插值,实现长视频编辑的线性时间增长,相比现有方法获得显著加速。
- Motivation: 长视频编辑面临计算成本指数级增长的挑战,主要源于联合编辑和DDIM反演在长序列上的计算开销。现有方法在处理长视频时计算成本过高,限制了实际应用。
- Method: 1. 基于SSIM和光流的运动分析,识别并跳过低运动帧的编辑;2. 流水线任务调度算法,将视频分割为多个片段,基于可用GPU内存并行执行DDIM反演和联合编辑;3. 神经网络插值技术平滑片段边界帧并插值跳过的帧。
- Result: PipeFlow实现了编辑时间随视频长度线性增长,相比TokenFlow获得9.6倍加速,相比DMT获得31.7倍加速。理论上可编辑无限长视频,避免了其他方法中每帧计算开销的增长问题。
- Conclusion: PipeFlow通过创新的运动分析、流水线调度和插值技术,有效解决了长视频编辑的计算瓶颈,实现了可扩展的长视频编辑解决方案,为实际应用提供了可行的技术路径。
[25] Reinforced Diffusion: Learning to Push the Limits of Anisotropic Diffusion for Image Denoising
Xinran Qin,Yuhui Quan,Ruotao Xu,Hui Ji
Main category: cs.CV
TL;DR: 提出基于强化学习的可训练各向异性扩散框架,通过深度Q学习选择扩散动作,构建自适应图像结构的随机扩散过程,在多种噪声去除任务中超越传统扩散方法,与深度CNN方法竞争。
- Motivation: 传统各向异性扩散方法使用显式扩散算子,难以适应复杂图像结构,性能有限。学习型方法(如深度CNN)表现更好,但扩散方法仍有潜力。需要开发能自适应图像结构的智能扩散框架。
- Method: 将去噪过程建模为一系列由深度Q学习排序的朴素扩散动作序列。通过强化学习训练扩散策略,使不同迭代中选择的扩散动作构成随机各向异性扩散过程,自适应不同图像结构。
- Result: 在三种常见噪声去除任务中,该方法优于现有扩散基方法,与代表性深度CNN方法竞争。深度Q学习选择的扩散动作确实构建了具有强自适应性的随机各向异性扩散过程。
- Conclusion: 基于强化学习的可训练各向异性扩散框架有效结合了传统扩散方法的优势与学习型方法的适应性,为图像去噪提供了新思路,在扩散基方法中达到先进水平。
[26] Neighbor-aware Instance Refining with Noisy Labels for Cross-Modal Retrieval
Yizhi Liu,Ruitao Pu,Shilin Xu,Yingke Chen,Quan-Hui Liu,Yuan Sun
Main category: cs.CV
TL;DR: 提出NIRNL框架,通过跨模态边界保持和邻居感知实例精炼,在噪声标签下实现鲁棒的跨模态检索
- Motivation: 跨模态检索面临多模态数据标注噪声问题,现有方法难以同时满足模型性能上限、校准可靠性和数据利用率
- Method: 提出NIRNL框架:1) 跨模态边界保持(CMP)调整正负样本对相对距离;2) 邻居感知实例精炼(NIR)通过跨模态邻域共识识别纯子集、困难子集和噪声子集;3) 针对细粒度划分设计不同优化策略
- Result: 在三个基准数据集上的实验表明,NIRNL达到最先进性能,在高噪声率下表现出显著鲁棒性
- Conclusion: NIRNL框架能有效处理噪声标签问题,最大化数据利用率同时减轻错误传播,为鲁棒跨模态检索提供新思路
[27] Pathology Context Recalibration Network for Ocular Disease Recognition
Zunjie Xiao,Xiaoqing Zhang,Risa Higashita,Jiang Liu
Main category: cs.CV
TL;DR: PCRNet:通过病理重校准模块和专家先验引导适配器,结合病理上下文和专家经验先验,提升眼病识别性能和决策可解释性
- Motivation: 现有深度神经网络在眼病识别中忽略了临床病理上下文和专家经验先验,导致性能提升有限且决策可解释性不足。需要探索如何有效利用这些先验知识来改进眼病识别
- Method: 1. 设计病理重校准模块(PRM),通过像素级上下文压缩算子和病理分布集中算子利用病理上下文先验;2. 开发专家先验引导适配器(EPGA),通过挖掘专家经验先验突出重要像素区域;3. 将PRM和EPGA集成到现代DNN中构建PCRNet;4. 引入集成损失(IL),考虑样本损失分布和训练标签频率的影响
- Result: 在三个眼病数据集上的实验表明,PCRNet结合IL优于最先进的基于注意力的网络和先进的损失方法。可视化分析解释了PRM和EPGA如何影响DNN的决策过程
- Conclusion: 通过有效整合病理上下文先验和专家经验先验,PCRNet显著提升了眼病识别性能,同时增强了决策的可解释性,为临床诊断提供了更可靠的辅助工具
[28] Balanced Hierarchical Contrastive Learning with Decoupled Queries for Fine-grained Object Detection in Remote Sensing Images
Jingzhou Chen,Dexin Chen,Fengchao Xiong,Yuntao Qian,Liang Xiao
Main category: cs.CV
TL;DR: 提出平衡层次对比损失和解耦学习策略,解决细粒度遥感检测中层次标签不平衡和分类-定位任务干扰问题
- Motivation: 细粒度遥感数据集使用层次标签结构进行粗到细的对象区分,但将语义层次嵌入表示学习空间以提升检测性能仍具挑战。现有研究在不同层次应用监督对比学习,但忽略了两个关键问题:1) 标签层次中数据分布不平衡导致高频类别主导学习过程;2) 类别间语义关系学习干扰类别无关的定位任务。
- Method: 提出平衡层次对比损失结合解耦学习策略,在DETR框架内实现。平衡损失引入可学习的类别原型,在每一层次平衡不同类别的梯度贡献,确保每个层次类别在每个小批次中对损失计算贡献相等。解耦策略将DETR的对象查询分为分类和定位两组,实现任务特定的特征提取和优化。
- Result: 在三个具有层次标注的细粒度数据集上的实验表明,该方法优于最先进的方法。
- Conclusion: 通过平衡层次对比损失解决类别不平衡问题,通过解耦学习策略避免分类语义关系对定位任务的干扰,有效提升了细粒度遥感目标检测性能。
[29] RainFusion2.0: Temporal-Spatial Awareness and Hardware-Efficient Block-wise Sparse Attention
Aiyue Chen,Yaofu Liu,Junjian Huang,Guang Lian,Yiwu Yao,Wangli Lan,Jing Lin,Zhixin Ma,Tingting Zhou,Harry Yang
Main category: cs.CV
TL;DR: RainFusion2.0提出了一种在线自适应、硬件高效、低开销的稀疏注意力机制,用于加速视频和图像生成模型,在保持质量的同时实现80%稀疏度和1.5-1.8倍端到端加速。
- Motivation: 扩散变换器(DiT)模型因注意力机制导致极高计算成本,限制了实际应用。现有稀疏注意力方法存在两个关键限制:稀疏模式预测的开销和缺乏硬件通用性(大多针对GPU设计)。
- Method: 采用三种关键技术:(1)使用块级均值作为代表性标记进行稀疏掩码预测;(2)实现时空感知的标记置换;(3)为视频生成场景引入首帧下沉机制。
- Result: RainFusion2.0能够实现80%的稀疏度,在保持视频质量的同时获得1.5-1.8倍的端到端加速,并在各种生成模型和硬件平台上验证了其有效性。
- Conclusion: 该研究提出了一种高效、硬件通用的稀疏注意力机制,成功解决了现有方法的局限性,为视频和图像生成模型的加速提供了有效解决方案。
[30] Factorized Learning for Temporally Grounded Video-Language Models
Wenzheng Zeng,Difei Gao,Mike Zheng Shou,Hwee Tou Ng
Main category: cs.CV
TL;DR: D²VLM框架通过解耦时间定位和文本响应两个任务,采用"先定位后回答"范式,引入证据标记和因子化偏好优化算法,提升视频语言模型的事件级感知能力。
- Motivation: 现有视频语言模型在事件级感知的时间定位方面存在困难,且时间定位和文本响应这两个任务通常耦合处理,缺乏清晰的逻辑层次结构,导致目标次优。
- Method: 提出D²VLM框架,解耦时间定位和文本响应学习,采用"先定位后回答"范式,引入证据标记进行证据定位,并提出因子化偏好优化算法,将概率时间定位建模纳入优化目标。
- Result: 在各种任务上的实验表明该方法具有明显优势,为解决因子化偏好学习中缺乏显式时间定位数据集的问题,还构建了合成数据集。
- Conclusion: 通过因子化学习视角,明确分离时间定位和文本响应任务并强调其内在依赖关系,能够显著提升视频语言模型的事件级感知和时间定位准确性。
[31] Think Before You Move: Latent Motion Reasoning for Text-to-Motion Generation
Yijie Qian,Juncheng Wang,Yuxiang Feng,Chao Xu,Wang Lu,Yang Liu,Baigui Sun,Yiqiang Chen,Yong Liu,Shujun Wang
Main category: cs.CV
TL;DR: 该论文提出了一种新的文本到动作生成方法LMR,通过两阶段推理过程解决语义-运动阻抗不匹配问题,显著提升了语义对齐和物理合理性。
- Motivation: 当前文本到动作生成方法将问题视为直接翻译,面临语义-运动阻抗不匹配的根本瓶颈:难以在单次映射中将语义密集的离散语言意图转化为运动密集的高频动作数据。
- Method: 提出潜在运动推理(LMR),采用两阶段"思考-行动"决策过程。核心是双粒度分词器,将动作解耦为两个流形:用于规划全局拓扑的压缩语义推理潜在空间,和用于保持物理保真度的高频执行潜在空间。
- Result: 在T2M-GPT和MotionStreamer两个代表性基线上实现LMR,实验显示在语义对齐和物理合理性方面均取得显著提升,验证了学习到的动作对齐概念空间是运动规划的最佳基底。
- Conclusion: 通过引入潜在系统2推理架构,将生成过程重新定义为两阶段决策,有效弥合了语言与物理之间的不可言说性鸿沟,为文本到动作生成提供了新的解决方案。
[32] Guided Diffusion-based Generation of Adversarial Objects for Real-World Monocular Depth Estimation Attacks
Yongtao Chen,Yanbo Wang,Wentao Zhao,Guole Shen,Tianchen Deng,Jingchuan Wang
Main category: cs.CV
TL;DR: 提出一种免训练的生成式对抗攻击框架,通过扩散模型生成自然、场景一致的对抗物体,显著提升自动驾驶中单目深度估计攻击的有效性、隐蔽性和物理部署能力。
- Motivation: 单目深度估计作为自动驾驶核心感知模块易受对抗攻击,现有物理攻击主要依赖纹理贴片,存在放置限制严格、真实性有限等问题,在复杂驾驶环境中效果受限。
- Method: 采用基于扩散的条件生成过程,包含显著区域选择模块识别对深度估计影响最大的区域,以及雅可比向量积引导机制将对抗梯度导向预训练扩散模型支持的更新方向。
- Result: 数字和物理实验表明,该方法在有效性、隐蔽性和物理部署能力上显著优于现有攻击方法,能够生成物理上合理的对抗物体并引发显著的对抗深度偏移。
- Conclusion: 该方法为自动驾驶安全评估提供了具有强实践意义的对抗攻击框架,克服了传统纹理贴片攻击的限制,在复杂驾驶环境中展现出优越性能。
[33] GeoBench: Rethinking Multimodal Geometric Problem-Solving via Hierarchical Evaluation
Yuan Feng,Yue Yang,Xiaohan He,Jiatong Zhao,Jianlong Chen,Zijun Chen,Daocheng Fu,Qi Liu,Renqiu Xia,Bo Zhang,Junchi Yan
Main category: cs.CV
TL;DR: GeoBench是一个几何问题解决的分层基准测试,包含四个推理级别,通过六个形式化验证任务评估视觉语言模型,发现推理模型在复杂任务上表现下降,子目标分解和无关前提过滤对准确性至关重要。
- Motivation: 当前几何推理评估存在三个主要问题:1) 教科书基准测试数据可能被污染;2) 过于关注最终答案而非推理过程;3) 诊断粒度不足。需要更全面的评估框架来系统分析几何问题解决能力。
- Method: 提出GeoBench分层基准,包含四个推理级别:视觉感知、目标导向规划、严格定理应用、自我反思回溯。通过TrustGeoGen生成六个形式化验证任务,系统评估从属性提取到逻辑错误纠正的能力。
- Result: 实验显示:1) 推理模型如OpenAI-o3优于通用MLLMs;2) 随着任务复杂度增加,性能显著下降;3) 子目标分解和无关前提过滤对最终准确性有重要影响;4) 在某些任务中,思维链提示意外地降低了性能。
- Conclusion: GeoBench建立了全面的几何问题解决基准,为开发几何问题解决系统提供了可操作的指导方针,揭示了当前模型在复杂几何推理方面的局限性。
[34] Enhancing LLM-Based Neural Network Generation: Few-Shot Prompting and Efficient Validation for Automated Architecture Design
Chandini Vysyaraju,Raghuvir Duvvuri,Avi Goyal,Dmitry Ignatov,Radu Timofte
Main category: cs.CV
TL;DR: 论文提出FSAP方法和Whitespace-Normalized Hash Validation技术,优化LLM在计算机视觉架构生成中的表现,通过大规模实验验证了n=3示例的最佳平衡效果。
- Motivation: 自动化神经网络架构设计在计算机视觉中仍面临挑战。任务多样性和计算限制需要既有效又高效的搜索方法。虽然大型语言模型(LLMs)为计算密集的神经架构搜索(NAS)提供了有前景的替代方案,但在计算机视觉架构生成中的应用尚未系统研究,特别是在提示工程和验证策略方面。
- Method: 1. 提出Few-Shot Architecture Prompting (FSAP):系统研究支持示例数量(n=1-6)对LLM架构生成的影响;2. 引入Whitespace-Normalized Hash Validation:轻量级去重方法(小于1ms),比AST解析快100倍;3. 采用数据集平衡评估方法,解决异构视觉任务间架构比较的挑战。
- Result: 在七个计算机视觉基准测试(MNIST, CIFAR-10, CIFAR-100, CelebA, ImageNette, SVHN, Places365)的大规模实验中,生成了1,900个独特架构。研究发现使用n=3个示例最能平衡架构多样性和上下文聚焦,为视觉任务提供最佳效果。
- Conclusion: 这些贡献为计算机视觉中基于LLM的架构搜索提供了可操作的指导方针,并建立了严格的评估实践,使计算资源有限的研究人员能够更便捷地进行自动化设计。
[35] Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning
Chubin Chen,Sujie Hu,Jiashu Zhu,Meiqi Wu,Jintao Chen,Yanxun Li,Nisha Huang,Chengyu Fang,Jiahong Wu,Xiangxiang Chu,Xiu Li
Main category: cs.CV
TL;DR: 提出D²-Align框架解决文本到图像扩散模型在人类反馈强化学习中出现的偏好模式崩溃问题,通过方向性解耦奖励信号来保持生成多样性。
- Motivation: 现有基于人类反馈强化学习的文本到图像扩散模型虽然能在自动化奖励指标上获得高分,但容易陷入偏好模式崩溃——模型收敛到狭窄的高分输出模式(如单一风格或普遍过曝),严重损害生成多样性。
- Method: 提出方向性解耦对齐(D²-Align)框架:1)在奖励模型的嵌入空间中学习方向性校正(保持模型冻结);2)在优化过程中将校正应用于奖励信号,防止模型陷入特定模式。
- Result: 通过结合定性分析和质量与多样性的定量指标的综合评估表明,D²-Align在保持多样性的同时,实现了与人类偏好的更好对齐。
- Conclusion: D²-Align能有效缓解偏好模式崩溃问题,在维持生成多样性的同时提升与人类偏好的对齐度,为解决强化学习中的奖励黑客问题提供了新思路。
[36] Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal Dataset
TsaiChing Ni,ZhenQi Chen,YuanFu Yang
Main category: cs.CV
TL;DR: 提出了首个大规模工业多模态缺陷数据集IMDD-1M,包含100万对齐的图像-文本对,并基于此训练了面向工业场景的扩散式视觉语言基础模型,通过轻量微调实现高效领域适应。
- Motivation: 工业制造和质量检测领域缺乏大规模、高质量的多模态数据集,限制了多模态学习在工业场景中的应用。现有数据集规模小、覆盖范围有限,无法支持基础模型的训练。
- Method: 1) 构建IMDD-1M数据集:包含100万对齐图像-文本对,覆盖60+材料类别和400+缺陷类型,每对数据都有专家验证的注释和细粒度文本描述;2) 基于该数据集从头训练扩散式视觉语言基础模型,专门针对工业场景设计;3) 通过轻量微调实现领域适应。
- Result: IMDD-1M是目前最大的工业多模态缺陷数据集。训练的基础模型仅需不到5%的任务特定数据即可达到专用专家模型的性能水平,展示了数据高效的基础模型适应能力。
- Conclusion: IMDD-1M数据集和相应的基础模型为工业检测和生成任务提供了可扩展、领域自适应和知识基础的解决方案,推动了制造业智能的发展。
[37] Bayesian Self-Distillation for Image Classification
Anton Adelöw,Matteo Gamba,Atsuto Maki
Main category: cs.CV
TL;DR: 贝叶斯自蒸馏(BSD)通过贝叶斯推理构建样本特定目标分布,不依赖硬标签,提升模型精度、校准性、鲁棒性
- Motivation: 传统监督学习使用硬标签会导致模型过度自信,限制校准性、泛化能力和鲁棒性。现有自蒸馏方法虽然利用模型自身预测信息,但仍依赖硬标签,效果有限。
- Method: 提出贝叶斯自蒸馏(BSD),通过贝叶斯推理利用模型自身预测构建样本特定的目标分布。该方法在初始化后完全不依赖硬标签,可结合对比损失进一步提升性能。
- Result: BSD在多种深度架构和数据集上表现优于现有架构保持的自蒸馏方法:ResNet-50在CIFAR-100上测试精度提升1.4%,预期校准误差降低40%。同时提升对数据损坏、扰动和标签噪声的鲁棒性,结合对比损失后在标签噪声下达到单阶段单网络方法的最先进鲁棒性。
- Conclusion: BSD是一种不依赖硬标签的贝叶斯自蒸馏方法,能有效提升模型精度、校准性和鲁棒性,特别是在标签噪声环境下表现优异。
[38] DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models
Zefeng He,Xiaoye Qu,Yafu Li,Tong Zhu,Siyuan Huang,Yu Cheng
Main category: cs.CV
TL;DR: DiffThinker:一种基于扩散的生成式多模态推理框架,将多模态推理重新定义为原生的图像到图像生成任务,在视觉中心任务中显著优于现有MLLM模型。
- Motivation: 当前多模态大语言模型(MLLMs)的推理过程仍以文本为中心,在复杂的长视野、视觉中心任务中表现不佳。需要一种更有效的多模态推理范式来提升逻辑一致性和空间精度。
- Method: 提出DiffThinker框架,采用生成式多模态推理范式,将多模态推理重新定义为原生的图像到图像生成任务。系统比较了DiffThinker与MLLMs,深入研究了该范式的内在特性。
- Result: 在四个领域(顺序规划、组合优化、约束满足、空间配置)的广泛实验表明,DiffThinker显著优于领先的闭源模型:GPT-5(+314.2%)、Gemini-3-Flash(+111.6%)以及微调的Qwen3-VL-32B基线(+39.0%)。
- Conclusion: 生成式多模态推理是视觉中心推理的有前景方法,DiffThinker展示了该范式在效率、可控性、原生并行性和协作性方面的核心优势。
[39] Deep Global Clustering for Hyperspectral Image Segmentation: Concepts, Applications, and Open Challenges
Yu-Tang Chang,Pin-Wei Chen,Shih-Fang Chen
Main category: cs.CV
TL;DR: DGC是一个用于高光谱图像分割的内存高效框架,通过局部块学习全局聚类结构,无需预训练,在消费级硬件上30分钟内完成训练,但存在优化不稳定问题。
- Motivation: 高光谱图像分析面临数据量大、内存不足的瓶颈,现有基础模型在特定领域(如近距离农业监测)中迁移效果不佳,需要无需预训练的内存高效解决方案。
- Method: 提出Deep Global Clustering(DGC)框架,通过重叠的小块处理高光谱图像,从局部块观察中学习全局聚类结构,保持内存使用恒定,通过一致性约束实现训练。
- Result: 在叶片病害数据集上,DGC实现背景-组织分离(平均IoU 0.925),展示无监督病害检测能力,但存在优化不稳定问题,特征空间聚类过度合并导致性能下降。
- Conclusion: DGC的设计理念有价值,但稳定实现需要动态损失平衡的原则性方法,该工作为后续研究提供了智力支架。
[40] Guiding a Diffusion Transformer with the Internal Dynamics of Itself
Xingyu Zhou,Qifan Li,Xiaobin Hu,Hai Chen,Shuhang Gu
Main category: cs.CV
TL;DR: 提出内部引导(IG)策略,通过在训练过程中引入中间层监督,在采样过程中外推中间层和深层输出来提升扩散模型生成质量,显著优于现有方法。
- Motivation: 扩散模型难以覆盖低概率区域,标准分类器自由引导(CFG)会导致样本过度简化或失真,而基于退化版本的引导方法需要精心设计的退化策略、额外训练和采样步骤。
- Method: 提出内部引导(IG)策略:1)训练时在中间层引入辅助监督;2)采样时外推中间层和深层输出以获得生成结果。该方法简单有效,无需额外训练或复杂采样步骤。
- Result: 在ImageNet 256×256上:SiT-XL/2+IG在80和800轮分别达到FID=5.31和1.75;LightningDiT-XL/1+IG达到FID=1.34;结合CFG后达到当前最优FID=1.19。
- Conclusion: 内部引导(IG)是一种简单有效的策略,显著提升了扩散模型的训练效率和生成质量,在多个基准上取得显著改进,结合CFG后达到最先进水平。
[41] PointRAFT: 3D deep learning for high-throughput prediction of potato tuber weight from partial point clouds
Pieter M. Blok,Haozhou Wang,Hyun Kwon Suh,Peicheng Wang,James Burridge,Wei Guo
Main category: cs.CV
TL;DR: 提出PointRAFT网络,直接从部分点云预测马铃薯块茎重量,解决RGB-D相机因自遮挡导致的重量低估问题,实现高吞吐量实时处理。
- Motivation: 马铃薯产量是优化农业栽培实践的关键指标。使用RGB-D相机在收割机上估计产量时,由于自遮挡导致重建的点云不完整,从而系统性地低估块茎重量。需要一种能够直接从部分点云预测连续3D形状属性的方法。
- Method: 提出PointRAFT高吞吐量点云回归网络,直接从未经处理的3D数据预测目标值。关键架构创新是引入对象高度嵌入,将块茎高度作为额外的几何线索,改善实际收割条件下的重量预测。网络在26,688个部分点云上训练,覆盖4个品种和3个生长季节。
- Result: 在5,254个测试点云(来自172个块茎)上,PointRAFT实现了12.0g的平均绝对误差和17.2g的均方根误差,显著优于线性回归基线和标准PointNet++回归网络。平均推理时间为6.3ms/点云,支持高达150个块茎/秒的处理速率。
- Conclusion: PointRAFT提供了一种直接从部分点云预测连续3D形状属性的高效方法,满足商业马铃薯收割机的高吞吐量要求。该方法不仅适用于马铃薯重量估计,还可广泛应用于3D表型分析和机器人感知任务。
[42] CorGi: Contribution-Guided Block-Wise Interval Caching for Training-Free Acceleration of Diffusion Transformers
Yonglak Son,Suhyeok Kim,Seungryong Kim,Young Geun Kim
Main category: cs.CV
TL;DR: CorGi和CorGi+是无需训练的DiT推理加速框架,通过选择性重用transformer块输出减少去噪步骤间的冗余计算,实现最高2.0倍加速
- Motivation: 扩散变换器(DiT)在视觉生成中表现出色,但其迭代去噪过程结合大容量模型导致高推理成本。现有研究表明DiT模型在去噪步骤间存在大量冗余计算,需要有效减少这些冗余
- Method: 提出CorGi框架:1) 基于贡献度指导的块级间隔缓存,缓存低贡献块并在后续步骤中重用;2) CorGi+针对文生图任务,利用跨注意力图识别重要token并应用部分注意力更新来保护物体细节
- Result: 在最先进的DiT模型上评估,CorGi和CorGi+平均实现最高2.0倍加速,同时保持高质量生成效果
- Conclusion: CorGi和CorGi+是有效的训练免费DiT推理加速解决方案,通过减少去噪步骤间的冗余计算,在保持生成质量的同时显著提升推理速度
[43] Medical Image Classification on Imbalanced Data Using ProGAN and SMA-Optimized ResNet: Application to COVID-19
Sina Jahromi,Farshid Hajati,Alireza Rezaee,Javaher Nourian
Main category: cs.CV
TL;DR: 提出一种渐进式生成对抗网络生成合成数据,结合加权方法和多目标优化算法,解决医学图像分类中的不平衡数据问题,在COVID-19胸部X光数据集上取得优异性能。
- Motivation: 医学图像分类中存在严重的数据不平衡问题,特别是在疫情期间,COVID-19阳性样本远少于阴性样本。现有AI方法因缺乏足够且平衡的数据而面临重大障碍,需要有效的数据增强方法来改善分类性能。
- Method: 1. 提出渐进式生成对抗网络生成合成数据补充真实数据;2. 采用加权方法将合成数据与真实数据结合后输入深度网络分类器;3. 使用多目标元启发式群体优化算法优化分类器超参数。
- Result: 在大型不平衡的COVID-19胸部X光图像数据集上,提出的模型在交叉验证指标上优于现有方法。对于4类和2类不平衡分类问题,分别达到95.5%和98.5%的准确率。
- Conclusion: 该模型能有效解决疫情期间医学图像分类中的数据不平衡问题,实验结果表明其在处理不平衡数据方面具有显著效果,为医疗图像分析提供了可靠解决方案。
[44] ARM: A Learnable, Plug-and-Play Module for CLIP-based Open-vocabulary Semantic Segmentation
Ziquan Liu,Zhewei Zhu,Xuyang Shi
Main category: cs.CV
TL;DR: 提出ARM模块,一种轻量级可学习模块,通过自适应融合CLIP的层次特征来提升开放词汇语义分割性能,实现"一次训练,随处使用"的范式
- Motivation: 现有训练免费方法要么依赖昂贵的外部基础模型(如SAM、DINO),要么使用静态启发式方法处理CLIP特征,这些方法要么计算成本高,要么效果次优。CLIP的图像级表示缺乏像素级细节,限制了开放词汇语义分割的性能。
- Method: 提出注意力精炼模块(ARM),包含语义引导的交叉注意力块(使用深层特征作为K、V来选择和精炼细节丰富的浅层特征Q)和自注意力块。采用"一次训练,随处使用"的范式,在通用数据集(如COCO-Stuff)上训练一次后,可作为通用即插即用后处理器用于各种训练免费框架。
- Result: 大量实验表明,ARM能持续提升多个基准测试上的基线性能,且推理开销可忽略不计,为训练免费开放词汇语义分割建立了高效有效的范式。
- Conclusion: ARM模块有效解锁和精炼了CLIP的内部潜力,通过自适应特征融合解决了现有方法的局限性,提供了一种轻量级、高效且通用的解决方案。
[45] Mirage: One-Step Video Diffusion for Photorealistic and Coherent Asset Editing in Driving Scenes
Shuyun Wang,Haiyang Sun,Bing Wang,Hangjun Ye,Xin Yu
Main category: cs.CV
TL;DR: Mirage是一个用于驾驶场景资产编辑的一步视频扩散模型,通过结合2D和3D编码器特征保持时空一致性,并采用两阶段对齐策略解决分布不匹配问题。
- Motivation: 视觉为中心的自动驾驶系统需要多样化和可扩展的训练数据,现有视频对象编辑方法在保持高视觉保真度和时间一致性方面存在困难。
- Method: 基于文本到视频扩散先验,注入预训练2D编码器的时序无关潜在特征到3D解码器以恢复细节;采用两阶段数据对齐策略(粗粒度3D对齐和细粒度2D精炼)解决分布不匹配问题。
- Result: 在多种编辑场景中实现了高真实感和时间一致性,并能泛化到其他视频到视频转换任务,为未来研究提供了可靠基线。
- Conclusion: Mirage通过创新的特征注入和对齐策略,有效解决了驾驶场景资产编辑中的时空一致性和分布不匹配问题,为自动驾驶数据增强提供了有效工具。
[46] MotivNet: Evolving Meta-Sapiens into an Emotionally Intelligent Foundation Model
Rahul Medicharla,Alper Yilmaz
Main category: cs.CV
TL;DR: MotivNet是一个基于Meta Sapiens基础模型的通用面部表情识别模型,无需跨域训练即可在多种数据集上取得竞争性性能,解决了现有FER模型在真实世界中泛化能力弱的问题。
- Motivation: 当前最先进的面部表情识别模型在多样化数据上测试时泛化能力较弱,导致在真实世界应用中性能下降,阻碍了FER作为研究领域的发展。虽然已有复杂架构尝试解决泛化问题,但它们需要跨域训练,这与真实世界应用需求相矛盾。
- Method: 使用Meta Sapiens作为骨干网络,这是一个通过大规模掩码自编码器预训练获得卓越真实世界泛化能力的人类视觉基础模型。将MotivNet作为Sapiens的附加下游任务,定义了三个评估标准:基准性能、模型相似性和数据相似性。
- Result: MotivNet无需跨域训练即可在多个数据集上取得竞争性性能,能够与现有SOTA模型进行基准比较,并满足三个评估标准,验证了其作为Sapiens下游任务的可行性。
- Conclusion: MotivNet验证了作为Sapiens下游任务的可行性,使面部表情识别在真实世界应用中更具激励性,推动了FER领域的发展。
[47] MambaSeg: Harnessing Mamba for Accurate and Efficient Image-Event Semantic Segmentation
Fuqiang Gu,Yuanke Li,Xianlei Long,Kangping Ji,Chao Chen,Qingyi Gu,Zhenliang Ni
Main category: cs.CV
TL;DR: MambaSeg:一种新颖的双分支语义分割框架,使用并行Mamba编码器处理RGB和事件数据,通过双维度交互模块(DDIM)实现时空融合,在降低计算成本的同时达到SOTA性能。
- Motivation: RGB相机在快速运动、低光照或高动态范围条件下性能下降,而事件相机缺乏颜色和纹理信息。现有RGB-事件融合方法计算成本高且主要关注空间融合,忽略了事件流的时间动态特性。
- Method: 提出MambaSeg框架,使用并行Mamba编码器分别处理RGB图像和事件流。引入双维度交互模块(DDIM),包含跨空间交互模块(CSIM)和跨时间交互模块(CTIM),在空间和时间维度上进行细粒度融合。
- Result: 在DDD17和DSEC数据集上的实验表明,MambaSeg实现了最先进的语义分割性能,同时显著降低了计算成本。
- Conclusion: MambaSeg通过有效的时空融合机制,充分利用RGB和事件数据的互补特性,为高效、可扩展和鲁棒的多模态感知提供了有前景的解决方案。
[48] Physically-Grounded Manifold Projection with Foundation Priors for Metal Artifact Reduction in Dental CBCT
Zhi Li,Yaqi Wang,Bingtao Ma,Yifan Zhang,Huiyu Zhou,Shuai Wang
Main category: cs.CV
TL;DR: 提出PGMP框架解决CBCT金属伪影问题,结合物理模拟生成训练数据,使用确定性流形投影实现单次前向推理,并利用医学基础模型确保临床合理性。
- Motivation: CBCT中的金属伪影严重遮挡解剖结构,影响诊断。现有深度学习方法存在局限:监督方法因"回归到均值"导致频谱模糊,无监督方法可能产生结构幻觉。扩散模型虽能生成真实图像,但依赖缓慢的随机迭代采样,不适合临床使用。
- Method: 提出Physically-Grounded Manifold Projection (PGMP)框架:1) Anatomically-Adaptive Physics Simulation (AAPS)管道通过蒙特卡洛频谱建模和患者特异性数字孪生合成高保真训练对;2) DMP-Former采用直接x预测范式,将恢复重新表述为确定性流形投影,单次前向推理即可恢复干净解剖结构;3) Semantic-Structural Alignment (SSA)模块利用医学基础模型(MedDINOv3)的先验锚定解决方案,确保临床合理性。
- Result: 在合成和多中心临床数据集上的实验表明,PGMP在未见解剖结构上优于最先进方法,在效率和诊断可靠性方面设定了新基准。
- Conclusion: PGMP框架有效解决了CBCT金属伪影减少问题,通过物理模拟生成高质量训练数据,确定性流形投影实现高效推理,医学基础模型先验确保临床合理性,为临床使用提供了实用解决方案。
[49] Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation
Zhe Huang,Hao Wen,Aiming Hao,Bingze Song,Meiqi Wu,Jiahong Wu,Xiangxiang Chu,Sheng Lu,Haoqian Wang
Main category: cs.CV
TL;DR: 提出了DualityForge框架,通过可控扩散视频编辑将真实视频转化为反事实场景,生成高质量QA对,构建DualityVidQA数据集,并结合DNA-Train训练方法,显著减少多模态大语言模型在反事实视频理解中的幻觉问题。
- Motivation: 多模态大语言模型在视频理解中存在过度依赖语言先验的问题,导致视觉未接地幻觉,特别是在处理违背常识的反事实视频时。由于文本和视频数据的内在不平衡,以及收集和标注反事实数据的高成本,这一问题难以解决。
- Method: 1) DualityForge框架:使用可控扩散视频编辑将真实视频转化为反事实场景,嵌入结构化上下文信息,自动生成高质量QA对和原始-编辑视频对用于对比训练;2) 构建DualityVidQA大规模视频数据集;3) DNA-Train训练方法:两阶段SFT-RL训练机制,在RL阶段应用成对ℓ₁优势归一化,实现更稳定高效的政策优化。
- Result: 在DualityVidQA-Test上,方法显著减少了模型在反事实视频上的幻觉,相比Qwen2.5-VL-7B基线相对提升24.0%。同时在幻觉和通用基准测试中都取得了显著增益,显示出强大的泛化能力。
- Conclusion: 提出的DualityForge框架和DNA-Train方法有效解决了MLLM在反事实视频理解中的幻觉问题,通过自动生成高质量反事实数据和对比训练机制,显著提升了模型的鲁棒性和泛化能力。将开源数据集和代码。
[50] LiftProj: Space Lifting and Projection-Based Panorama Stitching
Yuan Jia,Ruimin Wu,Rui Song,Jiaojiao Li,Bin Song
Main category: cs.CV
TL;DR: 提出一种空间提升的360°全景拼接框架,通过将2D图像提升为3D点云表示,在统一坐标系中进行融合,然后投影到全景流形上,有效解决传统方法在复杂3D场景中的重影和几何失真问题。
- Motivation: 传统图像拼接技术主要基于2D单应性变换和网格变形,适用于近似共面或视差较小的场景。但在真实3D场景中,特别是具有多个深度层和遮挡的情况下,这些方法会导致重影、结构弯曲和拉伸失真,在360°闭环拼接和多视角累积场景中问题尤为严重。
- Method: 1) 将输入图像提升为密集3D点云表示,在统一坐标系中进行全局跨视角融合,并加入置信度度量;2) 在3D空间中建立统一投影中心,采用等距柱面投影将融合数据映射到单一全景流形上;3) 在画布域进行空洞填充,处理视角转换中暴露的未知区域,恢复连续纹理和语义一致性。该框架从2D变形范式转向3D一致性范式,可灵活集成各种3D提升和补全模块。
- Result: 实验评估表明,该方法在显著视差和复杂遮挡场景中,大幅减少了几何失真和重影伪影,产生了更自然、更一致的全景结果。
- Conclusion: 该研究提出了一种创新的全景拼接框架,通过将问题从2D图像变形重新定义为3D空间一致性,有效解决了传统方法在复杂3D场景中的局限性。该方法为处理具有显著视差和遮挡的场景提供了更鲁棒的解决方案,可灵活集成各种3D重建技术。
[51] One-shot synthesis of rare gastrointestinal lesions improves diagnostic accuracy and clinical training
Jia Yu,Yan Zhu,Peiyao Fu,Tianyi Chen,Zhihua Wang,Fei Wu,Quanlin Li,Pinghong Zhou,Shuo Wang,Xian Yang
Main category: cs.CV
TL;DR: EndoRare:基于单张参考图像生成罕见胃肠道病变的one-shot生成框架,通过语言引导的概念解耦分离病理特征与非诊断属性,用于AI模型增强和临床培训。
- Motivation: 罕见胃肠道病变在常规内镜检查中不常见,导致可用于开发可靠AI模型和培训新临床医生的数据有限,需要解决罕见疾病的数据缺口问题。
- Method: 提出EndoRare框架:1)使用语言引导的概念解耦分离病变的病理特征和非诊断属性;2)将病理特征编码为可学习的原型嵌入;3)变化非诊断属性以确保多样性;4)从单张参考图像生成多样化的高保真病变样本。
- Result: 1)专家认为合成图像具有临床可信度;2)用于数据增强时显著提升下游AI分类器性能,特别是在低假阳性率下的真阳性率;3)盲法阅读研究显示,接触EndoRare生成病例的新手内镜医生召回率提高0.400,精确度提高0.267。
- Conclusion: EndoRare为罕见疾病在计算机辅助诊断和临床教育中建立了实用、数据高效的解决方案,能够弥合罕见疾病的数据缺口。
[52] Virtual-Eyes: Quantitative Validation of a Lung CT Quality-Control Pipeline for Foundation-Model Cancer Risk Prediction
Md. Enamul Hoq,Linda Larson-Prior,Fred Prior
Main category: cs.CV
TL;DR: 开发并验证了Virtual-Eyes CT质量控制流程,发现其对通用基础模型有提升作用,但对专业模型可能产生负面影响
- Motivation: 深度学习在低剂量CT肺癌筛查中很少量化鲁棒的预处理,需要开发临床导向的质量控制流程来评估其对不同类型模型的影响
- Method: 开发Virtual-Eyes 16位CT质量控制流程,包括强制512x512平面分辨率、筛选诊断性序列、提取连续肺块等。使用765名NLST患者数据,评估RAD-DINO、Merlin、Sybil和ResNet-18在不同预处理下的表现
- Result: Virtual-Eyes显著提升RAD-DINO性能(切片级AUC从0.576到0.610,患者级AUC从0.646到0.683),但Sybil和ResNet-18性能下降,Merlin表现有限且不受预处理影响
- Conclusion: 解剖学导向的质量控制可以稳定和改进通用基础模型工作流程,但可能破坏适应原始临床环境的专业模型,揭示了模型对预处理的不同敏感性
[53] UniAct: Unified Motion Generation and Action Streaming for Humanoid Robots
Nan Jiang,Zimo He,Wanhe Yu,Lexi Pang,Yunhao Li,Hongjie Li,Jieming Cui,Yuhan Li,Yizhou Wang,Yixin Zhu,Siyuan Huang
Main category: cs.CV
TL;DR: UniAct是一个两阶段框架,通过微调MLLM和因果流式处理管道,实现人形机器人以低于500ms延迟执行多模态指令,在零样本跟踪不完美参考动作方面成功率提升19%。
- Motivation: 人形机器人领域长期目标是实现能够遵循多样化多模态指令的通用智能体,但现有方法难以将语言、音乐、轨迹等异构指令转换为稳定、实时的全身动作,高层多模态感知与全身执行之间存在显著瓶颈。
- Method: 提出UniAct两阶段框架:1) 通过FSQ共享离散码本统一多模态输入,确保跨模态对齐同时将动作约束在物理可行流形上;2) 结合微调的多模态大语言模型(MLLM)和因果流式处理管道,实现实时动作生成。
- Result: 在20小时的人形动作基准测试UniMoCap上验证,实现了低于500ms的延迟,零样本跟踪不完美参考动作的成功率提升了19%,展示了在多样化现实场景中的鲁棒泛化能力。
- Conclusion: UniAct标志着向响应式通用人形助手迈出的关键一步,通过统一感知和控制实现无缝交互,为人形机器人执行多模态指令提供了有效解决方案。
[54] Robust Egocentric Referring Video Object Segmentation via Dual-Modal Causal Intervention
Haijing Liu,Zhiyuan Song,Hefeng Wu,Tao Pu,Keze Wang,Liang Lin
Main category: cs.CV
TL;DR: CERES是一个因果推理框架,通过双模态因果干预(后门调整和前端调整)来解决自我中心视频中的语言偏见和视觉混淆问题,提升自我中心指代视频对象分割的性能。
- Motivation: 自我中心指代视频对象分割(Ego-RVOS)对理解自我中心人类行为至关重要,但现有方法面临两个主要挑战:1)训练数据中对象-动作配对的偏见导致学习虚假相关性;2)自我中心视角固有的视觉混淆因素(如快速运动和频繁遮挡)。
- Method: CERES是一个即插即用的因果框架,对预训练的RVOS骨干网络进行双模态因果干预:1)应用后门调整原则来抵消从数据集统计中学习的语言表示偏见;2)利用前端调整概念,通过因果原则指导将语义视觉特征与几何深度信息智能集成,创建对自我中心失真更鲁棒的表征。
- Result: 在Ego-RVOS基准测试上的广泛实验表明,CERES实现了最先进的性能,证明了因果推理在构建更可靠的自我中心视频理解模型方面的潜力。
- Conclusion: CERES通过因果推理有效解决了自我中心视频中的语言偏见和视觉混淆问题,为更广泛的自我中心视频理解任务提供了更可靠的建模方法。
[55] SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning
Yong Xien Chng,Tao Hu,Wenwen Tong,Xueheng Li,Jiandong Chen,Haojia Yu,Jiefan Lu,Hewei Guo,Hanming Deng,Chengjun Xie,Gao Huang,Dahua Lin,Lewei Lu
Main category: cs.CV
TL;DR: SenseNova-MARS:通过强化学习实现多模态代理推理与搜索,提升视觉语言模型在知识密集型视觉任务中的工具使用能力
- Motivation: 现有视觉语言模型在复杂视觉任务中主要局限于文本推理或孤立工具调用,缺乏人类般的动态工具操作与连续推理交织能力,特别是在需要协调外部工具(如搜索和图像裁剪)的知识密集型视觉场景中
- Method: 提出SenseNova-MARS多模态代理推理与搜索框架,通过强化学习赋予视觉语言模型交织的视觉推理和工具使用能力。具体整合图像搜索、文本搜索和图像裁剪工具,并提出BN-GSPO算法提升训练稳定性和工具调用效果
- Result: 在搜索导向基准测试中取得最先进性能:MMSearch上67.84分,HR-MMSearch上41.64分,超越Gemini-3-Flash和GPT-5等专有模型
- Conclusion: SenseNova-MARS通过提供有效且鲁棒的工具使用能力,向代理式视觉语言模型迈出了有前景的一步,将开源所有代码、模型和数据集以促进该领域研究
[56] Spatial-aware Vision Language Model for Autonomous Driving
Weijie Wei,Zhipeng Luo,Ling Feng,Venice Erin Liong
Main category: cs.CV
TL;DR: LVLDrive是一个将LiDAR点云融入视觉语言模型的新框架,通过渐进融合机制增强3D空间理解能力,提升自动驾驶的可靠性和安全性。
- Motivation: 当前基于图像的视觉语言模型在自动驾驶中存在瓶颈,主要问题是缺乏准确的度量空间推理和几何推断能力,导致驾驶策略不可靠。需要引入3D度量数据来构建更可信的自动驾驶系统。
- Method: 提出LVLDrive框架,将LiDAR点云作为额外输入模态融入预训练VLM。采用渐进融合Q-Former逐步注入LiDAR特征,避免对预训练模型造成灾难性干扰。同时开发空间感知问答数据集来显式教授模型3D感知和推理能力。
- Result: 在多个驾驶基准测试中,LVLDrive相比纯视觉方法在场景理解、度量空间感知和可靠驾驶决策方面都表现出优越性能。
- Conclusion: 研究表明,显式的3D度量数据对于构建可信赖的基于VLM的自动驾驶系统是必要的,LVLDrive通过融合LiDAR有效提升了模型的3D空间理解能力。
[57] The Mechanics of CNN Filtering with Rectification
Liam Frija-Altrac,Matthew Toews
Main category: cs.CV
TL;DR: 该论文提出了一种基于信息力学的新模型,将卷积滤波的机械特性与相对论和量子力学中的能量-动量关系联系起来,通过分析卷积核的奇偶分解来理解信息传播机制。
- Motivation: 受到狭义相对论和量子力学的启发,作者希望建立一个新的理论框架来理解卷积神经网络中信息处理的基本机制。传统上缺乏对卷积滤波物理特性的系统分析,特别是如何将信息传播与物理能量-动量关系联系起来。
- Method: 将卷积核分解为正交的偶分量和奇分量:偶分量导致图像内容各向同性扩散(类似势能),奇分量导致质心方向性位移(类似动能)。通过离散余弦变换在频域分析奇偶特性,特别关注小卷积滤波器(如3×3像素)的低频基(DC分量和梯度分量)。
- Result: 发现信息位移速度与奇分量能量占总能量的比值呈线性关系。小卷积滤波器的结构主要由低频基主导,特别是DC分量和梯度分量,这些定义了信息传播的基本模式。建立了CNN信息处理与相对论物理中能量-动量关系的直接联系。
- Conclusion: 这是首次证明通用CNN中信息处理与相对论物理基石——能量-动量关系之间的联系。提出的基本信息力学模型为理解卷积滤波的机械特性提供了新的理论框架,将深度学习与基础物理原理统一起来。
[58] DermaVQA-DAS: Dermatology Assessment Schema (DAS) & Datasets for Closed-Ended Question Answering & Segmentation in Patient-Generated Dermatology Images
Wen-wai Yim,Yujuan Fu,Asma Ben Abacha,Meliha Yetisgen,Noel Codella,Roberto Andres Novoa,Josep Malvehy
Main category: cs.CV
TL;DR: DermaVQA-DAS扩展了皮肤病图像分析数据集,支持封闭式问答和皮肤病变分割,引入专家开发的皮肤病评估框架DAS,包含36个高层次和27个细粒度评估问题,提供多语言标注数据并评估了多种多模态模型。
- Motivation: 现有皮肤病图像分析数据集主要关注皮肤镜图像,缺乏患者自述查询和临床上下文,限制了其在以患者为中心的护理中的应用。需要填补这一空白。
- Method: 引入DermaVQA-DAS数据集扩展,支持封闭式问答和皮肤病变分割。核心是皮肤病评估框架DAS,系统化地以结构化标准化形式捕捉临床有意义的皮肤病特征。包含36个高层次和27个细粒度评估问题,提供英文和中文多选选项。基于DAS提供专家标注的封闭QA和分割数据集,并评估最先进的多模态模型。
- Result: 分割任务中,不同提示策略影响性能:默认提示在Mean-of-Max和Mean-of-Mean评估方案下表现最佳,而增强提示(结合患者查询标题和内容)在多数投票微评分评估下表现最好,BiomedParse获得Jaccard指数0.395和Dice分数0.566。封闭式QA任务中,模型整体表现强劲,平均准确率0.729-0.798;o3获得最佳总体准确率0.798,GPT-4.1紧随其后0.796,Gemini-1.5-Pro在Gemini家族中表现竞争性0.783。
- Conclusion: DermaVQA-DAS、DAS框架和评估协议已公开发布,旨在支持和加速未来以患者为中心的皮肤病视觉语言建模研究。
[59] Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems
Song Wang,Lingdong Kong,Xiaolu Liu,Hao Shi,Wentong Li,Jianke Zhu,Steven C. H. Hoi
Main category: cs.CV
TL;DR: 本文提出多模态预训练的统一框架,分析传感器特性与学习策略的相互作用,建立预训练范式的分类体系,并探索文本输入和占据表示以实现开放世界感知与规划。
- Motivation: 自动驾驶车辆和无人机等自主系统的快速发展迫切需要从多模态车载传感器数据中构建真正的空间智能。虽然基础模型在单模态场景中表现出色,但整合摄像头和激光雷达等不同传感器的能力以创建统一理解仍然是一个巨大挑战。
- Method: 提出多模态预训练的综合框架,分析基础传感器特性与学习策略的相互作用,评估平台特定数据集的作用。建立统一的预训练范式分类体系:从单模态基线到学习整体表示的统一框架。探索文本输入和占据表示的集成以实现开放世界感知和规划。
- Result: 建立了多模态预训练的统一分类体系,识别了计算效率和模型可扩展性等关键瓶颈,提出了实现通用多模态基础模型的路线图,以实现现实世界部署的鲁棒空间智能。
- Conclusion: 本文为多模态预训练提供了系统框架和分类体系,指出了实现通用多模态基础模型的关键挑战和未来方向,为实现自主系统的空间智能奠定了基础。
[60] RedunCut: Measurement-Driven Sampling and Accuracy Performance Modeling for Low-Cost Live Video Analytics
Gur-Eyal Sela,Kumar Krishna Agrawal,Bharathan Balaji,Joseph Gonzalez,Ion Stoica
Main category: cs.CV
TL;DR: RedunCut是一个动态模型大小选择系统,通过测量驱动的规划和轻量级性能模型,在固定精度下减少14-62%的计算成本,适用于移动视频和低精度目标场景。
- Motivation: 实时视频分析在大规模摄像头网络中运行成本高昂,现有动态模型大小选择方法无法很好地适应多样化工作负载,特别是在移动视频和低精度目标场景下效果不佳。
- Method: RedunCut采用测量驱动的规划器来评估采样的成本效益权衡,并使用轻量级的数据驱动性能模型来提高精度预测准确性。
- Result: 在道路车辆、无人机和监控视频以及多种模型家族和任务中,RedunCut在固定精度下减少14-62%的计算成本,并且对有限历史数据和漂移具有鲁棒性。
- Conclusion: RedunCut通过改进采样策略和精度预测,成功解决了现有动态模型大小选择系统在多样化工作负载下的泛化问题,显著降低了计算成本。
[61] DyStream: Streaming Dyadic Talking Heads Generation via Flow Matching-based Autoregressive Model
Bohong Chen,Haiyang Liu
Main category: cs.CV
TL;DR: DyStream:基于流匹配的自回归模型,用于实时生成逼真的双向对话头部视频,延迟低于100ms
- Motivation: 现有基于分块的方法需要完整的非因果上下文窗口,导致显著延迟,无法满足实时对话中即时非语言反馈的需求
- Method: 采用流友好的自回归框架,结合流匹配头部进行概率建模;提出因果编码器增强方案,通过前瞻模块引入短期未来上下文(如60ms)以提升质量同时保持低延迟
- Result: 每帧生成时间34ms,整个系统延迟低于100ms;在HDTF数据集上获得离线LipSync Confidence 8.13和在线7.61的SOTA唇同步质量
- Conclusion: DyStream通过创新的因果编码器设计和流匹配自回归框架,实现了实时、高质量的对话头部视频生成,显著优于其他因果策略
[62] AI-Driven Evaluation of Surgical Skill via Action Recognition
Yan Meng,Daniel A. Donoho,Marcelle Altshuler,Omar Arnaout
Main category: cs.CV
TL;DR: 提出基于AI的微血管吻合术自动评估框架,使用改进的TimeSformer视频Transformer和YOLO目标检测,实现手术视频中的动作识别和器械运动分析,为外科培训提供客观评估。
- Motivation: 传统外科技能评估依赖专家监督,存在主观性、评估者间变异大、耗时耗力等问题,在低收入国家难以推广。需要开发自动化、客观的评估方法来提高外科培训的可扩展性和一致性。
- Method: 提出AI驱动的微血管吻合术性能自动评估框架:1) 基于TimeSformer的视频Transformer架构,改进为分层时间注意力和加权空间注意力机制,实现准确的动作识别;2) 使用YOLO目标检测和跟踪方法提取细粒度运动特征,分析器械运动学;3) 从五个方面评估技能:整体动作执行、关键操作中的运动质量、一般器械操作等。
- Result: 在58个专家标注视频的数据集上验证:动作分割帧级准确率达87.7%,后处理后提升至93.62%;在复制专家评估方面,所有技能维度的平均分类准确率达76%。系统能提供客观、一致、可解释的反馈。
- Conclusion: 该AI系统能够为外科教育提供标准化、数据驱动的培训和评估,解决传统方法的主观性和可扩展性问题,特别是在资源有限的环境中具有重要应用价值。
[63] Exploring Compositionality in Vision Transformers using Wavelet Representations
Akshad Shyam Purushottamdas,Pranav K Nayak,Divya Mehul Rajparia,Deekshith Patel,Yashmitha Gogineni,Konda Reddy Mopuri,Sumohana S. Channappayya
Main category: cs.CV
TL;DR: 本文通过离散小波变换(DWT)获取视觉基元,提出框架测试Vision Transformer编码器中的组合性,发现单层DWT分解的基元在潜在空间中近似组合。
- Motivation: 虽然对Transformer模型的理解主要来自语言任务分析,但本文旨在通过组合性视角研究Vision Transformer编码器学习到的表示,探索ViT如何结构化视觉信息。
- Method: 引入类似先前表示学习组合性测量的框架,使用离散小波变换(DWT)获取输入相关的视觉基元,通过检查组合表示重构原始图像表示的能力来测试组合性。
- Result: 研究发现,单层DWT分解得到的基元产生的编码器表示在潜在空间中近似组合,这为理解ViT如何结构化信息提供了新视角。
- Conclusion: Vision Transformer编码器在表示空间中表现出一定程度的组合性,离散小波变换是获取视觉基元的有效工具,为理解ViT的内部工作机制提供了新见解。
[64] Spectral and Spatial Graph Learning for Multispectral Solar Image Compression
Prasiddha Siwakoti,Atefeh Khoshkhahtinat,Piyush M. Mehta,Barbara J. Thompson,Michael S. F. Kirk,Daniel da Silva
Main category: cs.CV
TL;DR: 提出一种针对多光谱太阳图像的学习压缩框架,通过图嵌入和注意力机制在有限带宽下保持光谱和空间细节
- Motivation: 空间任务中多光谱太阳图像的高保真压缩面临挑战,需要在有限带宽与保持精细光谱空间细节之间取得平衡
- Method: 使用两个互补模块:1) iSWGE通过图节点建模光谱通道间的相互关系;2) WSGA-C结合稀疏图注意力和卷积注意力减少空间冗余并强调精细结构
- Result: 在SDOML数据集六个EUV通道上评估,相比基线方法MSID降低20.15%,PSNR提升最高1.09%,MS-SSIM增益1.62%,在相同比特率下提供更清晰和光谱保真的重建
- Conclusion: 该方法有效解决了多光谱太阳图像压缩中的带宽与保真度平衡问题,代码已开源
[65] F2IDiff: Real-world Image Super-resolution using Feature to Image Diffusion Foundation Model
Devendra K. Jangid,Ripon K. Saha,Dilshan Godaliyadda,Jing Li,Seok-Jun Lee,Hamid R. Sheikh
Main category: cs.CV
TL;DR: 提出基于特征到图像扩散基础模型(F2IDiff FM)的单图像超分辨率方法,使用DINOv2特征作为低层次特征条件,解决传统文本条件扩散模型在智能手机摄影中过度生成和幻觉问题。
- Motivation: 当前基于文本到图像扩散基础模型(T2IDiff FM)的超分辨率方法存在两个主要问题:1)文本特征作为高层次特征无法准确描述图像的细微纹理;2)智能手机高分辨率图像(≥12MP)需要分块处理,而小图像块往往无法用文本特征准确描述。这些问题导致在消费级摄影中产生不希望的幻觉效应。
- Method: 提出特征到图像扩散基础模型(F2IDiff FM),使用DINOv2特征作为低层次特征条件。低层次特征提供更严格的约束条件,同时能够丰富地描述小图像块,从而在超分辨率过程中实现最小化的无幻觉生成。
- Result: 该方法理论上能够更好地适应智能手机摄影场景,在保持高保真度的同时避免过度生成和幻觉问题,特别适用于处理高分辨率的低质量图像。
- Conclusion: 通过使用低层次特征条件(DINOv2特征)替代文本特征,F2IDiff FM能够为智能手机摄影提供更精确、更可控的超分辨率生成,解决传统T2IDiff FM在消费级应用中的局限性。
[66] Using Large Language Models To Translate Machine Results To Human Results
Trishna Niraula,Jonathan Stubblefield
Main category: cs.CV
TL;DR: 该研究提出一个结合YOLO目标检测模型和大型语言模型的管道,用于从胸部X光图像自动生成放射学报告,比较了YOLOv5和YOLOv8的性能,并评估了GPT-4生成报告的质量。
- Motivation: 尽管AI在医学影像分析中取得了先进性能,但现有系统通常只输出结构化预测,需要放射科医生将其转化为完整的叙述性报告。大型语言模型的出现为弥合这一差距提供了新机会,能够从结构化发现生成诊断性叙述。
- Method: 开发了一个集成YOLOv5和YOLOv8用于胸部X光图像异常检测的管道,结合大型语言模型生成自然语言放射学报告。YOLO模型产生边界框预测和类别标签,然后传递给LLM生成描述性发现和临床总结。比较了两种YOLO模型在检测准确性、推理延迟方面的性能,并通过余弦相似度评估生成文本质量。
- Result: 结果显示AI生成报告与人工报告有很强的语义相似性。人类评估表明GPT-4在清晰度方面表现优异(4.88/5),但在自然写作流畅性方面得分较低(2.81/5),表明当前系统能达到临床准确性,但在风格上与放射科医生撰写的文本仍有区别。
- Conclusion: 该研究证明了结合目标检测模型和大型语言模型自动生成放射学报告的可行性,系统在临床准确性方面表现良好,但在自然语言流畅性方面仍需改进,为未来医学影像报告自动化提供了有前景的方向。
[67] Hierarchical Vector-Quantized Latents for Perceptual Low-Resolution Video Compression
Manikanta Kotthapalli,Banafsheh Rekabdar
Main category: cs.CV
TL;DR: 提出MS-VQ-VAE模型,为低分辨率视频生成紧凑、高保真的潜在表示,适用于边缘设备部署和带宽敏感场景。
- Motivation: 视频流量指数增长对带宽和存储基础设施带来巨大压力,传统视频编解码器(如H.264、HEVC)主要针对像素域重建设计,缺乏对机器学习中心化潜在表示的原生支持,限制了与深度学习流程的集成。
- Method: 基于VQ-VAE-2框架扩展到时空设置,引入两级分层潜在结构,使用3D残差卷积构建。模型轻量(约1850万参数),针对64x64分辨率视频片段优化,并加入基于预训练VGG16网络的感知损失提升重建质量。
- Result: 在UCF101数据集上训练(2秒视频片段,32帧16FPS),测试集达到25.96 dB PSNR和0.8375 SSIM。验证集上比单尺度基线提升1.41 dB PSNR和0.0248 SSIM。
- Conclusion: 该框架适用于带宽敏感场景的可扩展视频压缩,包括实时流媒体、移动视频分析和CDN级存储优化,特别适合边缘设备部署。
[68] PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation
Yuanhao Cai,Kunpeng Li,Menglin Jia,Jialiang Wang,Junzhe Sun,Feng Liang,Weifeng Chen,Felix Juefei-Xu,Chu Wang,Ali Thabet,Xiaoliang Dai,Xuan Ju,Alan Yuille,Ji Hou
Main category: cs.CV
TL;DR: 提出PhyGDPO框架,通过物理增强数据管道和物理感知的组式直接偏好优化,提升文本到视频生成的物理一致性
- Motivation: 现有文本到视频生成方法在视觉质量上取得进展,但难以遵循物理规律,缺乏物理交互的训练数据,需要更好的物理一致性优化方法
- Method: 1) PhyAugPipe:利用视觉语言模型构建大规模物理视频数据集PhyVidGen-135K;2) PhyGDPO:基于组式Plackett-Luce模型的物理感知直接偏好优化框架,包含物理引导奖励和LoRA-Switch Reference高效训练方案
- Result: 在PhyGenBench和VideoPhy2基准测试中显著优于现有开源方法,提升了视频生成的物理一致性
- Conclusion: 提出的PhyGDPO框架通过物理增强数据和物理感知优化,有效解决了文本到视频生成的物理一致性问题,为物理可信的视频生成提供了新方法
[69] OCP-LS: An Efficient Algorithm for Visual Localization
Jindi Zhong,Hongxia Wang,Huanshui Zhang
Main category: cs.CV
TL;DR: 提出一种新颖的二阶优化算法,结合OCP方法并适当近似Hessian矩阵对角元素,用于解决深度学习中的大规模优化问题,在视觉定位任务上表现优越。
- Motivation: 针对深度学习中的大规模优化问题,传统优化算法在收敛速度、训练稳定性和噪声鲁棒性方面存在不足,需要更高效的二阶优化方法。
- Method: 提出新颖的二阶优化算法,结合OCP方法并适当近似Hessian矩阵的对角元素,以降低计算复杂度同时保持优化性能。
- Result: 在多个标准视觉定位基准测试中,该方法相比传统优化算法实现了竞争性的定位精度,同时表现出更快的收敛速度、增强的训练稳定性和改进的噪声干扰鲁棒性。
- Conclusion: 所提出的二阶优化算法在深度学习的大规模优化问题中具有显著优势,为视觉定位等任务提供了高效稳定的优化解决方案。
[70] RGBT-Ground Benchmark: Visual Grounding Beyond RGB in Complex Real-World Scenarios
Tianyi Zhao,Jiawen Xi,Linhui Xiao,Junnan Li,Xue Yang,Maoxun Yuan,Xingxing Wei
Main category: cs.CV
TL;DR: 提出了首个面向复杂真实场景的大规模视觉定位基准RGBT-Ground,包含对齐的RGB和热红外图像对,并设计了支持多模态输入的RGBT-VGNet基线模型。
- Motivation: 现有视觉定位基准大多基于COCO等干净环境数据集,场景多样性有限,无法反映真实世界中光照、天气等复杂条件的变化,难以评估模型在安全关键应用中的鲁棒性和泛化能力。
- Method: 构建了包含空间对齐的RGB和热红外图像对的大规模基准RGBT-Ground,提供高质量的指代表达式、对象边界框和细粒度标注。建立了支持单模态(RGB或TIR)和多模态(RGB-TIR)的统一视觉定位框架,提出了简单有效的RGBT-VGNet基线模型来融合互补的视觉模态。
- Result: 实验结果表明,提出的RGBT-VGNet在RGBT-Ground基准上显著优于现有方法的适配版本,特别是在夜间和远距离场景中表现突出。
- Conclusion: RGBT-Ground基准填补了复杂真实场景下视觉定位评估的空白,RGBT-VGNet模型通过融合RGB和热红外模态实现了更鲁棒的视觉定位,为复杂真实环境中的鲁棒视觉定位研究提供了重要资源。
[71] Improving Few-Shot Change Detection Visual Question Answering via Decision-Ambiguity-guided Reinforcement Fine-Tuning
Fuyu Dong,Ke Li,Di Wang,Nan Luo,Yiming Zhang,Kaiyu Li,Jianfei Yang,Quan Wang
Main category: cs.CV
TL;DR: DARFT框架通过挖掘决策模糊样本并进行组内相对策略优化,提升CDVQA模型的判别能力和鲁棒性
- Motivation: 现有CDVQA模型在监督微调后仍存在大量决策模糊问题,模型对正确答案和强干扰项给出相似置信度,导致性能瓶颈
- Method: 提出DARFT框架:1) 用SFT训练的参考策略挖掘决策模糊样本;2) 在挖掘的子集上应用组内相对策略优化,利用多样本解码和组内相对优势抑制强干扰项
- Result: 实验显示DARFT在CDVQA任务上相比SFT基线获得一致提升,特别是在少样本设置下表现更优
- Conclusion: 明确优化决策模糊样本对提升CDVQA模型的判别能力和鲁棒性至关重要,DARFT框架有效解决了决策边界模糊问题
[72] SliceLens: Fine-Grained and Grounded Error Slice Discovery for Multi-Instance Vision Tasks
Wei Zhang,Chaoqun Wang,Zixuan Guan,Sam Kao,Pengfei Zhao,Peng Wu,Sifeng He
Main category: cs.CV
TL;DR: SliceLens:基于LLM/VLM的假设驱动框架,用于多实例视觉任务(检测、分割、姿态估计)中的细粒度错误切片发现,在FeSD基准上实现SOTA性能。
- Motivation: 现有切片发现方法主要针对图像分类,难以处理检测、分割等多实例任务;真实场景中的错误切片常涉及复杂视觉关系,现有实例级方法缺乏细粒度推理能力;现有基准偏向特定算法或图像分类,人工标注无法反映真实模型失败。
- Method: 提出SliceLens框架,利用LLM和VLM通过基于视觉的推理生成和验证多样化失败假设,实现细粒度、可解释的错误切片识别;同时构建FeSD基准,包含专家标注的细粒度切片,精确对应局部错误区域。
- Result: 在现有基准和FeSD上均达到SOTA性能,在FeSD上Precision@10提升0.42(0.73 vs 0.31);识别出的可解释切片能有效指导模型修复,修复实验验证了其实际价值。
- Conclusion: SliceLens通过假设驱动的视觉推理方法,成功解决了多实例视觉任务中细粒度错误切片发现的挑战,为模型评估和修复提供了可靠工具;FeSD基准填补了该领域评估标准的空白。
[73] 3D Semantic Segmentation for Post-Disaster Assessment
Nhut Le,Maryam Rahnemoonfar
Main category: cs.CV
TL;DR: 该研究构建了首个针对飓风灾害的3D点云数据集,评估了现有SOTA 3D语义分割模型在灾后场景中的性能,发现现有方法存在显著局限性。
- Motivation: 自然灾害频发对人类生命和经济造成严重威胁,而现有的3D语义分割模型缺乏专门针对灾后环境设计的数据集,限制了灾后评估能力。
- Method: 使用无人机采集飓风伊恩(2022)受灾区域的航拍影像,通过SfM和MVS技术重建3D点云,构建专门的数据集,并评估FPT、PTv3和OA-CNNs等SOTA 3D语义分割模型。
- Result: 现有SOTA模型在灾后场景中表现出显著局限性,揭示了当前3D分割技术在灾害环境中的不足。
- Conclusion: 迫切需要开发专门的3D基准数据集和推进3D分割技术进步,以提升灾后场景理解和响应能力。
[74] Collaborative Low-Rank Adaptation for Pre-Trained Vision Transformers
Zheng Liu,Jinchao Zhu,Gao Huang
Main category: cs.CV
TL;DR: CLoRA是一种新型的视觉Transformer微调方法,通过基础空间共享和样本无关多样性增强组件,在保持参数效率的同时提升学习性能。
- Motivation: 现有LoRA方法要么牺牲微调性能,要么引入过多可训练参数,无法在学习性能和参数效率之间取得平衡。
- Method: 提出协作低秩适应(CLoRA),包含基础空间共享和样本无关多样性增强(SADE)组件。基础空间共享让所有低秩模块共享一组下/上投影空间,SADE则正则化这些矩阵之间的相似性以鼓励多样表示。
- Result: 在广泛使用的图像和点云数据集上的实验表明,CLoRA在学习性能和参数效率之间取得了更好的平衡,在点云分析中需要最少的GFLOPs。
- Conclusion: CLoRA通过创新的协作机制和多样性增强策略,成功解决了现有LoRA方法在性能与效率之间的权衡问题。
[75] MoniRefer: A Real-world Large-scale Multi-modal Dataset based on Roadside Infrastructure for 3D Visual Grounding
Panquan Yang,Junfei Huang,Zongzhangbao Yin,Yingsong Hu,Anni Xu,Xinyi Luo,Xueqi Sun,Hai Wu,Sheng Ao,Zhaoxing Zhu,Chenglu Wen,Cheng Wang
Main category: cs.CV
TL;DR: 提出首个面向路边监控场景的3D视觉定位任务,构建了大规模多模态数据集MoniRefer,并提出端到端方法Moni3DVG,在复杂交通环境中实现基于自然语言描述的3D目标定位。
- Motivation: 现有3D视觉定位研究主要关注室内和自动驾驶场景,而路边监控场景由于缺乏配对点云-文本数据而未被探索。路边基础设施系统需要理解自然语言并在复杂交通环境中定位相关目标,这对智能交通系统至关重要。
- Method: 提出Moni3DVG方法,利用图像提供的丰富外观信息以及点云的几何和光学信息进行多模态特征学习和3D目标定位。构建了MoniRefer数据集,包含约136,018个对象和411,128个自然语言描述,所有数据都经过人工验证确保质量。
- Result: 在提出的基准测试上进行了大量实验和消融研究,证明了所提方法的优越性和有效性。数据集包含来自真实世界复杂交通路口的对象和语言描述,为路边监控场景的3D视觉定位提供了首个大规模基准。
- Conclusion: 提出了面向路边监控场景的3D视觉定位新任务,构建了首个大规模多模态数据集MoniRefer,并开发了有效的Moni3DVG方法。这项工作扩展了3D视觉定位的应用范围,为基础设施级别的交通场景理解提供了新工具。
[76] LLHA-Net: A Hierarchical Attention Network for Two-View Correspondence Learning
Shuyuan Lin,Yu Guo,Xiao Chen,Yanjie Liang,Guobao Xiao,Feiran Huang
Main category: cs.CV
TL;DR: 提出Layer-by-Layer Hierarchical Attention Network,通过分层注意力机制和阶段融合解决特征点匹配中的离群点问题,提升匹配精度和相机姿态估计性能。
- Motivation: 特征点匹配是计算机视觉基础任务,但大量离群点会严重影响匹配结果的准确性和鲁棒性。主要挑战在于:如何在离群点比例较高的情况下,既保证高质量信息提取,又减少负样本带来的误差。
- Method: 提出Layer-by-Layer Hierarchical Attention Network,包含三个核心模块:1) 逐层通道融合模块:保留各阶段特征语义信息并实现整体融合;2) 分层注意力模块:自适应捕获和融合全局感知与结构语义信息;3) 两种架构设计:提取和整合特征以提升网络适应性。
- Result: 在YFCC100M和SUN3D两个公开数据集上的实验表明,该方法在离群点去除和相机姿态估计方面均优于多个先进技术。
- Conclusion: 提出的分层注意力网络通过阶段融合和注意力机制有效解决了特征点匹配中的离群点问题,显著提升了匹配精度和鲁棒性,在计算机视觉任务中表现出优越性能。
[77] FireRescue: A UAV-Based Dataset and Enhanced YOLO Model for Object Detection in Fire Rescue Scenes
Qingyu Xu,Runtong Zhang,Zihuan Qiu,Fanman Meng
Main category: cs.CV
TL;DR: 本文针对消防救援场景目标检测构建了FireRescue数据集并提出FRS-YOLO改进模型,通过多维协同注意力模块和动态特征采样器提升检测性能。
- Motivation: 现有研究存在两个主要局限:1)主要关注山林环境,对更频繁且结构复杂的城市救援场景关注不足;2)现有检测系统类别有限(如火焰、烟雾),缺乏覆盖消防车、消防员等指挥决策关键目标的全面系统。
- Method: 1)构建FireRescue数据集,涵盖城市、山林、水域等多场景,包含8个关键类别共15,980张图像;2)提出FRS-YOLO改进模型:引入即插即用多维协同增强注意力模块,通过跨维度特征交互增强易混淆类别的判别表示;集成动态特征采样器,强化高响应前景特征以减轻烟雾遮挡和背景干扰。
- Result: 实验结果表明,消防救援场景目标检测具有高度挑战性,所提方法有效提升了YOLO系列模型在该场景下的检测性能。
- Conclusion: 本文通过构建全面数据集和改进检测模型,为消防救援指挥决策提供了更有效的目标检测解决方案,解决了现有研究的场景局限性和类别覆盖不足问题。
[78] From Sequential to Spatial: Reordering Autoregression for Efficient Visual Generation
Siyang Wang,Hanting Li,Wei Li,Jie Hu,Xinghao Chen,Feng Zhao
Main category: cs.CV
TL;DR: RadAR提出了一种基于径向拓扑的并行自回归视觉生成框架,通过环状并行预测和嵌套注意力机制,在保持生成质量的同时大幅提升推理效率。
- Motivation: 传统自回归模型在视觉生成中采用顺序token-by-token解码机制,导致推理效率低下。视觉token具有强烈的局部依赖性和空间相关性,但标准光栅扫描解码顺序未能充分利用这一特性。
- Method: 1. 采用径向拓扑组织生成过程:选择初始token作为起点,将所有其他token按空间距离分组到多个同心环中;2. 环状生成:从内环到外环并行预测同一环内的所有token;3. 嵌套注意力机制:动态修正前向传播中的不合理输出,减轻错误累积。
- Result: RadAR在保持自回归模型表示能力的同时,显著提高了生成效率。径向并行预测设计既保留了视觉场景的结构局部性和空间连贯性,又大幅增加了并行化程度。
- Conclusion: 通过结合径向并行预测和动态输出修正,RadAR为高效自回归视觉生成提供了一个有前景的解决方案,平衡了生成质量与推理效率。
[79] Renormalization Group Guided Tensor Network Structure Search
Maolin Wang,Bowen Yu,Sheng Zhang,Linjie Mi,Wanyu Wang,Yiqi Wang,Pengyue Jia,Xuetao Wei,Zenglin Xu,Ruocheng Guo,Xiangyu Zhao
Main category: cs.CV
TL;DR: RGTN是一种基于重整化群思想的张量网络结构搜索框架,通过多尺度变换实现连续结构演化,相比现有方法在计算效率和压缩比上显著提升。
- Motivation: 现有张量网络结构搜索方法存在三个主要问题:单尺度优化无法捕捉多尺度结构、离散搜索空间阻碍结构平滑演化、结构与参数分离优化导致计算效率低下。需要一种更高效、自适应的张量网络搜索方法。
- Method: 提出RGTN框架,基于重整化群思想,采用动态尺度变换实现连续结构演化。核心创新包括:可学习的边门用于拓扑修改、基于物理量(节点张力和边信息流)的智能提议机制、从粗尺度到细尺度的渐进优化策略。
- Result: 在光场数据、高阶合成张量和视频补全任务上的实验表明,RGTN实现了最先进的压缩比,运行速度比现有方法快4-600倍。
- Conclusion: RGTN通过重整化群指导的多尺度搜索框架,有效解决了传统张量网络结构搜索的局限性,在效率和效果上都取得了显著提升,验证了物理启发方法的有效性。
[80] Evolving, Not Training: Zero-Shot Reasoning Segmentation via Evolutionary Prompting
Kai Ye,Xiaotong You,Jianghang Lin,Jiayi Ji,Pingyang Dai,Liujuan Cao
Main category: cs.CV
TL;DR: EVOL-SAM3:一种零样本推理分割框架,通过推理时进化搜索过程替代传统的静态推理范式,在ReasonSeg基准上显著超越监督方法
- Motivation: 当前推理分割方法存在严重缺陷:监督微调(SFT)存在灾难性遗忘和领域依赖问题;强化学习(RL)训练不稳定且依赖预定义奖励函数;训练免费方法虽然避免了训练负担,但采用静态的"生成-分割"单次推理范式,缺乏深度推理能力和自我纠错能力
- Method: 提出EVOL-SAM3框架,将推理分割重新定义为推理时进化搜索过程。采用"生成-评估-进化"循环:维护提示假设种群,通过视觉竞技场进行无参考成对竞赛评估提示适应度,引入语义突变算子注入多样性并纠正语义错误,异构竞技场模块整合几何先验与语义推理确保最终选择鲁棒性
- Result: 在具有挑战性的ReasonSeg基准上,EVOL-SAM3不仅显著超越静态基线方法,还在零样本设置下大幅超过完全监督的最先进方法
- Conclusion: EVOL-SAM3通过推理时进化搜索范式成功解决了传统推理分割方法的局限性,为复杂语境依赖的语言查询实现像素级定位提供了更强大的零样本解决方案
[81] FlowBlending: Stage-Aware Multi-Model Sampling for Fast and High-Fidelity Video Generation
Jibin Song,Mingi Kwon,Jaeseok Jeong,Youngjung Uh
Main category: cs.CV
TL;DR: FlowBlending是一种阶段感知的多模型采样策略,在扩散模型推理中,根据时间步的不同阶段动态切换大模型和小模型,实现加速推理同时保持生成质量。
- Motivation: 研究发现模型容量在不同时间步的影响不同:在早期和后期阶段至关重要,但在中间阶段基本可忽略。这为在容量敏感阶段使用大模型、在中间阶段使用小模型提供了理论基础。
- Method: 提出FlowBlending策略:1)使用大模型处理容量敏感阶段(早期和后期),小模型处理中间阶段;2)引入简单标准选择阶段边界;3)使用速度-散度分析作为识别容量敏感区域的有效代理。
- Result: 在LTX-Video(2B/13B)和WAN 2.1(1.3B/14B)上,FlowBlending实现高达1.65倍推理加速,减少57.35%的FLOPs,同时保持大模型的视觉保真度、时间一致性和语义对齐。与现有采样加速技术兼容,可实现额外2倍加速。
- Conclusion: FlowBlending通过阶段感知的多模型采样策略,在扩散模型推理中实现了显著的效率提升,同时保持了生成质量,为高效视频生成提供了实用解决方案。
[82] EchoFoley: Event-Centric Hierarchical Control for Video Grounded Creative Sound Generation
Bingxuan Li,Yiming Cui,Yicheng He,Yiwei Wang,Shu Zhang,Longyin Wen,Yulei Niu
Main category: cs.CV
TL;DR: EchoFoley:视频配乐新任务,通过符号化声音事件实现细粒度控制,EchoVidia框架在可控性和感知质量上大幅超越现有方法
- Motivation: 当前视频-文本到音频(VT2A)方法存在三个关键限制:1)视觉与文本条件不平衡导致视觉主导;2)缺乏细粒度可控生成的具体定义;3)指令理解能力弱,现有数据集依赖简短分类标签
- Method: 提出EchoFoley新任务,采用符号化声音事件表示(指定何时、什么、如何产生声音),构建EchoFoley-6k大规模专家标注数据集,并提出EchoVidia框架(基于声音事件的智能生成框架,采用慢-快思考策略)
- Result: EchoVidia在可控性上超越现有VT2A模型40.7%,在感知质量上提升12.5%
- Conclusion: EchoFoley任务和EchoVidia框架有效解决了现有VT2A方法的局限性,实现了视频配乐的细粒度可控生成,显著提升了指令理解和生成质量
[83] Splatwizard: A Benchmark Toolkit for 3D Gaussian Splatting Compression
Xiang Liu,Yimin Zhou,Jinxiang Wang,Yujun Huang,Shuzhao Xie,Shiyu Qin,Mingyao Hong,Jiawei Li,Yaowei Wang,Zhi Wang,Shu-Tao Xia,Bin Chen
Main category: cs.CV
TL;DR: Splatwizard是一个专门用于评估3D高斯泼溅压缩模型的统一基准工具包,解决了现有评估工具缺乏标准化和全面指标的问题。
- Motivation: 3D高斯泼溅技术在实时新视角合成方面取得突破,但相关算法的快速扩散导致缺乏标准化和全面的评估工具,特别是在压缩任务方面。现有基准往往缺乏评估不同方法独特特征(如渲染速度、率失真权衡、内存效率和几何精度)所需的特定指标。
- Method: 开发了Splatwizard统一基准工具包,提供易于使用的框架来实施新的3DGS压缩模型并利用现有最先进技术。包含自动化计算关键性能指标的集成管道,包括基于图像的质量指标、重建网格的Chamfer距离、渲染帧率和计算资源消耗。
- Result: 创建了一个开源工具包(代码已公开),为3DGS压缩模型提供了标准化的评估框架,能够全面评估各种方法的性能特征。
- Conclusion: Splatwizard填补了3D高斯泼溅压缩模型评估领域的空白,为研究人员提供了统一的基准测试工具,有助于推动该领域的发展。
[84] UniC-Lift: Unified 3D Instance Segmentation via Contrastive Learning
Ankit Dhiman,Srinath R,Jaswanth Reddy,Lokesh R Boregowda,Venkatesh Babu Radhakrishnan
Main category: cs.CV
TL;DR: 提出统一框架,将3D高斯泼溅与2D实例分割结合,通过可学习特征嵌入和Embedding-to-Label过程解决多视图标签不一致问题,并引入边界硬采样提升性能。
- Motivation: 现有3D实例分割方法面临多视图2D标签不一致的问题,导致3D预测质量差。现有方法要么使用对比学习(对超参数敏感),要么预处理标签,步骤分离且效率低。
- Method: 提出统一框架:1)为高斯基元引入可学习特征嵌入进行分割;2)通过新颖的"Embedding-to-Label"过程高效解码为实例标签;3)针对边界问题,在特征嵌入后添加线性层再计算三元组损失,实现稳定的边界硬采样。
- Result: 在ScanNet、Replica3D和Messy-Rooms数据集上,方法在质量和数量上都优于基线,减少了训练时间并提升了性能。
- Conclusion: 提出的统一框架有效解决了多视图标签不一致问题,通过可学习嵌入和稳定的边界优化策略,实现了高效且高质量的3D实例分割。
[85] Projection-based Adversarial Attack using Physics-in-the-Loop Optimization for Monocular Depth Estimation
Takeru Kusakabe,Yudai Hirose,Mashiho Mukaida,Satoshi Ono
Main category: cs.CV
TL;DR: 提出一种基于投影的对抗攻击方法,通过将扰动光线投影到目标物体上,使基于深度神经网络的单目深度估计模型产生深度误判,导致物体部分从场景中消失。
- Motivation: 深度神经网络对对抗攻击的脆弱性也威胁到基于DNN的单目深度估计模型的可靠性,在实际应用中需要增强鲁棒性。本研究旨在验证DNN-based MDE模型的脆弱性。
- Method: 提出投影式对抗攻击方法,将扰动光线投影到目标物体上。采用物理在环优化,在实际环境中评估候选解以考虑设备规格和干扰,并使用分布式协方差矩阵自适应进化策略。
- Result: 实验证实该方法成功创建了导致深度误判的对抗样本,使目标场景中物体的部分区域消失。
- Conclusion: 基于投影的对抗攻击方法有效验证了DNN-based MDE模型的脆弱性,强调了在实际应用中增强模型鲁棒性的重要性。
[86] Nonlinear Noise2Noise for Efficient Monte Carlo Denoiser Training
Andrew Tinits,Stephen Mann
Main category: cs.CV
TL;DR: 提出一种理论框架,允许在Noise2Noise训练中对噪声目标应用特定非线性函数而不引入显著偏差,解决了HDR图像去噪中因动态范围过大导致的训练问题。
- Motivation: Noise2Noise方法虽然可以仅使用噪声图像对进行训练,但存在一个主要限制:对噪声目标应用非线性函数会导致结果偏差。由于非线性函数在图像处理中很常见,这限制了可对噪声目标进行的预处理类型。特别是在处理高动态范围(HDR)图像时,训练过程容易被异常值淹没而表现不佳。
- Method: 开发了一个理论框架来分析非线性函数对Noise2Noise训练的影响,识别出一类引入最小偏差的非线性函数。将该方法应用于蒙特卡洛渲染产生的HDR图像去噪,通过特定的损失函数和色调映射函数组合来减少异常值影响,同时引入最小偏差。
- Result: 该方法应用于现有的基于机器学习的蒙特卡洛去噪器,原始实现需要使用高样本数参考图像进行训练。新方法仅使用噪声训练数据,结果接近原始实现的性能。
- Conclusion: 某些非线性函数可以在Noise2Noise训练中应用于噪声目标而不引入显著偏差,这扩展了Noise2Noise方法的适用性,特别是在处理HDR图像等需要非线性预处理的场景中。
[87] Video and Language Alignment in 2D Systems for 3D Multi-object Scenes with Multi-Information Derivative-Free Control
Jason Armitage,Rico Sennnrich
Main category: cs.CV
TL;DR: 提出一种新方法,通过基于遗憾最小化的无导数优化改进多元互信息估计,使现成的2D跨模态系统能在线适应3D场景中的物体遮挡和特征区分
- Motivation: 在3D场景中处理时,基于2D视觉输入的跨模态系统面临维度转换问题。场景内相机可以弥合维度差距,但需要学习控制模块。现有方法需要预训练或微调,不够灵活
- Method: 通过基于遗憾最小化的无导数优化改进多元互信息估计,结合表达性度量和基于值的优化,控制场景内相机直接从视觉语言模型的噪声输出中学习
- Result: 该方法使现成的2D跨模态系统能够在线适应物体遮挡和区分特征,在多物体3D场景的跨模态任务中提升性能,无需预训练或微调
- Conclusion: 提出的方法成功弥合了2D跨模态系统与3D场景处理之间的维度差距,通过改进的互信息估计和相机控制实现了在线适应能力
[88] CropTrack: A Tracking with Re-Identification Framework for Precision Agriculture
Md Ahmed Al Muzaddid,Jordan A. James,William J. Beksi
Main category: cs.CV
TL;DR: CropTrack是一个用于农业场景的多目标跟踪框架,通过结合外观和运动信息来解决重复模式、相似外观、光照变化和频繁遮挡等挑战,在身份保持方面优于传统运动跟踪方法。
- Motivation: 农业环境中的多目标跟踪面临重复模式、相似物体外观、突然光照变化和频繁遮挡等挑战。当前基于运动的跟踪器在频繁强遮挡时难以保持物体身份,而外观相似性使得外观关联难以整合。
- Method: 提出CropTrack框架,结合外观和运动信息,包括:重新排序增强的外观关联、一对多关联与基于外观的冲突解决策略、指数移动平均原型特征库来改进外观关联。
- Result: 在公开农业MOT数据集上评估,CropTrack展现出持续的身份保持能力,优于传统基于运动的跟踪方法,在识别F1和关联准确率方面显著提升,身份切换次数更低。
- Conclusion: CropTrack通过有效整合外观和运动信息,解决了农业场景中多目标跟踪的身份保持问题,为相似外观和频繁遮挡环境提供了更鲁棒的跟踪解决方案。
[89] VLN-MME: Diagnosing MLLMs as Language-guided Visual Navigation agents
Xunyi Zhao,Gengze Zhou,Qi Wu
Main category: cs.CV
TL;DR: 本文提出了VLN-MME框架,用于评估多模态大语言模型在视觉语言导航任务中的零样本表现,发现即使加入思维链和自反思,模型在三维空间推理和上下文感知方面仍存在显著不足。
- Motivation: 尽管多模态大语言模型在各种视觉语言任务中表现出色,但作为具身智能体在需要多轮对话、空间推理和顺序动作预测的导航任务中的能力仍需探索。本文旨在系统评估MLLMs在视觉语言导航中的零样本表现。
- Method: 提出了VLN-MME框架,将传统导航数据集标准化为统一基准,采用高度模块化和可访问的设计简化评估。通过该框架对多种MLLM架构、智能体设计和导航任务进行结构化比较和组件级消融实验。
- Result: 研究发现,即使为基线智能体增强思维链推理和自反思能力,性能反而下降。这表明MLLMs在具身导航任务中上下文感知能力差,虽然能遵循指令并结构化输出,但三维空间推理保真度低。
- Conclusion: VLN-MME为系统评估通用MLLMs在具身导航场景中的表现奠定了基础,揭示了它们在顺序决策能力方面的局限性。这些发现为MLLMs作为具身智能体的后训练提供了重要指导。
[90] OFL-SAM2: Prompt SAM2 with Online Few-shot Learner for Efficient Medical Image Segmentation
Meng Lan,Lefei Zhang,Xiaomeng Li
Main category: cs.CV
TL;DR: OFL-SAM2:无需手动提示的SAM2框架,用于标签高效的医学图像分割,通过轻量级映射网络和在线参数更新实现
- Motivation: SAM2在医学图像分割中面临挑战:需要大量标注数据和高质量手动提示,这些都需要医学专家参与且劳动密集
- Method: 提出OFL-SAM2框架:1) 在线少样本学习器训练映射网络生成目标特征;2) 自适应融合模块动态整合目标特征与SAM2的内存注意力特征
- Result: 在三个不同的医学图像分割数据集上,OFL-SAM2在有限训练数据下实现了最先进的性能
- Conclusion: OFL-SAM2通过消除手动提示需求并支持在线参数更新,为标签高效的医学图像分割提供了有效的解决方案
[91] FinMMDocR: Benchmarking Financial Multimodal Reasoning with Scenario Awareness, Document Understanding, and Multi-Step Computation
Zichen Tang,Haihong E,Rongjin Li,Jiacheng Liu,Linwei Jia,Zhuodi Hao,Zhongjun Yang,Yuanze Li,Haolin Tian,Xinyi Hu,Peizhi Zhao,Yuan Liu,Zhengyu Wang,Xianghe Wang,Yiling Huang,Xueyuan Lin,Ruofei Bai,Zijian Xie,Qian Huang,Ruining Cao,Haocheng Gao
Main category: cs.CV
TL;DR: FinMMDocR是一个双语多模态金融数值推理基准,包含1200个专家标注的问题,涵盖12种金融场景,837份中英文文档,平均推理步骤11步,最佳模型准确率仅58.0%。
- Motivation: 现有基准在金融领域的多模态推理评估存在不足,需要更贴近真实金融场景、包含复杂文档理解和多步计算的基准来推动MLLM在复杂金融推理任务上的进步。
- Method: 构建包含1200个专家标注问题的双语多模态基准,涵盖12种金融场景,837份中英文文档(平均50.8页),问题平均需要11步推理(5.3步信息提取+5.7步计算),65%问题需要跨页证据。
- Result: 最佳表现的MLLM仅达到58.0%准确率,不同检索增强生成方法在该任务上表现差异显著,表明当前模型在复杂金融多模态推理方面仍有很大提升空间。
- Conclusion: FinMMDocR基准填补了金融领域多模态推理评估的空白,能够有效推动MLLM和推理增强方法在真实场景复杂多模态推理任务上的改进。
[92] Semi-Supervised Diversity-Aware Domain Adaptation for 3D Object detection
Bartłomiej Olber,Jakub Winter,Paweł Wawrzyński,Andrii Gamalii,Daniel Górniak,Marcin Łojek,Robert Nowak,Krystian Radlak
Main category: cs.CV
TL;DR: 提出基于神经元激活模式的LiDAR域适应方法,仅需标注目标域中少量代表性样本即可达到SOTA性能,结合持续学习技术防止权重漂移。
- Motivation: 3D目标检测器在自动驾驶感知系统中至关重要,但在不同地理区域(如美国、亚洲、欧洲)之间存在域适应问题,模型泛化能力不足。
- Method: 基于神经元激活模式的LiDAR域适应方法,通过选择目标域中少量代表性、多样化的样本进行标注,结合持续学习启发的后训练技术防止权重漂移。
- Result: 该方法在少量标注预算下,性能优于线性探测和现有域适应技术,实现了最先进的域适应效果。
- Conclusion: 通过神经元激活模式选择少量代表性样本进行标注,结合持续学习技术,可以有效解决3D目标检测器的跨域适应问题,实现高效且高性能的域适应。
[93] HaineiFRDM: Explore Diffusion to Restore Defects in Fast-Movement Films
Rongji Xun,Junjie Yuan,Zhongjie Wang
Main category: cs.CV
TL;DR: HaineiFRDM是一个基于扩散模型的电影修复框架,通过分块训练策略处理高分辨率影片,结合全局提示和帧融合模块,在单GPU上实现高质量修复。
- Motivation: 现有开源电影修复方法性能有限,主要因为使用低质量合成数据训练、采用噪声光流,且未探索高分辨率影片修复。需要开发能更好修复难以识别缺陷的方法。
- Method: 提出HaineiFRDM框架:1)采用分块训练测试策略处理高分辨率影片;2)设计位置感知的全局提示和帧融合模块;3)引入全局-局部频率模块保持纹理一致性;4)先修复低分辨率结果作为全局残差减少块状伪影;5)构建包含真实修复影片和合成数据的电影修复数据集。
- Result: 综合实验结果表明,该模型在缺陷修复能力上显著优于现有开源方法,能够有效处理高分辨率影片修复任务。
- Conclusion: HaineiFRDM通过创新的分块策略和模块设计,成功将扩散模型应用于高分辨率电影修复,为开源社区提供了强大的修复工具和数据集。
[94] CPJ: Explainable Agricultural Pest Diagnosis via Caption-Prompt-Judge with LLM-Judged Refinement
Wentao Zhang,Tao Fang,Lina Lu,Lifei Wang,Weihe Zhong
Main category: cs.CV
TL;DR: CPJ是一个无需训练的小样本框架,通过结构化图像描述提升农业病虫害VQA性能,在CDDMBench上显著优于无描述基线。
- Motivation: 现有作物病害诊断方法依赖昂贵的监督微调,且在领域转移下表现不佳,需要准确且可解释的解决方案。
- Method: CPJ框架使用大型视觉语言模型生成多角度图像描述,通过LLM-as-Judge模块迭代优化,然后进行双答案VQA过程,提供识别和管理建议。
- Result: 在CDDMBench评估中,使用GPT-5-mini描述时,GPT-5-Nano在病害分类上提升22.7个百分点,QA分数提升19.5分,优于无描述基线。
- Conclusion: CPJ提供透明、基于证据的推理,无需微调即可实现稳健且可解释的农业诊断,推动了农业AI的发展。
[95] ProDM: Synthetic Reality-driven Property-aware Progressive Diffusion Model for Coronary Calcium Motion Correction in Non-gated Chest CT
Xinran Gong,Gorkem Durak,Halil Ertugrul Aktas,Vedat Cicek,Jinkui Hao,Ulas Bagci,Nilay S. Shah,Bo Zhou
Main category: cs.CV
TL;DR: ProDM:一种基于扩散模型的渐进式校正框架,用于从非门控胸部CT中恢复无运动钙化斑块,提高冠状动脉钙化评分准确性
- Motivation: 冠状动脉钙化评分是心血管疾病风险评估的重要工具,但非门控胸部CT存在严重运动伪影,影响钙化斑块准确分割。虽然心电门控CT能减少伪影,但应用受限。需要一种方法从常规非门控CT中恢复无运动钙化斑块。
- Method: 提出ProDM(Property-aware Progressive Correction Diffusion Model)生成扩散框架:1)CAC运动模拟数据引擎,从心电门控CT合成具有多样运动轨迹的非门控采集数据;2)属性感知学习策略,通过可微钙化一致性损失保留病变完整性;3)渐进式校正方案,在扩散步骤中逐步减少伪影。
- Result: 在真实患者数据集上,ProDM显著提高了CAC评分准确性、空间病变保真度和风险分层性能。在真实非门控扫描的读者研究中证实能抑制运动伪影并提高临床可用性。
- Conclusion: ProDM展示了渐进式、属性感知框架在常规胸部CT成像中实现可靠CAC量化的潜力,为非门控CT的CAC评分提供了有效解决方案。
[96] VIPER: Process-aware Evaluation for Generative Video Reasoning
Yifan Li,Yukai Gu,Yingqian Min,Zikang Liu,Yifan Du,Kun Zhou,Min Yang,Wayne Xin Zhao,Minghui Qiu
Main category: cs.CV
TL;DR: VIPER是一个用于评估生成式视频推理的过程感知基准测试,包含16个任务,并提出POC@r指标来同时评估中间步骤和最终结果的正确性,发现当前SOTA视频模型仅有约20%的过程一致性。
- Motivation: 当前视频生成模型展现出链式帧推理能力,但现有评估框架多基于单帧评估,容易导致结果作弊(模型通过错误过程得到正确结论),需要过程感知的评估范式。
- Method: 提出VIPER基准测试,涵盖16个任务(时间、结构、符号、空间、物理和规划推理);提出过程-结果一致性指标POC@r,使用VLM-as-Judge和分层评分标准来评估中间步骤和最终结果的有效性。
- Result: 实验显示最先进的视频模型仅达到约20%的POC@1.0,表现出显著的结果作弊现象;测试时缩放和采样鲁棒性分析揭示了当前视频生成与真正广义视觉推理之间的巨大差距。
- Conclusion: 需要过程感知的评估来准确衡量生成式视频推理能力,VIPER基准测试将公开提供以推动该领域发展,当前模型在过程一致性方面仍有很大改进空间。
[97] ShowUI- : Flow-based Generative Models as GUI Dexterous Hands
Siyuan Hu,Kevin Qinghong Lin,Mike Zheng Shou
Main category: cs.CV
TL;DR: ShowUI-π是首个基于流的生成模型GUI灵巧手,统一了离散点击和连续拖拽操作,在ScreenDrag基准测试中优于现有GUI代理
- Motivation: 现有GUI代理依赖离散点击预测,无法实现需要连续感知和调整的自由形式闭环轨迹(如拖动进度条),限制了数字环境中类人自动化的发展
- Method: 提出三个核心设计:1) 统一离散-连续动作,将离散点击和连续拖拽整合到共享模型中;2) 基于流的动作生成,通过轻量级动作专家从连续视觉观察预测增量光标调整;3) 拖拽训练数据和基准,收集合成20K拖拽轨迹并建立ScreenDrag基准
- Result: 在ScreenDrag基准测试中,ShowUI-π仅用450M参数达到26.98分,显著优于现有GUI代理(Operator 13.27分,Gemini-2.5-CUA 22.18分)
- Conclusion: 这项工作展示了基于流的生成模型在GUI灵巧控制中的有效性,推动了数字环境中类人灵巧控制的发展,代码已开源
[98] Evaluating the Impact of Compression Techniques on the Robustness of CNNs under Natural Corruptions
Itallo Patrick Castro Alves Da Silva,Emanuel Adler Medeiros Pereira,Erick de Andrade Barboza,Baldoino Fonseca dos Santos Neto,Marcio de Medeiros Ribeiro
Main category: cs.CV
TL;DR: 该论文全面评估了量化、剪枝和权重聚类等模型压缩技术对CNN在自然损坏环境下鲁棒性的影响,发现某些压缩策略不仅能保持甚至能提高鲁棒性,特别是在复杂架构网络中。
- Motivation: 压缩深度学习模型对于在资源受限设备上部署计算机视觉系统至关重要,但模型压缩可能影响鲁棒性,尤其是在自然损坏环境下。因此,在验证计算机视觉系统时需要考虑鲁棒性评估。
- Method: 对量化、剪枝和权重聚类三种压缩技术进行单独和组合应用,在ResNet-50、VGG-19和MobileNetV2等卷积神经网络上进行评估,使用CIFAR-10-C和CIFAR-100-C数据集分析鲁棒性、准确性和压缩率之间的权衡。
- Result: 结果显示某些压缩策略不仅能保持甚至能提高鲁棒性,特别是在更复杂架构的网络中。通过多目标评估确定了最佳配置,表明定制的技术组合能产生有益的多目标结果。
- Conclusion: 该研究为在损坏的现实环境中选择和部署鲁棒且高效的模型压缩方法提供了见解,表明精心设计的压缩策略可以同时实现模型压缩和鲁棒性提升。
[99] DarkEQA: Benchmarking Vision-Language Models for Embodied Question Answering in Low-Light Indoor Environments
Yohan Park,Hyunwoo Ha,Wonjun Jo,Tae-Hyun Oh
Main category: cs.CV
TL;DR: DarkEQA是一个评估视觉语言模型在低光照条件下感知能力的基准测试,通过模拟物理真实的视觉退化来测试VLM在黑暗环境中的表现。
- Motivation: 现有基准测试主要在理想光照条件下评估VLM,但实际应用中需要VLM在24/7全天候运行,包括夜间或黑暗环境等低光照条件,这一核心需求被严重忽视。
- Method: 提出DarkEQA基准测试,在受控的视觉退化条件下评估VLM的问答能力。关键设计特征是在线性RAW空间模拟物理真实的视觉退化,包括基于物理的照度下降和传感器噪声,然后通过ISP启发的渲染流程处理。
- Result: 通过评估多种最先进的VLM和低光照图像增强模型,系统揭示了VLM在挑战性视觉条件下的局限性。
- Conclusion: DarkEQA填补了VLM在低光照条件下评估的空白,为可归因的鲁棒性分析提供了工具,有助于推动更鲁棒的VLM发展。
[100] Bi-C2R: Bidirectional Continual Compatible Representation for Re-indexing Free Lifelong Person Re-identification
Zhenyu Cui,Jiahuan Zhou,Yuxin Peng
Main category: cs.CV
TL;DR: 本文提出了一种无需重新索引历史图库图像的双向连续兼容表示(Bi-C2R)框架,用于解决终身行人重识别中的特征兼容性问题。
- Motivation: 传统终身行人重识别方法需要为历史图库图像重新提取特征(重新索引),但面临数据隐私问题和计算成本高的挑战。这导致更新后的模型提取的查询特征与旧模型提取的图库特征不兼容,严重影响重识别性能。
- Method: 提出双向连续兼容表示(Bi-C2R)框架,通过持续更新旧模型提取的图库特征,实现无需重新索引的兼容性终身行人重识别。
- Result: 在多个基准测试上的实验表明,该方法在提出的RFL-ReID任务和传统L-ReID任务上都能达到领先性能。
- Conclusion: Bi-C2R框架有效解决了终身行人重识别中的特征兼容性问题,避免了重新索引的需求,在保护数据隐私的同时降低了计算成本。
[101] FoundationSLAM: Unleashing the Power of Depth Foundation Models for End-to-End Dense Visual SLAM
Yuchen Wu,Jiahe Li,Fabio Tosi,Matteo Poggi,Jin Zheng,Xiao Bai
Main category: cs.CV
TL;DR: FoundationSLAM是一个基于学习的单目稠密SLAM系统,通过结合基础深度模型指导,将光流估计与几何推理相结合,实现了高精度、鲁棒的跟踪和建图。
- Motivation: 解决先前基于光流的SLAM方法缺乏几何一致性的问题,实现更准确和鲁棒的跟踪与建图。
- Method: 1. 混合光流网络:生成几何感知的对应关系;2. 双向一致束调整层:联合优化关键帧位姿和深度;3. 可靠性感知细化机制:动态调整光流更新过程。
- Result: 在多个挑战性数据集上实现了优越的轨迹精度和稠密重建质量,实时运行速度达18 FPS,展现出强大的泛化能力和实际应用价值。
- Conclusion: FoundationSLAM成功地将基础深度模型指导与几何推理相结合,解决了光流方法的几何一致性问题,为单目稠密SLAM提供了高效实用的解决方案。
[102] From Inpainting to Editing: A Self-Bootstrapping Framework for Context-Rich Visual Dubbing
Xu He,Haoxian Zhang,Hejia Chen,Changyuan Zheng,Liyang Chen,Songlin Tang,Jiehui Huang,Xiaoqiang Liu,Pengfei Wan,Zhiyong Wu
Main category: cs.CV
TL;DR: 提出自引导视觉配音框架,将配音从修复任务重构为视频编辑问题,通过DiT生成理想训练数据,实现精确唇部同步和身份保持
- Motivation: 现有视觉配音方法缺乏理想的训练数据(仅唇部不同而其他视觉条件完全相同的配对视频),导致模型需要同时生成缺失内容和同步唇部,产生视觉伪影、身份漂移和同步不佳的问题
- Method: 提出自引导框架:1) 使用扩散变换器作为数据生成器,为每个真实样本合成唇部改变的伴生视频,形成视觉对齐的视频对;2) 基于DiT的音频驱动编辑器在这些配对数据上端到端训练;3) 引入时间步自适应多阶段学习策略;4) 提出ContextDubBench评估基准
- Result: 方法实现了高度准确的唇部同步、忠实的身份保持,并在具有挑战性的野外场景中表现出卓越的鲁棒性
- Conclusion: 通过将视觉配音重构为条件良好的视频到视频编辑问题,并提供完整的帧对齐输入条件,该方法从根本上实现了高质量的唇部同步和视觉保真度
[103] FineTec: Fine-Grained Action Recognition Under Temporal Corruption via Skeleton Decomposition and Sequence Completion
Dian Shao,Mingfei Shi,Like Liu
Main category: cs.CV
TL;DR: FineTec:一个用于时间损坏骨架序列细粒度动作识别的统一框架,通过上下文感知补全、骨架空间分解和物理驱动估计来恢复细微动作线索
- Motivation: 现实场景中在线姿态估计常产生大量缺失数据,现有方法难以准确恢复时间动态和细粒度空间结构,导致丢失区分相似动作的关键细微运动线索
- Method: 1) 上下文感知补全修复基础骨架序列;2) 骨架空间分解将骨架分为五个语义区域,按运动方差分为动态/静态子组并生成增强序列;3) 物理驱动估计模块使用拉格朗日动力学计算关节加速度;4) 融合骨架位置和加速度序列输入GCN识别头
- Result: 在粗粒度(NTU-60, NTU-120)和细粒度(Gym99, Gym288)基准测试中显著优于现有方法,在Gym99-severe和Gym288-severe上分别达到89.1%和78.1%的top-1准确率
- Conclusion: FineTec通过统一框架有效处理时间损坏的骨架序列,在细粒度动作识别中表现出强大的鲁棒性和泛化能力
[104] Edit3r: Instant 3D Scene Editing from Sparse Unposed Images
Jiageng Liu,Weijie Lyu,Xueting Li,Yejie Guo,Ming-Hsuan Yang
Main category: cs.CV
TL;DR: Edit3r:无需优化或姿态估计的单次前馈3D场景重建与编辑框架,通过SAM2重着色策略解决多视角监督数据缺失问题,在DL3DV-Edit-Bench上表现优异。
- Motivation: 现有3D编辑方法通常需要逐场景优化,速度慢且需要姿态估计。本文旨在开发一个前馈框架,直接从无姿态、视角不一致的指令编辑图像中单次预测3D编辑结果,实现快速、逼真的渲染。
- Method: 1) 使用SAM2重着色策略生成可靠的多视角一致监督数据;2) 采用非对称输入策略,将重着色参考视图与原始辅助视图配对,鼓励网络融合和对齐不同观察;3) 构建DL3DV-Edit-Bench基准进行大规模评估。
- Result: Edit3r在语义对齐和3D一致性方面优于现有基线方法,推理速度显著更快。即使训练时未接触过InstructPix2Pix等2D编辑方法,推理时也能有效处理此类编辑图像。
- Conclusion: Edit3r实现了快速、逼真的3D场景编辑,无需优化或姿态估计,在语义对齐和3D一致性方面表现优异,有望应用于实时3D编辑应用。
[105] GaMO: Geometry-aware Multi-view Diffusion Outpainting for Sparse-View 3D Reconstruction
Yi-Chuan Huang,Hao-Jen Chien,Chin-Yang Lin,Ying-Huan Chen,Yu-Lun Liu
Main category: cs.CV
TL;DR: GaMO通过多视角外推而非生成新视角来改进稀疏视图3D重建,在保持几何一致性的同时扩大场景覆盖范围,实现了SOTA重建质量并大幅提升速度。
- Motivation: 现有扩散方法在稀疏视图3D重建中存在三个关键问题:已知视角外围覆盖不足、生成视角间几何不一致、计算流程昂贵。需要一种既能保持几何一致性又能扩大场景覆盖的高效方法。
- Method: 提出GaMO框架,通过多视角外推而非生成新视角来重构稀疏视图重建问题。采用多视角条件和几何感知去噪策略,以零样本方式运行无需训练,从现有相机姿态扩展视场。
- Result: 在Replica和ScanNet++数据集上,3、6、9个输入视图下均达到SOTA重建质量,PSNR和LPIPS指标优于先前方法,相比SOTA扩散方法实现25倍加速,处理时间低于10分钟。
- Conclusion: GaMO通过多视角外推方法有效解决了稀疏视图重建中的几何一致性和覆盖范围问题,在保持高质量重建的同时显著提升了计算效率。
[106] SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time
Zhening Huang,Hyeonho Jeong,Xuelin Chen,Yulia Gryaditskaya,Tuanfeng Y. Wang,Joan Lasenby,Chun-Hao Huang
Main category: cs.CV
TL;DR: SpaceTimePilot是一个视频扩散模型,能够解耦空间和时间控制,实现可控的生成式渲染。给定单目视频,它可以独立改变相机视角和运动序列,实现跨时空的连续任意探索。
- Motivation: 现有方法难以在视频生成中独立控制空间(相机视角)和时间(运动序列),缺乏有效的时空解耦机制。同时,缺乏包含同一动态场景连续时间变化的配对视频数据集。
- Method: 1. 引入动画时间嵌入机制,在扩散过程中显式控制输出视频的运动序列;2. 提出时间扭曲训练方案,利用现有多视角数据集模拟时间差异;3. 改进相机条件机制,允许从第一帧开始改变相机;4. 创建CamxTime数据集,提供场景内完全自由的时空视频轨迹。
- Result: 在真实世界和合成数据上的评估表明,SpaceTimePilot实现了清晰的时空解耦,相比先前工作取得了更强的结果。模型能够精确控制相机视角和运动序列,实现连续任意的时空探索。
- Conclusion: SpaceTimePilot通过创新的时间嵌入机制、时间扭曲训练方案和专门的CamxTime数据集,成功实现了视频生成中的时空解耦控制,为可控生成式渲染提供了有效解决方案。
cs.RO
[107] Learning to Feel the Future: DreamTacVLA for Contact-Rich Manipulation
Guo Ye,Zexi Zhang,Xu Zhao,Shang Wu,Haoran Lu,Shihan Lu,Han Liu
Main category: cs.RO
TL;DR: DreamTacVLA:通过触觉世界模型预测未来触觉信号,增强VLA模型在接触丰富操作任务中的物理接触理解能力
- Motivation: 当前VLA模型虽然能映射网络知识到机器人控制,但缺乏物理接触感知能力,在需要力、纹理、滑动等接触推理的任务中表现不佳。现有方法仅使用低维触觉信号,无法捕捉高分辨率动态交互信息。
- Method: 采用分层感知方案:高分辨率触觉图像作为微视觉输入,结合手腕相机局部视觉和第三人称宏观视觉。使用分层空间对齐损失统一策略,对齐触觉token与空间对应部分。通过触觉世界模型微调系统,预测未来触觉信号。构建混合大规模数据集(高保真数字孪生+真实实验)。
- Result: 在接触丰富的操作任务中,DreamTacVLA优于最先进的VLA基线,成功率高达95%,显著提升机器人对物理接触的理解和鲁棒性。
- Conclusion: 通过预测未来触觉状态,DreamTacVLA获得了丰富的接触物理模型,将动作基于真实观察和想象结果,证明了理解物理接触对于鲁棒、触觉感知机器人代理的重要性。
[108] RANGER: A Monocular Zero-Shot Semantic Navigation Framework through Contextual Adaptation
Ming-Ming Yu,Yi Chen,Börje F. Karlsson,Wenjun Wu
Main category: cs.RO
TL;DR: RANGER:基于单目相机的零样本开放词汇语义导航框架,无需深度和位姿信息,具有强上下文学习能力,通过观察短视频即可快速适应新环境
- Motivation: 现有零样本目标导航方法存在两个关键限制:1)严重依赖模拟器提供的精确深度和位姿信息,限制了在真实世界的应用;2)缺乏上下文学习能力,难以快速适应新环境
- Method: 提出RANGER框架,基于3D基础模型,包含关键帧3D重建、语义点云生成、VLM驱动的探索价值估计、高层自适应路径点选择和低层动作执行等组件
- Result: 在HM3D基准测试和真实环境中,RANGER在导航成功率和探索效率方面达到竞争性性能,表现出优越的上下文学习适应性,且无需环境先验3D地图
- Conclusion: RANGER成功解决了现有方法的深度/位姿依赖和缺乏上下文学习能力的问题,为真实世界具身应用提供了更实用的零样本语义导航解决方案
[109] Geometric Multi-Session Map Merging with Learned Local Descriptors
Yanlong Ma,Nakul S. Joshi,Christa S. Robison,Philip R. Osteen,Brett T. Lopez
Main category: cs.RO
TL;DR: GMLD:基于学习的局部描述符框架,用于大规模多会话点云地图合并,通过关键点感知编码器和平面几何变换器提取特征,结合因子图优化实现准确的地图对齐。
- Motivation: 大规模环境中长期自主操作需要多会话地图合并,但现有方法在重叠区域对齐和全局一致性方面存在挑战。
- Method: 使用关键点感知编码器和平面几何变换器提取判别性特征,用于回环检测和相对位姿估计,并在因子图优化阶段加入会话间扫描匹配成本因子。
- Result: 在公开数据集和自采集数据上评估,结果显示地图合并准确、鲁棒且误差低,学习到的特征在回环检测和相对位姿估计中表现优异。
- Conclusion: GMLD框架能够有效实现大规模多会话点云地图的准确合并,为长期自主操作提供可靠的地图对齐解决方案。
[110] Dream2Flow: Bridging Video Generation and Open-World Manipulation with 3D Object Flow
Karthik Dharmarajan,Wenlong Huang,Jiajun Wu,Li Fei-Fei,Ruohan Zhang
Main category: cs.RO
TL;DR: Dream2Flow通过3D物体流作为中间表示,将视频生成模型与机器人控制连接起来,实现零样本的开放世界物体操作
- Motivation: 生成视频模型能够零样本推理开放世界中的物理交互,但难以将其转换为机器人所需的低级动作。需要弥合视频生成与机器人控制之间的"具身鸿沟"
- Method: 提出Dream2Flow框架:1) 从生成的视频中重建3D物体运动;2) 将操作任务表述为物体轨迹跟踪问题;3) 通过轨迹优化或强化学习将3D物体流转换为可执行的低级命令
- Result: 能够零样本指导机器人操作多种类别的物体(刚性、铰接式、可变形、颗粒状),无需任务特定演示。在仿真和真实世界实验中验证了3D物体流作为通用接口的有效性
- Conclusion: 3D物体流是连接视频生成模型与开放世界机器人操作的通用且可扩展的接口,通过分离状态变化与执行器实现,克服了具身鸿沟问题
cs.CL
[111] Break Out the Silverware -- Semantic Understanding of Stored Household Items
Michaela Levi-Richter,Reuth Mirsky,Oren Glickman
Main category: cs.CL
TL;DR: 提出"存储家居物品挑战"基准任务,评估服务机器人预测日常物品存储位置的能力,并开发NOAM混合代理管道,结合视觉场景理解和语言模型推理,接近人类水平表现。
- Motivation: 家庭服务机器人面临的核心挑战是缺乏常识推理能力来推断日常物品的存储位置,这些物品通常隐藏在抽屉、橱柜或壁橱中,无法直接看到。
- Method: 提出NOAM(非可见物品分配模型)混合代理管道,将视觉输入转换为自然语言描述(空间上下文和可见容器),然后提示语言模型(如GPT-4)推断最可能的隐藏存储位置。
- Result: NOAM在预测准确性上显著优于基线方法(随机选择、视觉语言管道、多模态模型),并接近人类表现水平,展示了在家庭环境中部署认知能力代理的最佳实践。
- Conclusion: 存储家居物品挑战为评估服务机器人认知能力提供了重要基准,NOAM方法展示了结合结构化场景理解和语言模型推理的有效性,为家庭服务机器人的常识推理能力发展提供了方向。
cond-mat.mes-hall
[112] Towards autonomous time-calibration of large quantum-dot devices: Detection, real-time feedback, and noise spectroscopy
Anantha S. Rao,Barnaby van Straaten,Valentin John,Cécile X. Yu,Stefan D. Oosterhout,Lucas Stehouwer,Giordano Scappucci,M. D. Stewart,,Menno Veldhorst,Francesco Borsoi,Justyna P. Zwolak
Main category: cond-mat.mes-hall
TL;DR: 提出利用量子点电荷稳定图中的电荷跃迁线网络作为多维探针,实现量子点阵列的自主稳定和噪声分析,为可扩展量子处理器提供校准模块。
- Motivation: 半导体量子点量子比特的性能和可扩展性受到静电漂移和电荷噪声的限制,随着系统扩展到大规模阵列,手动重新校准变得不切实际,需要自主稳定框架。
- Method: 利用重复获取的双量子点电荷稳定图中的电荷跃迁线网络作为多维探针,通过准确跟踪选定跃迁的时域运动来检测电压漂移,识别电荷重配置,并应用补偿更新以维持稳定操作条件。
- Result: 在10量子点器件上展示了鲁棒的稳定性和实时诊断能力,实现了时域噪声谱分析,提取了噪声功率谱密度,识别了两能级涨落器,并分析了阵列中的空间噪声相关性。
- Conclusion: 该方法为量子点量子处理器提供了一个可扩展的自主校准和表征模块,为长时间、高保真度的量子比特操作提供了必要的反馈。
cs.CR
[113] Training-Free Color-Aware Adversarial Diffusion Sanitization for Diffusion Stegomalware Defense at Security Gateways
Vladimir Frants,Sos Agaian
Main category: cs.CR
TL;DR: 提出ADS对抗扩散净化方法,无需训练即可中和扩散模型隐写中的隐藏载荷,而非检测它们,在严格失真限制下实现高安全性
- Motivation: 生成式AI的快速发展使得大规模合成媒体创建成为常态,基于扩散模型的生成式隐写方法能够嵌入高容量载荷而无需微调或辅助解码器,这给检测和修复带来了重大挑战。这些无载体扩散技术难以对抗,因为它们直接从秘密数据生成图像载体,使攻击者能够绕过依赖载体-隐写差异的检测器
- Method: ADS(对抗扩散净化)采用现成的预训练去噪器作为扩散解码器的可微分代理,结合颜色感知的四元数耦合更新规则,在严格失真限制下减少伪影。这是一种无需训练的防御方法,专门用于安全网关
- Result: 在针对最先进的扩散隐写方法Pulsar的评估中,ADS将解码器成功率降至接近零,同时保持最小的感知影响。与标准内容转换相比,ADS提供了更有利的安全-效用权衡
- Conclusion: ADS提供了一种有效的缓解策略来对抗扩散驱动的隐写,通过中和隐藏载荷而非检测它们,为安全网关提供了实用的防御方案
eess.IV
[114] Leveraging Machine Learning for Early Detection of Lung Diseases
Bahareh Rahmani,Harsha Reddy Bindela,Rama Kanth Reddy Gosula,Krishna Yedubati,Mohammad Amir Salari,Leslie Hinyard,Payam Norouzzadeh,Eli Snir,Martin Schoen
Main category: eess.IV
TL;DR: 使用深度学习模型(CNN、VGG16、InceptionV3、EfficientNetB0)分析胸部X光片,实现COVID-19、肺癌和肺炎的快速准确诊断,为医疗资源匮乏地区提供解决方案。
- Motivation: 传统图像处理与先进神经网络结合,建立预测性和预防性医疗范式。为医疗资源有限地区提供快速、准确、非侵入性的诊断方案,改善患者预后。
- Method: 使用深度学习模型(CNN、VGG16、InceptionV3、EfficientNetB0)训练和验证胸部X光片,用于诊断COVID-19、肺癌和肺炎。
- Result: 模型在准确率、精确率、召回率和F1分数方面表现优异,证明了其在真实世界诊断应用中的可靠性和潜力。
- Conclusion: 深度学习模型能够为呼吸系统疾病提供快速准确的诊断,特别是在医疗资源匮乏地区具有重要应用价值。
[115] Targeted Semantic Segmentation of Himalayan Glacial Lakes Using Time-Series SAR: Towards Automated GLOF Early Warning
Pawan Adhikari,Satish Raj Regmi,Hari Ram Shrestha
Main category: eess.IV
TL;DR: 基于Sentinel-1 SAR时间序列数据,开发了针对喜马拉雅高危冰川湖的端到端自动化深度学习监测管道,采用"时间优先"训练策略,实现高精度湖泊边界提取,并构建了可扩展的工程架构支持早期预警系统。
- Motivation: 现有冰川湖溃决洪水监测方法存在两个主要问题:一是优先考虑空间覆盖范围训练通用模型,二是依赖受持续云层影响的光学影像。需要开发针对高危冰川湖的自动化监测系统,为早期预警系统提供技术基础。
- Method: 1) 使用Sentinel-1 SAR时间序列数据;2) 提出"时间优先"训练策略,在4个高危湖泊(Tsho Rolpa, Chamlang Tsho, Tilicho, Gokyo Lake)的精选数据集上训练U-Net with EfficientNet-B3骨干网络;3) 构建Docker化管道,通过ASF Search API自动化数据获取,并通过RESTful端点暴露推理结果。
- Result: 模型在验证集上达到0.9130的IoU分数,证明了"时间优先"训练策略的有效性。系统实现了从静态制图到动态自动化早期预警的范式转变。
- Conclusion: 该方法成功开发了针对高危喜马拉雅冰川湖的自动化监测管道,验证了"时间优先"训练策略的有效性,并为未来早期预警系统的开发提供了可扩展的工程架构基础。
[116] Automated Classification of First-Trimester Fetal Heart Views Using Ultrasound-Specific Self-Supervised Learning
Youssef Megahed,Aylin Erman,Robin Ducharme,Mark C. Walker,Steven Hawken,Adrian D. C. Chan
Main category: eess.IV
TL;DR: 自监督超声基础模型USF-MAE在早孕期胎儿心脏视图分类中表现最佳,相比传统监督学习方法有显著提升
- Motivation: 先天性心脏病是最常见的先天异常,也是新生儿发病和死亡的主要原因。虽然早孕期胎儿超声心动图提供了早期检测机会,但由于心脏结构小、信噪比低以及操作者间差异大,自动化分析具有挑战性。
- Method: 使用自监督超声基础模型USF-MAE,该模型通过掩码自编码在超过370,000张未标记超声图像上进行预训练,涵盖40多个解剖区域。随后在包含6,720张早孕期胎儿超声心动图图像的开源数据集上进行微调,用于分类五个类别:主动脉、房室血流、V征、X征和其他。
- Result: 在独立测试集上,USF-MAE在所有评估指标中表现最佳:准确率90.57%、精确率91.15%、召回率90.57%、F1分数90.71%。相比最强的基线模型ResNet-18,准确率提升2.03%,F1分数提升1.98%。
- Conclusion: 该方法在不依赖激进图像预处理或感兴趣区域裁剪的情况下表现出稳健性能,并显示出对非诊断帧的更好区分能力,为早孕期胎儿心脏超声自动化分析提供了有前景的解决方案。
cs.LG
[117] A Granular Grassmannian Clustering Framework via the Schubert Variety of Best Fit
Karim Salta,Michael Kirby,Chris Peterson
Main category: cs.LG
TL;DR: 提出SVBF-LBG算法,用可训练的Schubert Variety of Best Fit替代传统子空间均值,在保持数学结构的同时提升聚类纯度
- Motivation: 在子空间聚类中,传统使用几何均值或中位数作为数据集代表,但这些方法在Grassmann或flag流形上可能不够理想。需要一种既能保持数学结构又能提高聚类性能的代表性计算方法。
- Method: 引入Schubert Variety of Best Fit (SVBF)作为可训练原型,定义为与每个聚类成员在至少一个固定方向上尽可能相交的子空间。将SVBF集成到Linde-Buzo-Grey (LBG)流程中,形成SVBF-LBG聚类算法。
- Result: 在合成数据、图像数据、光谱数据和视频动作数据上,SVBF-LBG算法相比传统方法获得了改进的聚类纯度,同时保持了数学结构,便于后续分析。
- Conclusion: SVBF-LBG算法通过引入可训练的Schubert Variety原型,在子空间聚类中实现了更好的性能,同时保留了必要的数学结构,为下游分析提供了基础。
[118] GARDO: Reinforcing Diffusion Models without Reward Hacking
Haoran He,Yuxiao Ye,Jie Liu,Jiajun Liang,Zhiyong Wang,Ziyang Yuan,Xintao Wang,Hangyu Mao,Pengfei Wan,Ling Pan
Main category: cs.LG
TL;DR: GARDO框架通过选择性正则化高不确定性样本、自适应更新参考模型、以及多样性感知奖励增强,解决了扩散模型在线RL微调中的奖励破解、探索不足和模式崩溃问题。
- Motivation: 扩散模型在线强化学习微调中,由于代理奖励与真实目标不匹配,常导致奖励破解(代理分数上升但真实图像质量下降)和生成多样性崩溃。现有基于参考策略的正则化方法会牺牲样本效率并阻碍探索。
- Method: 提出GARDO框架:1)选择性正则化高不确定性样本而非普遍应用;2)自适应定期更新参考模型以匹配在线策略能力;3)多样性感知优化,对高质量且高多样性的样本增强奖励。
- Result: 在多种代理奖励和未见指标上的实验表明,GARDO能有效缓解奖励破解,增强生成多样性,同时不牺牲样本效率或探索能力。
- Conclusion: GARDO通过选择性正则化、自适应参考模型更新和多样性感知奖励增强,平衡了样本效率、有效探索和奖励破解缓解的竞争需求,是一个有效且鲁棒的框架。
[119] Lifting Vision: Ground to Aerial Localization with Reasoning Guided Planning
Soham Pahari,M. Srinivas
Main category: cs.LG
TL;DR: 提出ViReLoc视觉推理框架,通过纯视觉表示进行规划和定位,无需依赖文本推理或实时GPS数据,在空间任务中表现优异。
- Motivation: 当前多模态推理系统主要依赖文本信息进行推理,限制了在视觉导航和地理定位等空间任务中的有效性。文本推理难以理解空间依赖关系和几何关系。
- Method: 提出Geo-Consistent Visual Planning范式,开发ViReLoc框架:1) 在视觉域中进行逐步推理编码;2) 使用强化学习目标优化;3) 集成对比学习和自适应特征交互来对齐跨视角并减少视角差异。
- Result: 在多样化的导航和定位场景实验中,ViReLoc在空间推理准确性和跨视角检索性能方面均取得一致提升。
- Conclusion: 视觉推理是导航和定位任务的强有力补充方法,证明此类任务可以在无需实时GPS数据的情况下完成,提供更安全的导航解决方案。
[120] Generative Classifiers Avoid Shortcut Solutions
Alexander C. Li,Ananya Kumar,Deepak Pathak
Main category: cs.LG
TL;DR: 生成式分类器通过建模所有特征(包括核心和虚假相关特征)来避免判别式分类器过度依赖虚假相关性的问题,在分布偏移基准测试中达到SOTA性能。
- Motivation: 判别式分类器容易学习虚假相关性,这些相关性在分布内有效但在轻微分布偏移下就会失效。需要一种能避免过度依赖虚假特征的方法。
- Method: 使用基于类条件生成模型(包括扩散模型和自回归模型)的生成式分类器,建模所有特征而非主要关注虚假特征。训练简单,无需特殊增强、强正则化、额外超参数或对虚假相关性的先验知识。
- Result: 在五个标准图像和文本分布偏移基准测试中达到最先进性能,在医疗和卫星数据集等实际应用中减少虚假相关性的影响。通过高斯玩具设置分析生成式分类器的归纳偏置。
- Conclusion: 生成式分类器通过建模所有特征有效避免虚假相关性依赖,在分布偏移场景中优于判别式分类器,且训练简单无需复杂调整。
eess.SP
[121] A multimodal Transformer for InSAR-based ground deformation forecasting with cross-site generalization across Europe
Wendong Yao,Binhua Huang,Soumyabrata Dev
Main category: eess.SP
TL;DR: 提出基于多模态Transformer的位移地图单步预测模型,用于EGMS时间序列的下一时期位移预测,在爱尔兰东部区域取得最佳性能。
- Motivation: 近实时区域尺度地面变形监测对城市规划、关键基础设施管理和自然灾害缓解日益重要。虽然InSAR和EGMS等提供了密集的历史运动观测,但预测下一观测仍具挑战性,因为需要处理长期趋势、季节周期、突发不连续性(如地震阶跃)和空间异质性的叠加效应。
- Method: 提出多模态基于块的Transformer模型,用于EGMS时间序列的单步固定间隔下一时期位移预测。模型输入包括:近期位移快照、静态运动学指标(仅从训练窗口计算的均值速度、加速度、季节振幅)、谐波年日编码。模型在64x64网格(100km x 100km瓦片)上处理数据。
- Result: 在爱尔兰东部瓦片(E32N34)上,多模态Transformer明显优于CNN-LSTM、CNN-LSTM+Attn和多模态STGCN模型,测试集上达到RMSE = 0.90 mm和R² = 0.97,具有最佳阈值精度。
- Conclusion: 多模态Transformer模型能够有效预测地面位移,为近实时区域尺度变形监测提供了有前景的解决方案,在预测精度上显著优于现有基准模型。
cs.GR
[122] PhysTalk: Language-driven Real-time Physics in 3D Gaussian Scenes
Luca Collorone,Mert Kiray,Indro Spinelli,Fabio Galasso,Benjamin Busam
Main category: cs.GR
TL;DR: PhysTalk:首个将3D高斯泼溅直接与物理模拟器耦合的框架,通过LLM生成代码实时修改3DGS参数,实现基于物理的交互式4D动画生成
- Motivation: 当前视觉特效生成流程缺乏物理真实性和有效的语言界面,需要耗时的离线优化。需要一种能够从文本输入实时生成物理真实、交互式4D动画的解决方案
- Method: 采用3D高斯泼溅场景作为输入,利用大语言模型生成可执行代码,通过轻量级代理和粒子动力学直接修改3DGS参数,无需网格提取直接耦合物理模拟器
- Result: 实现了首个无需训练、计算轻量的开放词汇物理动画框架,支持碰撞感知、多材质物体的物理操作,将工作流从"渲染等待"转变为交互式对话
- Conclusion: PhysTalk通过创新的3DGS与物理模拟器直接耦合设计,使4D动画生成更加普及,为开放词汇物理动画提供了高效实用的解决方案
quant-ph
[123] One-Shot Structured Pruning of Quantum Neural Networks via -Group Engineering and Quantum Geometric Metrics
Haijian Shao,Wei Liu,Xing Deng,Yingtao Jiang
Main category: quant-ph
TL;DR: 提出q-iPrune:基于q-变形群代数结构的量子神经网络结构化剪枝框架,通过任务条件q-重叠距离识别门级冗余,提供理论保证并适应硬件噪声。
- Motivation: 量子神经网络存在严重的门级冗余,阻碍了在NISQ设备上的部署。现有剪枝方法多为启发式或基于梯度的方法,缺乏理论保证。
- Method: 基于q-变形群代数结构,使用任务条件q-重叠距离测量门的功能相似性。在代数一致子群内比较门,仅当替换为子群代表时能保证任务可观测量有界偏差时才移除。引入噪声校准变形参数λ适应硬件缺陷。
- Result: 实验表明q-iPrune能显著减少门数量,同时保持任务性能的有界退化。提供三个理论保证:剪枝完备性、功能等价性误差界、计算可行性。
- Conclusion: q-iPrune为量子神经网络提供了一种理论严谨的结构化剪枝框架,能在保证性能的同时减少门级冗余,适应NISQ设备的噪声环境。
physics.med-ph
[124] q3-MuPa: Quick, Quiet, Quantitative Multi-Parametric MRI using Physics-Informed Diffusion Models
Shishuai Wang,Florian Wiesinger,Noemi Sgambelluri,Carolin Pirkl,Stefan Klein,Juan A. Hernandez-Tamames,Dirk H. J. Poot
Main category: physics.med-ph
TL;DR: 提出基于扩散模型的qMRI映射方法q3-MuPa,结合深度生成模型与物理数据一致性,从4倍加速的MuPa-ZTE扫描(约1分钟)生成高质量定量MRI图
- Motivation: MuPa-ZTE序列虽能实现近乎静默扫描并生成T1、T2和质子密度定量图,但需要进一步提高映射性能和实现额外采集加速
- Method: 训练去噪扩散概率模型(DDPM)将MuPa-ZTE图像序列映射到qMRI图,在推理过程中结合MuPa-ZTE前向信号模型作为显式数据一致性约束
- Result: 方法在合成数据、NISM/ISMRM模体、健康志愿者和脑转移患者中均表现出高精度、降噪和结构细节保留能力,仅用合成数据训练即可良好泛化到真实扫描
- Conclusion: q3-MuPa框架结合MuPa-ZTE采集与物理信息扩散模型,具有快速、静默、定量的临床潜力
Powered by Deepseek & arXiv Daily AI Enhanced