Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Detection of Cyberbullying in GIF using AI
Pal Dave,Xiaohong Yuan,Madhuri Siddula,Kaushik Roy
Main category: cs.CV
TL;DR: 使用VGG16深度学习模型检测GIF中的网络欺凌,准确率达97%,并创建了包含4100多个GIF的数据集
- Motivation: 网络欺凌日益严重,社交媒体上通过GIF/贴图进行欺凌的情况缺乏研究,现有研究主要集中在文本和图像检测,GIF检测研究很少
- Method: 从Twitter收集与网络欺凌相关的标签,使用GIPHY API下载GIF文件,构建包含4100多个GIF的数据集,应用预训练的VGG16深度学习模型进行检测
- Result: 深度学习模型达到97%的准确率,成功创建了可用于网络欺凌检测的GIF数据集
- Conclusion: 该方法能有效检测GIF中的网络欺凌,为研究者提供了宝贵的数据集资源,填补了该领域的研究空白
[2] Near-real time fires detection using satellite imagery in Sudan conflict
Kuldip Singh Atwal,Dieter Pfoser,Daniel Rothbart
Main category: cs.CV
TL;DR: 使用Planet Labs四波段卫星影像和深度学习模型,实现了对苏丹武装冲突中火灾损害的近实时监测,相比基线方法能更准确地捕捉活跃火灾和烧焦区域。
- Motivation: 苏丹持续战争需要快速监测和分析冲突情况,深度学习技术和易获取的卫星遥感影像为近实时监测提供了可能。
- Method: 使用Planet Labs的四波段卫星影像,结合深度学习模型,对武装冲突中的火灾损害进行监测。通过苏丹的五个案例研究验证方法有效性。
- Result: 相比基线方法,自动化方法能更准确地捕捉活跃火灾和烧焦区域。使用八波段影像或时间序列影像仅带来边际增益。
- Conclusion: 四波段卫星影像结合深度学习模型可以有效监测武装冲突中的火灾损害,实现近实时监测,为冲突分析提供快速支持。
[3] Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality
Zekai Luo,Zongze Du,Zhouhang Zhu,Hao Zhong,Muzhi Zhu,Wen Wang,Yuling Xi,Chenchen Jing,Hao Chen,Chunhua Shen
Main category: cs.CV
TL;DR: LivingSwap是首个视频参考引导的人脸交换模型,通过关键帧条件化和视频参考引导实现高保真度和时间一致性,在长视频序列中保持身份稳定。
- Motivation: 视频人脸交换在影视娱乐制作中很重要,但在长而复杂的视频序列中实现高保真度和时间一致性仍然是一个重大挑战。受参考引导图像编辑的启发,探索是否可以利用源视频的丰富视觉属性来增强视频人脸交换的保真度和时间连贯性。
- Method: 提出LivingSwap模型,使用关键帧作为条件信号注入目标身份,实现灵活可控的编辑。结合关键帧条件化和视频参考引导,进行时间拼接以确保长视频序列中稳定的身份保持和高保真重建。为了解决参考引导训练数据稀缺问题,构建了配对人脸交换数据集Face2Face,并通过反转数据对确保可靠的真值监督。
- Result: 大量实验表明,该方法取得了最先进的结果,能够无缝地将目标身份与源视频的表情、光照和动作融合,同时显著减少了制作工作流程中的人工工作量。
- Conclusion: LivingSwap是首个视频参考引导的人脸交换模型,通过创新的关键帧条件化和视频参考引导方法,成功解决了长视频序列中人脸交换的高保真度和时间一致性问题,为影视制作提供了高效解决方案。
[4] Restrictive Hierarchical Semantic Segmentation for Stratified Tooth Layer Detection
Ryan Banks,Camila Lindoni Azevedo,Hongying Tang,Yunpeng Li
Main category: cs.CV
TL;DR: 提出一个显式嵌入解剖层次结构到语义分割的通用框架,通过递归层级预测、限制性输出头和自上而下的特征调节,在牙齿全景X光片上验证了性能提升
- Motivation: 现有层次感知分割方法主要通过损失函数编码解剖结构,提供弱且间接的监督,需要更直接有效的方法来建模解剖层次关系
- Method: 提出一个通用框架:1) 递归层级预测方案,每层重新运行主干网络;2) 限制性输出头;3) 自上而下的特征调节,使用特征线性调制;4) 概率组合规则强制父子类一致性;5) 层次损失结合每层加权Dice、交叉熵和一致性损失
- Result: 在TL-pano数据集(194张全景X光片)上验证,使用UNet和HRNet作为基础模型,层次化变体显著提高了IoU、Dice和召回率,特别是对细粒度解剖结构,产生更解剖学一致的掩码,但召回率提升超过精确度意味着假阳性增加
- Conclusion: 显式层次结构建模提高了性能和临床合理性,特别是在数据有限的牙科成像场景中,为解剖学感知分割提供了有效框架
[5] FRIEDA: Benchmarking Multi-Step Cartographic Reasoning in Vision-Language Models
Jiyoon Pyo,Yuankun Jiao,Dongwon Jung,Zekun Li,Leeje Jang,Sofia Kirsanova,Jina Kim,Yijun Lin,Qin Liu,Junyi Xie,Hadi Askari,Nan Xu,Muhao Chen,Yao-Yi Chiang
Main category: cs.CV
TL;DR: FRIEDA是一个评估大型视觉语言模型在复杂开放式地图推理能力的新基准,测试拓扑、度量和方向三种空间关系,结果显示当前最强模型准确率仅约38%,远低于人类84.87%的表现。
- Motivation: 地图视觉问答需要理解分层符号(符号、几何形状、文本标签)以及与方向和距离相关的空间关系,这些关系通常跨越多个地图且无法通过图表式评估捕获。当前地图VQA研究常将地图视为图表的特例,缺乏专门的评估基准。
- Method: 从各领域和地理区域的文档和报告中收集真实地图图像,基于GIS文献分类,针对所有三类空间关系(拓扑、度量、方向)设计问题。所有问题都需要多步推理,许多需要跨地图定位和推理。在两种设置下评估11个最先进的LVLM:直接设置(提供相关地图)和上下文设置(模型可能需要先识别相关地图)。
- Result: 评估11个最先进的LVLM,即使最强的模型Gemini-2.5-Pro和GPT-5-Think也仅分别达到38.20%和37.20%的准确率,远低于人类84.87%的表现。这揭示了多步地图推理中存在的持续差距。
- Conclusion: FRIEDA作为一个严格的基准,能够推动LVLM空间智能的进步,揭示了当前模型在复杂地图推理能力上的显著不足,为未来研究提供了重要的评估工具。
[6] SSplain: Sparse and Smooth Explainer for Retinopathy of Prematurity Classification
Elifnur Sunger,Tales Imbiriba,Peter Campbell,Deniz Erdogmus,Stratis Ioannidis,Jennifer Dy
Main category: cs.CV
TL;DR: 提出SSplain方法,通过强制平滑性和稀疏性约束,为ROP分类生成结构保持的像素级解释,提升黑盒模型的可解释性。
- Motivation: 神经网络在医疗诊断中应用广泛,但黑盒特性需要解释器帮助临床医生理解和信任模型输出。现有方法无法生成保持输入图像结构(如平滑性和稀疏性)的解释。
- Method: 提出SSplain方法,定义具有组合约束的优化问题,使用交替方向乘子法(ADMM)求解,生成保持图像结构的像素级解释。
- Result: 实验表明SSplain在事后准确性和平滑性分析方面优于常用解释器,能识别与临床医生考虑的ROP判别特征一致的特征,并在其他公开数据集上验证了泛化能力。
- Conclusion: SSplain通过强制平滑性和稀疏性约束,生成了更真实的解释,增强了黑盒模型的可理解性,在医疗图像分析中具有实用价值。
[7] Lost in Translation, Found in Embeddings: Sign Language Translation and Alignment
Youngjoon Jang,Liliane Momeni,Zifan Jiang,Joon Son Chung,Gül Varol,Andrew Zisserman
Main category: cs.CV
TL;DR: 提出统一模型同时处理手语翻译和手语-字幕对齐任务,通过视觉骨干网络、滑动感知映射网络和多任务训练策略,在BSL和ASL数据集上取得SOTA结果。
- Motivation: 开发统一的手语理解模型,同时实现手语翻译和手语-字幕对齐,这对于实际通信、大规模语料库构建和教育应用至关重要。
- Method: 1) 轻量级视觉骨干网络从人体关键点和唇部区域图像捕捉手动和非手动线索;2) 滑动感知映射网络将连续视觉特征聚合为词级嵌入;3) 多任务可扩展训练策略联合优化SLT和SSA。
- Result: 在BOBSL数据集上实现手语翻译和手语-字幕对齐的SOTA结果,在How2Sign数据集上展示强大的零样本泛化和微调性能。
- Conclusion: 该统一模型通过多语言预训练和强模型设计,在不同手语间展现了可扩展翻译的潜力,为实际应用提供了有效解决方案。
[8] Towards Sustainable Universal Deepfake Detection with Frequency-Domain Masking
Chandler Timm C. Doloriel,Habib Ullah,Kristian Hovde Liland,Fadi Al Machot,Ngai-Man Cheung
Main category: cs.CV
TL;DR: 该论文提出了一种基于频域掩码的通用深度伪造检测方法,通过频率掩码增强模型对不同生成模型的泛化能力,同时保持计算效率,实现可持续的深度伪造检测。
- Motivation: 通用深度伪造检测需要能够识别各种生成模型(包括未见过的模型)生成的AI图像,这要求模型具有良好的泛化能力。同时,在绿色AI时代,需要最小化计算开销以实现大规模深度伪造筛查。
- Method: 提出频率域掩码作为深度伪造检测器的训练策略,引入随机掩码和几何变换,重点关注频率掩码因其优越的泛化特性。该方法不依赖空间特征或大规模预训练模型。
- Result: 在GAN和扩散模型生成的图像数据集上实现了最先进的泛化性能,在显著模型剪枝下仍保持性能,提供可扩展且资源友好的解决方案。
- Conclusion: 频率掩码不仅提高了检测准确性,还保持了模型剪枝后的性能,展示了频率掩码作为可持续和可泛化深度伪造检测的实用步骤的潜力。
[9] Mask to Adapt: Simple Random Masking Enables Robust Continual Test-Time Learning
Chandler Timm C. Doloriel
Main category: cs.CV
TL;DR: M2A提出了一种简单的持续测试时自适应方法,通过随机掩码生成不同视图,结合掩码一致性损失和熵最小化损失进行适应,无需复杂的掩码设计或不确定性估计。
- Motivation: 现有的持续测试时自适应方法依赖校准的不确定性或稳定的注意力分数,并引入额外复杂性。作者质疑是否需要定制化的掩码设计,还是简单的随机掩码在强腐蚀下就足够了。
- Method: M2A方法:1)生成短序列的随机掩码视图(空间或频率域);2)使用两个目标函数:掩码一致性损失(对齐不同视图的预测)和熵最小化损失(鼓励自信输出);3)研究两种掩码家族:空间掩码(补丁vs像素)和频率掩码(全频vs低频vs高频)。
- Result: 在CIFAR10C/CIFAR100C/ImageNetC(严重程度5)上,M2A(空间)达到8.3%/19.8%/39.2%的平均错误率,优于或匹配强基线。频率掩码版本表现较差。消融实验显示简单随机掩码有效且鲁棒。
- Conclusion: 简单的随机掩码调度,结合一致性和熵目标,足以驱动有效的测试时自适应,无需依赖不确定性或注意力信号。空间掩码优于频率掩码。
[10] Identification of Deforestation Areas in the Amazon Rainforest Using Change Detection Models
Christian Massao Konishi,Helio Pedrini
Main category: cs.CV
TL;DR: 本文评估了多种基于机器学习的亚马逊雨林砍伐检测模型,通过统一数据集比较了全卷积网络和Transformer架构,并展示了预处理、后处理及模型融合策略能显著提升检测效果,达到80.41%的F1分数。
- Motivation: 亚马逊雨林保护是全球气候变化、生物多样性保护和土著文化保护的重点。虽然已有基于PRODES卫星监测数据的机器学习模型用于砍伐检测,但现有方法存在效果不理想、未采用现代架构(如自注意力机制)、缺乏标准化比较框架等局限。
- Method: 在统一数据集上评估多种变化检测模型,包括全卷积模型和基于Transformer的自注意力网络。研究了不同预处理和后处理技术的影响,如基于连通分量大小的预测区域过滤、纹理替换和图像增强。测试了多种模型融合策略以获得优于单个模型的结果。
- Result: 通过预处理、后处理和模型融合策略,显著提升了单个模型的效果。最佳模型组合达到了80.41%的F1分数,与文献中其他最新工作相当。
- Conclusion: 本文通过系统评估现代变化检测架构、引入预处理和后处理技术、以及采用模型融合策略,显著提升了亚马逊雨林砍伐检测的效果,为标准化比较和进一步研究提供了框架。
[11] CVP: Central-Peripheral Vision-Inspired Multimodal Model for Spatial Reasoning
Zeyuan Chen,Xiang Zhang,Haiyang Xu,Jianwen Xie,Zhuowen Tu
Main category: cs.CV
TL;DR: CVP框架受人类中央和周边视觉启发,通过目标亲和力令牌和以自我为中心的网格增强多模态模型的空间推理能力,在3D场景理解基准上达到SOTA。
- Motivation: 现有方法主要依赖点云、体素或补丁特征等非结构化表示,通过坐标嵌入隐式注入场景上下文,导致空间推理能力有限,缺乏显式的高层结构理解。
- Method: 提出中央-周边视觉启发框架(CVP),包含两个互补组件:1)目标亲和力令牌(类似中央视觉),引导模型关注查询相关对象;2)以自我为中心的网格(类似周边视觉),捕捉全局场景上下文和空间布局。
- Result: CVP在一系列3D场景理解基准测试中实现了最先进的性能。
- Conclusion: 通过模拟人类视觉系统的中央和周边视觉机制,CVP框架能够实现对复杂3D环境的结构化、上下文感知理解,显著提升了空间推理能力。
[12] Fourier-RWKV: A Multi-State Perception Network for Efficient Image Dehazing
Lirong Zheng,Yanshan Li,Rui Yu,Kaihao Zhang
Main category: cs.CV
TL;DR: 提出Fourier-RWKV去雾框架,通过多状态感知范式实现全面雾霾退化建模,在保持线性计算复杂度的同时达到SOTA性能
- Motivation: 传统Transformer方法在非均匀雾条件下存在二次计算复杂度问题,难以实现实时部署,需要一种既能捕获全局上下文又具有线性复杂度的去雾方法
- Method: 基于多状态感知范式,整合三种感知状态:1) 空间形式感知(DQ-Shift操作动态调整感受野);2) 频域感知(Fourier Mix块将RWKV的WKV注意力扩展到傅里叶域);3) 语义关系感知(SBM模块通过DSK-Fusion对齐编解码器特征)
- Result: 在多个基准测试中达到最先进性能,显著降低计算开销,在恢复质量和实际效率之间建立良好平衡
- Conclusion: Fourier-RWKV通过创新的多状态感知范式,成功解决了非均匀雾去雾的挑战,在保持线性复杂度的同时实现了优异的去雾效果,为实时部署提供了可行方案
[13] Accuracy Does Not Guarantee Human-Likeness in Monocular Depth Estimators
Yuki Kubota,Taiki Fukiage
Main category: cs.CV
TL;DR: 研究发现单目深度估计模型的准确性与人类相似性之间存在权衡关系,提高准确性不一定使模型行为更接近人类感知
- Motivation: 尽管深度神经网络在物理基准测试上取得了超人类准确性,但如何使模型表示与人类感知对齐以增强鲁棒性和可解释性仍是关键挑战。研究探讨深度估计中是否存在类似物体识别中的准确性与人类行为之间的权衡关系。
- Method: 使用KITTI数据集系统研究69个单目深度估计器,通过仿射拟合将预测误差分解为可解释的组成部分,分析模型准确性与人类相似性的关系
- Result: 发现人类和深度神经网络共享某些估计偏差(正误差相关性),但模型准确性与人类相似性之间存在明显的权衡关系,提高准确性不一定导致更类似人类的行为
- Conclusion: 需要超越传统准确性评估,开发多方面的、以人类为中心的评估方法,因为仅提高准确性不一定使深度估计模型更接近人类感知
[14] GeoLoom: High-quality Geometric Diagram Generation from Textual Input
Xiaojing Wei,Ting Zhang,Wei He,Jingdong Wang,Hua Huang
Main category: cs.CV
TL;DR: GeoLoom是一个用于几何文本到图表生成的新框架,通过形式化语言和坐标求解实现高精度几何图生成。
- Motivation: 高质量几何图生成既具有挑战性又有机遇:需要严格的空间准确性,同时提供明确的约束条件来指导生成。受几何问题求解中形式化语言和符号求解器在增强正确性和可解释性方面的启发,需要开发一个能够生成精确几何图的框架。
- Method: GeoLoom包含两个核心组件:1) 自动形式化模块,将自然语言翻译为专门设计的生成导向形式语言GeoLinua;2) 坐标求解器,使用高效的蒙特卡洛优化将形式约束映射到精确坐标。还引入了GeoNF数据集来对齐自然语言几何描述和形式化描述,并提出基于约束的评估指标来量化结构偏差。
- Result: 实验结果表明,GeoLoom在结构保真度方面显著优于现有最先进的基线方法,为可解释和可扩展的图表生成提供了原则性基础。
- Conclusion: GeoLoom通过结合形式化语言和优化求解,为几何图生成提供了一个有效且可解释的框架,在保持结构准确性的同时实现了高质量的图表生成。
[15] Animal Re-Identification on Microcontrollers
Yubo Chen,Di Zhao,Yun Sing Koh,Talia Xu
Main category: cs.CV
TL;DR: 提出一个适用于微控制器设备的动物重识别框架,通过优化模型架构和高效微调策略,在保持竞争力的同时将模型大小减少两个数量级。
- Motivation: 在野生动物监测和精准畜牧管理中,需要在无线连接有限的大型户外环境中进行动物重识别。现有模型通常设计用于工作站或服务器,无法在内存小、输入分辨率低的微控制器设备上运行。
- Method: 1. 分析现有动物重识别模型与微控制器硬件之间的差距;2. 设计针对低分辨率输入优化的MobileNetV2架构;3. 提出数据高效微调策略,仅需每个动物身份三张图像即可快速适应新场景。
- Result: 在六个公共动物重识别数据集上,紧凑模型在保持竞争力的检索准确率的同时,将模型大小减少超过两个数量级。在自收集的牛群数据集上,部署模型仅产生小幅准确率下降,且Top-1准确率保持不变。
- Conclusion: 实用的、可适应的动物重识别在微控制器设备上是可行的,为在真实野外环境中进行可扩展部署铺平了道路。
[16] Blur2Sharp: Human Novel Pose and View Synthesis with Generative Prior Refinement
Chia-Hern Lai,I-Hsuan Lo,Yen-Ku Yeh,Thanh-Nguyen Truong,Ching-Chun Huang
Main category: cs.CV
TL;DR: Blur2Sharp:结合3D感知神经渲染和扩散模型,从单张参考视图生成几何一致、清晰的多视角人体图像
- Motivation: 现有方法在生成逼真人像时存在几何不一致或牺牲真实感的问题,导致多视角和复杂运动下产生模糊输出。需要一种能从单张参考视图生成几何一致且清晰的多视角图像的方法。
- Method: 采用双条件架构:1)Human NeRF模型生成几何一致的多视角渲染,提供3D结构指导;2)扩散模型基于这些渲染进行细化,保留细节和结构保真度;3)通过层次特征融合整合纹理、法线和语义先验。
- Result: Blur2Sharp在生成新姿态和新视角任务中持续超越现有技术,特别是在宽松衣物和遮挡等挑战性场景下表现优异。
- Conclusion: Blur2Sharp通过整合3D感知神经渲染和扩散模型,成功解决了从单张参考视图生成几何一致且清晰的多视角人体图像的难题,在真实感和几何一致性方面取得显著提升。
[17] VisKnow: Constructing Visual Knowledge Base for Object Understanding
Ziwei Yao,Qiyang Wan,Ruiping Wang,Xilin Chen
Main category: cs.CV
TL;DR: 提出视觉知识库VisKnow框架,构建结构化多模态对象知识图谱,并以AnimalKB为例展示其在零样本识别、细粒度VQA等任务中的提升效果。
- Motivation: 当前对象理解任务中,多模态数据(视觉标注和文本知识)通常是任务导向且缺乏系统组织,难以实现全面的对象类别理解。需要结构化知识库来整合多模态对象知识。
- Method: 提出VisKnow框架,通过专家设计和大规模模型应用相结合的方式,提取多模态、对象级知识,构建结构化知识图谱。具体构建了AnimalKB知识库,涵盖406个动物类别,包含22K文本知识三元组、420K图像及区域标注。
- Result: AnimalKB能有效提升零样本识别和细粒度视觉问答等对象级视觉任务性能,同时可作为知识图谱补全和部件分割的挑战性基准。实验验证了自动构建视觉知识库的潜力。
- Conclusion: 视觉知识库的自动构建能显著推进视觉理解及其实际应用,VisKnow框架为结构化多模态对象知识提供了有效解决方案。
[18] SOP^2: Transfer Learning with Scene-Oriented Prompt Pool on 3D Object Detection
Ching-Hung Cheng,Hsiu-Fu Wu,Bing-Chen Wu,Khanh-Phong Bui,Van-Tin Luu,Ching-Chun Huang
Main category: cs.CV
TL;DR: 本文探索了提示调优在3D目标检测中的应用,提出了面向场景的提示池(SOP²),验证了提示池在3D检测中的有效性。
- Motivation: 随着大语言模型展现强大泛化能力,通过微调和提示调优等技术可以适应各种下游任务。本文旨在探索常见提示调优方法在3D目标检测中的有效性,研究在Waymo数据集上训练的模型能否作为基础模型适应其他3D检测场景。
- Method: 本文依次研究了提示令牌和提示生成器的影响,并进一步提出了面向场景的提示池(SOP²)。通过系统分析不同提示调优方法在3D目标检测任务中的表现。
- Result: 证明了提示池在3D目标检测中的有效性,展示了基于Waymo数据集训练的模型可以通过提示调优适应其他3D检测场景。
- Conclusion: 本文为未来研究者深入探索提示在3D领域的潜力提供了启发,展示了提示调优技术在3D计算机视觉任务中的应用前景。
[19] New VVC profiles targeting Feature Coding for Machines
Md Eimran Hossain Eimon,Ashan Perera,Juan Merlos,Velibor Adzic,Hari Kalva
Main category: cs.CV
TL;DR: 本文研究了在MPEG-AI FCM标准下使用VVC压缩神经网络中间特征,提出了三种轻量级VVC配置,在保持压缩效率的同时大幅降低编码时间。
- Motivation: 传统视频编码器基于人类视觉系统优化,但在分割推理系统中传输的是神经网络中间特征而非像素数据,这些特征是抽象、稀疏且任务特定的,使得感知保真度不再适用。需要研究如何高效压缩这些特征。
- Method: 在MPEG-AI特征编码标准下使用VVC压缩神经网络特征,进行工具级分析以了解各编码组件对压缩效率和下游视觉任务准确性的影响,基于分析结果提出三种轻量级VVC配置。
- Result: 提出的三种配置:Fast配置获得2.96% BD-Rate增益,编码时间减少21.8%;Faster配置获得1.85% BD-Rate增益,速度提升51.5%;Fastest配置编码时间减少95.6%,仅损失1.71% BD-Rate。
- Conclusion: 研究表明VVC可以有效压缩神经网络中间特征,通过优化配置可以在保持压缩效率的同时显著降低编码复杂度,为分割推理系统中的特征传输提供了高效解决方案。
[20] MM-CoT:A Benchmark for Probing Visual Chain-of-Thought Reasoning in Multimodal Models
Jusheng Zhang,Kaitong Cai,Xiaoyang Guo,Sidi Liu,Qinhan Lv,Ruiqi Chen,Jing Yang,Yijia Fan,Xiaofei Sun,Jian Wang,Ziliang Chen,Liang Lin,Keze Wang
Main category: cs.CV
TL;DR: MM-CoT是一个诊断性基准测试,专门用于评估多模态模型中思维链推理的视觉基础和逻辑连贯性,通过要求模型选择同时满足视觉一致性和逻辑连贯性的事件链来暴露推理缺陷。
- Motivation: 现有的多模态模型虽然能够进行思维链推理,但缺乏验证其推理是否真正基于视觉证据且逻辑连贯的基准测试。当前基准主要关注生成能力而忽视验证能力,无法评估推理的视觉基础和逻辑有效性。
- Method: 设计MM-CoT基准测试,要求模型从多个事件链中选择唯一满足两个正交约束的选项:1) 视觉一致性(所有步骤都基于可观察证据),2) 逻辑连贯性(具有因果和常识有效性)。通过设计违反其中任一约束的对抗性干扰项来暴露不同类型的推理失败。
- Result: 评估领先的视觉语言模型发现,即使最先进的系统在MM-CoT上也表现不佳,揭示了生成流畅性与真实推理保真度之间的显著差距。MM-CoT与现有基准相关性低,确认其测量的是视觉基础和逻辑推理的独特组合。
- Conclusion: MM-CoT为开发未来模型提供了基础,这些模型不仅能够进行看似合理的推理,而且能够在视觉世界中实现忠实且连贯的推理,填补了多模态思维链推理验证能力的空白。
[21] Geometry-Aware Sparse Depth Sampling for High-Fidelity RGB-D Depth Completion in Robotic Systems
Tony Salloom,Dandi Zhou,Xinhai Sun
Main category: cs.CV
TL;DR: 提出了一种基于法线引导的稀疏深度采样策略,利用RGB-D点云的PCA法线估计计算像素级深度可靠性度量,从而生成更符合真实传感器行为的稀疏深度样本,提升深度补全的准确性和边缘处理效果。
- Motivation: 当前深度补全方法中稀疏深度生成不真实,通常从密集真实深度中均匀随机选择像素,忽略了真实传感器具有几何依赖性和空间非均匀可靠性的特点,导致训练条件与真实传感器行为不符。
- Method: 提出法线引导的稀疏深度采样策略:1)在RGB-D点云上使用PCA方法估计表面法线;2)基于法线计算每个像素的深度可靠性度量;3)根据可靠性分布采样稀疏深度样本;4)将该采样方法与Marigold-DC扩散式深度补全模型集成。
- Result: 在NYU Depth v2数据集上的实验表明,几何感知的稀疏深度提高了准确性,减少了边缘和不连续区域的人工痕迹,并产生了更符合真实传感器行为的训练条件。
- Conclusion: 提出的法线引导稀疏深度采样策略能够生成更真实的稀疏深度样本,更好地反映真实传感器的几何依赖性和空间非均匀可靠性,从而提升深度补全模型的性能和实用性。
[22] FastBEV++: Fast by Algorithm, Deployable by Design
Yuanpeng Chen,Hui Song,Wei Tao,ShanHui Mo,Shuang Zhang,Xiao Hua,TianKun Zhao
Main category: cs.CV
TL;DR: FastBEV++:通过算法快速、设计可部署的原则,实现高性能且易于部署的纯相机BEV感知框架,在nuScenes基准上达到SOTA性能(0.359 NDS)和134 FPS实时速度。
- Motivation: 当前纯相机BEV感知面临性能与部署可行性的矛盾:SOTA方法依赖计算密集的视图变换和平台特定的CUDA内核,难以在实际车载系统部署。
- Method: 1. "设计可部署":提出新的视图变换范式,将单块投影分解为标准索引-收集-重塑流水线,使用确定性预排序策略,完全基于基础算子实现,无需定制CUDA内核;2. "算法快速":利用分解结构集成端到端深度感知融合机制,结合时间聚合和鲁棒数据增强提升BEV表示的几何保真度。
- Result: 在nuScenes基准上达到0.359 NDS的新SOTA性能,在Tesla T4等车载硬件上实现超过134 FPS的实时性能,无需定制插件即可高效部署。
- Conclusion: FastBEV++通过算法与设计的协同优化,解决了BEV感知中性能与部署的矛盾,为生产级自动驾驶系统提供了成熟可扩展的解决方案。
[23] HybridToken-VLM: Hybrid Token Compression for Vision-Language Models
Jusheng Zhang,Xiaoyang Guo,Kaitong Cai,Qinhan Lv,Yijia Fan,Wenhao Chai,Jian Wang,Keze Wang
Main category: cs.CV
TL;DR: HTC-VLM提出混合连续-离散双通道框架,通过580:1压缩比实现高效视觉语言建模,在保持87.2%性能的同时解决效率-保真度困境。
- Motivation: 传统视觉语言模型面临计算成本高、内存消耗大的问题。连续压缩会稀释高级语义信息,而离散量化会丢失细粒度细节,需要在效率与保真度之间权衡。
- Method: 采用双通道混合框架:连续通道通过ViT补丁保留细粒度细节,离散通道使用MGVQ量化生成符号锚点(压缩为4个token)。两者融合为580个token的混合序列,再通过解耦注意力掩码和瓶颈压缩为单个voco token。
- Result: 在7个基准测试(GQA、VQAv2、MMBench等)上平均保持87.2%性能,优于领先的连续基线(81.0%),实现580:1压缩比。注意力分析显示压缩token优先关注离散锚点,验证了语义引导效果。
- Conclusion: 极简混合设计能够解决效率-保真度困境,推动可扩展视觉语言模型发展。离散锚点提供语义指导,连续细节补充细粒度信息,实现高效且可靠的表示。
[24] Residual-SwinCA-Net: A Channel-Aware Integrated Residual CNN-Swin Transformer for Malignant Lesion Segmentation in BUSI
Saeeda Naz,Saddam Hussain Khan
Main category: cs.CV
TL;DR: 提出Residual-SwinCA-Net混合分割框架,结合残差CNN和Swin Transformer,在BUSI数据集上实现99.29%准确率的乳腺病变分割
- Motivation: 解决乳腺超声图像分割中局部特征提取、全局依赖学习、噪声抑制和形态完整性保持等挑战,提高临床诊断性能
- Method: 1) 残差CNN模块提取局部相关特征;2) 定制Swin Transformer块学习全局依赖;3) 拉普拉斯-高斯区域算子增强组织连续性;4) 边界导向算子保持病变轮廓完整性;5) 渐进收缩策略捕获尺度不变性;6) MSCAS模块选择性强调显著特征;7) 像素注意力模块自适应加权病变像素
- Result: 在BUSI数据集上达到99.29%平均准确率、98.74% IoU和0.9041 Dice系数,优于现有CNN/ViT技术
- Conclusion: Residual-SwinCA-Net框架显著提升乳腺病变分割性能,增强临床决策支持能力
[25] Distilling Future Temporal Knowledge with Masked Feature Reconstruction for 3D Object Detection
Haowen Zheng,Hu Zhu,Lu Deng,Weihao Gu,Yang Yang,Yanyan Liang
Main category: cs.CV
TL;DR: 提出FTKD方法,通过稀疏查询将离线教师模型的未来帧知识蒸馏到在线学生模型中,提升3D目标检测性能
- Motivation: 现有的知识蒸馏方法主要关注空间特征蒸馏或时间关系蒸馏,忽视了未来帧知识,导致在线模型难以有效学习未来信息
- Method: 提出基于稀疏查询的FTKD方法,包括未来感知特征重建策略(无需严格帧对齐)和未来引导的logit蒸馏(利用教师模型的稳定前景背景上下文)
- Result: 在nuScenes数据集上,应用于两个高性能3D目标检测基线模型,获得最高1.3 mAP和1.3 NDS提升,同时实现最准确的运动速度估计,且不增加推理成本
- Conclusion: FTKD能有效将离线教师模型的未来帧知识转移到在线学生模型,显著提升3D目标检测性能,为自动驾驶中的实时检测提供有效解决方案
[26] Query-aware Hub Prototype Learning for Few-Shot 3D Point Cloud Semantic Segmentation
YiLin Zhou,Lili Wei,Zheming Xu,Ziyi Chen,Congyan Lang
Main category: cs.CV
TL;DR: 提出QHP方法,通过查询感知的枢纽原型学习解决少样本3D点云分割中原型偏差问题,显著提升分割性能
- Motivation: 现有基于度量的原型学习方法仅从支持集生成原型,不考虑与查询数据的相关性,导致原型偏差。当存在分布偏移时,原型过拟合支持集特定特征,无法泛化到查询分布,导致分割性能下降。
- Method: 提出查询感知枢纽原型学习(QHP)方法:1) 枢纽原型生成模块(HPG):构建查询点与支持点的二分图,识别频繁连接的支持枢纽,生成与查询相关的原型;2) 原型分布优化模块(PDO):使用纯度重加权对比损失,将坏枢纽和边界模糊原型拉近到对应类别中心。
- Result: 在S3DIS和ScanNet数据集上的大量实验表明,QHP相比现有最先进方法取得了显著性能提升,有效缩小了原型与查询集之间的语义差距。
- Conclusion: QHP方法通过显式建模支持集与查询集之间的语义相关性,生成查询感知的原型,有效缓解了原型偏差问题,提升了少样本3D点云分割的性能。
[27] SFP: Real-World Scene Recovery Using Spatial and Frequency Priors
Yun Liu,Tao Li,Cosmin Ancuti,Wenqi Ren,Weisi Lin
Main category: cs.CV
TL;DR: 提出SFP方法,结合空间和频率先验进行真实场景恢复,无需复杂网络或合成数据训练
- Motivation: 现有方法要么依赖单一先验无法处理多种退化,要么使用合成数据训练的复杂网络泛化能力差,需要能处理真实世界多种退化场景的有效方法
- Method: 提出空间和频率双域先验:1) 空间域:利用退化图像逆的谱方向投影估计传输图;2) 频率域:构建自适应频率增强掩码,基于两个新先验估计参数(DC分量均值近似和低频占比约1%);最后设计加权融合策略整合空间恢复、频率增强和输入图像显著特征
- Result: 广泛评估表明SFP在各种退化条件下对场景恢复的有效性和优越性
- Conclusion: 提出的SFP方法通过结合空间和频率先验,能够有效处理真实世界的多种退化场景,无需复杂网络架构或合成数据训练
[28] RLCNet: An end-to-end deep learning framework for simultaneous online calibration of LiDAR, RADAR, and Camera
Hafeez Husain Cholakkal,Stefano Arrigoni,Francesco Braghin
Main category: cs.CV
TL;DR: RLCNet是一个用于自动驾驶中LiDAR、RADAR和相机多模态传感器在线标定的端到端深度学习框架,具有实时性和鲁棒性。
- Motivation: 自动驾驶中多传感器(LiDAR、RADAR、相机)的外参标定至关重要,但由于机械振动和动态环境中的传感器漂移等因素,准确标定仍然具有挑战性。
- Method: 提出RLCNet端到端可训练深度学习框架,采用加权移动平均和异常值剔除的在线标定框架,实现动态参数调整并减少预测噪声。
- Result: 在真实世界数据集上验证,RLCNet在多种条件下表现出鲁棒性能,消融研究验证了架构选择的重要性,与现有方法比较显示出更高的准确性和鲁棒性。
- Conclusion: RLCNet为自动驾驶多模态传感器在线标定提供了实用部署解决方案,能够有效应对传感器漂移和动态环境挑战。
[29] EgoX: Egocentric Video Generation from a Single Exocentric Video
Taewoong Kang,Kinam Kim,Dohyeon Kim,Minho Park,Junha Hyung,Jaegul Choo
Main category: cs.CV
TL;DR: EgoX框架通过轻量级LoRA适配和统一条件策略,将第三人称视频转换为第一人称视角,利用几何引导自注意力机制确保几何一致性和视觉保真度。
- Motivation: 从第三人称视角视频生成第一人称视角视频能够为沉浸式理解开辟新可能,但由于相机姿态变化极大、视角重叠极少,这一任务极具挑战性,需要在几何一致的前提下保留可见内容并合成未观察区域。
- Method: EgoX框架利用大规模视频扩散模型的预训练时空知识,通过轻量级LoRA适配进行微调;采用统一条件策略,通过宽度和通道级联结合第三人称和第一人称先验;引入几何引导的自注意力机制,选择性关注空间相关区域。
- Result: 该方法能够生成连贯且真实的第一人称视频,在未见过的和野外视频中展现出强大的可扩展性和鲁棒性。
- Conclusion: EgoX成功解决了从单一第三人称输入生成第一人称视频的挑战,通过创新的条件策略和几何引导机制实现了高质量的视角转换。
[30] PAVAS: Physics-Aware Video-to-Audio Synthesis
Oh Hyun-Bin,Yuhta Takida,Toshimitsu Uesaka,Tae-Hyun Oh,Yuki Mitsufuji
Main category: cs.CV
TL;DR: PAVAS:一种物理感知的视频到音频合成方法,通过物理驱动音频适配器将物理推理融入潜在扩散模型,生成更符合物理规律的声音。
- Motivation: 现有视频到音频生成模型主要基于外观驱动,捕捉视觉-声学相关性,但忽略了塑造真实世界声音的物理因素,导致生成的声音缺乏物理真实性。
- Method: 1. 使用物理参数估计器(PPE)通过视觉语言模型估计物体质量,通过分割和3D重建模块计算运动轨迹和速度;2. 通过物理驱动音频适配器(Phy-Adapter)将这些物理参数融入潜在扩散模型;3. 提出VGG-Impact基准和音频物理相关性系数(APCC)评估指标。
- Result: PAVAS在定量和定性评估中均优于现有V2A模型,能够生成物理上合理且感知连贯的音频,特别是在物体间交互场景中表现出色。
- Conclusion: 将物理推理融入视频到音频合成能够显著提升生成声音的物理真实性和感知质量,为更逼真的视听生成开辟了新方向。
[31] OpenSubject: Leveraging Video-Derived Identity and Diversity Priors for Subject-driven Image Generation and Manipulation
Yexin Liu,Manyuan Zhang,Yueze Wang,Hongyu Li,Dian Zheng,Weiming Zhang,Changsheng Lu,Xunliang Cai,Yan Feng,Peng Pei,Harry Yang
Main category: cs.CV
TL;DR: OpenSubject:一个用于主体驱动生成和编辑的大规模视频数据集,包含250万样本和435万图像,通过四阶段流程构建,显著提升复杂场景下的生成质量
- Motivation: 当前主体驱动图像生成模型在保持参考身份一致性和处理多主体复杂场景方面存在困难,需要高质量的大规模训练数据来解决这些问题
- Method: 四阶段构建流程:1)视频筛选;2)跨帧主体挖掘与配对;3)身份保持的参考图像合成;4)验证与标注。同时提出涵盖生成和编辑的基准评估框架
- Result: OpenSubject数据集包含250万样本和435万图像,实验表明使用该数据集训练能显著提升生成和编辑性能,特别是在复杂场景中
- Conclusion: OpenSubject是一个高质量的大规模数据集,通过利用跨帧身份先验,有效解决了主体驱动生成中的身份一致性和复杂场景处理问题
[32] Terrain Diffusion: A Diffusion-Based Successor to Perlin Noise in Infinite, Real-Time Terrain Generation
Alexander Goslin
Main category: cs.CV
TL;DR: Terrain Diffusion:一种基于扩散模型的程序化地形生成方法,结合了扩散模型的高保真度和传统噪声函数的无限性、一致性、实时访问等特性
- Motivation: 传统程序化噪声(如Perlin噪声)虽然快速且无限,但在真实感和大尺度连贯性方面存在根本限制。需要一种AI时代的新方法,既能保持程序化噪声的优点,又能提供更高的真实感
- Method: 1. InfiniteDiffusion算法实现无限生成;2. 分层扩散模型堆栈耦合行星上下文与局部细节;3. 紧凑拉普拉斯编码稳定地球尺度动态范围输出;4. 开源无限张量框架支持无界张量操作;5. 少步一致性蒸馏实现高效生成
- Result: 建立了扩散模型作为程序化世界生成的实用基础,能够合成整个行星的地形,具有连贯性、可控性和无限制性
- Conclusion: Terrain Diffusion成功地将扩散模型的高保真度与传统程序化噪声的关键特性相结合,为AI时代的程序化世界生成提供了新的基础框架
[33] GeoDM: Geometry-aware Distribution Matching for Dataset Distillation
Xuhui Li,Zhengquan Luo,Zihui Cui,Zhiqiang Xu
Main category: cs.CV
TL;DR: GeoDM:一种几何感知的数据集蒸馏框架,在欧几里得、双曲和球面流形的笛卡尔积空间中操作,通过可学习曲率和权重参数捕获数据的平坦、层次和循环结构,使用最优传输损失增强分布保真度。
- Motivation: 现有分布匹配方法局限于欧几里得空间,只能捕获线性结构而忽略真实数据的固有几何特性(如曲率)。高维数据通常位于低维流形上,因此数据集蒸馏应该使蒸馏数据流形与原始数据流形对齐。
- Method: 提出几何感知分布匹配框架GeoDM,在欧几里得、双曲和球面流形的笛卡尔积空间中操作,引入可学习曲率和权重参数适应底层数据几何,设计最优传输损失增强分布保真度。
- Result: 理论分析表明,在乘积空间中进行几何感知分布匹配比欧几里得对应方法具有更小的泛化误差界。在标准基准测试上的广泛实验表明,该算法优于最先进的数据蒸馏方法,并在各种单几何分布匹配策略中保持有效性。
- Conclusion: GeoDM通过统一表示捕获数据的平坦、层次和循环结构,为数据集蒸馏提供了更有效的几何感知方法,显著提升了性能并具有理论保证。
[34] Detecting Dental Landmarks from Intraoral 3D Scans: the 3DTeethLand challenge
Achraf Ben-Hamadou,Nour Neifar,Ahmed Rekik,Oussama Smaoui,Firas Bouzguenda,Sergi Pujades,Niels van Nistelrooij,Shankeeth Vinayahalingam,Kaibo Shi,Hairong Jin,Youyi Zheng,Tibor Kubík,Oldřich Kodym,Petr Šilling,Kateřina Trávníčková,Tomáš Mojžiš,Jan Matula,Jeffry Hartanto,Xiaoying Zhu,Kim-Ngan Nguyen,Tudor Dascalu,Huikai Wu,and Weijie Liu,Shaojie Zhuang,Guangshun Wei,Yuanfeng Zhou
Main category: cs.CV
TL;DR: 该论文介绍了3DTeethLand挑战赛,这是首个针对口腔内3D扫描的牙齿标志点检测公开数据集和竞赛,旨在通过深度学习技术解决牙齿几何结构复杂性和个体差异带来的挑战。
- Motivation: 牙齿标志点检测是现代临床正畸学的关键任务,对于高级诊断、个性化治疗策略和治疗进展监测至关重要。然而,由于牙齿几何结构复杂且个体间存在显著差异,需要开发先进技术来实现精确可靠的3D牙齿标志点检测。
- Method: 通过组织3DTeethLand挑战赛,与MICCAI 2024会议合作,征集专注于口腔内3D扫描的牙齿标志点检测算法。该挑战赛提供了首个公开可用的3D牙齿标志点检测数据集,用于评估最先进方法并鼓励社区提供方法学贡献。
- Result: 创建了首个公开可用的3D牙齿标志点检测数据集,为评估该任务的最先进方法提供了宝贵资源,并鼓励社区开发具有重要临床意义的问题解决方案。
- Conclusion: 3DTeethLand挑战赛通过提供首个公开数据集和促进算法开发,为解决牙齿标志点检测中的复杂挑战做出了重要贡献,具有显著的临床意义和应用价值。
[35] GeoDiffMM: Geometry-Guided Conditional Diffusion for Motion Magnification
Xuedeng Liu,Jiabao Guo,Zheng Zhang,Fei Wang,Zhi Liu,Dan Guo
Main category: cs.CV
TL;DR: GeoDiffMM:基于扩散的拉格朗日视频运动放大框架,利用光流作为几何线索,实现结构一致的运动放大,有效分离光子噪声与真实微运动。
- Motivation: 现有欧拉方法通过解耦表示学习(纹理、形状、频率方案)处理放大引起的噪声,但在运动位移非常小时仍难以分离光子噪声与真实微运动。
- Method: 1) 无噪声光流增强策略:合成多样非刚性运动场作为监督;2) 扩散运动放大器:以光流为几何先验和可学习放大因子控制幅度;3) 基于光流的视频合成:将放大运动映射回图像域。
- Result: 在真实和合成数据集上的大量实验表明,GeoDiffMM优于现有最先进方法,显著改善运动放大效果。
- Conclusion: 提出的基于扩散的拉格朗日框架通过光流几何线索实现了结构一致的运动放大,能有效分离噪声与真实运动,提升放大质量。
[36] Low Rank Support Quaternion Matrix Machine
Wang Chen,Ziyan Luo,Shuangyue Wang
Main category: cs.CV
TL;DR: 提出LSQMM方法,将RGB通道作为纯四元数处理,通过四元数代数保持通道间固有耦合关系,加入四元数核范数正则化促进低秩结构,使用ADMM算法求解,在多个颜色图像分类数据集上优于现有方法。
- Motivation: 传统方法将颜色图像特征表示为向量、矩阵或三阶张量,但未能有效保持RGB通道间的内在耦合关系。受四元数在图像恢复和去噪任务中成功应用的启发,希望利用四元数代数更好地建模颜色图像,提高分类性能。
- Method: 提出低秩支持四元数矩阵机(LSQMM),将RGB通道作为纯四元数处理,通过四元数代数保持通道间耦合关系。添加四元数核范数正则化项(传统矩阵核范数在四元数域的自然扩展)到铰链损失中,以促进强相关颜色通道产生的低秩结构。设计基于ADMM的迭代算法来有效求解四元数优化模型。
- Result: 在多个颜色图像分类数据集上的实验结果表明,与使用支持向量机、支持矩阵机和支持张量机的最先进方法相比,提出的分类方法在分类精度、鲁棒性和计算效率方面都表现出优势。
- Conclusion: LSQMM方法通过四元数表示有效保持了颜色图像通道间的耦合关系,结合低秩正则化提高了分类性能,为颜色图像分类提供了一种有效的新方法。
[37] Interpreting Structured Perturbations in Image Protection Methods for Diffusion Models
Michael R. Martin,Garrick Chan,Kwan-Liu Ma
Main category: cs.CV
TL;DR: 本文系统分析了Glaze和Nightshade等图像保护机制,发现它们通过结构化、低熵的扰动在特征层面操作,而非语义层面的改变,解释了为何保护信号视觉上微妙但可检测。
- Motivation: 虽然Glaze和Nightshade等图像保护机制在经验上有效,但其内部结构、可检测性和表征行为仍缺乏深入理解。需要系统性的可解释AI分析来揭示这些保护机制的工作原理。
- Method: 采用统一框架,结合白盒特征空间检查(潜在空间聚类、特征通道激活分析、基于遮挡的空间敏感性映射)和黑盒信号级探测(频域表征分析),从表征、空间和频谱多个维度系统分析保护机制。
- Result: 保护机制是结构化、低熵的扰动,紧密耦合于图像内容;保护图像保留了内容驱动的特征组织,但带有保护特定的子结构;可检测性受扰动熵、空间部署和频率对齐的交互效应影响;Glaze和Nightshade沿主导图像对齐频率轴重新分配能量而非引入扩散噪声。
- Conclusion: 当代图像保护通过结构化特征级变形而非语义错位操作,解释了保护信号视觉微妙但一致可检测的原因。这推进了对抗性图像保护的可解释性,并为未来生成AI系统的防御和检测策略设计提供了信息。
[38] PointDico: Contrastive 3D Representation Learning Guided by Diffusion Models
Pengbo Li,Yiding Sun,Haozhe Cheng
Main category: cs.CV
TL;DR: PointDico提出了一种新的3D表示学习方法,通过结合扩散模型和对比模型的优势,解决了现有方法在处理无序点云数据时的局限性,在多个基准测试中取得了最先进的结果。
- Motivation: 现有的自监督表示学习方法在3D数据上面临挑战,因为3D点云数据具有无序性和不均匀密度的特点。对比模型容易过拟合,而3D掩码自编码器难以处理无序点云。这促使研究者探索结合扩散模型和对比模型优势的新方法。
- Method: PointDico通过知识蒸馏无缝集成去噪生成建模和跨模态对比学习,其中扩散模型作为对比模型的指导。采用分层金字塔条件生成器进行多尺度几何特征提取,并使用双通道设计有效整合局部和全局上下文信息。
- Result: PointDico在3D表示学习中达到了新的最先进水平:在ScanObjectNN上达到94.32%的准确率,在ShapeNetPart上达到86.5%的实例级mIoU。
- Conclusion: PointDico成功结合了扩散模型和对比模型的优势,有效解决了3D点云表示学习的挑战,为无序点云数据的自监督学习提供了新的解决方案。
[39] Bi^2MAC: Bimodal Bi-Adaptive Mask-Aware Convolution for Remote Sensing Pansharpening
Xianghong Xiao,Zeyu Xia,Zhou Fei,Jinliang Xiao,Haorui Chen,Liangjian Deng
Main category: cs.CV
TL;DR: 提出Bi^2MAC方法,通过双模态双自适应掩码感知卷积解决遥感图像融合中的区域异质性问题,在降低计算成本的同时提升性能
- Motivation: 传统深度学习方法在特征表示中难以适应区域异质性,现有自适应卷积方法存在计算成本过高和捕获异质区域能力有限的问题
- Method: 设计轻量级模块生成软硬掩码,软掩码初步调制输入特征,硬掩码引导不同类型区域进入不同处理分支:冗余特征进入紧凑分支进行低成本全局处理,异质特征进入聚焦分支进行细粒度建模
- Result: 在多个基准数据集上实现SOTA性能,同时显著降低训练时间和参数数量,在自适应卷积模型中计算成本最小
- Conclusion: Bi^2MAC方法有效利用不同类型区域信息并智能分配计算资源,在遥感图像全色锐化任务中实现了高效高性能的融合
[40] HybridSplat: Fast Reflection-baked Gaussian Tracing using Hybrid Splatting
Chang Liu,Hongliang Yuan,Lianghao Zhang,Sichao Wang,Jianwei Guo,Shi-Sheng Huang
Main category: cs.CV
TL;DR: 提出HybridSplat方法,通过反射烘焙高斯追踪和混合溅射框架,在保持反射质量的同时实现7倍渲染加速和4倍高斯基元减少
- Motivation: 现有3D高斯溅射方法在渲染复杂反射场景时面临渲染速度和内存存储的瓶颈,需要更高效的解决方案
- Method: 提出反射烘焙高斯追踪技术,将视角相关反射烘焙到高斯基元内;采用混合溅射框架整合反射高斯基元和基础高斯基元;引入流水线级加速和反射敏感高斯剪枝
- Result: 在Ref-NeRF和NeRF-Casting复杂反射场景上实现约7倍渲染加速,高斯基元数量比类似射线追踪基线减少4倍,成为复杂反射场景的新SOTA方法
- Conclusion: HybridSplat通过创新的反射烘焙和混合溅射机制,在保持高质量反射渲染的同时显著提升了渲染效率和存储性能
[41] DINO-BOLDNet: A DINOv3-Guided Multi-Slice Attention Network for T1-to-BOLD Generation
Jianwei Wang,Qing Wang,Menglan Ruan,Rongjun Ge,Chunfeng Yang,Yang Chen,Chunming Xie
Main category: cs.CV
TL;DR: DINO-BOLDNet:首个从T1w图像直接生成平均BOLD图像的框架,使用DINOv3引导的多切片注意力网络,在临床数据集上超越条件GAN基线
- Motivation: 当BOLD图像损坏或不可用时,从T1w图像生成BOLD图像可以恢复缺失的BOLD信息并支持下游任务,但目前缺乏直接从T1w生成BOLD图像的有效方法
- Method: 提出DINO-BOLDNet框架:1) 使用冻结的自监督DINOv3编码器提取切片内结构表征;2) 独立的切片注意力模块融合相邻切片上下文信息;3) 多尺度生成解码器恢复细粒度功能对比;4) 基于DINO的感知损失确保预测与真实BOLD在transformer特征空间的结构和纹理一致性
- Result: 在248名受试者的临床数据集上,DINO-BOLDNet在PSNR和MS-SSIM指标上均超越条件GAN基线,是首个能够直接从T1w图像生成平均BOLD图像的框架
- Conclusion: 该工作展示了自监督transformer引导在结构到功能映射中的潜力,为BOLD图像恢复提供了一种有前景的解决方案
[42] TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels
Jiahao Lu,Weitao Xiong,Jiacheng Deng,Peng Li,Tianyu Huang,Zhiyang Dou,Cheng Lin,Sai-Kit Yeung,Yuan Liu
Main category: cs.CV
TL;DR: 提出TrackingWorld,一种在全局坐标系中进行密集3D跟踪的新方法,解决了现有方法在分离相机运动与前景动态运动、以及跟踪新出现动态物体方面的不足。
- Motivation: 现有单目3D跟踪方法存在两个主要局限:1) 难以将相机运动与前景动态运动有效分离;2) 无法密集跟踪视频中新出现的动态物体。需要一种能在全局坐标系中跟踪几乎所有像素的解决方案。
- Method: 提出三阶段方法:1) 跟踪上采样器将稀疏2D跟踪提升为密集2D跟踪;2) 对所有帧应用上采样器,通过消除重叠区域跟踪来减少冗余;3) 基于优化的框架将密集2D跟踪反投影到全局3D轨迹,同时估计相机位姿和3D坐标。
- Result: 在合成和真实世界数据集上的广泛评估表明,该系统在全局坐标系中实现了准确且密集的3D跟踪。
- Conclusion: TrackingWorld成功解决了现有单目3D跟踪方法的局限性,能够在全局坐标系中对几乎所有像素进行密集3D跟踪,为运动分离和新物体跟踪提供了有效解决方案。
[43] SCU-CGAN: Enhancing Fire Detection through Synthetic Fire Image Generation and Dataset Augmentation
Ju-Young Kim,Ji-Hong Park,Gun-Woo Kim
Main category: cs.CV
TL;DR: 提出SCU-CGAN模型,结合U-Net、CBAM和额外判别器,从非火图像生成逼真火图像,提升火灾检测模型性能
- Motivation: 火灾对人类生活造成严重灾害,早期检测至关重要。家庭物联网技术发展催生了家庭火灾检测系统,但缺乏足够的火灾数据集限制了检测模型的性能
- Method: 提出SCU-CGAN模型,整合U-Net架构、CBAM注意力机制和额外判别器,从非火图像生成逼真的火图像,用于数据增强
- Result: SCU-CGAN在图像质量评估中优于现有模型,KID分数比CycleGAN提升41.5%。增强后的数据集显著提高火灾检测模型准确率,YOLOv5 nano模型的mAP@0.5:0.95指标提升56.5%
- Conclusion: SCU-CGAN能有效生成高质量火图像,通过数据增强显著提升火灾检测模型性能,为火灾检测系统提供了有效的数据增强解决方案
[44] The Unseen Bias: How Norm Discrepancy in Pre-Norm MLLMs Leads to Visual Information Loss
Bozhou Li,Xinda Xue,Sihan Yang,Yang Shi,Xinlong Chen,Yushuo Guan,Yuanxing Zhang,Wentao Zhang
Main category: cs.CV
TL;DR: 该论文发现多模态大语言模型中视觉与文本token的范数差异导致不对称更新动态,提出在视觉投影器后添加LayerNorm层来对齐范数,显著提升多模态和纯文本任务性能。
- Motivation: 多模态大语言模型普遍采用Pre-Norm架构,导致视觉token(高范数)与文本token(低范数)存在严重范数差异。这种不平衡不是静态问题,而是引发"不对称更新动态",使高范数视觉token表现出"表征惯性",语义转换速度远慢于文本token,从而损害跨模态特征融合效果。
- Method: 首先通过理论分析证明范数差异导致的不对称更新动态问题。然后提出简单有效的解决方案:在视觉投影器后插入一个精心初始化的LayerNorm层,强制实现视觉与文本token的范数对齐。该方法在LLaVA-1.5架构上进行实验验证。
- Result: 实验证明,在主流MLLMs中范数差异和不对称更新率是普遍现象。提出的LayerNorm干预方法在LLaVA-1.5架构上不仅显著提升了多种多模态基准测试性能,还意外地改善了纯文本评估(如MMLU)的表现,表明解决架构不平衡能产生更全面的模型能力。
- Conclusion: 多模态大语言模型中的范数差异问题导致跨模态融合效率低下,通过简单的LayerNorm层插入实现范数对齐,能有效解决不对称更新动态,显著提升模型在多模态和纯文本任务上的整体性能。
[45] Simultaneous Enhancement and Noise Suppression under Complex Illumination Conditions
Jing Tao,You Li,Banglei Guan,Yang Shang,Qifeng Yu
Main category: cs.CV
TL;DR: 提出一种在复杂光照条件下同时进行图像增强和噪声抑制的新框架,结合梯度域加权引导滤波、Retinex分解和多曝光融合技术
- Motivation: 在挑战性光照条件下,捕获的图像常出现各种退化,影响视觉应用性能。现有方法要么显著放大固有噪声,要么仅在特定光照条件下有效,需要一种能在复杂光照下同时增强和抑制噪声的方法
- Method: 1. 使用梯度域加权引导滤波(GDWGIF)准确估计光照并改善图像质量;2. 应用Retinex模型将图像分解为光照层和反射层;3. 并行处理两个层:校正光照层优化光照条件,增强反射层改善图像质量;4. 通过多曝光融合和线性拉伸策略优化图像动态范围
- Result: 在真实世界数据集上的实验结果表明,该方法在对比度增强和噪声抑制方面相比最先进方法取得了更好的性能
- Conclusion: 提出的框架能有效处理复杂光照条件下的图像退化问题,在增强图像质量的同时抑制噪声,优于现有方法
[46] Detection of Digital Facial Retouching utilizing Face Beauty Information
Philipp Srock,Juan E. Tapia,Christoph Busch
Main category: cs.CV
TL;DR: 该研究提出利用面部美化评估来检测面部修饰,以解决美化图像作为生物特征样本时对识别系统造成的挑战,在未知攻击算法情况下实现了1.1%的D-EER检测率。
- Motivation: 面部修饰美化图像在社交媒体和广告中广泛使用,但当这些美化后的图像作为生物特征样本注册到生物识别系统中时,会对人脸识别系统造成挑战。先前研究已证明面部修饰会影响识别系统性能,因此检测面部修饰变得日益必要。
- Method: 研究分析面部美化评估算法在修饰图像中的变化,评估基于人工智能的不同特征提取方法以改进修饰检测,并探索是否可以利用面部美感评估来提升检测率。
- Result: 在攻击修饰算法未知的情况下,该研究在单图像检测中实现了1.1%的D-EER(检测等错误率)。
- Conclusion: 面部美化评估可以作为有效的面部修饰检测方法,在未知攻击算法的情况下仍能实现较低的检测错误率,为解决美化图像对生物识别系统的挑战提供了可行方案。
[47] Towards Visual Re-Identification of Fish using Fine-Grained Classification for Electronic Monitoring in Fisheries
Samitha Nuwan Thilakarathna,Ercan Avsar,Martin Mathias Nielsen,Malte Pedersen
Main category: cs.CV
TL;DR: 开发了基于深度学习的鱼类重识别系统,使用AutoFish数据集,通过硬三元组挖掘和定制图像变换,Swin-T架构优于ResNet-50,达到90.43%的Rank-1准确率。
- Motivation: 电子监控系统收集的视频数据远超人工处理能力,需要自动化鱼类重识别技术来支持可持续海洋资源管理。
- Method: 使用AutoFish数据集(模拟传送带上的6种相似鱼类),结合硬三元组挖掘和定制图像变换(包括数据集特定归一化),比较Vision Transformer的Swin-T和CNN的ResNet-50架构。
- Result: Swin-T架构优于ResNet-50,达到41.65% mAP@k和90.43% Rank-1准确率;主要挑战是区分同物种的相似个体,视角不一致比部分遮挡影响更大。
- Conclusion: 优化的深度学习流水线能有效自动化鱼类重识别,Vision Transformer在相似鱼类识别任务中表现优于传统CNN,为电子监控系统提供了可行的自动化解决方案。
[48] SAM-Body4D: Training-Free 4D Human Body Mesh Recovery from Videos
Mingqi Gao,Yunqi Miao,Jungong Han
Main category: cs.CV
TL;DR: SAM-Body4D是一个无需训练的框架,通过视频分割和遮挡感知模块实现时间一致且抗遮挡的人体网格恢复
- Motivation: 现有基于图像的HMR方法在处理视频时存在时间不一致性和遮挡下性能下降的问题,需要一种无需额外训练就能解决这些挑战的方法
- Method: 使用可提示的视频分割模型生成身份一致的掩码片段,通过遮挡感知模块恢复缺失区域,然后用精炼的掩码片段指导SAM 3D Body生成一致的全身体网格轨迹,采用基于填充的并行策略实现高效多人推理
- Result: 实验结果表明,SAM-Body4D在具有挑战性的野外视频中实现了更好的时间稳定性和鲁棒性,且无需任何重新训练
- Conclusion: SAM-Body4D通过利用视频中的人体连续性,提供了一种无需训练就能实现时间一致且抗遮挡的人体网格恢复的有效解决方案
[49] Towards Effective and Efficient Long Video Understanding of Multimodal Large Language Models via One-shot Clip Retrieval
Tao Chen,Shaobo Ju,Qiong Wu,Chenxin Fang,Kun Zhang,Jun Peng,Hui Li,Yiyi Zhou,Rongrong Ji
Main category: cs.CV
TL;DR: 提出OneClip-RAG方法,通过单次视频片段检索增强,解决MLLMs处理长视频的内存限制问题,提升长视频理解能力与效率。
- Motivation: 现有MLLMs因内存开销大,只能处理有限帧数的视频,无法有效理解长视频内容。
- Method: 提出OneClip-RAG范式:1) 利用视频片段的完整性优势进行检索增强;2) 设计查询引导的视频分块算法,统一分块与跨模态检索;3) 创建SynLongVideo数据集和渐进式训练策略。
- Result: 在五个MLLMs上验证,性能显著提升:InternLV2 8B和Qwen2-VL 7B在MLVU上达到GPT-4o水平;LLaVA-Video可在单张4090 GPU上2.2分钟内处理1小时视频。
- Conclusion: OneClip-RAG有效解决了MLLMs处理长视频的内存限制,在保持语义连贯性的同时大幅提升处理效率和理解能力。
[50] SDT-6D: Fully Sparse Depth-Transformer for Staged End-to-End 6D Pose Estimation in Industrial Multi-View Bin Picking
Nico Leuze,Maximilian Hoh,Samed Doğan,Nicolas R. -Peña,Alfred Schoettl
Main category: cs.CV
TL;DR: 提出一种基于深度图的6D位姿估计方法,通过多视角融合和稀疏TSDF表示,在工业分拣场景中处理遮挡和纹理缺失问题。
- Motivation: 工业分拣环境中存在严重遮挡、反射和纹理缺失,传统方法难以准确恢复6D位姿,需要一种能处理密集杂乱场景的鲁棒方法。
- Method: 1) 融合多视角深度图生成精细点云或稀疏TSDF;2) 使用分阶段热图机制生成场景自适应注意力先验;3) 提出密度感知稀疏Transformer块处理遮挡;4) 采用逐体素投票策略预测任意数量物体的6D位姿。
- Result: 在IPD和MV-YCB多视角数据集上验证,在工业分拣和家庭分拣场景中表现出竞争力,能处理严重遮挡的杂乱环境。
- Conclusion: 该方法通过完全稀疏的高分辨率体素表示,有效捕获精细几何细节,为密集杂乱场景的6D位姿估计提供了有效解决方案。
[51] LapFM: A Laparoscopic Segmentation Foundation Model via Hierarchical Concept Evolving Pre-training
Qing Xu,Kun Yuan,Yuxiang Luo,Yuhao Zhai,Wenting Duan,Nassir Navab,Zhen Chen
Main category: cs.CV
TL;DR: LapFM是一种用于腹腔镜手术分割的基础模型,通过分层概念演化预训练范式,利用大规模无标注手术图像构建统一的知识结构,显著提升跨手术目标的泛化能力。
- Motivation: 手术分割对场景理解至关重要,但面临标注稀缺和不同手术间语义不一致的挑战。现有方法通常只是对自然基础模型(如SAM)进行微调,仅作为领域适配器而非真正的手术基础模型,难以泛化到多样化的手术目标。
- Method: 提出分层概念演化预训练范式:1)通过分层掩码解码器建立腹腔镜概念层次结构,统一解剖、组织和器械等实体;2)提出置信度驱动的演化标注,基于分层一致性迭代生成和过滤伪标签,逐步将可靠样本纳入训练,构建LapBench-114K大规模数据集。
- Result: LapFM在广泛实验中显著优于最先进方法,为通用腹腔镜分割建立了粒度自适应泛化的新标准。构建了包含114K图像-掩码对的大规模基准数据集。
- Conclusion: LapFM成功解决了手术分割中的标注稀缺和语义不一致问题,通过分层概念演化预训练构建了真正的手术基础模型,实现了跨手术目标的强大泛化能力,为手术场景理解提供了新的解决方案。
[52] Leveraging Multispectral Sensors for Color Correction in Mobile Cameras
Luca Cogo,Marco Buzzelli,Simone Bianco,Javier Vazquez-Corral,Raimondo Schettini
Main category: cs.CV
TL;DR: 提出一个统一的端到端学习框架,联合利用高分辨率RGB传感器和辅助低分辨率多光谱传感器进行色彩校正,相比现有方法显著提升色彩准确性。
- Motivation: 现有的快照多光谱成像技术为消费和移动设备提供了紧凑、低成本的光谱传感器,能够比传统RGB传感器捕获更丰富的光谱信息,从而增强色彩校正等关键成像任务。然而,大多数现有方法将色彩校正流程分为多个独立阶段,往往在早期就丢弃了多光谱数据。
- Method: 提出一个统一的、基于学习的框架,将整个色彩校正流程集成在单一模型中,联合利用高分辨率RGB传感器和辅助低分辨率多光谱传感器的数据。通过重构两种不同的最先进的图像到图像架构来展示框架的灵活性和通用性。构建专门的数据集用于训练和评估。
- Result: 广泛的实验表明,该方法提高了色彩准确性和稳定性,与仅使用RGB和多光谱驱动的基线方法相比,误差减少了高达50%。
- Conclusion: 该研究提出了一个端到端的统一学习框架,能够有效联合利用RGB和多光谱数据进行色彩校正,显著提升了色彩准确性,为多光谱成像在消费设备中的应用提供了有力解决方案。
[53] Uncertainty-Aware Subset Selection for Robust Visual Explainability under Distribution Shifts
Madhav Gupta,Vishak Prasad C,Ganesh Ramakrishnan
Main category: cs.CV
TL;DR: 该论文提出了一种结合子模子集选择和分层梯度不确定性估计的框架,以提升深度视觉模型在分布外场景下的解释鲁棒性和保真度。
- Motivation: 现有基于子集选择的方法在分布内(ID)设置下表现良好,但在分布外(OOD)条件下可靠性显著下降,产生冗余、不稳定且对不确定性敏感的解释。需要改进OOD场景下的解释鲁棒性。
- Method: 提出一个结合子模子集选择和分层梯度不确定性估计的框架。通过自适应权重扰动估计不确定性,并利用这些估计指导子模优化,确保多样化和信息丰富的子集选择。无需额外训练或辅助模型。
- Result: 实证评估表明,该框架不仅缓解了现有方法在OOD场景下的弱点,还在ID设置中带来改进。增强了归因和对象级可解释性。
- Conclusion: 研究揭示了当前基于子集方法的局限性,并展示了不确定性驱动优化如何提升归因和对象级可解释性,为现实世界视觉应用中更透明和可信的AI铺平道路。
[54] Team-Aware Football Player Tracking with SAM: An Appearance-Based Approach to Occlusion Recovery
Chamath Ranasinghe,Uthayasanker Thayasivam
Main category: cs.CV
TL;DR: 提出基于SAM的轻量级足球运动员跟踪方法,结合CSRT跟踪器和球衣颜色外观模型,在资源受限下实现实时跟踪,在轻度遮挡下保持100%成功率,但在长期离场遮挡中重识别效果有限。
- Motivation: 足球运动员跟踪面临频繁遮挡、相似外观和快速运动的挑战,需要轻量级且鲁棒的跟踪方法,特别是在资源受限的实际部署场景中。
- Method: 提出团队感知跟踪系统:1) 使用SAM进行精确初始化;2) 结合CSRT跟踪器;3) 基于HSV直方图的球衣颜色外观模型进行重识别;4) 评估三个维度:处理速度、跟踪准确性和鲁棒性。
- Result: 在足球视频序列上达到7.6-7.7 FPS,内存使用稳定(~1880 MB),轻度遮挡下100%跟踪成功率,拥挤禁区场景下90%成功率,重度遮挡中50%恢复率,但长期离场遮挡仅8.66%重获成功率。
- Conclusion: SAM+CSRT组合在连续可见性场景中表现良好,但需要更强的重识别机制处理长期遮挡。为资源受限的足球跟踪系统部署提供了实用指南,展示了领域特定线索的价值。
[55] ContextDrag: Precise Drag-Based Image Editing via Context-Preserving Token Injection and Position-Consistent Attention
Huiguo He,Pengyu Yan,Ziqi Yi,Weizhi Zhong,Zheng Liu,Yejun Tang,Huan Yang,Kun Gai,Guanbin Li,Lianwen Jin
Main category: cs.CV
TL;DR: ContextDrag是一种基于拖拽的图像编辑新范式,通过利用编辑模型的强大上下文建模能力,结合VAE编码的参考图像特征,实现更连贯、保真度更高的编辑效果,无需微调或反转。
- Motivation: 现有基于拖拽的图像编辑方法未能充分利用参考图像的上下文信息(包括细粒度纹理细节),导致编辑结果在连贯性和保真度方面存在局限。
- Method: 1. 提出Context-preserving Token Injection (CTI),通过Latent-space Reverse Mapping (LRM)算法将无噪声的参考特征注入到正确目标位置;2. 采用Position-Consistent Attention (PCA),对参考标记进行位置重新编码,并应用重叠感知掩码消除无关参考特征的干扰。
- Result: 在DragBench-SR和DragBench-DR上的大量实验表明,该方法超越了所有现有的SOTA方法。
- Conclusion: ContextDrag通过有效利用参考图像的上下文信息,实现了精确的拖拽控制,同时在语义和纹理细节上保持一致性,为基于拖拽的图像编辑提供了新的解决方案。
[56] Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform
Yuning Gong,Yifei Liu,Yifan Zhan,Muyao Niu,Xueying Li,Yuanjun Liao,Jiaming Chen,Yuanyuan Gao,Jiaqi Chen,Minming Chen,Li Zhou,Yuning Zhang,Wei Wang,Xiaoqing Hou,Huaxi Huang,Shixiang Tang,Le Ma,Dingwen Zhang,Xue Yang,Junchi Yan,Yanchi Zhang,Yinqiang Zheng,Xiao Sun,Zhihang Zhong
Main category: cs.CV
TL;DR: Visionary是一个基于WebGPU的开放、轻量级平台,用于实时渲染3D高斯泼溅和网格,支持动态神经处理和生成模型,显著降低了3DGS方法部署和比较的门槛。
- Motivation: 现有3D高斯泼溅(3DGS)的查看器解决方案存在碎片化、笨重或受限于传统管道的问题,导致部署困难,且对动态内容和生成模型支持有限。
- Method: 构建基于WebGPU的高效渲染器,支持每帧ONNX推理;引入标准化的高斯生成器合约,支持即插即用算法;提供three.js插件库和TypeScript API。
- Result: 在相同3DGS资源下,Visionary通过GPU基元排序实现了比现有Web查看器更优的渲染效率;已支持多种变体,包括MLP-based 3DGS、4DGS、神经化身和风格转换网络。
- Conclusion: Visionary通过在浏览器中统一推理和渲染,显著降低了3DGS系列方法的复制、比较和部署门槛,成为重建和生成范式的统一世界模型载体。
[57] Temporal Concept Dynamics in Diffusion Models via Prompt-Conditioned Interventions
Ada Gorgun,Fawaz Sammani,Nikos Deligiannis,Bernt Schiele,Jonas Fischer
Main category: cs.CV
TL;DR: 提出PCI框架分析扩散模型中概念形成的时序动态,通过概念插入成功率研究噪声何时转化为特定概念并锁定去噪轨迹
- Motivation: 现有扩散模型评估主要关注最终输出,但生成过程沿着轨迹展开,分析这一动态过程对于理解模型的可控性、可靠性和可预测性至关重要。需要研究噪声何时转化为特定概念并锁定去噪轨迹
- Method: 提出PCI(Prompt-Conditioned Intervention)框架,无需训练且模型无关。核心思想是分析概念插入成功率(CIS),定义为在给定时间步插入的概念在最终图像中被保留和反映的概率,从而表征概念形成的时间动态
- Result: 应用于多个最先进的文本到图像扩散模型和广泛的概念分类,PCI揭示了扩散模型之间不同的时间行为,轨迹的某些阶段对特定概念更有利,即使在同一概念类型内也是如此
- Conclusion: 这些发现为文本驱动的图像编辑提供了可操作的见解,指出了何时干预最有效,无需访问模型内部或进行训练,相比强基线实现了语义准确性和内容保留的更好平衡
[58] On-the-fly Large-scale 3D Reconstruction from Multi-Camera Rigs
Yijia Guo,Tong Hu,Zhiwei Li,Liwen Hu,Keming Qian,Xitong Lin,Shengbo Chen,Tiejun Huang,Lei Ma
Main category: cs.CV
TL;DR: 首个针对多相机阵列的实时3D高斯泼溅重建框架,通过多相机融合实现无漂移轨迹估计和高效在线重建,在2分钟内重建数百米场景。
- Motivation: 现有单目3DGS实时重建方法因视野有限无法实现完整3D覆盖,多相机阵列能从根本上解决此问题,但缺乏相应的实时重建框架。
- Method: 提出分层相机初始化方案实现无标定的粗略相机对齐,轻量级多相机束调整稳定轨迹,冗余消除高斯采样策略和频率感知优化调度器减少基元数量和迭代次数。
- Result: 仅使用原始多相机视频流在2分钟内重建数百米3D场景,在速度、鲁棒性和保真度方面达到前所未有的水平。
- Conclusion: 该方法首次实现了多相机阵列的实时3D高斯泼溅重建,解决了单目方法视野受限的问题,为高效在线3D场景重建提供了新方案。
[59] Disrupting Hierarchical Reasoning: Adversarial Protection for Geographic Privacy in Multimodal Reasoning Models
Jiaming Zhang,Che Wang,Yang Cao,Longtao Huang,Wei Yang Bryan Lim
Main category: cs.CV
TL;DR: ReasonBreak:针对多模态大推理模型地理定位隐私威胁的对抗性框架,通过概念感知扰动破坏其层次推理链,在GeoPrivacy-6K数据集上验证效果显著优于现有方法。
- Motivation: 多模态大推理模型(MLRMs)通过层次化思维链推理从个人图像中推断精确地理位置,构成严重隐私威胁。现有隐私保护技术主要针对感知模型设计,对MLRMs的多步推理过程无效。
- Method: 提出ReasonBreak对抗框架,基于关键洞察:有效破坏地理推理需要与概念层次对齐的扰动而非均匀噪声。策略性地针对推理链中的关键概念依赖关系,生成使特定推理步骤失效并级联影响后续推理的扰动。贡献GeoPrivacy-6K数据集(6,341张超高清图像,含层次概念标注)。
- Result: 在7个最先进的MLRMs(包括GPT-o3、GPT-5、Gemini 2.5 Pro)上广泛评估,ReasonBreak在区域级保护上提升14.4%(33.8% vs 19.4%),在街区级保护上几乎翻倍(33.5% vs 16.8%)。
- Conclusion: 这项工作为对抗基于推理的隐私威胁建立了新范式,证明了概念感知扰动在破坏MLRMs层次推理方面的有效性,为未来隐私保护技术发展提供了新方向。
[60] Beyond the Noise: Aligning Prompts with Latent Representations in Diffusion Models
Vasco Ramos,Regev Cohen,Idan Szpektor,Joao Magalhaes
Main category: cs.CV
TL;DR: 提出NoisyCLIP方法,在去噪过程中早期检测文本/图像对齐问题,实现实时对齐评估,减少50%计算成本同时保持98%的CLIP对齐性能。
- Motivation: 当前条件扩散模型存在错位和幻觉问题,需要自动错位检测工具。传统方法需要等待完整生成后才能评估对齐,计算成本高且效率低。
- Method: 提出NoisyCLIP方法,在噪声潜在空间中测量语义对齐,使用双编码器在反向扩散过程中检测提示到潜在的对齐错位。
- Result: 在BoN设置中减少50%计算成本,达到98%的CLIP对齐性能,实现实时对齐评估而不牺牲语义保真度。
- Conclusion: NoisyCLIP首次探索并基准测试了在图像生成过程中使用双编码器检测提示到潜在的对齐错位,为实时对齐评估提供了高效解决方案。
[61] OCCDiff: Occupancy Diffusion Model for High-Fidelity 3D Building Reconstruction from Noisy Point Clouds
Jialu Sui,Rui Liu,Hongsheng Zhang
Main category: cs.CV
TL;DR: OCCDiff:基于占用函数空间潜在扩散的建筑物重建方法,通过函数自编码器和潜在扩散过程生成连续占用函数,对噪声数据具有鲁棒性。
- Motivation: 从LiDAR点云重建建筑物面临的主要挑战在于准确捕捉不同点密度和噪声干扰下的建筑表面。需要一种灵活的方法来获取多样分辨率下的高质量3D建筑轮廓。
- Method: 提出OCCDiff方法,在占用函数空间应用潜在扩散。结合潜在扩散过程和函数自编码器架构生成可在任意位置评估的连续占用函数。引入点编码器为扩散学习提供条件特征,约束占用解码器的最终占用预测,并为潜在编码器插入多模态特征。采用多任务训练策略增强模型性能。
- Result: 实验结果表明,该方法生成物理一致且对目标分布具有高保真度的样本,对噪声数据表现出鲁棒性。
- Conclusion: OCCDiff通过占用函数空间的潜在扩散,实现了对LiDAR点云中建筑物的高质量重建,能够处理不同点密度和噪声干扰,生成连续且物理一致的建筑表面表示。
[62] Thinking with Images via Self-Calling Agent
Wenxi Yang,Yuzhong Zhao,Fang Wan,Qixiang Ye
Main category: cs.CV
TL;DR: 提出Self-Calling Chain-of-Thought (sCoT)视觉推理范式,将交错多模态CoT转化为纯语言CoT,通过主代理分解任务并调用虚拟子代理解决原子子任务,显著提升训练效率和效果。
- Motivation: 现有基于图像的思维范式虽然展示了强大的视觉推理能力,但通过强化学习优化交错多模态CoT存在挑战,主要依赖稀缺的高质量推理数据。
- Method: 提出sCoT范式:1)主代理将复杂视觉推理任务分解为原子子任务;2)调用参数共享的虚拟子代理在隔离上下文中解决子任务;3)使用组相对策略优化来强化有效推理行为;4)无需显式的模态交错。
- Result: 在HR-Bench 4K上的实验表明,sCoT将整体推理性能提升高达1.9%,同时减少约75%的GPU小时,相比强基线方法显著提升训练效率和效果。
- Conclusion: sCoT通过将交错多模态CoT转化为纯语言CoT的自调用范式,有效解决了训练数据稀缺和优化困难的问题,在提升推理性能的同时大幅降低了计算成本。
[63] Beyond Real Weights: Hypercomplex Representations for Stable Quantization
Jawad Ibn Ahad,Maisha Rahman,Amrijit Biswas,Muhammad Rafsan Kabir,Robin Krambroeckers,Sifat Momen,Nabeel Mohammed,Shafin Rahman
Main category: cs.CV
TL;DR: 提出渐进式重参数化策略,用紧凑的PHM层逐步替换密集前馈网络块,压缩多模态语言模型,减少参数和计算量同时保持性能
- Motivation: 多模态语言模型需要大量参数对齐高维视觉特征和语言表示,导致计算量大、部署困难,需要更高效的压缩方法
- Method: 渐进式重参数化策略:逐步用参数化超复数乘法(PHM)层替换密集前馈网络块;使用残差插值调度、轻量级重构和知识蒸馏损失确保PHM模块继承原始功能
- Result: 在多个视觉语言模型上评估,方法保持与基础模型相当的性能,同时显著减少模型大小和推理延迟
- Conclusion: 渐进式PHM替换为多模态推理提供了架构兼容的高效路径,可补充现有的低比特量化技术
[64] MVP: Multiple View Prediction Improves GUI Grounding
Yunzhu Zhang,Zeyu Pan,Zhengwen Zeng,Shuheng Shen,Changhua Meng,Linchao Zhu
Main category: cs.CV
TL;DR: 提出MVP框架解决GUI grounding中坐标预测不稳定的问题,通过多视角推理提升性能
- Motivation: 现有GUI grounding模型存在严重的坐标预测不稳定性问题,微小的视觉扰动(如裁剪几个像素)就会导致预测结果在正确和错误之间剧烈变化,这种不稳定性严重影响了模型性能,特别是在高分辨率和小UI元素的样本上
- Method: 提出Multi-View Prediction (MVP)训练免费框架,包含两个组件:1) Attention-Guided View Proposal:基于指令到图像的注意力分数生成多样化的视图;2) Multi-Coordinates Clustering:通过选择最密集空间簇的质心来集成多个预测结果
- Result: 在ScreenSpot-Pro基准测试中,MVP显著提升了多个模型的性能:UI-TARS-1.5-7B提升至56.1%,GTA1-7B提升至61.7%,Qwen3VL-8B-Instruct提升至65.3%,Qwen3VL-32B-Instruct提升至74.0%
- Conclusion: MVP框架通过多视角推理有效解决了GUI grounding中的坐标预测不稳定性问题,显著提升了各种模型在不同基准测试上的性能,且无需额外训练
[65] PaintFlow: A Unified Framework for Interactive Oil Paintings Editing and Generation
Zhangli Hu,Ye Chen,Jiajun Yao,Bingbing Ni
Main category: cs.CV
TL;DR: 提出统一多模态油画生成与编辑框架,通过空间对齐、语义增强和自监督风格迁移技术,实现交互式油画创作。
- Motivation: 油画作为融合抽象思维与艺术表达的高级媒介,其复杂的笔触动态和风格化特性给数字生成与编辑带来巨大挑战。现有技术受限于训练数据分布,主要关注真实照片修改,难以处理油画创作。
- Method: 1) 训练阶段采用空间对齐和语义增强条件策略,将掩码和草图映射为空间约束,从参考图像和文本编码上下文嵌入作为特征约束;2) 基于笔触渲染的自监督风格迁移管道,模拟油画修复的修复动态,构建大规模配对训练数据集;3) 推理阶段使用AdaIN算子集成特征确保风格一致性。
- Result: 实验证明该系统能够在保持油画艺术品质的同时实现细粒度编辑,在风格化油画生成与编辑中达到前所未有的想象力实现水平。
- Conclusion: 提出的统一多模态框架成功解决了油画数字生成与编辑的挑战,通过交互式创作系统实现了语义控制、空间对齐和风格一致性的平衡,为油画艺术创作提供了新的可能性。
[66] Photo3D: Advancing Photorealistic 3D Generation through Structure-Aligned Detail Enhancement
Xinyue Liang,Zhinyuan Ma,Lingchen Sun,Yanjun Guo,Lei Zhang
Main category: cs.CV
TL;DR: Photo3D是一个通过GPT-4o-Image生成图像数据驱动的框架,用于提升3D生成的真实感,通过结构对齐的多视角合成和细节增强技术解决现有3D生成器纹理细节不足的问题。
- Motivation: 现有3D原生生成器在几何结构上可靠,但在真实感外观上不足,主要障碍是缺乏高质量、纹理丰富的真实世界3D数据,因为数据采集面临场景尺度多样、物体非刚性运动和3D扫描精度有限等挑战。
- Method: 1. 使用GPT-4o-Image生成图像数据;2. 设计结构对齐的多视角合成流程,构建细节增强的多视角数据集;3. 提出真实感细节增强方案,利用感知特征适应和语义结构匹配来保持外观细节真实性和结构一致性;4. 为不同3D原生生成器设计专门的训练策略。
- Result: 实验表明Photo3D在不同3D原生生成范式上泛化良好,实现了最先进的真实感3D生成性能。
- Conclusion: Photo3D通过利用生成图像数据和创新的细节增强技术,有效解决了3D生成中真实感不足的问题,为不同3D生成范式提供了通用的解决方案。
[67] Fast-ARDiff: An Entropy-informed Acceleration Framework for Continuous Space Autoregressive Generation
Zhen Zou,Xiaoxiao Ma,Jie Huang,Zichao Yu,Feng Zhao
Main category: cs.CV
TL;DR: Fast-ARDiff提出了一种统一的AR-扩散混合框架,通过熵感知推测解码和动态调度,同时加速AR生成和扩散去噪,实现4.3倍无损加速。
- Motivation: 现有的AR-扩散混合范式结合了AR的结构化建模和扩散的光照真实合成优势,但由于顺序AR生成和迭代去噪导致延迟过高,需要解决这一瓶颈。
- Method: 1) 熵感知推测策略:鼓励草稿模型生成与目标模型熵特性对齐的高熵表示,减少熵不匹配和拒绝率;2) 动态调度:将扩散解码集成到端到端框架,通过联合蒸馏(轨迹和分布匹配)优化扩散部分;3) 推理时使用AR模块的浅层特征熵预过滤低熵草稿。
- Result: 在ImageNet 256×256上,TransDiff实现4.3倍无损加速;在文本条件生成上,NextStep-1实现3倍加速,达到最先进的加速性能。
- Conclusion: Fast-ARDiff通过联合优化AR和扩散组件,有效解决了AR-扩散混合范式的延迟瓶颈,在保持生成质量的同时显著提升推理速度。
[68] A Novel Wasserstein Quaternion Generative Adversarial Network for Color Image Generation
Zhigang Jia,Duan Wang,Hengkai Wang,Yajun Xie,Meixiang Zhao,Xiaoyu Zhao
Main category: cs.CV
TL;DR: 提出一种新的四元数Wasserstein距离及其对偶理论,并基于此构建Wasserstein四元数生成对抗网络,以解决彩色图像生成中的通道相关性问题
- Motivation: 现有彩色图像生成模型忽略了颜色通道间的相关性,可能导致色差问题;同时缺乏系统阐述彩色图像数据分布的理论,缺少衡量不同彩色图像数据集的理论基础
- Method: 定义新的四元数Wasserstein距离并发展其对偶理论,通过四元数凸集分离定理和四元数Farkas引理推导强对偶形式,基于此构建Wasserstein四元数生成对抗网络
- Result: 实验表明,该新模型在生成效率和图像质量方面均优于传统的(四元数)生成对抗网络和Wasserstein生成对抗网络
- Conclusion: 提出的四元数Wasserstein距离理论框架和相应生成模型有效解决了彩色图像生成中的通道相关性问题,提升了生成性能
[69] An Iteration-Free Fixed-Point Estimator for Diffusion Inversion
Yifei Chen,Kaiyu Song,Yan Pan,Jianxing Yu,Jian Yin,Hanjiang Lai
Main category: cs.CV
TL;DR: 提出一种无需迭代的固定点估计器用于扩散反演,通过误差近似方法降低计算成本,在重建任务中优于DDIM反演和其他基于固定点迭代的方法
- Motivation: 扩散反演旨在恢复与给定图像对应的初始噪声,以便通过去噪扩散过程重建原始图像。现有的固定点迭代方法虽然能最小化重建误差,但存在计算成本高和超参数选择复杂的问题
- Method: 1. 从理想反演步骤推导出固定点的显式表达式;2. 引入误差近似方法,使用前一个反演步骤的可计算误差来近似当前步骤的未知误差;3. 得到可计算的固定点近似表达式,这是一个具有低方差的无偏估计器
- Result: 在NOCAPS和MS-COCO两个文本-图像数据集上评估重建性能,相比DDIM反演和其他基于固定点迭代的方法,该方法在重建任务中实现了更优的性能,无需额外迭代或训练
- Conclusion: 提出的迭代自由固定点估计器解决了现有固定点迭代方法的高计算成本和超参数选择复杂性问题,通过理论分析证明其无偏性和低方差特性,在实际重建任务中表现出优越性能
[70] SSCATeR: Sparse Scatter-Based Convolution Algorithm with Temporal Data Recycling for Real-Time 3D Object Detection in LiDAR Point Clouds
Alexander Dow,Manduhu Manduhu,Matheus Santos,Ben Bartlett,Gerard Dooly,James Riordan
Main category: cs.CV
TL;DR: 提出SSCATeR算法,利用LiDAR扫描的连续运动特性,通过时间窗口和卷积结果存储,只处理点云变化区域,减少6.61倍处理时间,保持与传统稀疏卷积相同的特征图输出。
- Motivation: 传统LiDAR点云处理需要处理整个场景,但连续扫描中大部分区域保持不变。为了减少不必要的计算开销,需要一种只关注变化区域的高效检测方法。
- Method: 使用滑动时间窗口和短步长,存储卷积结果实现时间维度数据复用。扩展基于散射的卷积算法,提出SSCATeR算法,将LiDAR数据视为连续流,仅处理点云变化部分。
- Result: 处理时间减少高达6.61倍,特征图输出与传统稀疏卷积技术完全相同,同时显著提高网络计算效率。
- Conclusion: SSCATeR算法通过时间数据回收和稀疏处理,在保持检测精度的同时大幅提升LiDAR点云处理的效率,为实时应用提供可行方案。
[71] BrainExplore: Large-Scale Discovery of Interpretable Visual Representations in the Human Brain
Navve Wasserman,Matias Cosarinsky,Yuval Golbari,Aude Oliva,Antonio Torralba,Tamar Rott Shaham,Michal Irani
Main category: cs.CV
TL;DR: 提出大规模自动化框架,通过无监督分解发现大脑视觉表征模式,并用自然语言解释这些模式
- Motivation: 人类大脑如何表示视觉概念以及这些表征在哪些脑区编码仍是长期挑战。现有研究规模小、依赖人工检查、聚焦特定区域,缺乏系统验证
- Method: 两阶段方法:1) 通过无监督数据驱动分解发现fMRI活动中的可解释模式;2) 识别最能激发每个模式的自然图像集,生成描述其共享视觉意义的自然语言解释。引入自动化管道测试多个候选解释,分配可靠性分数,为每个体素模式选择最一致的描述
- Result: 框架揭示了数千个可解释模式,涵盖许多不同的视觉概念,包括以前未报告的细粒度表征
- Conclusion: 该大规模自动化框架能够系统地发现和解释人类大脑皮层的视觉表征,克服了传统小规模研究的局限性
[72] Modular Neural Image Signal Processing
Mahmoud Afifi,Zhongling Wang,Ran Zhang,Michael S. Brown
Main category: cs.CV
TL;DR: 提出模块化神经图像信号处理框架,通过模块化设计实现高质量图像渲染,支持用户交互式编辑和多种图片风格
- Motivation: 现有神经ISP设计缺乏模块化,无法控制渲染过程的中间阶段,限制了可扩展性、可调试性、泛化能力和用户风格匹配的灵活性
- Method: 采用模块化神经ISP框架,将整个渲染过程分解为多个可控制的中间阶段,支持不同容量的变体(0.5M-3.9M参数),并开发了用户交互式照片编辑工具
- Result: 在多个测试集上获得具有竞争力的定性和定量结果,实现了高渲染精度、良好的可扩展性、可调试性、对未见相机的泛化能力以及用户风格匹配的灵活性
- Conclusion: 模块化神经ISP框架在保持高质量渲染的同时,提供了更好的控制性和灵活性,支持丰富的用户交互编辑功能,为神经ISP设计提供了新的方向
[73] Instance-Aware Test-Time Segmentation for Continual Domain Shifts
Seunghwan Lee,Inyoung Jung,Hojoon Lee,Eunil Park,Sungeun Hong
Main category: cs.CV
TL;DR: 提出一种用于连续测试时适应的自适应伪标签调整方法,通过考虑类别和实例的置信度分布来改善语义分割在持续变化域中的性能。
- Motivation: 现有的连续测试时适应方法通常依赖固定或批次级别的阈值,无法考虑不同类别和实例之间的难度差异,这在需要密集多类别预测的语义分割任务中尤其成问题。
- Method: 提出自适应调整伪标签的方法,根据每张图像内的置信度分布动态调整伪标签,并平衡学习向受域偏移影响最大的类别倾斜,实现细粒度的类别和实例感知适应。
- Result: 在八个CTTA和TTA场景(包括合成到真实和长期偏移)的广泛实验中,该方法始终优于最先进技术,为演化条件下的语义分割设定了新标准。
- Conclusion: 通过自适应调整伪标签来反映置信度分布并动态平衡学习,可以产生更可靠的监督并减轻连续适应过程中的错误累积,从而在持续变化的域中实现更好的语义分割性能。
[74] From Cells to Survival: Hierarchical Analysis of Cell Inter-Relations in Multiplex Microscopy for Lung Cancer Prognosis
Olle Edgren Schüllerqvist,Jens Baumann,Joakim Lindblad,Love Nordling,Artur Mezheyeuski,Patrick Micke,Nataša Sladoje
Main category: cs.CV
TL;DR: HiGINE是一种基于层次图的方法,利用肿瘤微环境的多重免疫荧光图像预测肺癌患者生存期,通过融合临床分期信息提升风险分层性能。
- Motivation: 肿瘤微环境是重要的预后生物标志物来源,但现有分析方法未能充分捕捉不同细胞类型间的复杂相互作用,需要更有效的模型来提升肺癌风险分层能力。
- Method: 提出HiGINE层次图模型,编码细胞邻域的局部和全局相互关系,整合细胞类型和形态学信息,并通过多模态融合将癌症分期与mIF特征结合。
- Result: 在两个公共数据集上验证,显示HiGINE在风险分层、鲁棒性和泛化性方面均有改进,多模态融合进一步提升了性能。
- Conclusion: HiGINE能够有效利用肿瘤微环境的复杂细胞相互作用信息,结合临床数据,为肺癌预后预测提供了更准确的风险分层工具。
[75] Disturbance-Free Surgical Video Generation from Multi-Camera Shadowless Lamps for Open Surgery
Yuna Kato,Shohei Mori,Hideo Saito,Yoshifumi Takatsume,Hiroki Kajita,Mariko Isogawa
Main category: cs.CV
TL;DR: 提出一种自动对齐多摄像头手术视频的方法,通过检测照明系统移动、重新对齐帧并选择遮挡最少的摄像头,生成固定视角的手术视频,提升观看体验。
- Motivation: 手术视频对医学教育和研究至关重要,但传统拍摄中外科医生经常遮挡摄像头视野。现有解决方案使用多个摄像头但需要手动对齐,且每次移动照明系统都需要重新对齐,非常耗时。
- Method: 方法包括:1) 检测照明系统移动的帧;2) 自动重新对齐这些帧;3) 选择遮挡最少的摄像头;4) 生成固定视角的连续视频;5) 实现多种合成选项供用户选择。
- Result: 用户研究表明,外科医生认为该方法生成的视频在确认手术区域和观看舒适度方面优于传统方法。视频质量也得到改善,并通过用户研究评估了不同合成选项的偏好。
- Conclusion: 该方法成功实现了手术视频的自动对齐和合成,显著提升了视频质量和观看体验,为手术视频的自动化处理提供了有效解决方案。
[76] Automated Pollen Recognition in Optical and Holographic Microscopy Images
Swarn Singh Warshaneyan,Maksims Ivanovs,Blaž Cugmas,Inese Bērziņa,Laura Goldberga,Mindaugas Tamosiunas,Roberts Kadiķis
Main category: cs.CV
TL;DR: 使用YOLOv8s和MobileNetV3L深度学习模型,在光学和全息显微镜图像中自动检测和分类花粉颗粒,重点应用于兽医细胞学。通过数据集扩展和自动标注技术,显著提升了全息图像的性能。
- Motivation: 探索深度学习在光学和全息显微镜图像中自动检测和分类花粉颗粒的应用,特别是在兽医细胞学领域,以解决传统方法效率低下的问题。
- Method: 使用YOLOv8s进行目标检测,MobileNetV3L进行分类任务。针对全息图像性能差的问题,采用数据集扩展(自动标注和边界框区域扩大)技术来提升性能。
- Result: 光学图像上检测mAP50达到91.3%,分类准确率97%。全息图像初始性能较低(检测2.49% mAP50,分类42%准确率),通过改进技术后提升到检测13.3% mAP50,分类54%准确率。
- Conclusion: 研究表明深度学习技术可以与成本效益高的无透镜数字全息显微镜设备结合,至少在图像分类任务上是可行的,为花粉颗粒的自动化分析提供了有效解决方案。
[77] Decoupling Template Bias in CLIP: Harnessing Empty Prompts for Enhanced Few-Shot Learning
Zhenyu Zhang,Guangyao Chen,Yixiong Zou,Zhimeng Huang,Yuhua Li
Main category: cs.CV
TL;DR: CLIP模型在少样本学习中存在模板-样本相似性(TSS)偏差,导致模型依赖模板而非真实类别对齐。本文提出使用空提示来捕获无偏模板特征,通过预训练和微调两阶段框架减少TSS偏差,提高分类准确性和鲁棒性。
- Motivation: 研究发现CLIP模型中的模板-样本相似性(TSS)会引入偏差,使模型过度依赖文本模板与图像样本的表面相似性,而非真正的样本-类别对齐关系,这降低了少样本分类的准确性和鲁棒性。
- Method: 提出两阶段框架:1)预训练阶段使用空提示(不含类别信息的文本输入)揭示并减少CLIP编码器中的模板诱导偏差;2)少样本微调阶段使用偏差校准损失强制图像与其正确类别对齐,确保模型关注相关视觉特征。
- Result: 在多个基准测试中,该方法显著减少了TSS引起的性能波动,获得了更高的分类准确性和更强的鲁棒性。项目代码已开源。
- Conclusion: 通过解耦CLIP中的模板偏差,使用空提示和偏差校准的方法有效提高了少样本学习的性能,为减少预训练模型中的偏差提供了有效解决方案。
[78] OpenMonoGS-SLAM: Monocular Gaussian Splatting SLAM with Open-set Semantics
Jisang Yoo,Gyeongjin Kang,Hyun-kyu Ko,Hyeonwoo Yu,Eunbyung Park
Main category: cs.CV
TL;DR: OpenMonoGS-SLAM:首个结合3D高斯泼溅与开放集语义理解的单目SLAM框架,无需深度传感器或3D语义标注,利用视觉基础模型实现开放世界环境下的智能感知。
- Motivation: 当前SLAM与语义理解结合的研究大多依赖深度传感器或封闭集语义模型,限制了在开放世界环境中的可扩展性和适应性。需要开发一种无需深度输入或3D语义标注的单目SLAM系统,实现开放集语义理解。
- Method: 提出OpenMonoGS-SLAM框架,结合3D高斯泼溅与开放集语义理解。利用视觉基础模型:MASt3R用于视觉几何,SAM和CLIP用于开放词汇语义。采用自监督学习目标,无需深度输入或3D语义标注。特别设计了内存机制来管理高维语义特征,构建高斯语义特征图。
- Result: 实验结果表明,该方法在封闭集和开放集分割任务中达到或超越现有基线性能,且不依赖深度图或语义标注等辅助传感器。
- Conclusion: OpenMonoGS-SLAM成功实现了首个单目SLAM与开放集语义理解的统一框架,展示了视觉基础模型在开放世界环境感知中的强大潜力,为空间AI提供了更灵活、可扩展的解决方案。
[79] Trajectory Densification and Depth from Perspective-based Blur
Tianchen Qiu,Qirun Zhang,Jiajian He,Zhengyue Zhuge,Jiahui Xu,Yueting Chen
Main category: cs.CV
TL;DR: 提出一种通过分析视频流模糊模式来估计度量深度和密集轨迹的新方法,结合光学设计和深度学习技术
- Motivation: 在无机械稳定器的情况下,相机拍摄时会产生旋转运动,导致长曝光场景下的透视模糊。这种模糊具有深度依赖性,不同空间位置的物体即使在同一成像设置下也会呈现不同的模糊程度
- Method: 使用现成的视觉编码器和点跟踪器提取视频信息;通过窗口化嵌入和多窗口聚合估计深度图;利用视觉语言模型对光学算法生成的稀疏轨迹进行密集化处理
- Result: 在多个深度数据集上评估显示,该方法在大深度范围内表现优异,具有良好的泛化能力。在手持拍摄设置中,光学算法相比真实轨迹达到更高的精度,密集重建保持强准确性
- Conclusion: 通过分析视频模糊模式来估计深度和轨迹的方法是有效的,结合光学设计和深度学习技术能够实现精确的深度估计和轨迹重建
[80] Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning
Huilin Xu,Zhuoyang Liu,Yixiang Luomei,Feng Xu
Main category: cs.CV
TL;DR: 提出一个仅使用单目RGB视觉和自然语言指令的无人机视觉语言导航统一框架,通过多任务学习联合优化空间感知、轨迹推理和动作预测,在单目RGB设置下取得接近全景RGB-D方法的性能。
- Motivation: 现有无人机视觉语言导航方法通常依赖全景图像、深度输入或里程计来支持空间推理和动作规划,这些要求增加了系统成本和集成复杂性,阻碍了轻量级无人机的实际部署。
- Method: 1) 将导航建模为下一个token预测问题;2) 通过提示引导的多任务学习联合优化空间感知、轨迹推理和动作预测;3) 提出关键帧选择策略减少视觉冗余;4) 引入动作合并和标签重新加权机制缓解长尾监督不平衡。
- Result: 在Aerial VLN基准测试中,该方法在仅使用单目RGB的挑战性设置下,在已见和未见环境中均取得强劲结果,显著优于现有RGB-only基线,并缩小了与最先进全景RGB-D方法的性能差距。
- Conclusion: 提出的统一框架证明了仅使用单目RGB视觉和自然语言指令实现高效无人机导航的可行性,通过创新的多任务学习设计和训练策略,为轻量级无人机在实际应用中的部署提供了有前景的解决方案。
[81] Chain-of-Image Generation: Toward Monitorable and Controllable Image Generation
Young Kyung Kim,Oded Schlesinger,Yuzhou Zhao,J. Matias Di Martino,Guillermo Sapiro
Main category: cs.CV
TL;DR: CoIG框架将图像生成重构为类似人类艺术创作的顺序语义过程,通过LLM分解复杂提示为逐步指令,实现生成过程的可监控性
- Motivation: 当前图像生成模型是"黑盒",缺乏可观察性和干预能力,难以确保可靠性、安全性和控制,且其非人类工作流程难以解释
- Method: CoIG框架:1) 使用LLM将复杂提示分解为简单逐步指令;2) 图像生成模型按计划逐步生成和编辑图像;3) 每个步骤聚焦单个语义实体,实现直接监控
- Result: CoIG显著增强定量可监控性,在组合鲁棒性方面与基线模型竞争,通过两个新指标评估:CoIG可读性和因果相关性
- Conclusion: CoIG框架为图像生成带来类似CoT在LLM中的优势,实现可监控的生成过程,缓解实体崩溃问题,且模型无关可集成到任何图像生成模型
[82] C-DIRA: Computationally Efficient Dynamic ROI Routing and Domain-Invariant Adversarial Learning for Lightweight Driver Behavior Recognition
Keito Inoshita
Main category: cs.CV
TL;DR: C-DIRA:一种用于驾驶员分心行为识别的轻量级框架,通过动态ROI路由和域不变对抗学习,在保持高精度的同时显著降低计算成本和延迟。
- Motivation: 车载摄像头需要实时边缘推理,但轻量级模型难以捕捉细粒度行为特征,ROI方法计算成本高,需要在效率和准确性之间取得平衡。
- Method: 结合显著性驱动的Top-K ROI池化和融合分类进行局部特征提取,动态ROI路由仅对高难度样本应用ROI推理,使用伪域标注和对抗学习学习域不变特征。
- Result: 在State Farm Distracted Driver Detection Dataset上,C-DIRA在保持高精度的同时显著减少FLOPs和延迟,在模糊和低光等视觉退化条件下表现稳健,在未见域上性能稳定。
- Conclusion: C-DIRA有效实现了紧凑性、效率和泛化能力,为轻量级驾驶员行为识别提供了有效解决方案。
[83] Repulsor: Accelerating Generative Modeling with a Contrastive Memory Bank
Shaofeng Zhang,Xuanqi Chen,Ning Liao,Haoxiang Zhao,Xiaoxing Wang,Haoru Tan,Sitong Wu,Xiaosong Jia,Qi Fan,Junchi Yan
Main category: cs.CV
TL;DR: 提出Mname框架,通过内存银行机制提供大量负样本进行对比学习,消除对预训练编码器的依赖,实现更高效的生成模型训练。
- Motivation: 去噪生成模型(如扩散模型、流匹配)在视觉合成中占主导地位,但存在训练成本高、表示学习效率低的问题。现有方法依赖外部预训练编码器进行判别表示对齐,这会引入额外开销和领域偏移问题。
- Method: 提出Mname框架,采用内存银行机制维护大量动态更新的负样本队列,将负样本数量与批次大小解耦;使用低维投影头最小化内存和带宽开销;无需外部编码器,实现自包含的对比学习。
- Result: 在ImageNet-256上,Mname在40万步内达到FID 2.40的SOTA结果,显著优于可比方法;实现更快收敛和更优生成质量。
- Conclusion: Mname框架通过内存银行机制提供高质量负样本,消除了对预训练视觉基础模型的依赖,不增加推理时的参数和计算成本,实现了更高效的生成模型训练。
[84] Dual-Branch Center-Surrounding Contrast: Rethinking Contrastive Learning for 3D Point Clouds
Shaofeng Zhang,Xuanqi Chen,Xiangdong Zhang,Sitong Wu,Junchi Yan
Main category: cs.CV
TL;DR: 提出CSCon框架,通过双分支中心-周围对比学习解决3D点云自监督学习中生成方法难以捕获判别性特征的问题,在多个协议下达到SOTA性能。
- Motivation: 现有3D点云自监督学习主要基于MAE等生成方法,但这些方法难以有效捕获高级判别性特征,导致线性探测等下游任务性能不佳。而对比学习方法在图像数据上表现出优秀的判别特征表示和泛化能力,但直接应用于3D数据无法有效学习局部细节。
- Method: 提出双分支中心-周围对比(CSCon)框架:1)分别对中心和周围部分进行掩码,构建中心偏置和周围偏置的双分支输入以捕获丰富几何信息;2)引入补丁级对比损失以增强高级信息和局部敏感性。
- Result: 在FULL和ALL协议下性能与生成方法相当;在MLP-LINEAR、MLP-3和ONLY-NEW协议下达到SOTA,甚至超越跨模态方法。在MLP-LINEAR协议下,相比基线(Point-MAE)在ScanObjectNN的三个变体上分别提升7.9%、6.7%和10.3%。
- Conclusion: CSCon框架通过双分支中心-周围对比学习有效解决了3D点云自监督学习中生成方法的局限性,在多个评估协议下表现出优越性能,特别是在判别性特征学习方面显著优于现有方法。
[85] What really matters for person re-identification? A Mixture-of-Experts Framework for Semantic Attribute Importance
Athena Psalta,Vasileios Tsironis,Konstantinos Karantzalos
Main category: cs.CV
TL;DR: MoSAIC-ReID是一个基于Mixture-of-Experts的框架,用于系统量化行人属性在重识别中的重要性,通过LoRA专家模型和oracle路由器实现可控的属性分析。
- Motivation: 当前最先进的行人重识别方法虽然精度高但缺乏可解释性,无法明确模型实际依赖哪些高层语义属性,需要系统量化属性重要性。
- Method: 提出MoSAIC-ReID框架,使用基于LoRA的专家模型(每个专家对应一个属性)和oracle路由器进行可控的属性分析,结合广义线性模型、统计检验和特征重要性分析。
- Result: 在Market-1501和DukeMTMC数据集上取得竞争性性能,主要贡献在于大规模量化属性重要性分析,发现服装颜色和内在特征贡献最大,而配饰等不频繁线索影响有限。
- Conclusion: 为可解释的行人重识别提供了原则性框架,强调了在实践中整合显式语义知识的要求,代码已开源。
[86] Scale-invariant and View-relational Representation Learning for Full Surround Monocular Depth
Kyumin Hwang,Wonhyeok Choi,Kiljoon Han,Wonjoon Choi,Minwoo Choi,Yongcheon Na,Minwoo Park,Sunghoon Im
Main category: cs.CV
TL;DR: 提出一种新颖的知识蒸馏策略,将基础模型的深度知识迁移到轻量级全环绕单目深度估计网络,解决计算成本高和度量尺度深度估计困难的问题。
- Motivation: 现有基础模型在单目深度估计中表现出强大的泛化能力,但直接应用于全环绕单目深度估计面临两个主要挑战:1) 高计算成本限制实时性能;2) 难以估计度量尺度深度,因为这些模型通常只预测相对深度。
- Method: 提出混合回归框架,结合知识蒸馏方案与深度分箱模块。引入交叉交互知识蒸馏方案,将基础模型的尺度不变深度分箱概率蒸馏到学生网络,同时指导学生从真实深度推断度量尺度深度分箱中心。还提出视图关系知识蒸馏,编码相邻相机视图间的结构关系并迁移以增强跨视图深度一致性。
- Result: 在DDAD和nuScenes数据集上的实验表明,该方法相比传统监督方法和现有知识蒸馏方法更有效。在性能和效率之间取得了良好的平衡,满足实时要求。
- Conclusion: 提出的知识蒸馏策略成功解决了全环绕单目深度估计中的计算成本和度量尺度深度估计问题,实现了实时性能下的准确深度估计。
[87] SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images
Kaiyu Li,Shengqi Zhang,Yupeng Deng,Zhi Wang,Deyu Meng,Xiangyong Cao
Main category: cs.CV
TL;DR: 将SAM 3应用于遥感开放词汇语义分割的初步探索,通过掩码融合和存在分数过滤实现无需训练的零样本分割
- Motivation: 现有基于CLIP的训练免费开放词汇语义分割方法在精确定位或复杂流程方面存在挑战,特别是在遥感场景中目标密集且小。SAM 3统一了分割和识别,为遥感OVSS提供了新可能
- Method: 1) 掩码融合策略:结合SAM 3的语义分割头和Transformer解码器(实例头)输出;2) 使用存在头分数过滤场景中不存在的类别,减少误报
- Result: 在广泛的遥感数据集上评估,这种简单适配取得了有希望的性能,展示了SAM 3在遥感OVSS中的潜力
- Conclusion: SAM 3在无需训练的情况下对遥感开放词汇语义分割任务具有良好潜力,为遥感场景分析提供了新的解决方案
[88] Mitigating Individual Skin Tone Bias in Skin Lesion Classification through Distribution-Aware Reweighting
Kuniko Paxton,Zeinab Dehghani,Koorosh Aslansefat,Dhavalkumar Thakker,Yiannis Papadopoulos
Main category: cs.CV
TL;DR: 该研究提出了一种基于分布的个体公平性评估框架,将肤色视为连续属性而非分类标签,使用核密度估计建模肤色分布,比较12种统计距离度量,并提出基于距离的重新加权损失函数来纠正少数肤色的代表性不足。
- Motivation: 肤色历来是歧视的焦点,但医学影像中的机器学习公平性研究通常依赖粗糙的亚组分类,忽略了个体层面的差异。这种基于群体的方法可能掩盖亚组内异常值面临的偏见。
- Method: 将肤色视为连续属性而非分类标签,使用核密度估计(KDE)建模肤色分布,比较12种统计距离度量来量化肤色分布间的差异,并提出基于距离的重新加权(DRW)损失函数来纠正少数肤色的代表性不足。
- Result: 在CNN和Transformer模型上的实验表明:(1)分类重新加权在捕捉个体层面差异方面存在局限性;(2)基于分布的重新加权表现更优,特别是使用Fidelity Similarity(FS)、Wasserstein Distance(WD)、Hellinger Metric(HM)和Harmonic Mean Similarity(HS)时。
- Conclusion: 这些发现为在皮肤病AI系统中推进个体层面的公平性建立了稳健的方法论,并强调了在医学影像分析中对敏感连续属性的更广泛影响。
[89] Pose-Based Sign Language Spotting via an End-to-End Encoder Architecture
Samuel Ebimobowei Johnny,Blessed Guda,Emmanuel Enejo Aaron,Assane Gueye
Main category: cs.CV
TL;DR: 提出基于姿态关键点的端到端手语检测模型,用于在连续手语句子中检测特定查询手势的存在,无需中间文本识别,计算成本低且抗视觉噪声。
- Motivation: 当前自动手语识别主要关注整体识别,而手语到手势检索或在连续手势序列中检测特定手势的任务尚未充分探索。需要一种直接、高效的方法来检测查询手势是否出现在目标序列中,以促进手语检索和验证。
- Method: 提出基于姿态关键点的端到端模型:1) 从手语视频中提取姿态关键点作为输入;2) 使用仅编码器架构作为骨干网络;3) 添加二元分类头来判断查询手势是否出现在目标序列中;4) 直接处理姿态表示而非原始RGB帧。
- Result: 在WSLP 2025共享任务的Word Presence Prediction数据集上评估,获得61.88%的准确率和60.00%的F1分数,证明了基于姿态的框架在手语检测任务中的有效性。
- Conclusion: 提出的基于姿态关键点的端到端模型为手语检测提供了有效解决方案,显著降低了计算成本并减少了视觉噪声,为未来自动手语检索和验证研究奠定了坚实基础。
[90] A Scalable Pipeline Combining Procedural 3D Graphics and Guided Diffusion for Photorealistic Synthetic Training Data Generation in White Button Mushroom Segmentation
Artúr I. Károly,Péter Galambos
Main category: cs.CV
TL;DR: 提出了一种结合3D渲染与约束扩散模型的工作流,用于自动生成高质量、逼真的蘑菇合成图像,无需专业图形学知识,在零样本设置下达到SOTA分割性能。
- Motivation: 工业蘑菇种植依赖计算机视觉进行监控和自动收获,但开发准确的检测和分割模型需要大量精确标注的数据集,成本高昂。合成数据虽可扩展,但通常缺乏足够的真实感,难以泛化到真实场景。
- Method: 提出新颖工作流,将Blender中的3D渲染与约束扩散模型相结合,自动生成高质量、逼真的双孢蘑菇合成图像。该方法保持对3D场景配置和标注的完全控制,同时实现逼真效果,无需专业计算机图形学知识。
- Result: 发布了两个合成数据集(各含6000张图像,描绘超过25万个蘑菇实例),并在零样本设置下评估了基于这些数据训练的Mask R-CNN模型。在两个独立真实数据集(包括新收集的基准测试)上测试,该方法达到了最先进的分割性能(M18K上F1=0.859),尽管仅使用合成训练数据。
- Conclusion: 该方法虽然以双孢蘑菇为例展示,但所提出的流程可以轻松适应其他蘑菇物种或其他农业领域,如水果和叶片检测,为农业计算机视觉任务提供了一种高效、可扩展的合成数据生成解决方案。
[91] Skewness-Guided Pruning of Multimodal Swin Transformers for Federated Skin Lesion Classification on Edge Devices
Kuniko Paxton,Koorosh Aslansefat,Dhavalkumar Thakker,Yiannis Papadopoulos
Main category: cs.CV
TL;DR: 提出一种基于偏度指导的剪枝方法,用于压缩多模态Swin Transformer模型,在联邦学习环境中实现高效模型压缩和隐私保护
- Motivation: 高性能计算机视觉模型在医学影像中表现出色,但计算密集、模型庞大,不适合边缘设备部署;严格的隐私约束阻碍集中式数据管理,需要联邦学习解决方案
- Method: 基于输出分布统计偏度的剪枝方法,选择性剪枝多模态Swin Transformer的多头自注意力和多层感知机层,在水平联邦学习环境中验证
- Result: 紧凑Swin Transformer模型大小减少约36%,精度无损失,实现了高效模型压缩和隐私保护的分布式学习
- Conclusion: 该方法展示了在多模态医学AI边缘设备上实现高效模型压缩和隐私保护分布式学习的可行性
[92] Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance
Ruihang Chu,Yefei He,Zhekai Chen,Shiwei Zhang,Xiaogang Xu,Bin Xia,Dingdong Wang,Hongwei Yi,Xihui Liu,Hengshuang Zhao,Yu Liu,Yingya Zhang,Yujiu Yang
Main category: cs.CV
TL;DR: Wan-Move是一个简单可扩展的视频生成框架,通过将原始条件特征直接变为运动感知,实现精确高质量的运动控制,无需修改架构即可集成到现有图像转视频模型中。
- Motivation: 现有运动控制方法存在控制粒度粗糙和可扩展性有限的问题,导致输出质量不足以满足实际应用需求。需要实现更精确和高质量的运动控制。
- Method: 1. 使用密集点轨迹表示物体运动,实现细粒度场景控制;2. 将轨迹投影到潜在空间,沿轨迹传播第一帧特征,生成对齐的时空特征图;3. 该特征图作为更新的潜在条件,无需架构修改即可集成到现成的图像转视频模型中。
- Result: 通过规模化训练,Wan-Move能生成5秒480p视频,其运动可控性与Kling 1.5 Pro的商业Motion Brush相当。在MoveBench基准测试和公开数据集上均表现出优越的运动质量。
- Conclusion: Wan-Move通过简单可扩展的框架实现了精确高质量的视频运动控制,无需辅助运动编码器或架构修改,在质量和可控性方面达到商业水平,并提供了全面的评估基准。
[93] Refining Visual Artifacts in Diffusion Models via Explainable AI-based Flaw Activation Maps
Seoyeon Lee,Gwangyeol Yu,Chaewon Kim,Jonghyuk Park
Main category: cs.CV
TL;DR: 提出自精炼扩散框架,利用XAI技术检测生成图像中的瑕疵区域,通过前向过程增强瑕疵区域噪声、反向过程聚焦修复,显著提升图像生成质量。
- Motivation: 扩散模型在图像合成方面取得了显著成功,但处理伪影和不真实区域仍然是关键挑战。需要一种能够自动检测并修复这些瑕疵的方法来提升生成图像的质量。
- Method: 提出自精炼扩散框架,使用基于可解释人工智能(XAI)的瑕疵高亮器生成瑕疵激活图(FAMs),识别伪影和不真实区域。在前向过程中增强瑕疵区域的噪声,在反向过程中聚焦这些区域进行修复。
- Result: 在各种基于扩散的模型中,Fréchet inception距离提升高达27.3%,在多样化数据集上表现一致强劲。在图像生成、文本到图像生成和修复等不同任务中均展现出鲁棒有效性。
- Conclusion: 可解释AI技术不仅能提供可解释性,还能积极促进图像精炼。该框架为各种扩散模型和任务提供了通用有效的解决方案,显著推动了图像合成领域的发展。
[94] LoFA: Learning to Predict Personalized Priors for Fast Adaptation of Visual Generative Models
Yiming Hao,Mutian Xu,Chongjie Ye,Jie Qin,Shunlin Lu,Yipeng Qin,Xiaoguang Han
Main category: cs.CV
TL;DR: LoFA是一个高效预测个性化先验的框架,通过两阶段超网络在几秒内预测高质量LoRA权重,超越传统需要数小时优化的方法。
- Motivation: 当前个性化视觉生成模型的方法如LoRA需要特定任务数据和长时间优化,不实用。现有超网络方法难以将细粒度用户提示映射到复杂LoRA分布,限制了实际应用。
- Method: 首先发现LoRA参数与基础模型参数之间存在结构化分布模式,然后设计两阶段超网络:第一阶段预测相对分布模式以捕捉关键适应区域,第二阶段用这些模式指导最终LoRA权重预测。
- Result: 实验表明,该方法能在几秒内跨多个任务和用户提示一致预测高质量个性化先验,甚至优于需要数小时处理的传统LoRA方法。
- Conclusion: LoFA框架通过利用LoRA的结构化分布模式,实现了快速高效的模型个性化适应,解决了现有方法在实际应用中的局限性。
[95] MatteViT: High-Frequency-Aware Document Shadow Removal with Shadow Matte Guidance
Chaewon Kim,Seoyeon Lee,Jonghyuk Park
Main category: cs.CV
TL;DR: 提出MatteViT框架,结合空间和频域信息消除文档阴影,同时保留高频细节如文本边缘,在公开基准测试中达到SOTA性能。
- Motivation: 文档阴影去除对数字化文档清晰度至关重要,阴影常会模糊或扭曲文本边缘等高频细节结构,需要有效去除阴影的同时保留这些精细结构。
- Method: 提出MatteViT框架,采用两种保留策略:1) 轻量级高频放大模块(HFAM)分解并自适应放大高频分量;2) 基于连续亮度的阴影蒙版,使用自定义蒙版数据集和生成器提供精确空间引导。
- Result: 在RDD和Kligler公开基准测试中达到最先进性能,在光学字符识别等下游任务中更好地保留文本级细节,提高了识别性能。
- Conclusion: MatteViT为现实世界的文档阴影去除提供了鲁棒实用的解决方案,能准确识别细粒度区域并以高保真度恢复,同时改善下游任务性能。
[96] Training-Free Dual Hyperbolic Adapters for Better Cross-Modal Reasoning
Yi Zhang,Chun-Wun Cheng,Junyi He,Ke Yu,Yushun Tang,Carola-Bibiane Schönlieb,Zhihai He,Angelica I. Aviles-Rivero
Main category: cs.CV
TL;DR: 提出一种无需训练的双曲适配器(T-DHA),通过双曲空间建模视觉-语言层次关系,提升少样本图像识别和领域泛化性能
- Motivation: 现有视觉语言模型在领域变化时性能下降,或需要大量计算资源进行微调。需要一种更高效、鲁棒的跨模态适应方法
- Method: 使用双曲空间(Poincaré球模型)建模视觉-语言概念的层次关系,结合负学习,构建无需训练的双曲适配器(T-DHA)
- Result: 在多个数据集上,T-DHA在少样本图像识别和领域泛化任务中显著优于现有最先进方法
- Conclusion: 双曲空间能有效嵌入层次数据结构,结合负学习可实现更准确、鲁棒的分类,且无需训练,计算效率高
[97] InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models
Hongyuan Tao,Bencheng Liao,Shaoyu Chen,Haoran Yin,Qian Zhang,Wenyu Liu,Xinggang Wang
Main category: cs.CV
TL;DR: InfiniteVL:结合滑动窗口注意力与Gated DeltaNet的线性复杂度VLM架构,在有限资源下实现竞争性多模态性能,推理速度提升3.6倍,保持恒定延迟和内存占用。
- Motivation: 现有窗口注意力VLM在序列长度超过窗口大小时性能下降,而线性注意力在信息密集型任务(如OCR和文档理解)上表现不佳。需要克服这些限制,同时解决二次复杂度和不断增长的KV缓存问题。
- Method: 提出InfiniteVL架构,将滑动窗口注意力(SWA)与Gated DeltaNet相结合,实现线性复杂度。采用三阶段训练策略:蒸馏预训练、指令微调和长序列SFT。
- Result: 仅使用领先VLM所需训练数据的不到2%,InfiniteVL不仅显著优于之前的线性复杂度VLM,还能匹配领先的基于Transformer的VLM性能,同时保持有效的长期记忆保留。相比类似规模的基于Transformer的VLM,推理速度提升超过3.6倍,延迟和内存占用保持恒定。在流式视频理解场景中,保持稳定的24 FPS实时预填充速度。
- Conclusion: InfiniteVL成功解决了窗口注意力和线性注意力的局限性,提供了一种高效、可扩展的VLM架构,在保持性能的同时显著提升推理效率,特别适合长序列和多模态任务。
[98] Generation is Required for Data-Efficient Perception
Jack Brady,Bernhard Schölkopf,Thomas Kipf,Simon Buchholz,Wieland Brendel
Main category: cs.CV
TL;DR: 生成式方法通过约束解码器并求逆,能实现组合泛化;而非生成式方法难以通过正则化或架构约束实现必要的归纳偏置,需要大规模预训练或额外监督。
- Motivation: 人类视觉感知需要生成式方法,但当前最成功的视觉模型是非生成式的编码器模型。这引发了一个问题:生成式方法是否对机器实现人类级视觉感知是必要的?研究通过组合泛化这一人类感知的标志性能力来探讨这个问题。
- Method: 在组合数据生成过程下,形式化生成式(解码器为基础)和非生成式(编码器为基础)方法实现组合泛化所需的归纳偏置。理论证明对编码器施加这些归纳偏置通常不可行,而生成式方法可通过约束解码器并求逆来实现。研究了两种求逆方法:基于梯度的在线搜索和生成回放的离线方法。
- Result: 理论分析表明,非生成式方法难以通过正则化或架构约束实现必要的归纳偏置。实证研究显示,缺乏必要归纳偏置的非生成式方法经常在组合泛化上失败,需要大规模预训练或额外监督。相比之下,生成式方法通过合适的解码器归纳偏置结合搜索和回放,显著改善了组合泛化能力,无需额外数据。
- Conclusion: 生成式方法通过约束解码器并求逆,能够有效实现组合泛化,这支持了人类级视觉感知需要生成式方法的假设。非生成式方法在这方面存在根本性限制,需要大量数据或监督来弥补。
[99] Tri-Bench: Stress-Testing VLM Reliability on Spatial Reasoning under Camera Tilt and Object Interference
Amit Bendkhale
Main category: cs.CV
TL;DR: Tri-Bench基准测试评估视觉语言模型在几何推理中的表现,发现模型在平面三角形问题上准确率约69%,无法识别特殊三角形类型,且相机倾斜会降低性能,但物体干扰无显著影响。
- Motivation: 尽管视觉语言模型(VLMs)具有强大能力,但在真实场景变化下经常失败。需要可验证的几何推理来构建可信赖和可控的智能体AI,因此创建Tri-Bench基准来隔离相对几何推理并测试部署关键因素。
- Method: 提出Tri-Bench基准,包含平面三角形问题,专注于相对几何推理。测试两个部署关键因素:相机姿态(平面vs倾斜)和场景上下文(10个日常物体的干扰)。使用固定提示评估四个最近的VLMs,提示中明确描述周围方形边框以通过单应性获得正确答案。评估六种简单任务,包括二进制和连续目标。
- Result: 整体准确率相对于3D地面真值约69%(最佳~75%,最差~64%)。在图像平面2D投影中准确率更高约72%。所有四个VLMs在识别少数三角形类型(等边、等腰、直角三角形)时准确率降至~0%。相机倾斜使整体准确率下降约4.1%。物体干扰对VLM准确率无显著影响。
- Conclusion: 视觉语言模型未能正确利用提示中提供的明确参考框架提示,默认使用2D图像平面线索。这表明当前VLMs在几何推理方面存在局限性,需要改进以支持可验证和可控的智能体AI。
[100] Siamese-Driven Optimization for Low-Resolution Image Latent Embedding in Image Captioning
Jing Jie Tan,Anissa Mokraoui,Ban-Hoe Kwan,Danny Wee-Kiat Ng,Yan-Chai Hum
Main category: cs.CV
TL;DR: SOLI提出了一种针对轻量级低分辨率图像字幕的Siamese网络架构,通过优化潜在嵌入来提升效率和准确性,同时减少计算开销。
- Motivation: 低分辨率图像字幕处理在辅助视障人士、内容管理系统和人机交互中很重要,但现有大型模型(如transformer)计算资源需求高,在资源受限场景下难以重新训练。
- Method: 采用Siamese网络架构,通过双路径神经网络结构优化潜在嵌入,专门为轻量级低分辨率图像字幕设计,减少计算开销。
- Result: SOLI方法在保持性能的同时最小化了计算开销,适合资源受限场景的训练,提高了低分辨率图像到文本翻译的效率和准确性。
- Conclusion: SOLI为低分辨率图像字幕提供了一种高效轻量的解决方案,特别适用于计算资源受限的环境,平衡了性能与效率。
[101] SATGround: A Spatially-Aware Approach for Visual Grounding in Remote Sensing
Aysim Toker,Andreea-Maria Oncescu,Roy Miles,Ismail Elezi,Jiankang Deng
Main category: cs.CV
TL;DR: 提出一种结构化定位机制,通过专用控制令牌连接视觉语言模型与定位模块,显著提升卫星图像中的视觉定位能力
- Motivation: 视觉语言模型在遥感领域展现出强大潜力,但现有方法在卫星图像中的视觉定位能力有限,需要增强结构化空间推理能力
- Method: 在预训练VLM基础上微调,通过专用控制令牌连接专门的定位模块,实现语言与空间信息的联合推理
- Result: 在多个遥感基准测试中取得显著提升,视觉定位任务相对改进24.8%,超越现有最佳方法
- Conclusion: 将结构化空间推理集成到VLM中能显著提升卫星图像分析能力,为更可靠的现实世界卫星数据分析铺平道路
[102] Accelerated Rotation-Invariant Convolution for UAV Image Segmentation
Manduhu Manduhu,Alexander Dow,Gerard Dooly,James Riordan
Main category: cs.CV
TL;DR: 提出一种GPU优化的旋转不变卷积框架,通过利用对称旋转滤波器间的结构化数据共享,消除传统im2col步骤,显著降低内存流量和计算冗余,在保持精度的同时大幅提升训练速度和降低能耗。
- Motivation: 无人机航拍图像中的目标具有任意方向和精细细节,需要旋转不变性进行精确分割。传统卷积架构如U-Net缺乏旋转不变性,导致分割精度下降。现有方法通过扩展多方向滤波器组实现旋转不变性,但会显著增加计算成本和内存流量。
- Method: 提出GPU优化的旋转不变卷积框架,消除传统基于矩阵乘法的卷积所需的数据降维(im2col)步骤。通过利用对称旋转滤波器间的结构化数据共享,实现多方向卷积,大幅减少内存流量和计算冗余。进一步将方法推广到加速任意(非对称)旋转角度的卷积。
- Result: 在广泛基准测试中,相比CUDNN,提出的卷积实现20-55%更快的训练速度和15-45%更低的能耗,同时保持与最先进旋转不变方法相当的精度。在八方向设置下,对256×256输入实现45%加速和41%节能,对1024×1024输入实现32%加速和23%节能。集成到U-Net分割模型中,相比非旋转感知基线获得高达6%的精度提升。
- Conclusion: 该方法为现有旋转不变CNN框架提供了高效有效的替代方案,在保持分割精度的同时显著提升了计算效率和能耗表现。
[103] No Labels, No Problem: Training Visual Reasoners with Multimodal Verifiers
Damiano Marsili,Georgia Gkioxari
Main category: cs.CV
TL;DR: 提出VALOR框架,通过AI验证器无标注训练提升视觉推理和视觉定位能力,结合LLM推理精炼和VLM视觉验证,超越开源和专有模型
- Motivation: 现有视觉推理方法存在局限:语言思维链方法需要大规模监督数据,程序合成方法存在逻辑缺陷和定位错误。需要无标注训练框架来同时提升推理和定位能力
- Method: 使用AI验证器框架:LLM验证器通过强化学习精炼推理,VLM验证器通过自动硬负例挖掘加强视觉定位,无需真实标注。结合语言推理模型分解空间查询和视觉专家模型
- Result: 在多样化空间推理任务上评估,方法提升了视觉推理能力,超越开源和专有模型,改进的视觉定位模型进一步优于最近仅文本的视觉推理方法
- Conclusion: VALOR框架通过AI验证器实现了无标注训练,有效结合语言推理和视觉定位的优势,在视觉推理任务上取得显著提升,为复杂空间关系理解提供了新途径
[104] UniLayDiff: A Unified Diffusion Transformer for Content-Aware Layout Generation
Zeyang Liu,Le Wang,Sanping Zhou,Yuxuan Wu,Xiaolong Sun,Gang Hua,Haoxiang Li
Main category: cs.CV
TL;DR: UniLayDiff:首个统一的内容感知布局生成模型,通过多模态扩散Transformer处理各种约束条件,实现端到端训练
- Motivation: 现实应用中的内容感知布局生成任务多样且复杂,现有方法要么只能处理部分任务,要么需要为不同条件训练单独模型,缺乏真正的统一解决方案
- Method: 提出UniLayDiff统一扩散Transformer,将布局约束作为独立模态,采用多模态扩散Transformer框架捕捉背景图像、布局元素和多样约束间的复杂交互;通过LoRA微调集成关系约束
- Result: 在从无条件到各种条件生成任务中均达到最先进性能,是首个统一完整范围内容感知布局生成任务的模型
- Conclusion: UniLayDiff首次实现了单一端到端可训练模型处理各种内容感知布局生成任务,不仅实现了统一条件生成,还提升了整体布局质量
[105] Self-Evolving 3D Scene Generation from a Single Image
Kaizhi Zheng,Yue Fan,Jing Gu,Zishuo Xu,Xuehai He,Xin Eric Wang
Main category: cs.CV
TL;DR: EvoScene是一个无需训练的自进化框架,通过结合3D生成模型的几何推理能力和视频生成模型的视觉知识,从单张图像逐步重建完整的3D场景。
- Motivation: 从单张图像生成高质量、带纹理的3D场景是一个基本挑战。现有的图像到3D生成器虽然能从单视图恢复合理的几何结构,但由于其面向对象的训练方式,难以泛化到具有忠实结构和纹理的复杂大规模场景。
- Method: EvoScene采用三阶段迭代框架:1) 空间先验初始化;2) 视觉引导的3D场景网格生成;3) 空间引导的新视图生成。通过在2D和3D域之间交替,逐步改进结构和外观。
- Result: 实验表明,EvoScene在多样化场景上实现了优越的几何稳定性、视图一致的纹理和未见区域补全,相比强基线方法能生成可直接用于实际应用的3D网格。
- Conclusion: EvoScene通过结合现有模型的互补优势,无需额外训练即可从单张图像逐步重建完整的3D场景,在几何稳定性和纹理一致性方面表现优异。
[106] LiDAS: Lighting-driven Dynamic Active Sensing for Nighttime Perception
Simon de Moreau,Andrei Bursuc,Hafid El-Idrissi,Fabien Moutarde
Main category: cs.CV
TL;DR: LiDAS是一种主动照明系统,通过动态优化车灯照明模式来提升夜间感知性能,无需重新训练模型即可实现零样本夜间泛化。
- Motivation: 夜间环境对基于摄像头的感知系统构成重大挑战,现有方法被动依赖场景光照。需要一种主动照明方案来提升夜间感知性能。
- Method: 结合现成的视觉感知模型与高清车灯,通过闭环系统动态预测最优照明场,将光线从空区域重新分配到物体区域,最大化下游感知性能。
- Result: 在真实世界闭环驾驶场景中,相比标准近光灯,mAP50提升18.7%,mIoU提升5.0%,在保持性能的同时减少40%能耗。
- Conclusion: LiDAS将现有车灯转变为主动视觉执行器,为鲁棒的夜间感知提供了经济有效的解决方案,补充了领域泛化方法而无需重新训练。
[107] Unified Diffusion Transformer for High-fidelity Text-Aware Image Restoration
Jin Hyeon Kim,Paul Hyunbin Cho,Claire Kim,Jaewon Min,Jaeeun Lee,Jihye Park,Yeji Choi,Seungryong Kim
Main category: cs.CV
TL;DR: UniT是一个统一的文本修复框架,通过结合扩散Transformer、视觉语言模型和文本检测模块,在迭代去噪过程中实现高保真文本修复,显著减少文本幻觉问题。
- Motivation: 现有扩散模型在文本感知图像修复任务中缺乏显式语言知识,容易产生文本幻觉问题,需要一种能够整合视觉和语言信息的方法来准确恢复文本内容。
- Method: 提出UniT框架,包含三个核心组件:1) Diffusion Transformer (DiT)作为主干网络;2) Vision-Language Model (VLM)从退化图像提取文本内容;3) Text Spotting Module (TSM)在去噪过程中生成中间OCR预测。三者以迭代方式协同工作,VLM和TSM在去噪过程中不断优化文本指导,DiT利用这些线索恢复精细文本内容。
- Result: 在SA-Text和Real-Text基准测试中,UniT能够忠实重建退化文本,显著减少幻觉,在文本感知图像修复任务中实现了最先进的端到端F1分数性能。
- Conclusion: UniT通过整合扩散模型的生成先验、视觉语言模型的文本理解和文本检测模块的定位能力,有效解决了文本修复中的幻觉问题,为文本感知图像修复提供了统一的解决方案。
[108] Efficiently Reconstructing Dynamic Scenes One D4RT at a Time
Chuhan Zhang,Guillaume Le Moing,Skanda Koppula,Ignacio Rocco,Liliane Momeni,Junyu Xie,Shuyang Sun,Rahul Sukthankar,Joëlle K Barral,Raia Hadsell,Zoubin Ghahramani,Andrew Zisserman,Junlin Zhang,Mehdi SM Sajjadi
Main category: cs.CV
TL;DR: D4RT是一个简单而强大的前馈模型,使用统一的Transformer架构从单视频联合推断深度、时空对应关系和完整相机参数,通过新颖的查询机制实现高效训练和推理。
- Motivation: 从视频中理解和重建动态场景的复杂几何与运动是计算机视觉中的重大挑战,现有方法通常计算量大或需要多个任务特定解码器。
- Method: 采用统一的Transformer架构,通过新颖的查询机制独立灵活地探测时空任意点的3D位置,避免了密集逐帧解码的重计算和多任务特定解码器的复杂性。
- Result: 该方法在广泛的4D重建任务中超越了先前方法,达到了新的state-of-the-art水平,同时实现了轻量化和高度可扩展性。
- Conclusion: D4RT为动态场景重建提供了一种简单而强大的解决方案,通过统一的架构和创新的查询机制实现了高效训练和推理,在4D重建任务中表现出色。
[109] Selfi: Self Improving Reconstruction Engine via 3D Geometric Feature Alignment
Youming Deng,Songyou Peng,Junyi Zhang,Kathryn Heal,Tiancheng Sun,John Flynn,Steve Marschner,Lucy Chai
Main category: cs.CV
TL;DR: Selfi:通过特征对齐的自改进3D重建流程,将VGGT转换为高保真3D重建引擎,在NVS和相机姿态估计中实现SOTA性能
- Motivation: 传统NVS依赖显式3D归纳偏置和已知相机参数,而VGGT等视觉基础模型通过隐式学习实现前馈预测,但其特征缺乏显式多视角几何一致性,改进3D特征一致性对NVS和姿态估计都有益
- Method: 提出Selfi自改进3D重建流程,通过特征对齐将VGGT主干转换为高保真3D重建引擎。训练轻量级特征适配器,使用重投影一致性损失,将VGGT输出蒸馏到新的几何对齐特征空间,捕捉3D空间邻近性
- Result: 在NVS和相机姿态估计任务中实现最先进的性能,证明特征对齐对下游3D推理非常有益
- Conclusion: 特征对齐是提升下游3D推理性能的关键步骤,Selfi通过自改进流程有效增强了VGGT特征的几何一致性,为3D重建提供了新思路
[110] Astra: General Interactive World Model with Autoregressive Denoising
Yixuan Zhu,Jiaqi Feng,Wenzhao Zheng,Yuan Gao,Xin Tao,Pengfei Wan,Jie Zhou,Jiwen Lu
Main category: cs.CV
TL;DR: Astra是一个交互式通用世界模型,能够为自动驾驶、机器人抓取等多样化场景生成真实世界的未来预测,支持精确的动作交互控制。
- Motivation: 尽管扩散变换器在视频生成方面取得了进展,但能够从过去观察和动作预测长时域未来的通用世界模型仍然缺乏,特别是在通用场景和多样化动作形式方面。
- Method: 采用自回归去噪架构,使用时间因果注意力聚合过去观察;引入噪声增强历史记忆平衡响应性和时间一致性;设计动作感知适配器直接注入动作信号;开发动作专家混合机制动态路由异构动作模态。
- Result: 在多个数据集上的实验表明,Astra在保真度、长时域预测和动作对齐方面优于现有最先进的世界模型,支持交互式、一致且通用的长期视频预测。
- Conclusion: Astra成功构建了一个能够处理多样化场景和动作形式的通用世界模型,为探索、操作和相机控制等现实任务提供了强大的预测能力。
cs.NE
[111] Conditional Morphogenesis: Emergent Generation of Structural Digits via Neural Cellular Automata
Ali Sakour
Main category: cs.NE
TL;DR: 提出条件神经细胞自动机(c-NCA),能够从单一通用种子生长出不同的拓扑结构(MNIST数字),仅通过空间广播的类别向量引导,实现类条件结构生成。
- Motivation: 现有NCA研究主要关注连续纹理合成或单目标对象恢复,而类条件结构生成这一挑战尚未充分探索。生物系统具有显著的形态可塑性,单基因组能编码多种由局部化学信号触发的细胞结构,需要开发能模拟这种自组织的条件生成模型。
- Method: 提出条件神经细胞自动机(c-NCA)架构,通过将one-hot条件向量注入细胞感知场,使单组局部规则能够学习打破对称性并自组装成十个不同的几何吸引子。模型保持严格的局部性和平移等变性,不同于依赖全局感受野的传统生成模型。
- Result: c-NCA实现稳定收敛,能够从单个像素正确形成数字拓扑结构,并表现出生物系统的鲁棒性特征。模型成功生长出不同的MNIST数字,验证了类条件结构生成的能力。
- Conclusion: 这项工作弥合了基于纹理的NCA与结构模式形成之间的差距,为条件生成提供了一个轻量级、生物学上合理的替代方案,展示了局部规则如何通过条件引导实现复杂结构自组织。
cs.AI
[112] See-Control: A Multimodal Agent Framework for Smartphone Interaction with a Robotic Arm
Haoyu Zhao,Weizhong Ding,Yuhao Yang,Zheng Tian,Linyi Yang,Kun Shao,Jun Wang
Main category: cs.AI
TL;DR: See-Control是一个通过低自由度机械臂直接物理交互操作智能手机的框架,解决了现有方法依赖ADB仅限Android设备的问题,提供了平台无关的解决方案。
- Motivation: 现有基于MLLM的智能手机操作智能体依赖Android Debug Bridge进行数据传输和动作执行,这限制了它们只能用于Android设备,缺乏平台无关的通用解决方案。
- Method: 提出了Embodied Smartphone Operation任务和See-Control框架,包含三个关键组件:1)包含155个任务和评估指标的ESO基准测试;2)基于MLLM的具身智能体,无需ADB或系统后端访问即可生成机器人控制命令;3)带有丰富标注的操作片段数据集。
- Result: See-Control通过低自由度机械臂实现了智能手机的直接物理操作,为家庭机器人执行依赖智能手机的任务提供了具体步骤,弥合了数字智能体与物理世界之间的差距。
- Conclusion: 该工作提出的See-Control框架为智能手机操作提供了平台无关的解决方案,通过直接物理交互方式,为未来研究提供了有价值的基准测试和数据集资源,推动了家庭机器人在真实环境中执行智能手机相关任务的能力。
physics.med-ph
[113] Fast and Robust Diffusion Posterior Sampling for MR Image Reconstruction Using the Preconditioned Unadjusted Langevin Algorithm
Moritz Blumenthal,Tina Holliber,Jonathan I. Tamir,Martin Uecker
Main category: physics.med-ph
TL;DR: 提出一种结合精确似然与预处理的快速收敛采样算法,用于加速MRI重建中的后验采样,无需参数调优。
- Motivation: 现有基于ULA和扩散模型的MRI重建方法(如扩散后验采样或似然退火)存在重建时间长、需要参数调优的问题,需要开发快速收敛的鲁棒采样算法。
- Method: 在反向扩散过程中,在所有噪声尺度上将精确似然与扩散先验相乘,并采用预处理技术来克服收敛慢的问题。方法在fastMRI数据上训练,并在健康志愿者脑部数据的回顾性欠采样上测试。
- Result: 对于笛卡尔和非笛卡尔加速MRI的后验采样,新方法在重建速度和样本质量方面均优于退火采样。
- Conclusion: 提出的精确似然与预处理方法能够在各种MRI重建任务中实现快速可靠的后验采样,无需参数调优。
physics.geo-ph
[114] Self-Reinforced Deep Priors for Reparameterized Full Waveform Inversion
Guangyuan Zou,Junlun Li,Feng Liu,Xuejing Zheng,Jianjian Xie,Guoyi Chen
Main category: physics.geo-ph
TL;DR: 提出自增强DIP-FWI框架,通过交替更新网络参数和输入来改善全波形反演,解决了传统DIP-FWI中固定随机输入的问题,提高了反演精度和深度穿透能力。
- Motivation: 传统DIP-FWI使用固定随机输入,无法利用网络输入输出之间的映射关系,在复杂地质条件下缺乏信息先验会加剧反演问题的不适定性,导致伪影和不稳定重建。
- Method: 提出自增强DIP-FWI框架,采用引导算法在每次迭代中交替更新网络参数和输入,利用当前网络输出的反馈进行自适应结构增强和改进正则化。
- Result: 合成测试和实际陆地数据应用表明,SRDIP-FWI相比多尺度FWI具有更高的分辨率、更好的精度和更大的深度穿透能力,且无需手动频率带选择和时间窗拾取。
- Conclusion: 该方法为准确的地下速度模型重建提供了一个新颖、自适应且鲁棒的框架,显著简化了反演工作流程。
math.NA
[115] Generalizations of the Normalized Radon Cumulative Distribution Transform for Limited Data Recognition
Matthias Beckmann,Robert Beinert,Jonas Bresch
Main category: math.NA
TL;DR: 提出R-CDT的广义归一化方法,使其对仿射变换具有不变性,并扩展到多维和非欧几里得空间,实现特征空间中的线性可分。
- Motivation: R-CDT在图像特征表示中表现良好,但现有方法对仿射变换敏感。需要开发更灵活的归一化方法,并扩展到多维和非欧几里得设置,以适应更广泛的应用场景。
- Method: 提出广义归一化方法增强R-CDT的灵活性;利用广义Radon变换扩展到多维和非欧几里得空间;证明特征表示对特定变换具有不变性,并在特征空间中实现线性可分。
- Result: 理论证明特征表示具有变换不变性和线性可分性;数值实验在2D图像、3D形状和3D旋转矩阵上实现接近完美的分类准确率和聚类结果。
- Conclusion: 提出的广义归一化R-CDT方法有效解决了仿射变换不变性问题,成功扩展到多维和非欧几里得空间,为小数据场景下的分类任务提供了强大的特征表示工具。
cs.RO
[116] Sparse Variable Projection in Robotic Perception: Exploiting Separable Structure for Efficient Nonlinear Optimization
Alan Papalia,Nikolas Sanderson,Haoyu Han,Heng Yang,Hanumant Singh,Michael Everett
Main category: cs.RO
TL;DR: 提出一种针对具有规范对称性的机器人感知问题的变量投影方法,通过联合利用可分离性和稀疏性,构建矩阵无关的舒尔补算子,实现比现有方法快2-35倍的求解速度。
- Motivation: 机器人感知中的大规模非线性最小二乘问题通常具有可分离性结构(某些变量线性出现),但现有的变量投影方法难以处理常见的规范对称性(如全局平移和旋转不变性),限制了其在机器人感知中的应用。
- Method: 设计了一种针对规范对称性问题的变量投影方案,通过一次性预处理构建矩阵无关的舒尔补算子,该算子能够高效计算简化问题的成本、梯度和Hessian-向量积,并与标准迭代NLS求解器集成。
- Result: 在SLAM、SNL和SfM的合成和真实基准测试中,该方法比最先进方法快2-35倍,同时保持精度。提供了开源C++实现和所有实验数据集。
- Conclusion: 该方法成功解决了变量投影在机器人感知中处理规范对称性的挑战,通过联合利用可分离性和稀疏性,显著提升了求解效率,为大规模感知问题提供了有效的解决方案。
[117] VLD: Visual Language Goal Distance for Reinforcement Learning Navigation
Lazar Milikic,Manthan Patel,Jonas Frey
Main category: cs.RO
TL;DR: 提出Vision-Language Distance (VLD)学习框架,将感知学习与策略学习解耦,通过自监督距离预测器处理多模态目标,在仿真中训练RL策略,实现可扩展的机器人导航。
- Motivation: 现有端到端图像到动作的导航策略存在两个主要问题:1) 仿真到现实的迁移差距,2) 带动作标签的训练数据有限。需要一种既能利用大规模视觉数据又能保持鲁棒导航行为的可扩展方法。
- Method: 1) 在互联网规模视频数据上训练自监督的距离到目标预测器,支持图像和文本目标;2) 在仿真中使用特权几何距离信号训练RL策略,注入噪声模拟预测器不确定性;3) 部署时策略使用VLD预测,继承大规模视觉训练的语义信息。
- Result: VLD在仿真中实现竞争性导航性能,支持灵活的目标模态(图像和文本),在距离函数评估上优于ViNT和VIP等时序距离方法,提供可扩展的多模态导航方案。
- Conclusion: VLD框架通过解耦感知和策略学习,结合大规模视觉预训练和仿真RL训练的优势,为可靠的多模态导航策略提供了一条可扩展的路径,克服了传统端到端方法的局限性。
[118] DIJIT: A Robotic Head for an Active Observer
Mostafa Kamali Tabrizi,Mingshi Chi,Bir Bikram Dey,Yu Qing Yuan,Markus D. Solbach,Yiqian Liu,Michael Jenkin,John K. Tsotsos
Main category: cs.RO
TL;DR: DIJIT是一个专为移动智能体设计的双目机器人头部,具有9个机械自由度和4个光学自由度,能够模拟人眼和头颈运动,用于研究主动视觉和人类视觉机制。
- Motivation: 研究主动视觉和人类视觉机制,探索人眼/头部运动与计算机视觉方法的差异,为移动智能体提供类人视觉能力。
- Method: 设计具有9个机械自由度和4个光学自由度的双目机器人头部,运动范围和速度接近人类性能,支持会聚立体视觉(vergence、version、cyclotorsion),并提出新的扫视相机运动方法,建立相机方向与电机值的直接关系。
- Result: DIJIT设计完成并进行了性能评估,提出的扫视相机运动方法在准确性上接近人类运动。
- Conclusion: DIJIT为主动视觉研究和人类视觉机制探索提供了有效的硬件平台,其扫视运动方法具有类人性能,有助于理解人类视觉与计算机视觉的差异。
[119] RAVES-Calib: Robust, Accurate and Versatile Extrinsic Self Calibration Using Optimal Geometric Features
Haoxin Zhang,Shuaixin Li,Xiaozhou Zhu,Hongbo Chen,Wen Yao
Main category: cs.RO
TL;DR: 提出一个无需标定板、兼容多种LiDAR和相机传感器的标定工具包,仅需单对激光点和相机图像,通过自适应特征加权优化外参标定
- Motivation: 现有LiDAR-相机标定方法通常需要标定板或初始变换估计,在无目标环境和大位姿偏差情况下鲁棒性不足,需要更通用、鲁棒的标定方案
- Method: 使用Gluestick流水线建立2D-3D点和线特征对应关系获取鲁棒初始猜测;定量分析特征分布对标定结果的影响,基于度量自适应加权每个特征的成本,过滤劣质特征的不良影响来优化外参
- Result: 在室内外多种LiDAR-相机传感器上的实验表明,该方法相比SOTA技术具有更优的鲁棒性和精度
- Conclusion: 开发了一个用户友好的LiDAR-相机标定工具包,无需标定板、无需初始变换,兼容多种传感器,在无目标环境中仅需单对数据即可实现鲁棒准确的外参标定,代码已开源
[120] Embodied Tree of Thoughts: Deliberate Manipulation Planning with Embodied World Model
Wenjiang Xu,Cindy Wang,Rui Fang,Mingkang Zhang,Lusong Li,Jing Xu,Jiayuan Gu,Zecui Zeng,Rui Chen
Main category: cs.RO
TL;DR: EToT提出了一种基于物理模拟的数字孪生世界模型,通过树搜索和反思机制实现机器人操作规划,在长短时程任务中优于基线方法。
- Motivation: 现有视频生成模型缺乏物理基础,容易产生幻觉且难以保持长时程物理约束一致性,需要更可靠的机器人操作规划方法。
- Method: 提出Embodied Tree of Thoughts (EToT)框架,采用Real2Sim2Real方法,利用物理模拟数字孪生作为具身世界模型,通过先验分支和反思分支两种机制进行树搜索规划。
- Result: 在长短时程操作任务中,EToT持续优于基线方法,能有效预测物理动态并适应潜在失败。
- Conclusion: 基于物理模拟的具身世界模型能显著提升机器人操作规划的物理合理性和长时程一致性,EToT框架为此提供了有效解决方案。
[121] Zero-Splat TeleAssist: A Zero-Shot Pose Estimation Framework for Semantic Teleoperation
Srijan Dokania,Dharini Raghavan
Main category: cs.RO
TL;DR: Zero-Splat TeleAssist:零样本传感器融合管道,将普通CCTV视频流转换为共享6自由度世界模型,用于多边遥操作
- Motivation: 传统遥操作需要专用传感器或标记物,成本高且部署复杂。本文旨在利用现有CCTV基础设施,实现无需额外传感器或标记的多机器人遥操作。
- Method: 整合视觉语言分割、单目深度估计、加权PCA姿态提取和3D高斯泼溅技术,从普通监控视频流中重建共享6自由度世界模型。
- Result: 系统能为每个操作员提供多个机器人的实时全局位置和姿态,无需标记物或深度传感器,实现交互为中心的遥操作设置。
- Conclusion: Zero-Splat TeleAssist展示了利用现有CCTV基础设施实现低成本、高效多机器人遥操作的可行性,为远程协作提供了新范式。
cs.LG
[122] LAPA: Log-Domain Prediction-Driven Dynamic Sparsity Accelerator for Transformer Model
Huizheng Wang,Hongbin Wang,Shaojun Wei,Yang Hu,Shouyi Yin
Main category: cs.LG
TL;DR: LAPA提出了一种基于对数域注意力预测的算法-架构协同设计,通过消除昂贵乘法运算和降低累积开销,实现了跨阶段稀疏Transformer加速,能效比SOTA方法提升2.79-3.52倍。
- Motivation: Transformer模型在不同阶段的计算瓶颈随输入序列长度变化而动态变化,需要跨阶段稀疏加速策略。现有稀疏Transformer方法多为单阶段设计,其稀疏预测机制在多阶段应用时会产生显著功耗开销。
- Method: 1) 设计非对称前导一计算(ALOC)方案消除昂贵乘法运算;2) 提出混合精度多轮移位累积(MRSA)机制降低累积开销;3) 设计数据特征依赖过滤器(DDF)与MRSA协同工作;4) 设计专用加速器将理论增强转化为实际硬件改进。
- Result: LAPA相比最先进的Spatten、Sanger和FACT方法,能效分别提升3.52倍、3.24倍和2.79倍。
- Conclusion: LAPA通过算法-架构协同设计,有效解决了跨阶段稀疏Transformer加速中的计算瓶颈和功耗问题,显著提升了能效,为动态输入序列的Transformer加速提供了高效解决方案。
[123] GSPN-2: Efficient Parallel Sequence Modeling
Hongjun Wang,Yitong Jiang,Collin McCarthy,David Wehr,Hanrong Ye,Xinhao Li,Ka Chun Cheung,Wonmin Byeon,Jinwei Gu,Ke Chen,Kai Han,Hongxu Yin,Pavlo Molchanov,Jan Kautz,Sifei Liu
Main category: cs.LG
TL;DR: GSPN-2通过算法-系统联合重新设计,解决了原GSPN在GPU实现中的效率瓶颈,包括内核启动开销、内存传输和冗余计算问题,在保持精度的同时显著降低了计算成本。
- Motivation: 高效视觉Transformer对于高分辨率图像和长视频应用至关重要。虽然GSPN通过线性传播方案降低了计算复杂度,但其GPU实现仍存在内核启动开销大、全局内存传输过多和通道级冗余计算等问题。
- Method: 1) 系统优化:将数千个微内核合并为单个2D内核,每个warp固定处理一个通道切片,在共享内存中暂存前一列的激活值;2) 算法优化:引入紧凑通道传播策略,用共享参数替代每通道独立矩阵,与Transformer注意力中的亲和力图自然对齐。
- Result: 在图像分类和文本到图像合成任务上,GSPN-2能够匹配Transformer级别的精度,同时显著降低计算成本,为视觉应用中的全局空间上下文建模建立了新的效率前沿。
- Conclusion: GSPN-2通过独特的结构化矩阵变换和GPU优化实现相结合,为视觉应用中的全局空间上下文建模提供了高效解决方案,在保持精度的同时大幅提升了计算效率。
[124] CIP-Net: Continual Interpretable Prototype-based Network
Federico Di Valerio,Michela Proietti,Alessio Ragno,Roberto Capobianco
Main category: cs.LG
TL;DR: CIP-Net:一种无需示例的自解释原型模型,用于持续学习,避免灾难性遗忘,同时保持高性能和低内存开销。
- Motivation: 持续学习中存在灾难性遗忘问题,现有可解释AI方法多使用事后解释或需要额外内存存储任务示例,导致可扩展性有限。需要一种无需存储过去示例、架构简单且能提供有用解释的持续学习方法。
- Method: 提出CIP-Net(Continual Interpretable Prototype Network),一种基于原型的自解释模型。它无需存储过去示例,通过原型表示来保持知识,在预测时生成解释,避免了额外内存开销。
- Result: CIP-Net在任务增量学习和类增量学习设置中,相比现有的无示例和自解释方法取得了最先进的性能,同时显著降低了内存相关开销。
- Conclusion: CIP-Net为持续学习提供了一个实用且可解释的解决方案,既能避免灾难性遗忘,又能保持低内存开销和良好的性能表现。
[125] CLARITY: Medical World Model for Guiding Treatment Decisions by Modeling Context-Aware Disease Trajectories in Latent Space
Tianxingjian Ding,Yuanhao Zou,Chen Chen,Mubarak Shah,Yu Tian
Main category: cs.LG
TL;DR: CLARITY是一种医学世界模型,通过在结构化潜在空间中预测疾病演化,整合时间间隔和患者特定数据,生成个体化治疗计划,并在胶质瘤数据集上优于现有方法。
- Motivation: 当前肿瘤学临床决策需要预测动态疾病演化,但现有静态AI预测器无法完成此任务。现有医学世界模型方法通常忽略患者特定的时间和临床背景,缺乏将预测与治疗决策连接的反馈机制。
- Method: CLARITY在结构化潜在空间中直接预测疾病演化,明确整合时间间隔(时间背景)和患者特定数据(临床背景),将治疗条件下的进展建模为平滑、可解释的轨迹,从而生成生理上可信的个体化治疗计划。
- Result: 在MU-Glioma-Post数据集上,CLARITY比最近的MeWM方法性能提升12%,显著超越所有其他医学专用大语言模型,在治疗规划方面达到最先进性能。
- Conclusion: CLARITY通过整合时间和临床背景,在结构化潜在空间中建模疾病演化,提供从预测到决策的透明框架,为个体化肿瘤治疗规划提供了有效解决方案。
[126] TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models
Zheng Ding,Weirui Ye
Main category: cs.LG
TL;DR: TreeGRPO是一种新颖的强化学习框架,通过将去噪过程重构为搜索树,显著提高了生成模型与人类偏好对齐的训练效率,实现2.4倍加速训练。
- Motivation: 当前强化学习后训练虽然对生成模型与人类偏好对齐至关重要,但其高昂的计算成本阻碍了广泛应用。需要一种更高效的训练方法来解决这一问题。
- Method: 将去噪过程重构为搜索树,从共享的初始噪声样本出发,策略性地分支生成多个候选轨迹,同时高效重用它们的共同前缀。采用树结构方法实现高样本效率、细粒度信用分配和摊销计算。
- Result: 在扩散模型和流模型上的实验表明,TreeGRPO实现了2.4倍的训练加速,并在效率-奖励权衡空间中建立了更优的帕累托前沿。在多个基准测试和奖励模型上一致优于GRPO基线。
- Conclusion: TreeGRPO为基于强化学习的视觉生成模型对齐提供了一条可扩展且有效的途径,显著提高了训练效率,解决了计算成本过高的问题。
cs.CL
[127] Curriculum Guided Massive Multi Agent System Solving For Robust Long Horizon Tasks
Indrajit Kar,Kalathur Chenchu Kishore Kumar
Main category: cs.CL
TL;DR: 提出分层多智能体架构,在64*64网格上分布轻量级智能体,通过空间课程学习和Thompson采样管理,提升长时程推理任务的稳定性和效率
- Motivation: 大型语言模型和多智能体系统在处理复杂任务分解方面有潜力,但在长时程推理任务中面临困难且计算成本高昂,需要更高效的分布式推理方法
- Method: 采用分层多智能体架构,在64*64网格上分布轻量级智能体,配合选择性oracle;引入空间课程学习逐步扩展操作区域;使用负对数似然作为置信度度量;Thompson采样课程管理器基于能力和NLL奖励信号自适应选择训练区域
- Result: 在空间接地的汉诺塔基准测试中,系统表现出改进的稳定性、减少的oracle使用率,以及分布式智能体协作带来的更强长程推理能力
- Conclusion: 分层多智能体架构结合空间课程学习和置信度感知训练,能够有效解决长时程推理任务,为机器人操作和规划等复杂任务提供了有前景的解决方案
eess.IV
[128] FlowSteer: Conditioning Flow Field for Consistent Image Restoration
Tharindu Wickremasinghe,Chenyang Qi,Harshana Weligampola,Zhengzhong Tu,Stanley H. Chan
Main category: eess.IV
TL;DR: FlowSteer是一种零样本的图像修复方法,通过操作感知的条件调度方案,在冻结的流模型采样路径中注入测量先验,无需重新训练或适配器即可提高测量一致性和身份保持。
- Motivation: 现有的基于流的文本到图像模型在图像修复任务中容易"漂移",即生成的图像与测量数据不忠实。先前的工作使用特定于数据的流或任务特定的适配器来解决这个问题,但这些方法计算量大且无法跨任务扩展。因此需要一种能有效利用现有流模型生成能力的方法。
- Method: FlowSteer是一种操作感知的条件调度方案,在采样路径中注入测量先验,将冻结流的隐式指导与显式测量约束相结合。该方法利用了流模型的性质及其对噪声的敏感性来设计调度器。
- Result: 在超分辨率、去模糊、去噪和着色等多种图像修复任务中,FlowSteer在严格零样本设置下提高了测量一致性和身份保持,无需重新训练模型或使用适配器,实现了更高保真度的重建图像。
- Conclusion: FlowSteer虽然简单,但通过利用流模型丰富的生成先验,实现了更高保真度的重建图像,为高效操纵现有流模型的生成能力提供了一种有效方法。
[129] Tumor-anchored deep feature random forests for out-of-distribution detection in lung cancer segmentation
Aneesh Rangnekar,Harini Veeraraghavan
Main category: eess.IV
TL;DR: RF-Deep:一种基于随机森林的轻量级后处理OOD检测框架,利用深度特征增强CT肿瘤分割的可靠性
- Motivation: 现有CT肿瘤分割模型容易受到分布外(OOD)输入的影响,产生自信但错误的分割结果,对临床部署构成风险。传统的基于logit的方法存在任务特定模型偏差,而架构增强方法会增加参数和计算成本。
- Method: 提出RF-Deep框架:1)利用预训练-微调骨干编码器的层次特征;2)从预测肿瘤分割的多个感兴趣区域提取特征;3)使用随机森林进行OOD检测;4)支持不同视野的图像;5)仅需有限异常暴露
- Result: 在1,916个CT扫描上测试:近OOD数据集(肺栓塞、阴性COVID-19)AUROC > 93.50;远OOD数据集(肾癌、健康胰腺)AUROC > 99.00。显著优于基于logit和影像组学方法,在不同深度和预训练策略的网络中保持性能一致性
- Conclusion: RF-Deep是一种轻量级、架构无关的插件式OOD检测框架,能有效增强CT体积肿瘤分割的可靠性,适合临床安全部署
cs.PF
[130] Multi-domain performance analysis with scores tailored to user preferences
Sébastien Piérard,Adrien Deliège,Marc Van Droogenbroeck
Main category: cs.PF
TL;DR: 论文提出了一种概率框架来分析跨领域算法性能评估,将性能视为概率测度,证明了加权平均性能与某些评分函数的关系,并基于用户偏好定义了四种领域类型。
- Motivation: 算法性能高度依赖于应用领域的分布,跨多个领域评估后计算加权平均性能很有价值,但需要深入分析这种平均过程的内在机制。
- Method: 采用概率框架,将性能视为概率测度(如分类任务的归一化混淆矩阵),证明加权平均对应汇总操作,某些评分函数(包括排名分数族)的加权算术平均值等于汇总性能的值,权重取决于用户偏好。
- Result: 基于用户偏好严格定义了四种领域类型:最简单、最困难、主导和瓶颈领域,为二分类任务开发了新的可视化工具。
- Conclusion: 该理论框架为跨领域性能评估提供了严格的分析工具,能够根据用户偏好识别不同类型的领域,有助于更深入地理解算法在不同分布下的表现。
cs.GR
[131] Learning to Control Physically-simulated 3D Characters via Generating and Mimicking 2D Motions
Jianan Li,Xiao Chen,Tao Huang,Tien-Tsin Wong
Main category: cs.GR
TL;DR: Mimic2DM:直接从2D关键点轨迹学习3D角色运动控制,无需3D运动数据
- Motivation: 视频数据比动作捕捉数据更经济,但直接从视频合成真实多样的3D角色运动仍具挑战。现有方法依赖运动重建技术获取3D轨迹,但这些方法泛化性差,要么需要3D训练数据,要么无法产生物理合理的姿态,难以应用于人类-物体交互或非人类角色等复杂场景。
- Method: 提出Mimic2DM框架,直接从视频提取的2D关键点轨迹学习控制策略。通过最小化重投影误差训练通用的单视图2D运动跟踪策略,仅使用2D运动数据。策略在不同视角的2D运动数据上训练后,通过聚合多视图获得3D运动跟踪能力。还开发了基于Transformer的自回归2D运动生成器,集成到分层控制框架中,生成高质量2D参考轨迹指导跟踪策略。
- Result: 该方法能够有效学习合成物理合理且多样的运动,涵盖舞蹈、足球运球和动物运动等多个领域,完全不依赖显式的3D运动数据。
- Conclusion: Mimic2DM展示了直接从2D视频数据学习3D角色运动控制的可行性,为利用丰富视频资源进行运动合成提供了新途径,具有广泛的适用性和实用性。
Powered by Deepseek & arXiv Daily AI Enhanced