Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Deep Learning-Driven Multimodal Detection and Movement Analysis of Objects in Culinary
Tahoshin Alam Ishat
Main category: cs.CV
TL;DR: 结合YOLOv8分割模型、LSTM手势动作序列模型和Whisper语音识别,为TinyLLaMA提供多模态数据以生成烹饪步骤指南
- Motivation: 探索计算机视觉在日常厨房活动中的扩展应用,构建能够在复杂环境中执行特定任务的鲁棒系统
- Method: 使用YOLOv8进行图像分割,LSTM处理手势动作序列,Whisper-base进行语音识别,整合多模态数据输入TinyLLaMA生成烹饪指南
- Result: 开发了一个任务专用的系统,能够从多模态输入中提取足够数据来预测食谱并生成逐步烹饪指导
- Conclusion: 这项工作扩展了计算机视觉在日常关键任务中的应用前景,证明了多模态AI系统在复杂环境中的实用价值
[2] AMMKD: Adaptive Multimodal Multi-teacher Distillation for Lightweight Vision-Language Models
Yuqi Li,Chuanguang Yang,Junhao Dong,Zhengtao Yao,Haoyan Xu,Zeyu Dong,Hansheng Zeng,Zhulin An,Yingli Tian
Main category: cs.CV
TL;DR: AMMKD是一个多模态多教师知识蒸馏框架,通过特征融合、多教师蒸馏和自适应优化,实现了轻量级高效的图像文本检索模型
- Motivation: 大型视觉语言预训练模型在移动设备部署受限,需要轻量化但保持性能的解决方案
- Method: 结合多模态特征融合网络、多教师知识蒸馏(预训练两个CLIP教师模型)、KL散度概率分布匹配和自适应动态权重调整
- Result: 在三个基准数据集上验证了优越性能,同时显著降低模型复杂度
- Conclusion: AMMKD框架有效解决了移动端部署问题,提供了轻量高效的图像文本检索方案
[3] ARTPS: Depth-Enhanced Hybrid Anomaly Detection and Learnable Curiosity Score for Autonomous Rover Target Prioritization
Poyraz Baydemir
Main category: cs.CV
TL;DR: ARTPS是一个用于行星表面自主探索的混合AI系统,结合深度估计、异常检测和可学习好奇心评分,在火星车数据集上取得了最先进的性能表现。
- Motivation: 开发一个能够自主优先选择探索目标的系统,用于行星表面探索任务,提高探测效率和目标识别准确性。
- Method: 结合单目深度估计(使用Vision Transformers)、多组件异常检测和加权好奇心评分,平衡已知价值、异常信号、深度方差和表面粗糙度。
- Result: 在火星车数据集上达到AUROC 0.94、AUPRC 0.89、F1分数0.87的优异性能,误报率降低23%,同时保持高检测灵敏度。
- Conclusion: 混合融合方法显著提高了目标优先排序的准确性,通过消融研究验证了各组件的重要贡献,适用于多样化地形类型。
[4] Performance is not All You Need: Sustainability Considerations for Algorithms
Xiang Li,Chong Zhang,Hongpeng Wang,Shreyank Narayana Gowda,Yushi Li,Xiaobo Jin
Main category: cs.CV
TL;DR: 提出创新的二维可持续性评估系统,包含可持续调和平均数(FMS)和可持续曲线下面积(ASC)两个指标,用于平衡深度学习模型训练的性能与能耗,在多模态任务基准测试中验证了其有效性。
- Motivation: 针对深度学习模型训练产生的高碳排放问题,解决算法性能与能耗平衡的核心挑战,推动绿色AI研究从理论向实践转变。
- Method: 创新性地提出两个量化指标:FMS通过调和均值整合累积能耗和性能参数,揭示单位能耗下的算法性能;ASC构建性能-功耗曲线来表征算法全周期的能效特性。在多模态任务中构建基准进行验证。
- Result: 实验证明该评估系统能为跨任务算法评估提供量化依据,促进绿色AI研究的实践应用,并为行业建立算法能效标准提供方法论支持。
- Conclusion: 该研究提出的可持续性评估框架有效解决了深度学习能效评估问题,为算法能源效率标准化提供了可行的技术路径,推动了AI可持续发展的实践进程。
[5] MESTI-MEGANet: Micro-expression Spatio-Temporal Image and Micro-expression Gradient Attention Networks for Micro-expression Recognition
Luu Tu Nguyen,Vu Tram Anh Khuong,Thanh Ha Le,Thi Duyen Ngo
Main category: cs.CV
TL;DR: 提出MESTI新型动态输入模态和MEGANet网络,通过梯度注意力机制提升微表情识别性能,在CASMEII和SAMM数据集上达到最先进水平
- Motivation: 传统输入模态(Apex Frame、光流、动态图像)难以充分捕捉微表情的细微短暂特征,导致识别性能不佳
- Method: 提出MESTI将视频序列转换为单图像并保留微运动特征;设计MEGANet网络包含梯度注意力块来增强细粒度运动特征提取
- Result: MESTI在三种CNN架构上均优于现有输入模态;MEGANet结合MESTI在CASMEII和SAMM数据集上达到最高准确率,创下新基准
- Conclusion: MESTI是优越的输入模态,MEGANet是先进的识别网络,为更有效的微表情识别系统铺平道路
[6] Scaffold Diffusion: Sparse Multi-Category Voxel Structure Generation with Discrete Diffusion
Justin Jung
Main category: cs.CV
TL;DR: Scaffold Diffusion是一个用于生成稀疏多类别3D体素结构的生成模型,使用离散扩散语言模型处理体素作为token,在98%稀疏度的数据上仍能生成真实连贯的结构
- Motivation: 解决稀疏多类别3D体素结构生成困难的问题,特别是立方内存扩展和类别不平衡带来的挑战
- Method: 将体素视为token,使用离散扩散语言模型生成3D体素结构,扩展了离散扩散模型在空间连贯3D结构生成中的应用
- Result: 在Minecraft房屋结构数据集上评估,相比现有基线和自回归方法,能够生成更真实连贯的结构,即使训练数据稀疏度超过98%
- Conclusion: 离散扩散为3D稀疏体素生成建模提供了一个有前景的框架,能够有效处理高度稀疏的3D结构生成问题
[7] Dual-Stage Global and Local Feature Framework for Image Dehazing
Anas M. Ali,Anis Koubaa,Bilel Benjdira
Main category: cs.CV
TL;DR: 提出SGLC框架解决高分辨率图像去雾问题,通过全局特征生成器和局部特征增强器的组合,在保持全局上下文的同时增强局部细节,显著提升高分辨率去雾性能。
- Motivation: 现有去雾模型主要针对低分辨率图像,高分辨率图像处理时往往需要降采样或分块处理,导致性能显著下降,缺乏有效结合全局上下文和局部细节的方法。
- Method: 提出SGLC框架,包含全局特征生成器(GFG)产生初步去雾结果,局部特征增强器(LFE)细化局部细节,可集成到现有去雾模型(如Uformer)中实现全局-局部特征融合。
- Result: 在高分辨率数据集上实验显示,SGLC显著提升了PSNR指标,证明其在大规模雾化图像处理中的有效性。
- Conclusion: SGLC是模型无关的全局-局部特征融合框架,能够有效处理高分辨率图像去雾问题,同时保持场景级线索和细节信息,显著提升视觉保真度。
[8] Self-supervised large-scale kidney abnormality detection in drug safety assessment studies
Ivan Slootweg,Natalia P. García-De-La-Puente,Geert Litjens,Salma Dammak
Main category: cs.CV
TL;DR: 本研究提出了首个大规模自监督学习的肾脏异常检测模型,用于预临床药物开发中的安全性评估,通过自监督学习方法在UNI基础模型特征上达到了超过随机水平的性能。
- Motivation: 肾脏异常检测在预临床药物开发中至关重要,但传统方法需要人工检查数千张全片图像,耗时耗费且大部分图像正常。需要一种能够自动识别异常的高效方法来降低成本和提高效率。
- Method: 研究使用来自158种药物安全性评估的大规模数据集,首先使用UNI基础模型提取特征,然后应用自监督学习方法进行异常检测。对比了简单的k近邻分类器和自监督学习方法的性能。
- Result: 结果显示UNI基础模型特征单独使用时性能仅为随机水平,而自监督学习方法在相同特征上达到了ROC曲线面积0.62,负预测值为89%,表现超过随机水平。
- Conclusion: 研究证明了自监督学习方法在肾脏毒理病理学异常检测中的效果,虽然目前性能仍有提升空间,但该方法有潜力在药物安全性评估中排除正常切片,从而大幅缩短药物开发周期和降低成本。
[9] Waste-Bench: A Comprehensive Benchmark for Evaluating VLLMs in Cluttered Environments
Muhammad Ali,Salman Khan
Main category: cs.CV
TL;DR: 该论文提出了一个专门用于评估视觉大语言模型在复杂环境中处理变形物体能力的新型垃圾分类数据集,并通过深入评估揭示了VLLM在挑战性条件下的性能局限。
- Motivation: 现有视觉大语言模型在标准自然图像上表现优异,但在包含复杂环境和变形物体的杂乱数据集中的能力尚未得到充分探索,特别是在垃圾分类等现实场景中。
- Method: 构建了一个专门针对现实世界垃圾分类场景的新型数据集,该数据集具有复杂环境和变形物体的特点,并设计了一套深入的评估方法来严格测试VLLM的鲁棒性和准确性。
- Result: 研究结果揭示了VLLM在复杂环境下的性能局限性,表明当前模型在处理挑战性条件时仍存在显著不足。
- Conclusion: 该研究强调了进一步提升VLLM鲁棒性的迫切需求,以便在复杂环境中实现更好的性能,同时公开的数据集和代码将为相关研究提供重要资源。
[10] Category-level Text-to-Image Retrieval Improved: Bridging the Domain Gap with Diffusion Models and Vision Encoders
Faizan Farooq Khan,Vladan Stojnić,Zakaria Laskar,Mohamed Elhoseiny,Giorgos Tolias
Main category: cs.CV
TL;DR: 本文提出了一种两步法来解决文本到图像检索中的模态差距问题:首先用扩散模型将文本查询转换为视觉查询,然后用视觉模型估计图像相似度,并通过聚合网络融合多模态相似度分数
- Motivation: 虽然CLIP等视觉语言模型提供了开箱即用的文本到图像检索方案,但文本和图像在表示空间中存在模态差距,限制了检索性能
- Method: 1) 使用生成扩散模型将文本查询转换为视觉查询图像;2) 使用视觉模型估计图像到图像相似度;3) 引入聚合网络将多个生成图像聚合成单一向量表示,并融合两种查询模态的相似度分数
- Result: 广泛的评估表明,该方法在性能上持续优于仅依赖文本查询的检索方法
- Conclusion: 通过结合视觉编码器、视觉语言模型和文本到图像生成模型的最新进展,提出的方法有效弥合了文本和图像之间的模态差距,显著提升了语义类别查询的检索效果
[11] Safe-LLaVA: A Privacy-Preserving Vision-Language Dataset and Benchmark for Biometric Safety
Younggun Kim,Sirnam Swetha,Fazil Kagdi,Mubarak Shah
Main category: cs.CV
TL;DR: 这篇论文提出了PRISM标准化测试框架和Safe-LLaVA数据集,用于评估和减少多模态大语言模型中的生物识别信息泄漏问题,以便更好地保护用户隐私。
- Motivation: 多模态大语言模型在处理视觉-语言任务时常常会推理和泄露敏感的生物识别属性(如种族、性别、年龄等),这在实际应用和社会敏感领域引起了严重的隐私担忧。目前缺乏公开的数据集或测试标准来系统评估这种泄漏问题。
- Method: 研究者们开发了PRISM评测框架,用于测试MLLMs在两个方面的表现:拒绝回答生物识别相关查询,以及在保持语义准确性的同时避免隐式泄漏生物识别信息。同时,对LLaVA数据集进行了详细审计,并构建了Safe-LLaVA数据集,通过系统移除显式和隐式的生物识别信息来保护隐私。
- Result: 在PRISM上的评估显示,各种MLLMs在不同生物识别属性上都存在泄漏问题,曝露了详细的隐私违规情况。使用Safe-LLaVA数据集微调的模型显著减少了生物识别信息的泄漏。
- Conclusion: Safe-LLaVA数据集和PRISM测试框架为MLLMs的隐私对齐开发和评估设定了新标准,有助于减少模型在处理视觉输入时不当泄露用户敏感信息的风险。
[12] Beyond Pixels: Introducing Geometric-Semantic World Priors for Video-based Embodied Models via Spatio-temporal Alignment
Jinzhou Tang,Jusheng zhang,Sidi Liu,Waikit Xiu,Qinhan Lv,Xiying Li
Main category: cs.CV
TL;DR: VEME是一个新颖的跨模态对齐方法,通过构建自我中心的世界模型来增强视觉语言模型在动态环境中的时空推理和泛化能力
- Motivation: 现有视觉语言模型在静态场景理解表现出色,但在动态开放环境中的时空推理和适应性方面存在局限,特别是对细粒度时空线索和物理世界理解不足
- Method: 提出三个核心组件:跨模态对齐框架连接对象、空间表示和视觉语义;动态隐式认知地图实现任务相关的几何语义记忆召回;基于指令的导航推理框架利用具身先验进行长期规划和高效探索
- Result: 在VSI-Bench和VLN-CE基准测试中,相比传统方法实现了1%-3%的准确率和探索效率提升
- Conclusion: 通过嵌入几何感知的时空经验,该方法显著提升了动态环境中的推理和规划能力,为具身智能在未知环境中的复杂任务提供了有效解决方案
[13] Multimodal Deep Learning for Phyllodes Tumor Classification from Ultrasound and Clinical Data
Farhan Fuad Abir,Abigail Elliott Daly,Kyle Anderman,Tolga Ozmen,Laura J. Brattain
Main category: cs.CV
TL;DR: 提出多模态深度学习框架,整合乳腺超声图像和临床数据,提高叶状肿瘤分类准确率,减少不必要的手术切除
- Motivation: 叶状肿瘤在影像学上与良性纤维腺瘤相似,术前分类困难,常导致不必要的手术切除,需要更准确的诊断方法
- Method: 开发双分支神经网络,从81名确诊患者的超声图像和临床数据中提取并融合特征,采用类别感知采样和分层5折交叉验证
- Result: 多模态方法优于单模态基线,ConvNeXt和ResNet18表现最佳,AUC-ROC分别达0.9427和0.9349,F1分数分别为0.6720和0.7294
- Conclusion: 多模态AI有潜力作为非侵入性诊断工具,减少不必要活检,改善乳腺肿瘤管理的临床决策
[14] GraViT: Transfer Learning with Vision Transformers and MLP-Mixer for Strong Gravitational Lens Discovery
René Parlange,Juan C. Cuevas-Tello,Octavio Valenzuela,Omar de J. Cabrera-Rosas,Tomás Verdugo,Anupreeta More,Anton T. Jaelani
Main category: cs.CV
TL;DR: GraViT是一个基于PyTorch的引力透镜检测管道,利用预训练的Vision Transformer和MLP-Mixer模型,通过迁移学习提升分类性能,在LSST时代实现自动化引力透镜检测。
- Motivation: LSST预计在未来十年发现约10^5个引力透镜,需要自动化分类器来应对大规模数据处理需求,传统方法无法满足如此庞大的数据量。
- Method: 使用HOLISMOKES VI和SuGOHI X数据集,对10种架构进行微调,评估数据质量、模型架构、训练策略和集成预测对分类性能的影响,并与卷积基线进行对比。
- Result: 研究复现了先前神经网络系统比较的实验,提供了在共同测试样本上强引力透镜可检测性的见解,并进行了复杂度和推理时间分析。
- Conclusion: GraViT管道通过先进的视觉Transformer模型和迁移学习策略,为大规模引力透镜检测提供了有效的自动化解决方案,能够满足LSST时代的数据处理需求。
[15] A High-Accuracy Fast Hough Transform with Linear-Log-Cubed Computational Complexity for Arbitrary-Shaped Images
Danil Kazimirov,Dmitry Nikolaev
Main category: cs.CV
TL;DR: 本文提出了FHT2SP算法,一种快速且高精度的霍夫变换算法,在保持近似误差恒定有界的同时实现近最优计算复杂度
- Motivation: 现有快速霍夫变换算法(FHT)要么计算复杂度最优但精度随尺度恶化,要么精度高但计算成本接近立方级,需要平衡计算效率和精度
- Method: 基于Brady的超像素概念,将其扩展到任意形状(突破原始2的幂次方约束),并集成到FHT2DT算法中,通过选择适当的超像素尺寸来控制精度
- Result: FHT2SP算法达到近最优计算复杂度O(wh ln³ w),同时保持近似误差与图像尺寸无关的恒定有界,可通过元参数控制
- Conclusion: 该算法成功解决了霍夫变换中计算复杂度与精度之间的权衡问题,为各种应用提供了高效且准确的解决方案
[16] Generative AI for Industrial Contour Detection: A Language-Guided Vision System
Liang Gong,Tommy,Wang,Sara Chaker,Yanchen Dong,Fouad Bousetouane,Brenden Morton,Mark Mendez
Main category: cs.CV
TL;DR: 这篇论文提出了一种语言导向的生成式视觉系统,用于制造业中的残余轮廓检测,通过条件GAN和多模态轮廓精炼技术,实现了比传统方法更高的精度和效果。
- Motivation: 工业计算机视觉系统遇到噪声、材料变异性和非控制成像条件的挑战,传统边缘检测器和手工管道效果有限。
- Method: 系统分为三个阶段:数据获取和预处理、使用条件GAN生成轮廓、通过视觉-语言模型进行多模态轮廓精炼,采用人在循环过程制作标准提示词。
- Result: 在FabTrack数据集上,系统提高了轮廓保真度,增强了边缘连续性和几何对齐,减少了手工追踪。GPT-image-1在结构准确性和感知质量方面都超过Gemini 2.0 Flash。
- Conclusion: 这些发现证明了VLM导向的生成式工作流在推进工业计算机视觉领域超越传统管道的潜力。
[17] Language-Aware Information Maximization for Transductive Few-Shot CLIP
Ghassen Baklouti,Maxime Zanella,Ismail Ben Ayed
Main category: cs.CV
TL;DR: 本文提出了一种基于信息论和参数高效微调的新颖transductive few-shot CLIP方法LIMO,通过语言感知信息最大化损失显著提升了性能。
- Motivation: 当前transductive few-shot learning主要集中在视觉模型,在基础视觉-语言模型(VLMs)中的研究仍处于早期阶段。现有方法表明transductive在VLMs中具有潜力,但需要专门为VLM定制的方法。
- Method: 提出了LIMO损失函数,包含三个互补项:(1)视觉输入与文本类别描述之间的互信息;(2)KL散度惩罚网络概率输出与文本驱动的零样本预测的偏差;(3)基于标注样本的标准交叉熵损失。同时探索了参数高效微调策略。
- Result: LIMO大幅超越了最近的transductive few-shot CLIP方法,相比最佳inductive方法也有显著提升。参数高效微调策略带来了性能的显著提升。
- Conclusion: 研究表明在transductive few-shot设置中调整模型参数子集具有巨大潜力,LIMO方法为VLM的transductive学习提供了有效的解决方案。
[18] MorphGen: Morphology-Guided Representation Learning for Robust Single-Domain Generalization in Histopathological Cancer Classification
Hikmat Khan,Syed Farhan Alam Zaidi,Pir Masoom Shah,Kiruthika Balakrishnan,Rabia Khan,Muhammad Waqas,Jia Wu
Main category: cs.CV
TL;DR: MorphGen是一种通过显式建模核形态和空间组织来提高组织病理学图像领域泛化能力的方法,使用监督对比学习框架整合图像、增强和核分割掩码,在领域偏移和对抗攻击下表现出强鲁棒性。
- Motivation: 计算组织病理学中的领域泛化受到全切片图像异质性的阻碍,而病理学家依赖领域不变的形态学线索进行诊断。受此启发,研究假设显式建模生物学上稳健的核形态和空间组织将能学习对领域偏移具有弹性的癌症表示。
- Method: 提出MorphGen方法,在监督对比学习框架中整合组织病理学图像、增强和核分割掩码。通过对齐图像和核掩码的潜在表示,优先考虑核和形态学异型性等诊断特征。还结合随机权重平均(SWA)来增强分布外鲁棒性。
- Result: 注意力图分析显示MorphGen主要依赖核形态、细胞组成和空间细胞组织进行分类。该方法对图像损坏(如染色伪影)和对抗攻击表现出强韧性,不仅实现了OOD泛化,还解决了当前数字病理深度学习系统的关键漏洞。
- Conclusion: MorphGen通过显式建模生物学相关的形态学特征,成功提高了组织病理学图像分析的领域泛化能力,为开发更稳健的数字病理诊断系统提供了有效方法。
[19] Towards Adaptive Visual Token Pruning for Large Multimodal Models
Hao Zhang,Mengsi Lyu,Chenrui He,Yulong Ao,Yonghua Lin
Main category: cs.CV
TL;DR: 这篇论文提出了一种专门针对视觉到床的互信息基于的视觉到床剪枝策略,通过保持跨模态对齐和模态内信息多样性,在减少计算成本的同时保持了模型性能。
- Motivation: 大型多模态模型中视视觉到床的增加导致计算和内存成本大幅上升,现有的到床剪枝方法存在成本高或重要性评估不优的问题,导致保留了过多冗余到床。
- Method: 提出专门针对视觉到床的剪枝策略:1)基于互信息的到床剪枝,移除与文本到床语义不对齐的视觉到床;2)通过最大化嵌入空间中的预期成对距离来剪枝冗余视觉到床,使用贪心算法高效求解。
- Result: 实验结果显示,该方法在LLaVA-1.5-7B和LLaVA-NEXT-7B模型上能够减少88.9%的到床数量,同时保持了强劲的性能表现,推理速度提升56.7%。
- Conclusion: 该研究提出的视觉到床剪枝方法通过合理的到床选择策略,有效降低了大型多模态模型的计算成本,为高效多模态处理提供了有效解决方案。
[20] CryptoFace: End-to-End Encrypted Face Recognition
Wei Ao,Vishnu Naresh Boddeti
Main category: cs.CV
TL;DR: CryptoFace是首个基于全同态加密的端到端加密人脸识别系统,能够在特征提取、存储和匹配全过程中保护原始图像和特征数据的安全
- Motivation: 人脸识别在认证和安全应用中存在严重的隐私风险,特别是生物特征数据的未授权访问问题,需要一种能够保护原始数据安全的解决方案
- Method: 采用浅层补丁卷积网络混合架构,通过基于补丁的处理支持高维张量,同时降低乘法深度和推理延迟;并行FHE评估确保延迟与分辨率无关
- Result: 在标准人脸识别基准测试中,相比现有最先进的FHE神经网络,CryptoFace显著加速了推理过程并提高了验证准确率
- Conclusion: CryptoFace将为需要强大可证明安全性的安全人脸识别系统提供支持,代码已开源
[21] LUT-Fuse: Towards Extremely Fast Infrared and Visible Image Fusion via Distillation to Learnable Look-Up Tables
Xunpeng Yi,Yibing Zhang,Xinyu Xiang,Qinglong Yan,Han Xu,Jiayi Ma
Main category: cs.CV
TL;DR: 提出LUT-Fuse方法,通过可学习查找表实现极快速的红外与可见光图像融合,比现有轻量级算法快10倍以上
- Motivation: 当前红外与可见光图像融合研究主要关注融合性能提升,但忽视了在实时融合设备上的实际应用需求
- Method: 开发了结合低阶近似编码和高层联合上下文场景编码的查找表结构,并提出高效的LUT蒸馏策略替代传统量化方法
- Result: 方法在效率和性能上取得显著突破,所需时间不到当前轻量级SOTA算法的十分之一,在低功耗移动设备上也能高速运行
- Conclusion: 大量实验验证了该融合方法的优越性、可靠性和稳定性,为实时多模态图像融合提供了高效解决方案
[22] Target-Oriented Single Domain Generalization
Marzi Heidari,Yuhong Guo
Main category: cs.CV
TL;DR: 提出了TO-SDG新问题设置,利用目标域文本描述(无需目标数据)指导模型泛化,并开发STAR模块通过视觉语言模型将目标语义注入源特征
- Motivation: 现有单域泛化方法忽视了一个现成资源:目标部署环境的文本描述,这些方法主要关注数据增强或学习不变特征
- Method: STAR模块利用CLIP等视觉语言模型,通过目标锚定子空间重新中心化图像特征,使用谱投影保留目标对齐方向,结合视觉语言蒸馏和特征空间Mixup
- Result: 在多个图像分类和目标检测基准测试中表现出优越性能
- Conclusion: 研究表明,最小化的文本元数据这一实用且常被忽视的资源,能在严重数据约束下显著增强泛化能力,为在未见数据的目标环境中部署鲁棒模型开辟了新途径
[23] AQFusionNet: Multimodal Deep Learning for Air Quality Index Prediction with Imagery and Sensor Data
Koushik Ahmed Kushal,Abdullah Al Mamun
Main category: cs.CV
TL;DR: AQFusionNet是一个多模态深度学习框架,通过融合地面大气图像和污染物浓度数据,在资源受限地区实现准确的空气质量指数预测,比单模态方法提升18.5%性能。
- Motivation: 资源受限地区由于传感器部署稀疏和基础设施有限,空气质量监测面临挑战,需要开发能够在有限基础设施下工作的鲁棒预测方法。
- Method: 使用轻量级CNN骨干网络(MobileNetV2、ResNet18、EfficientNet-B0)整合地面大气图像和污染物浓度数据,通过语义对齐的嵌入空间融合视觉和传感器特征。
- Result: 在印度和尼泊尔的8000多个样本上测试,AQFusionNet持续优于单模态基线,最高达到92.02%的分类准确率和7.70的RMSE,计算开销低,适合边缘设备部署。
- Conclusion: AQFusionNet为基础设施有限环境提供了可扩展且实用的AQI监测解决方案,即使在部分传感器可用的情况下也能提供鲁棒的预测能力。
[24] Iterative Low-rank Network for Hyperspectral Image Denoising
Jin Ye,Fengchao Xiong,Jun Zhou,Yuntao Qian
Main category: cs.CV
TL;DR: ILRNet是一种结合模型驱动和数据驱动方法的迭代低秩网络,通过将秩最小化模块嵌入U-Net架构,在特征域中利用HSI的光谱低秩性,实现了优异的HSI去噪性能。
- Motivation: HSI去噪是后续任务的关键预处理步骤。干净的HSI通常存在于低维子空间中,可以通过低秩和稀疏表示来捕获,但如何充分利用这种物理特性进行有效去噪同时保留图像细节是一个挑战。
- Method: 提出ILRNet,在U-Net架构中嵌入秩最小化模块(RMM),将特征图转换到小波域并对低频分量应用奇异值阈值(SVT)。参数从数据中自适应学习,并采用迭代细化过程自适应结合中间去噪结果和噪声输入。
- Result: 实验结果表明,ILRNet在合成和真实噪声去除任务中都达到了最先进的性能。
- Conclusion: ILRNet成功整合了模型驱动和数据驱动方法的优势,通过特征域中的低秩约束和迭代细化过程,实现了高效的HSI去噪和细节保留。
[25] SurgLLM: A Versatile Large Multimodal Model with Spatial Focus and Temporal Awareness for Surgical Video Understanding
Zhen Chen,Xingjian Luo,Kun Yuan,Jinlin Wu,Danny T. M. Chan,Nassir Navab,Hongbin Liu,Zhen Lei,Jiebo Luo
Main category: cs.CV
TL;DR: SurgLLM是一个针对手术视频理解的大规模多模态框架,通过空间感知预训练和时间感知调优,在多种手术视频任务上实现最先进性能
- Motivation: 现有手术视频理解方法存在视觉内容感知不足和时间意识不够的问题,限制了通用计算机辅助手术系统的发展
- Method: 提出SurgLLM框架,包括手术上下文感知多模态预训练(Surg-Pretrain)进行器械中心掩码视频重建,时间感知多模态调优(TM-Tuning)增强时序推理,以及手术任务动态集成机制
- Result: 在多种手术视频理解任务(字幕生成、通用VQA、时序VQA)上相比现有方法有显著改进
- Conclusion: SurgLLM通过增强空间聚焦和时间意识,为通用手术视频理解提供了有效的解决方案
[26] A Multimodal Head and Neck Cancer Dataset for AI-Driven Precision Oncology
Numan Saeed,Salma Hassan,Shahad Hardan,Ahmed Aly,Darya Taratynova,Umair Nawaz,Ufaq Khan,Muhammad Ridzuan,Thomas Eugene,Rapha"el Metz,M'elanie Dore,Gregory Delpon,Vijay Ram Kumar Papineni,Kareem Wahid,Cem Dede,Alaa Mohamed Shawky Ali,Carlos Sjogreen,Mohamed Naser,Clifton D. Fuller,Valentin Oreiller,Mario Jreige,John O. Prior,Catherine Cheze Le Rest,Olena Tankyevych,Pierre Decazes,Su Ruan,Stephanie Tanadini-Lang,Martin Valli`eres,Hesham Elhalawani,Ronan Abgral,Romain Floch,Kevin Kerleguer,Ulrike Schick,Maelle Mauguen,Vincent Andrearczyk,Adrien Depeursinge,Mathieu Hatt,Arman Rahmim,Mohammad Yaqub
Main category: cs.CV
TL;DR: 公开的多模态头颈癌PET/CT数据集,包含1123个病例,来自10个国际医疗中心,提供专家标注的分割掩码、放疗剂量分布和临床元数据,用于肿瘤分割、生存预测和HPV状态分类任务。
- Motivation: 为头颈癌研究提供高质量、多样化的多模态医学影像数据集,解决现有数据稀缺和标准化不足的问题,支持深度学习模型在临床任务中的应用。
- Method: 收集10个国际医疗中心的1123个FDG-PET/CT研究,由经验丰富的放射肿瘤学家和放射科医师按照标准化指南手动分割原发肿瘤体积和受累淋巴结,提供NifTi格式数据和全面的临床元数据。
- Result: 数据集包含丰富的标注信息和临床数据,可用于三个关键临床任务的基准测试:自动肿瘤分割(使用UNet、SegResNet)、无复发生存预测和HPV状态分类,展示了最先进深度学习模型的性能。
- Conclusion: 该数据集为头颈癌研究提供了宝贵的资源,支持多模态深度学习模型的开发和评估,有助于推动精准医学和临床决策支持系统的发展。
[27] Two Causes, Not One: Rethinking Omission and Fabrication Hallucinations in MLLMs
Guangzong Si,Hao Yin,Xianfei Li,Qing Ding,Wenlong Liao,Tao He,Pai Peng
Main category: cs.CV
TL;DR: 这篇论文提出了一种新的视觉潜力场检查方法,通过分离处理错误看到和错误构造两类幻觉问题,有效减少对象幻觉现象而不会引入新的错误。
- Motivation: 现有的多模态大语言模型在对象幻觉问题上存在缺陷,并且常常将遗漏幻觉和构造幻觉混为一谈,导致减少一种幻觉却增加另一种幻觉。
- Method: 通过视觉注意力干预实验,提出了视视觉-语义注意力潜力场概念框架,并基于此开发了视视觉潜力场检查方法,这是一种即插即用的幻觉减缓方法。
- Result: 该方法能够有效减少遗漏幻觉,同时不会引入额外的构造幻觉,显示了对当前幻觉研究中关键误区的重要发现。
- Conclusion: 这项研究揭示了当前对象幻觉研究中的关键误区,为开发更稳健和平衡的幻觉减缓策略指明了新方向。
[28] Activation Steering Meets Preference Optimization: Defense Against Jailbreaks in Vision Language Models
Sihao Wu,Gaojie Jin,Wei Huang,Jianhong Wang,Xiaowei Huang
Main category: cs.CV
TL;DR: SPO-VLM是一个针对视觉语言模型的两阶段防御框架,通过激活干预和策略优化来增强模型鲁棒性,同时保持视觉理解能力
- Motivation: 现有基于激活引导的防御方法依赖任务特定的对比提示来提取有害方向,性能次优且可能降低视觉接地性能
- Method: 两阶段框架:第一阶段从多样数据源计算自适应层特定引导向量;第二阶段通过序列级偏好优化过程细化这些向量,整合自动毒性评估和视觉一致性奖励
- Result: SPO-VLM通过激活引导和偏好优化增强了对抗攻击的安全性,同时在良性任务上保持强性能且不损害视觉理解能力
- Conclusion: SPO-VLM的两阶段结构平衡了效率和效果,结合了轻量级缓解基础和深度策略细化,为VLM安全防御提供了有效解决方案
[29] Adaptive Point-Prompt Tuning: Fine-Tuning Heterogeneous Foundation Models for 3D Point Cloud Analysis
Mengke Li,Lihao Chen,Peng Zhang,Yiu-ming Cheung,Hui Huang
Main category: cs.CV
TL;DR: 提出APPT方法,通过点提示调优直接利用点云特征校准异质基础模型,无需高维到低维映射,实现参数高效的3D点云分析
- Motivation: 由于点云数据稀缺,预训练大型3D模型困难。现有方法通过"高到低"映射将视觉模型应用到3D领域,但会丢失空间几何信息且缺乏通用框架
- Method: 将原始点云转换为点嵌入,聚合局部几何特征;使用排列不变特征捕获相对位置;引入共享权重的提示生成器动态产生点提示,与冻结基础模型拼接
- Result: APPT方法能够以少量参数微调预训练模型,直接处理点云数据,保持空间几何特征,为任意模态到3D的适配提供通用解决方案
- Conclusion: 该方法成功解决了异质基础模型在3D点云分析中的适配问题,通过点提示调优实现了参数高效且保持几何信息的跨模态迁移
[30] NoiseCutMix: A Novel Data Augmentation Approach by Mixing Estimated Noise in Diffusion Models
Shumpei Takezaki,Ryoma Bise,Shinnosuke Matsuo
Main category: cs.CV
TL;DR: 基于温度模型的新题数据增帽方法NoiseCutMix,通过结合两个类别的预测噪声来生成自然高分辨率的融合图像,充分利用了CutMix的特征融合能力和温度模型的高质量图像生成能力
- Motivation: 传统的CutMix和MixUp等多类图像结合方法存在边界不自然的问题,需要一种能够生成自然高分辨率融合图像的数据增帽方法
- Method: 提出NoiseCutMix方法,在温度模型的生成过程中部分结合两个不同类别对应的预测噪声,从而实现两个类别特征的自然融合
- Result: 通过分类实验验证了方法的有效性,与传统的多类数据增帽技术、使用Stable Diffusion的随机图像生成以及这些方法的组合进行了对比
- Conclusion: NoiseCutMix能够生成自然高质量的融合图像,在分类任务中显示出更好的性能,为深度学习数据增帽提供了新的解决方案
[31] Domain Adaptation-Based Crossmodal Knowledge Distillation for 3D Semantic Segmentation
Jialiang Kang,Jiawen Wang,Dingsheng Luo
Main category: cs.CV
TL;DR: 提出两种跨模态知识蒸馏方法UDAKD和FSKD,利用自动驾驶场景中同步的相机和LiDAR数据,通过2D-3D对应关系将预训练2D图像模型的知识迁移到3D点云分割,无需3D标注
- Motivation: 3D LiDAR点云标注成本高且耗时,而2D图像数据集丰富易得,希望通过跨模态知识蒸馏减少对3D标注的依赖
- Method: 使用无监督域适应知识蒸馏(UDAKD)和基于特征与语义的知识蒸馏(FSKD),利用已知的2D-3D对应关系,在3D点云上部署自校准卷积作为域适应模块的基础
- Result: 实验验证了所提方法的有效性,在性能上持续超越领域内最先进的方法
- Conclusion: 通过跨模态知识蒸馏可以成功将2D图像知识迁移到3D点云分割,有效减少对昂贵3D标注的依赖,同时保持模态通用信息并过滤模态特定细节
[32] Visually Grounded Narratives: Reducing Cognitive Burden in Researcher-Participant Interaction
Runtong Wu,Jiayao Song,Fei Teng,Xianhao Ren,Yuyan Gao,Kailun Yang
Main category: cs.CV
TL;DR: 提出NAME新范式,将研究文档转换为连贯的故事图像,显著减轻叙事分析中文本解读的认知负担,仅需0.96%数据量即可实现优于基线的性能。
- Motivation: 传统叙事分析需要将各种数据转化为手写叙事故事,给研究者和参与者带来沉重负担,需要更高效、友好的叙事制作和呈现方法。
- Method: 开发NAME范式,包含演员定位和形状模块以促进合理图像生成,并设计包含三个关键维度的评估指标来客观衡量生成角色的感知质量和叙事一致性。
- Result: 在不同数据划分方案下均表现最优:仅用0.96%数据就将FID分数从195降至152;同等数据量下,70:30划分从175降至152,95:5划分从96降至49;新指标得分3.62优于基线2.66。
- Conclusion: NAME范式成功减轻了叙事分析的认知负担,通过少量数据实现优质图像生成,为叙事探究领域提供了更高效、参与者友好的新方法。
[33] HERO-VQL: Hierarchical, Egocentric and Robust Visual Query Localization
Joohyun Chang,Soyeon Hong,Hyogun Lee,Seong Jong Ha,Dongho Lee,Seong Tae Kim,Jinwoo Choi
Main category: cs.CV
TL;DR: HERO-VQL是一种针对第一人称视角视频中视觉查询定位的新方法,通过自上而下的注意力引导和增强一致性训练,有效解决了视角突变和遮挡问题,在VQ2D数据集上显著超越基线方法。
- Motivation: 第一人称视角视频中频繁且突然的视角变化导致物体外观变化大和部分遮挡严重,现有方法难以实现精确定位。
- Method: 提出HERO-VQL方法,包含:1)自上而下的注意力引导(TAG),利用类别token获取高层上下文和主成分得分图进行细粒度定位;2)第一人称增强一致性训练(EgoACT),通过替换查询对象和重排视频帧来增强查询多样性并模拟极端视角变化,同时使用一致性损失确保不同增强场景下的稳定定位。
- Result: 在VQ2D数据集上的大量实验验证了HERO-VQL能够有效处理第一人称视角的挑战,性能显著优于基线方法。
- Conclusion: HERO-VQL受人类认知过程启发,通过创新的注意力机制和增强训练策略,成功解决了第一人称视觉查询定位中的关键挑战。
[34] Double-Constraint Diffusion Model with Nuclear Regularization for Ultra-low-dose PET Reconstruction
Mengxiao Geng,Ran Hong,Bingxuan Li,Qiegen Liu
Main category: cs.CV
TL;DR: 提出双约束扩散模型DCDM,通过冻结预训练扩散模型权重并注入可训练的双约束控制器,大幅减少可训练参数数量,实现超低剂量PET重建,在已知和未知剂量水平下均优于现有方法。
- Motivation: 超低剂量PET重建可减少患者辐射暴露和检查时间,但会导致噪声增加和图像细节减少,影响图像质量。需要一种既能适应不同剂量水平又不需要重新训练所有参数的灵活重建方法。
- Method: 提出双约束扩散模型(DCDM):冻结预训练扩散模型权重,注入可训练的双约束控制器。包含核变换器约束(NTC)和编码连接约束(ENC)两个模块。NTC利用核范数进行矩阵秩最小化,将低秩特性集成到Transformer架构中;ENC利用压缩特征表示编码和控制预训练扩散模型。
- Result: 在UDPET公共数据集和临床数据集上的实验表明,DCDM在已知剂量减少因子(DRF)和未知DRF场景下均优于最先进方法,即使在超低剂量水平(如全剂量的1%)下也表现出色。
- Conclusion: DCDM通过双约束控制器有效减少了可训练参数数量,提高了重建灵活性,能够适应不同剂量水平而无需重新训练所有参数,在超低剂量PET重建中具有重要价值。
[35] DAOVI: Distortion-Aware Omnidirectional Video Inpainting
Ryosuke Seshimo,Mariko Isogawa
Main category: cs.CV
TL;DR: 提出了一种针对全景视频修复的新深度学习方法DAOVI,通过考虑测地距离的时间运动评估和深度感知特征传播模块,有效处理等距柱状投影的几何畸变问题
- Motivation: 全景视频的广视角经常导致不需要的物体出现在视频中,现有方法主要针对普通窄视角视频,无法处理全景视频等距柱状投影的畸变问题
- Method: 提出DAOVI模型,包含基于测地距离评估时间运动信息的模块,以及在特征空间中设计的深度感知特征传播模块来处理几何畸变
- Result: 实验结果表明,该方法在定量和定性评估上都优于现有方法
- Conclusion: DAOVI方法成功解决了全景视频修复中的几何畸变问题,为全景视频处理提供了有效的解决方案
[36] DevilSight: Augmenting Monocular Human Avatar Reconstruction through a Virtual Perspective
Yushuo Chen,Ruizhi Shao,Youxin Pang,Hongwen Zhang,Xinyi Wu,Rihui Wu,Yebin Liu
Main category: cs.CV
TL;DR: 提出了一种从单目视频重建人体化身的创新框架,通过利用视频生成模型Human4DiT生成多视角运动作为额外监督信号,解决了现有方法在细节捕捉和新视角生成方面的局限性。
- Motivation: 现有方法在从单目视频重建人体化身时,要么难以捕捉输入的细粒度动态细节,要么无法在新视角下生成合理的细节,这主要源于化身模型的表示能力有限和观测数据不足。
- Method: 1) 利用Human4DiT视频生成模型生成替代视角的人体运动作为额外监督信号;2) 通过视频微调注入物理身份确保运动一致性;3) 采用基于块的去噪算法实现更高分辨率输出。
- Result: 实验结果表明,该方法优于最近的最先进方法,验证了所提出策略的有效性。
- Conclusion: 通过引入视频生成模型作为额外监督信号,并结合身份注入和块去噪策略,成功提升了单目视频人体化身重建的质量和细节表现。
[37] LightVLM: Acceleraing Large Multimodal Models with Pyramid Token Merging and KV Cache Compression
Lianyu Hu,Fanhua Shang,Wei Feng,Liang Wan
Main category: cs.CV
TL;DR: LightVLM是一种无需训练即可加速现有视觉语言模型推理的方法,通过分层令牌合并和KV缓存压缩技术,在编码和解码阶段同时加速,实现2.02倍吞吐量提升和3.65倍预填充时间减少。
- Motivation: 现有视觉语言模型推理速度慢,特别是在处理长序列时延迟高,限制了实际部署应用。需要一种无需重新训练的高效加速方法。
- Method: 采用两阶段加速:编码阶段使用金字塔令牌分层合并技术减少图像令牌数量;解码阶段通过KV缓存压缩移除不必要的缓存,提高网络吞吐量。
- Result: 仅保留35%图像令牌时可保持100%性能,3%令牌时仍维持98%性能。网络吞吐量提升2.02倍,预填充时间减少3.65倍,长序列生成时间减少3.21倍。
- Conclusion: LightVLM有效解决了VLMs推理效率问题,使大型模型推理速度超过小型模型,为实际部署提供了可行的加速方案。
[38] Mixture of Global and Local Experts with Diffusion Transformer for Controllable Face Generation
Xuechao Zou,Shun Zhang,Xing Fu,Yue Li,Kai Li,Yushe Cao,Congyan Lang,Pin Tao,Junliang Xing
Main category: cs.CV
TL;DR: Face-MoGLE是一个基于扩散变换器的可控人脸生成框架,通过语义解耦的潜在建模、全局局部专家混合和动态门控网络,实现了高质量、细粒度的可控人脸生成。
- Motivation: 现有方法在语义控制与生成管道解耦方面存在困难,需要平衡语义可控性和照片真实感。本文重新审视扩散变换器的架构潜力,通过专家专业化来解决这一问题。
- Method: 1) 通过掩码条件空间分解实现语义解耦的潜在建模;2) 混合全局和局部专家来捕获整体结构和区域级语义;3) 动态门控网络生成随时间步和空间位置演化的系数。
- Result: 在多种模态和单模态人脸生成设置中表现出有效性,具有强大的零样本泛化能力,为高质量可控人脸生成提供了强大灵活的解决方案。
- Conclusion: Face-MoGLE框架在生成建模和安全应用方面具有强大潜力,通过专家专业化方法成功解决了可控人脸生成中的语义控制与真实感平衡问题。
[39] SemaMIL: Semantic Reordering with Retrieval-Guided State Space Modeling for Whole Slide Image Classification
Lubin Gan,Xiaoman Wu,Jing Zhang,Zhifeng Wang,Linhao Qu,Siying Wu,Xiaoyan Sun
Main category: cs.CV
TL;DR: SemaMIL是一个新的多实例学习框架,通过语义重排序和语义引导检索状态空间模块,在计算病理学中实现了最先进的准确率,同时降低了计算复杂度。
- Motivation: 现有的注意力机制MIL方法忽略了上下文关系,Transformer模型计算成本高且容易过拟合,状态空间模型虽然计算复杂度低但打乱补丁顺序会破坏组织学意义。
- Method: 提出SemaMIL框架,包含语义重排序(SR)方法对语义相似的补丁进行聚类和排序,以及语义引导检索状态空间模块(SRSM)选择代表性查询子集来调整状态空间参数。
- Result: 在四个WSI亚型数据集上的评估显示,SemaMIL相比强基线方法实现了最先进的准确率,同时使用了更少的FLOPs和参数。
- Conclusion: SemaMIL成功解决了现有MIL方法在计算病理学中的局限性,在保持高准确率的同时显著降低了计算复杂度,为WSI分析提供了更高效的解决方案。
[40] Stage-wise Adaptive Label Distribution for Facial Age Estimation
Bo Wu,Zhiqi Ai,Jun Jiang,Congcong Zhu,Shugong Xu
Main category: cs.CV
TL;DR: 提出SA-LDL算法,通过阶段自适应方差建模和加权损失函数解决年龄估计中的标签模糊性问题,在MORPH-II和FG-NET数据集上分别达到1.74和2.15的MAE。
- Motivation: 现有方法通过标签分布学习建模相邻年龄组相关性,但忽略了不同年龄阶段存在的不同程度标签模糊性。
- Method: SA-LDL算法基于嵌入相似性分析发现标签模糊性呈现明显的阶段性模式,采用阶段自适应方差建模和加权损失函数来捕捉结构化标签模糊性。
- Result: 在MORPH-II和FG-NET数据集上分别取得了1.74和2.15的MAE,表现出竞争性性能。
- Conclusion: SA-LDL通过建模阶段性的标签模糊性模式,实现了更准确和鲁棒的年龄估计。
[41] Encoder-Only Image Registration
Xiang Chen,Renjiu Hu,Jinwei Zhang,Yuxi Zhang,Xinyao Yue,Min Liu,Yaonan Wang,Hang Zhang
Main category: cs.CV
TL;DR: 提出Encoder-Only Image Registration (EOIR)框架,通过分离特征学习和光流估计,使用3层ConvNet进行特征提取,在保持精度的同时显著提升效率和变形平滑度。
- Motivation: 解决基于学习的可变形图像配准中计算复杂度高和大变形处理困难的问题,分析卷积神经网络在配准中的作用机制。
- Method: 基于Horn-Schunck光流方程分析ConvNet作用,提出EOIR框架:使用3层ConvNet进行特征提取,构建拉普拉斯特征金字塔,通过3层光流估计器逐步组合微分同胚变形。
- Result: 在5个不同模态和解剖区域的数据集上验证,EOIR在精度-效率和精度-平滑度权衡方面表现优异,在可比精度下提供更好的效率和平滑度。
- Conclusion: EOIR框架成功实现了更好的精度-效率权衡,为可变形图像配准提供了有效的解决方案,代码已开源。
[42] Exploring Decision-Making Capabilities of LLM Agents: An Experimental Study on Jump-Jump Game
Juwu Li
Main category: cs.CV
TL;DR: Jump-Jump游戏作为测试LLM决策能力的理想环境,需要玩家基于当前位置和目标平台距离精确控制跳跃力度,涉及空间推理、物理建模和战略规划等多重认知能力。
- Motivation: 研究LLM在需要精确物理控制和空间推理的复杂决策任务中的表现,Jump-Jump游戏提供了一个简单但具有挑战性的测试平台。
- Method: 使用Jump-Jump游戏作为测试环境,通过要求LLM基于角色当前位置和目标平台距离来精确控制跳跃力度,评估其在空间推理、物理建模和战略规划方面的能力。
- Result: 论文提出了Jump-Jump游戏作为评估LLM决策能力的新基准,该游戏能够有效测试模型在需要精确物理控制和多步推理的复杂环境中的表现。
- Conclusion: Jump-Jump游戏是一个理想的测试平台,能够全面评估LLM在涉及空间推理、物理建模和战略规划等复杂认知任务中的决策能力,为研究LLM的智能决策提供了新的研究方向。
[43] VideoRewardBench: Comprehensive Evaluation of Multimodal Reward Models for Video Understanding
Zhihong Zhang,Xiaojian Huang,Jin Xu,Zhuodong Luo,Xinzhi Wang,Jiansheng Wei,Xuejin Chen
Main category: cs.CV
TL;DR: VideoRewardBench是首个全面的视频多模态奖励模型评估基准,涵盖感知、知识、推理和安全四个核心维度,包含1,563个高质量标注样本,评估了28个模型。
- Motivation: 现有的视频多模态奖励模型评估基准存在样本数量少、多样性不足、评估维度不全面等问题,需要构建更全面的评估体系。
- Method: 通过AI辅助数据管道构建包含1,563个标注样本的高质量偏好数据集,每个样本包含视频-文本提示、选择响应和拒绝响应的三元组。
- Result: 最佳模型GPT-4o仅达到57.0%的总体准确率,开源模型Qwen2.5-VL-72B为53.3%。研究发现RL训练不一定带来更强的跨模态泛化能力,推理时缩放对大多数模型有益,视频帧数变化对不同类型模型影响不同。
- Conclusion: VideoRewardBench为视频领域多模态奖励模型的评估和发展提供了具有挑战性和价值的基准测试平台。
[44] Multi-Focused Video Group Activities Hashing
Zhongmiao Qi,Yan Jiang,Bolin Zhang,Lijun Guo,Chong Wang,Qiangbo Qian
Main category: cs.CV
TL;DR: 提出了STVH和M-STVH两种时空视频哈希方法,用于细粒度群体活动检索,能够同时建模个体对象动态和群体交互,在公开数据集上取得优异效果。
- Motivation: 随着复杂场景中视频数据的爆炸式增长,快速检索群体活动成为迫切需求。现有方法只能检索整个视频,无法实现活动粒度的检索。
- Method: STVH通过统一框架同时建模个体对象动态和群体交互,捕获群体视觉特征和位置特征的时空演化。M-STVH作为增强版本,通过多焦点表示学习实现分层特征集成,能够同时关注活动语义特征和对象视觉特征。
- Result: 在公开数据集上的对比实验表明,STVH和M-STVH都能取得优异的结果。
- Conclusion: 提出的STVH和M-STVH方法有效解决了细粒度群体活动检索问题,能够满足实际视频检索场景中对活动特征和对象视觉特征的不同需求。
[45] TRUST: Token-dRiven Ultrasound Style Transfer for Cross-Device Adaptation
Nhat-Tuong Do-Tran,Ngoc-Hoang-Lam Le,Ian Chiu,Po-Tsun Paul Kuo,Ching-Chun Huang
Main category: cs.CV
TL;DR: TRUST是一个针对超声图像的token驱动双流框架,通过数据视角和模型视角选择合适的目标token,在保持源内容的同时转移目标域风格,提升下游任务性能
- Motivation: 不同设备采集的超声图像存在风格差异,导致下游任务性能下降。现有UI2I方法未充分考虑过滤最相关的风格特征,可能导致翻译图像与下游任务需求不匹配
- Method: 提出TRUST框架:1)Token-dRiven模块从数据视角选择"合适"的目标token,从模型视角识别"最优"目标token;2)在源编码器中注入辅助提示以匹配下游行为的内容表示;3)使用行为镜像损失指导
- Result: 在超声数据集上的实验表明,TRUST在视觉质量和下游任务性能方面均优于现有UI2I方法
- Conclusion: TRUST通过token驱动的双流方法有效解决了超声图像风格差异问题,在保持内容完整性的同时实现了更好的风格迁移效果
[46] Make me an Expert: Distilling from Generalist Black-Box Models into Specialized Models for Semantic Segmentation
Yasser Benigmim,Subhankar Roy,Khalid Oublal,Imad Eddine Marouf,Slim Essid,Vicky Kalogeiton,Stéphane Lathuilière
Main category: cs.CV
TL;DR: 本文提出了黑盒蒸馏(B2D)设置和ATGC方法,利用注意力引导的动态尺度选择来解决开放词汇模型在输入分辨率敏感性方面的问题,实现在仅有一热预测的黑盒API监督下的有效模型蒸馏。
- Motivation: AI即服务(AIaaS)的兴起使得通过API访问预训练模型变得普及,但如何在无法获取模型权重、训练数据或logits的黑盒约束下有效训练本地模型成为关键挑战。
- Method: 提出ATtention-Guided sCaler (ATGC)方法,利用DINOv2注意力图通过熵评分动态选择最优尺度进行黑盒模型推理,识别信息丰富的尺度用于伪标注和蒸馏。
- Result: 实验表明该方法在多个数据集上仅使用一热API预测就能实现显著改进,在黑盒监督下取得了优异性能。
- Conclusion: ATGC方法有效解决了开放词汇模型的分辨率敏感性限制,为黑盒环境下的模型蒸馏提供了实用解决方案。
[47] Learning Yourself: Class-Incremental Semantic Segmentation with Language-Inspired Bootstrapped Disentanglement
Ruitao Wu,Yifan Zhao,Jia Li
Main category: cs.CV
TL;DR: 提出LBD框架解决类别增量语义分割中的语义纠缠问题,利用CLIP的语义先验引导特征解耦,在Pascal VOC和ADE20k上达到SOTA性能
- Motivation: 现有CISS方法存在原型-特征纠缠和背景-增量纠缠问题,视觉特征学习缺乏足够线索来区分目标,导致显著噪声和错误
- Method: 语言引导的引导解耦框架(LBD),包括语言引导原型解耦和流形互斥背景解耦,利用CLIP预训练模型的先验语义,结合软提示调优和编码器适配
- Result: 在Pascal VOC和ADE20k数据集上实现了最先进的性能,特别是在多步增量场景中表现优异
- Conclusion: 通过语言先验引导的特征解耦能有效解决CISS中的语义纠缠问题,CLIP的密集-稀疏任务能力差距得到有效弥合
[48] A Modality-agnostic Multi-task Foundation Model for Human Brain Imaging
Peirong Liu,Oula Puonti,Xiaoling Hu,Karthik Gopinath,Annabel Sorby-Adams,Daniel C. Alexander,W. Taylor Kimberly,Juan E. Iglesias
Main category: cs.CV
TL;DR: BrainFM是一个模态无关的多任务视觉基础模型,通过创新的"轻度到重度"生成和"真实-合成"混合训练策略,能够处理多种脑成像任务,包括图像合成、分割、距离估计、偏置场估计和配准。
- Motivation: 现有学习方法在校准医学成像(如CT)中表现优异,但在未校准模态(如MRI)中泛化能力差,对MRI对比度、分辨率和方向的差异敏感,限制了在多样化临床协议中的广泛应用。
- Method: 提出"轻度到重度"主体内生成和"真实-合成"混合训练策略,使模型对获取图像的外观(如模态、对比度、变形、分辨率、伪影)具有鲁棒性。
- Result: 在11个公共数据集上评估,证明BrainFM在所有任务和输入模态中都具有鲁棒性和有效性。
- Conclusion: BrainFM是一个通用的脑成像基础模型,能够直接应用于多种基础脑成像任务,解决了现有方法在未校准模态中的泛化问题。
[49] C-DiffDet+: Fusing Global Scene Context with Generative Denoising for High-Fidelity Object Detection
Abdellah Zakaria Sellam,Ilyes Benaissa,Salah Eddine Bekhouche,Abdenour Hadid,Vito Renó,Cosimo Distante
Main category: cs.CV
TL;DR: 提出了Context-Aware Fusion (CAF)方法,通过交叉注意力机制将全局场景上下文与局部提案特征融合,在细粒度车辆损伤检测任务中超越了现有最佳模型。
- Motivation: 现有DiffusionDet方法在上下文依赖场景中受限于局部特征条件化,性能有限。细粒度目标检测(如车辆损伤评估)对人类专家都具有挑战性。
- Method: 引入Context-Aware Fusion (CAF),使用交叉注意力机制整合全局场景上下文和局部提案特征。采用单独的专用编码器生成全局上下文,捕获全面的环境信息。
- Result: 在CarDD基准测试中超越了现有最先进模型,为细粒度领域的上下文感知目标检测建立了新的性能基准。
- Conclusion: CAF框架通过使每个目标提案能够关注全面的环境信息,显著增强了生成式检测范式的性能。
[50] DGL-RSIS: Decoupling Global Spatial Context and Local Class Semantics for Training-Free Remote Sensing Image Segmentation
Boyi Li,Ce Zhang,Richard M. Timmerman,Wenxuan Bao
Main category: cs.CV
TL;DR: DGL-RSIS是一个无需训练的视觉语言模型框架,通过解耦视觉和文本输入,在局部语义和全局上下文层面进行对齐,实现遥感图像的开集语义分割和指代表达分割。
- Motivation: 现有的视觉语言模型在从自然图像迁移到遥感图像分割时面临挑战,主要由于遥感数据类别多样性有限以及自然图像与遥感图像之间的领域差异。
- Method: 提出全局-局部解耦模块:1)使用NLP技术将文本分为局部类别名词和全局修饰语;2)通过无监督掩码提议网络生成类别无关的掩码提议;3)局部层面通过上下文感知裁剪和RS知识增强进行特征对齐;4)全局层面使用跨尺度Grad-CAM模块和掩码选择模块实现精确分割。
- Result: 该方法实现了开集语义分割(OVSS)和指代表达分割(RES),在遥感图像分割任务中表现出色。
- Conclusion: DGL-RSIS框架通过解耦和对齐策略有效解决了视觉语言模型在遥感图像分割中的迁移挑战,无需训练即可实现准确且可解释的分割结果。
[51] Towards Methane Detection Onboard Satellites
Maggie Chen,Hala Lambdouar,Luca Marini,Laura Martínez-Ferrer,Chris Bridges,Giacomo Acciarini
Main category: cs.CV
TL;DR: 提出了一种使用未正交校正数据(UnorthoDOS)的甲烷检测新方法,无需传统预处理步骤,机器学习模型性能与传统正交校正数据相当,且优于匹配滤波器基线方法。
- Motivation: 甲烷是强效温室气体,需要及时检测以有效减缓气候变化。星载机器学习可实现快速检测并降低下行链路成本,支持更快的响应系统。
- Method: 使用未正交校正的EMIT传感器高光谱图像数据,训练机器学习模型,绕过了传统的正交校正和匹配滤波器预处理步骤。
- Result: 在未正交校正数据上训练的ML模型性能与正交校正数据相当,且在正交校正数据集上训练的模型优于匹配滤波器基线(mag1c)。
- Conclusion: 该方法证明了使用未正交校正数据进行甲烷检测的可行性,为星载实时甲烷监测提供了更高效的解决方案,相关数据集和代码已开源。
[52] MV-SSM: Multi-View State Space Modeling for 3D Human Pose Estimation
Aviral Chharia,Wenbo Gou,Haoye Dong
Main category: cs.CV
TL;DR: 提出MV-SSM框架,通过状态空间建模和网格令牌引导的双向扫描,解决多视角3D人体姿态估计在新相机配置下的泛化问题,在多个基准测试中显著优于现有方法。
- Motivation: 现有基于注意力的transformer方法在多视角3D人体姿态估计中难以准确建模关键点的空间排列,特别是在遮挡场景下,且容易过拟合训练数据中的特定相机配置和视觉场景,导致在新设置中性能大幅下降。
- Method: 提出多视角状态空间建模框架MV-SSM,在两个层次显式建模关节空间序列:多视角图像的特征级和人体关键点级。使用投影状态空间(PSS)块学习关节空间排列的泛化表示,并改进Mamba的传统扫描为网格令牌引导的双向扫描(GTBS)。
- Result: 在CMU Panoptic的三相机设置上AP25提升10.8(+24%),在变化相机配置上AP25提升7.0(+13%),在跨数据集评估的Campus A1上PCP提升15.3(+38%),显著优于最先进方法。
- Conclusion: MV-SSM框架通过状态空间建模和创新的扫描机制,实现了强大的泛化能力,为多视角3D人体姿态估计提供了有效的解决方案,特别是在处理新相机配置和遮挡场景方面表现出色。
[53] Face4FairShifts: A Large Image Benchmark for Fairness and Robust Learning across Visual Domains
Yumeng Lin,Dong Li,Xintao Wu,Minglai Shao,Xujiang Zhao,Zhong Chen,Chen Zhao
Main category: cs.CV
TL;DR: Face4FairShifts是一个大规模面部图像基准数据集,包含10万张图像、4个视觉域、39个标注和14个属性,用于评估公平性学习和域泛化能力。
- Motivation: 解决机器学习模型在域偏移下保持公平性和鲁棒性的挑战,现有数据集在系统评估公平性感知学习和域泛化方面存在局限性。
- Method: 构建大规模面部图像基准数据集,包含多个视觉域和丰富的标注属性,通过实验分析模型在分布偏移下的性能表现。
- Result: 实验发现模型在分布偏移下存在显著性能差距,强调了现有数据集的局限性以及需要更有效的公平性感知域适应技术。
- Conclusion: Face4FairShifts为推进公平可靠AI系统提供了全面的测试平台,数据集已在线公开。
[54] Automatic Identification and Description of Jewelry Through Computer Vision and Neural Networks for Translators and Interpreters
Jose Manuel Alcalde-Llergo,Aurora Ruiz-Mezcua,Rocio Avila-Ramirez,Andrea Zingoni,Juri Taborri,Enrique Yeguas-Bolivar
Main category: cs.CV
TL;DR: 提出基于神经网络的珠宝自动识别与描述方法,通过三层描述级别生成自然语言描述,准确率超过90%
- Motivation: 珠宝识别具有挑战性,目前主要依赖行业专家,但翻译和口译人员需要快速获取准确的珠宝信息
- Method: 使用计算机视觉技术和图像字幕生成,采用编码器-解码器模型架构,在三个层次上生成珠宝描述
- Result: 最终模型在图像字幕生成方面准确率超过90%,能够有效识别和描述各类珠宝
- Conclusion: 该方法为翻译和口译人员提供了快速获取珠宝准确信息的有效工具,解决了专业知识获取的难题
[55] Fusion to Enhance: Fusion Visual Encoder to Enhance Multimodal Language Model
Yifei She,Huangxuan Wu
Main category: cs.CV
TL;DR: FtZ框架通过组合语义强大的锚定编码器和感知丰富的增强编码器,解决了MLLMs在细粒度视觉任务上的性能瓶颈,显著提升了多模态理解能力。
- Motivation: 多模态大语言模型在复杂语义理解方面表现出色,但在需要精确细节感知的基础视觉任务上存在明显缺陷,这主要源于单一视觉编码器架构为高层语义对齐而牺牲了细粒度视觉信息捕获能力。
- Method: 提出了Fusion to Enhance (FtZ)框架,创新性地通过轻量级多头交叉注意力机制,将语义强大的锚定编码器与感知丰富的增强编码器组合,超越单一编码器设计。
- Result: 在TextVQA、POPE、MMMU、MME和MM-Vet等需要细粒度视觉理解的挑战性基准测试中,FtZ模型显著优于仅使用单一编码器或现有特征融合方法的基线模型。
- Conclusion: 组合异构专家编码器是克服当前MLLMs视觉感知瓶颈的高效有效途径,为构建具有更强感知能力的下一代AI系统提供了新的设计范式。
[56] ER-LoRA: Effective-Rank Guided Adaptation for Weather-Generalized Depth Estimation
Weilong Yan,Xin Zhang,Robby T. Tan
Main category: cs.CV
TL;DR: 提出STM策略,通过参数高效微调视觉基础模型,仅使用少量正常天气数据实现恶劣天气下的单目深度估计,在多个真实基准测试中表现优异
- Motivation: 恶劣天气条件下的单目深度估计面临缺乏可靠真值和难以从无标签真实数据学习的挑战,现有方法存在域差距或违反光度假设的问题
- Method: 提出Selecting-Tuning-Maintaining (STM)策略,基于熵秩和稳定秩结构分解预训练权重,自适应选择秩数和任务感知奇异方向,并实施主方向正则化
- Result: 在四种不同天气条件的真实基准测试中,STM不仅优于现有PEFT方法和全微调,还超越了使用合成恶劣数据训练的方法,甚至超过深度基础模型
- Conclusion: STM策略能够在保持预训练模型泛化能力的同时实现灵活的任务适应,为恶劣天气下的深度估计提供了有效解决方案
[57] LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model
Xiyao Wang,Chunyuan Li,Jianwei Yang,Kai Zhang,Bo Liu,Tianyi Xiong,Furong Huang
Main category: cs.CV
TL;DR: 通过将评分模型训练数据重组为可验证训练信号,进行强化学习直接培养既能评分又能生成的统一多模态模型,在多个视觉理解和推理测试中取得显著性能提升。
- Motivation: 质疑传统上评分模型和策略模型分离的设计,探索是否可以通过评分数据直接培养既具备评估能力又保持生成能力的统一模型。
- Method: 将偏好标注的评分数据集重组为可验证训练信号,对基础生成模型进行强化学习训练,生成LLaVA-Critic-R1模型。继而扩展到现有强大推理VLM模型上得到LLaVA-Critic-R1+。
- Result: LLaVA-Critic-R1在26个视觉理解和推理测试中超过专门训练的VLM模型,平均提升5.7%;LLaVA-Critic-R1+在7B规模下在MMMU上达到71.9的SOTA性能;自我评估能在无额外训练情况下平均提升13.8%的性能。
- Conclusion: 证明通过评分数据进行RL训练可以生成既能评估又能生成的统一模型,为构建可扩展的自我改进多模态系统提供了简单有效的途径。
[58] CSFMamba: Cross State Fusion Mamba Operator for Multimodal Remote Sensing Image Classification
Qingyu Wang,Xue Jiang,Guozheng Xu
Main category: cs.CV
TL;DR: 提出Cross State Fusion Mamba (CSFMamba)网络,结合Mamba的低计算复杂度和CNN特征提取能力,实现多模态遥感图像分类中的高效特征融合。
- Motivation: 现有多模态融合方法存在二次计算复杂度问题,难以建模长距离空间-光谱特征依赖关系。Mamba虽然计算效率高但无法直接进行特征融合。
- Method: 设计预处理模块适配Mamba结构,结合CNN提取多层特征;创新设计基于Mamba算子的跨状态模块进行双模态特征融合;构建结合Mamba和CNN优势的更强主干网络。
- Result: 在MUUFL和Houston2018数据集上实验表明,该方法在降低网络训练负担的前提下,性能优于Transformer方法。
- Conclusion: CSFMamba网络成功解决了多模态遥感图像分类中的计算复杂度问题,实现了高效的特征融合和更强的全图像理解能力。
[59] CascadeFormer: A Family of Two-stage Cascading Transformers for Skeleton-based Human Action Recognition
Yusen Peng,Alper Yilmaz
Main category: cs.CV
TL;DR: 提出了CascadeFormer,一种两阶段级联Transformer框架,用于基于骨架的人体动作识别,通过掩码预训练学习通用骨架表示,再通过级联微调进行动作分类
- Motivation: 虽然图卷积网络(GCNs)在基于骨架的动作识别中占主导地位,但Transformer模型和掩码预训练框架为表示学习提供了新的可能性
- Method: 两阶段级联Transformer框架:第一阶段进行掩码预训练学习通用骨架表示,第二阶段进行级联微调用于判别性动作分类
- Result: 在三个基准数据集(Penn Action、N-UCLA和NTU RGB+D 60)上均取得了有竞争力的性能
- Conclusion: CascadeFormer为基于骨架的动作识别提供了有效的Transformer解决方案,代码和模型检查点已开源以促进可复现性
[60] Prompt the Unseen: Evaluating Visual-Language Alignment Beyond Supervision
Raehyuk Jung,Seungjun Yu,Hyunjung Shim
Main category: cs.CV
TL;DR: 这篇论文提出了一个新的评测标准,用于系统性地评估视觉-语言模型中投影层对未见视觉概念的泛化能力。实验结果显示投影层在未见类别上保持了79-88%的性能,说明其具有非平凡的泛化能力。
- Motivation: 尽管投影层在视觉-语言模型中至关重要,但其对未见视觉概念的泛化能力一直缺乏系统性评估。研究者想要填补这一空白,通过设计专门的评测标准来分析投影层的泛化性能。
- Method: 研究者将对象检测数据集(含有精细标注)调整为提示格式,设计了训练/测试分割,使得见过和未见的概念集合完全分离,从而精确控制泛化性能的评估。
- Result: 实验结果显示,在各种设置下,投影层在未见类别上保持了约79-88%的性能(与已见类别相比)。通过机制解释性分析发现,投影层中的前向传播网络像关键值存储器一样工作,对已见和未见标记的处理方式相似。
- Conclusion: 这项研究为对齐泛化提供了新的评估框架,并指出了在对齐数据有限的情况下进行高效视觉-语言模型训练的潜力。投影层展现出的强大泛化能力为VLM训练方法的优化开启了新方向。
[61] Enhancing Fairness in Skin Lesion Classification for Medical Diagnosis Using Prune Learning
Kuniko Paxton,Koorosh Aslansefat,Dhavalkumar Thakker,Yiannis Papadopoulos,Tanaya Maslekar
Main category: cs.CV
TL;DR: 提出一种基于特征图偏度分析的皮肤病变分类公平性算法,通过减少与肤色相关的通道来降低计算成本并缓解偏见
- Motivation: 深度学习在皮肤病变分类中准确性显著提升,但存在肤色相关的潜在偏见问题,影响诊断结果的公平性。确保公平性面临肤色分类困难、计算需求高和公平性验证复杂等挑战
- Method: 通过计算VGG网络卷积层和Vision Transformer中patches和heads的特征图偏度,识别并减少与肤色相关的不必要通道,专注于病变区域
- Result: 该方法降低了计算成本,缓解了肤色偏见,无需依赖传统统计方法,同时可能减小模型大小并保持公平性
- Conclusion: 提出的公平性算法为皮肤病变分类提供了一种实用的解决方案,使模型更适合实际医疗应用,同时确保跨不同肤色的诊断公平性
[62] Causal Interpretation of Sparse Autoencoder Features in Vision
Sangyu Han,Yearim Kim,Nojun Kwak
Main category: cs.CV
TL;DR: CaFE方法通过有效感受野和输入归因技术,为视觉SAE特征提供更准确的因果解释,揭示传统激活位置分析可能导致的误解
- Motivation: 传统基于最高激活位置的特征解释方法存在缺陷,因为自注意力机制在整个图像中混合信息,激活位置往往只是与特征激活共现而非因果关系
- Method: 提出Causal Feature Explanation (CaFE)方法,利用有效感受野(ERF)和输入归因技术,识别真正驱动SAE特征激活的图像补丁
- Result: 在CLIP-ViT特征上,ERF图经常与简单激活图不同,揭示了隐藏的上下文依赖关系;补丁插入测试证实CaFE能更有效地恢复或抑制特征激活
- Conclusion: CaFE提供了更忠实和语义精确的视觉SAE特征解释,强调了仅依赖激活位置进行解释的风险
[63] EVENT-Retriever: Event-Aware Multimodal Image Retrieval for Realistic Captions
Dinh-Khoi Vo,Van-Loc Nguyen,Minh-Triet Tran,Trung-Nghia Le
Main category: cs.CV
TL;DR: 提出多阶段检索框架,结合密集文章检索、事件感知语言模型重排序和图像收集,通过标题引导语义匹配和排序感知选择,在EVENTA 2025挑战赛中取得最佳成绩
- Motivation: 传统视觉语言检索方法在处理描述抽象事件、隐含因果关系、时间上下文或包含长篇复杂叙述的标题时表现不足,需要理解视觉特征和潜在事件语义、上下文及现实世界知识
- Method: 使用Qwen3进行文章搜索,Qwen3-Reranker进行上下文对齐,Qwen2-VL进行精确图像评分,并通过多配置输出的互惠排序融合(RRF)增强性能和鲁棒性
- Result: 在EVENTA 2025 Grand Challenge Track 2的私有测试集上获得top-1分数
- Conclusion: 结合基于语言的推理和多模态检索的方法对于复杂、现实世界的图像理解是有效的
[64] Multi-Level CLS Token Fusion for Contrastive Learning in Endoscopy Image Classification
Y Hop Nguyen,Doan Anh Phan Huu,Trung Thai Tran,Nhat Nam Mai,Van Toi Giap,Thao Thi Phuong Dao,Trung-Nghia Le
Main category: cs.CV
TL;DR: 提出了一个统一的视觉-语言框架用于ENT内窥镜图像分析,同时处理图像分类、图像检索和文本检索三个临床任务,在ACM MM'25挑战中取得了优异性能。
- Motivation: 传统CNN方法难以捕捉跨模态语义,需要开发能够有效处理医学图像和文本诊断上下文的多模态框架,特别是在数据有限的临床环境中。
- Method: 基于CLIP ViT-B/16骨干网络,采用低秩适应、多级CLS token聚合和球面特征插值技术,结合类别特定的自然语言提示和联合训练目标(监督分类+对比学习)。
- Result: 在ENTRep挑战中达到95%分类准确率和F1分数,图像检索Recall@1为0.93,文本检索Recall@1为0.92,MRR分数分别为0.97和0.96。
- Conclusion: 该框架通过精心设计的架构组件,在低资源临床环境中实现了稳健的多模态医学理解,消融研究验证了各组件的重要性。
[65] MarkSplatter: Generalizable Watermarking for 3D Gaussian Splatting Model via Splatter Image Structure
Xiufeng Huang,Ziyuan Luo,Qi Song,Ruofei Wang,Renjie Wan
Main category: cs.CV
TL;DR: 首个可通用的3D高斯涂射水印框架,通过单次前向传播实现高效版权保护
- Motivation: 3D高斯涂射技术的普及加强了版权保护需求,现有方法需要计算成本高的细调过程
- Method: 提出GaussianBridge将无结构化3D高斯转换为Splatter Image格式,使用神经网络嵌入任意消息,采用高斯不确定性感知热力图策略保持视觉质量
- Result: 实现了高效的水印嵌入,保持了视觉质量,甚至在水印对象占渲染视图极小区域时仍能稳定提取消息
- Conclusion: 该框架为3DGS模型提供了高效、隐形和验证可靠的版权保护方案
[66] No More Sibling Rivalry: Debiasing Human-Object Interaction Detection
Bin Yang,Yulin Zhang,Hong-Yu Zhou,Sibei Yang
Main category: cs.CV
TL;DR: 本文发现检测变换器在人类-物体交互检测中存在'Toxic Siblings'偏差问题,并提出两种新的去偏学习目标来显著提升性能。
- Motivation: 检测变换器在人类-物体交互检测中取得了显著进展,但研究发现存在'Toxic Siblings'偏差问题,即大量相似但不同的HOI三元组在交互解码器的输入和输出端相互干扰和竞争,阻碍了学习效果。
- Method: 提出两种去偏学习目标:1)'contrastive-then-calibration'从输入角度采样类似但不正确的HOI三元组并重构为正确三元组;2)'merge-then-split'从输出角度先学习兄弟类别的共享特征以区分其他组,然后显式细化组内差异以保持独特性。
- Result: 实验表明,该方法在HICO-Det数据集上比基线提升9.18% mAP,比现有最先进方法提升3.59% mAP,在各种设置下均表现优异。
- Conclusion: 提出的两种去偏学习目标有效解决了'Toxic Siblings'偏差问题,显著提升了人类-物体交互检测的性能,为相关领域提供了新的解决方案。
[67] InterPose: Learning to Generate Human-Object Interactions from Large-Scale Web Videos
Yangsong Zhang,Abdul Ahad Butt,Gül Varol,Ivan Laptev
Main category: cs.CV
TL;DR: 提出了InterPose数据集,包含73.8K个3D人体运动序列和文本描述,用于提升人-物交互动作生成质量,并开发了基于LLM的零样本动画代理
- Motivation: 现有运动生成方法主要针对孤立人物,缺乏大规模多样化物体操作数据集,难以生成真实的人-物交互动作
- Method: 开发自动运动提取流水线,从45.8K个人-物交互视频中自动收集运动数据和文本描述
- Result: InterPose数据集显著提升了最先进运动生成方法的性能,并实现了基于LLM的零样本人-物交互动画
- Conclusion: InterPose数据集解决了人-物交互数据稀缺问题,为生成多样化高保真人-物交互动作提供了重要资源
[68] Secure and Scalable Face Retrieval via Cancelable Product Quantization
Haomiao Tang,Wenjie Li,Yixiang Qiu,Genping Wang,Shu-Tao Xia
Main category: cs.CV
TL;DR: 一种基于可变清空产品量化的高效安全面部表征检索框架,解决了同态加密在面部检索中计算效率低的问题
- Motivation: 现代面部检索系统外包给第三方实体带来了显著的用户照片隐私风险,同态加密虽提供强安全保障但计算效率过低,不适合实时应用
- Method: 采用两阶段层次框架:高速通量可变清空PQ索引模块用于快速候选筛选,精细化加密空间检索模块用于最终精确排名,设计了专门的保护机制确保索引模块安全
- Result: 在标准数据集上的实验表明,该方法在效果、效率和安全性之间实现了良好的平衡
- Conclusion: 提出的可变清空产品量化框架为安全面部表征检索提供了高效的解决方案,有效解决了同态加密在实际应用中的性能瓶颈
[69] Aligned Anchor Groups Guided Line Segment Detector
Zeyu Li,Annan Shu
Main category: cs.CV
TL;DR: 提出AAGLSD线检测算法,通过对齐锚点组和层次化方法实现高精度和完整性的线段检测
- Motivation: 现有线段检测器在精度和完整性方面存在不足,需要一种能够有效提取完整线段的新方法
- Method: 采用层次化方法提取不同显著性级别的候选像素,使用对齐锚点组作为起点,顺序连接锚点并同时更新预测线段,通过简单验证和合并相邻线段得到最终结果
- Result: 在多个数据集上的定量实验表明,该方法相比其他先进线段检测器能够更有效地提取完整线段
- Conclusion: AAGLSD算法通过创新的对齐锚点组引导方法,实现了高精度和完整性的线段检测,避免了复杂的优化策略
[70] Diffusion-Based Image-to-Brain Signal Generation with Cross-Attention Mechanisms for Visual Prostheses
Ganxi Xu,Jinyi Long,Jia Zhang
Main category: cs.CV
TL;DR: 提出基于DDPM和交叉注意力机制的新型图像到脑信号生成框架,用于生成生物学可信的脑信号,解决视觉假体中脑编码阶段信号质量不足的问题
- Motivation: 现有视觉假体研究在脑解码阶段已取得进展,但脑编码阶段生成的脑信号缺乏足够的生物学相似性,且缺乏真实脑响应的监督信号来验证预测刺激的生物学合理性
- Method: 使用预训练的CLIP视觉编码器提取图像语义表示,结合交叉注意力增强的U-Net扩散模型,通过迭代去噪学习重建生物学可信的脑信号。交叉注意力模块实现视觉特征与脑信号表示间的动态交互
- Result: 在THINGS-EEG2和THINGS-MEG多模态数据集上验证了框架有效性,能够生成生物学可信的脑信号,并可视化展示了被试内和被试间的M/EEG信号变化
- Conclusion: 提出的图像到脑框架通过交叉注意力机制和扩散模型,成功解决了视觉假体中脑信号生成的生物学合理性难题,为视觉修复提供了更可靠的脑信号生成方法
[71] OmniReason: A Temporal-Guided Vision-Language-Action Framework for Autonomous Driving
Pei Liu,Qingtian Ning,Xinyan Lu,Haipeng Liu,Weiliang Ma,Dangen She,Peng Jia,Xianpeng Lang,Jun Ma
Main category: cs.CV
TL;DR: 提出了OmniReason框架,通过联合建模动态3D环境和决策过程来解决现有视觉语言模型在自动驾驶中缺乏时间维度理解的问题。
- Motivation: 现有的视觉语言模型主要关注静态场景理解,忽视了真实驾驶场景中至关重要的时间维度,这限制了自动驾驶系统在动态环境中的表现。
- Method: 开发了OmniReason-Data大规模数据集和OmniReason-Agent架构,包含幻觉缓解的自动标注流程、稀疏时间记忆模块和可解释性决策生成器。
- Result: 在开环规划任务和视觉问答基准测试中取得了最先进的性能,显著提升了时空推理能力。
- Conclusion: 该框架为复杂动态环境中的可解释、时间感知自动驾驶系统建立了新的能力标准。
[72] Multimodal Iterative RAG for Knowledge Visual Question Answering
Changin Choi,Wonseok Lee,Jungmin Ko,Wonjong Rhee
Main category: cs.CV
TL;DR: MI-RAG是一个多模态迭代检索增强生成框架,通过多轮迭代检索和推理来提升知识密集型视觉问答的性能
- Motivation: 现有的多模态大语言模型在需要外部知识的视觉问答任务上表现有限,传统的单次检索框架往往无法获取足够的知识
- Method: 提出多模态迭代RAG框架,每轮迭代利用累积的推理记录动态生成多查询,在异构知识库中进行联合搜索,并将新知识整合到推理记录中
- Result: 在Encyclopedic VQA、InfoSeek和OK-VQA等挑战性基准测试中,显著提高了检索召回率和答案准确率
- Conclusion: MI-RAG为知识密集型视觉问答中的组合推理提供了一个可扩展的方法
[73] SWAGSplatting: Semantic-guided Water-scene Augmented Gaussian Splatting
Zhuodong Jiang,Haoran Wang,Guoxi Huang,Brett Seymour,Nantheera Anantrasirichai
Main category: cs.CV
TL;DR: 提出了一种基于多模态知识的语义引导3D高斯泼溅方法,用于水下场景的高保真重建,通过语义特征嵌入和一致性损失提升重建质量
- Motivation: 水下3D重建面临光线扭曲、浑浊和能见度低等挑战,现有AI方法尚未充分利用语言模型与视觉处理的结合潜力
- Method: 在多模态交叉知识基础上,为每个高斯基元嵌入额外语义特征,使用CLIP提取的语义特征进行监督,采用分阶段训练策略结合粗到细学习和后期参数优化
- Result: 在SeaThru-NeRF和Submerged3D数据集上全面超越现有方法,PSNR平均提升达3.09 dB
- Conclusion: 该方法为水下探索和海洋感知应用提供了强有力的候选方案,实现了语义和结构感知的高质量水下场景重建
[74] Adaptive Contrast Adjustment Module: A Clinically-Inspired Plug-and-Play Approach for Enhanced Fetal Plane Classification
Yang Chen,Sanglin Zhao,Baoyu Chen,Mans Gustaf
Main category: cs.CV
TL;DR: 这篇论文提出了一种插拔式的自适应对比度调整模块(ACAM),用于改善胎儿超声标准面分类的性能,通过模拟医生调整对比度的临床实践来提高图像识别准确度。
- Motivation: 胎儿超声标准面分类面临组织对比度低、边界模糊和操作者依赖性图像质量变化等挑战,需要提高图像分析的可靠性。
- Method: 设计了一个浅层纹理敏感网络来预测临床可行的对比度参数,通过可微分映射将输入图像转换为多个对比度增强视图,并在下游分类器中融合这些视图。
- Result: 在多中心12,400张图像的数据集上验证,该模块在各种模型上均提高了性能:轻量级模型准确率提高2.02%,传统模型提高1.29%,最先进模型提高1.15%。
- Conclusion: 该模块通过内容自适应能力替代随机预处理,采用物理信息变换对齐超声医师工作流程,通过多视图融合提高了对异质性图像的鲁棒性,为医学图像分析建立了新范式。
[75] Sequential Difference Maximization: Generating Adversarial Examples via Multi-Stage Optimization
Xinlei Liu,Tao Hu,Peng Yi,Weitao Han,Jichao Xie,Baolin Li
Main category: cs.CV
TL;DR: 提出SDM攻击方法,通过三层优化框架和DPDR损失函数,在提升攻击性能的同时提高成本效益
- Motivation: 需要更有效的对抗攻击方法来评估计算机视觉模型的鲁棒性
- Method: 重构对抗样本生成目标为最大化非真实标签概率上界与真实标签概率的差异,建立循环-阶段-步骤三层优化框架,使用DPDR损失函数逐步压缩无关标签概率
- Result: 相比现有SOTA方法,SDM展现更强的攻击性能和更高的攻击成本效益,并能与对抗训练结合提升防御效果
- Conclusion: SDM是一种高效且成本效益高的对抗攻击方法,为模型鲁棒性评估提供了有效工具
[76] Surface Defect Detection with Gabor Filter Using Reconstruction-Based Blurring U-Net-ViT
Jongwook Si,Sungyoung Kim
Main category: cs.CV
TL;DR: 提出了一种结合Gabor滤波器和模糊U-Net-ViT模型的新方法,用于提高纹理表面缺陷检测的准确性和可靠性,在多个数据集上平均AUC达到0.939
- Motivation: 解决纹理表面缺陷检测中背景噪声干扰和缺陷边界模糊的问题,提高在噪声环境下的鲁棒性能
- Method: 结合U-Net的局部特征训练和Vision Transformer的全局处理,使用高斯滤波损失函数去除背景噪声,采用Salt-and-Pepper掩蔽强化纹理-缺陷边界,后处理使用Gabor滤波器强调缺陷方向频率特征
- Result: 在MVTec-AD、表面裂纹检测和大理石表面异常数据集上平均AUC达到0.939,消融实验验证了最优滤波器尺寸和噪声概率对性能的提升
- Conclusion: 该方法通过多技术融合有效提升了纹理表面缺陷检测性能,特别是在噪声环境下表现出色,Gabor滤波器后处理进一步增强了缺陷特征提取
[77] UPGS: Unified Pose-aware Gaussian Splatting for Dynamic Scene Deblurring
Zhijing Wu,Longguang Wang
Main category: cs.CV
TL;DR: 提出了一种统一的端到端优化框架,通过将相机位姿作为可学习参数与3D高斯属性互补,来解决动态场景重建中运动模糊导致的位姿估计错误问题。
- Motivation: 现有的动态3D场景重建方法通常采用两步流程:先估计相机位姿,再优化3D高斯。但运动模糊会破坏位姿估计,导致误差累积和重建质量下降。
- Method: 将相机和物体运动重新建模为3D高斯上的逐基元SE(3)仿射变换,制定统一优化目标。采用三阶段训练策略:先固定位姿优化高斯,再固定高斯优化位姿,最后联合优化所有参数。
- Result: 在Stereo Blur数据集和真实世界序列上的实验表明,该方法在重建质量和位姿估计精度方面相比现有动态去模糊方法有显著提升。
- Conclusion: 该统一优化框架通过端到端联合优化相机位姿和3D高斯属性,有效解决了运动模糊导致的位姿估计错误问题,提升了动态场景重建性能。
[78] SegDINO: An Efficient Design for Medical and Natural Image Segmentation with DINO-V3
Sicheng Yang,Hongqiu Wang,Zhaohu Xing,Sixiang Chen,Lei Zhu
Main category: cs.CV
TL;DR: SegDINO是一个高效的分割框架,将冻结的DINOv3主干网络与轻量级解码器结合,在多个数据集上实现最先进性能
- Motivation: DINO自监督视觉模型具有出色的可迁移性,但现有分割方法通常依赖重型解码器和多尺度融合,导致参数和计算成本过高
- Method: 使用冻结的DINOv3编码器提取多级特征,对齐到统一分辨率和通道宽度,然后用轻量级MLP头直接预测分割掩码
- Result: 在6个基准测试(包括3个医疗数据集和3个自然图像数据集)上均达到最先进性能
- Conclusion: SegDINO在保持基础特征表示能力的同时最小化了可训练参数,为高效分割提供了有效解决方案
[79] Satellite Image Utilization for Dehazing with Swin Transformer-Hybrid U-Net and Watershed loss
Jongwook Si,Sungyoung Kim
Main category: cs.CV
TL;DR: 提出了一种结合Swin Transformer和U-Net的混合去雾框架SUFERNOBWA,用于卫星图像去雾,在RICE和SateHaze1K数据集上取得了优于现有方法的性能。
- Motivation: 卫星图像受大气干扰和雾霾影响严重,降低了图像清晰度和信息提取准确性,需要有效的去雾方法来改善图像质量。
- Method: 采用Swin Transformer和U-Net混合架构,使用SwinRRDB模块在编码器和解码器中提取特征,结合全局上下文学习和局部细节恢复,并采用包含L2损失、引导损失和新型分水岭损失的复合损失函数。
- Result: 在RICE数据集上达到PSNR 33.24 dB和SSIM 0.967的优异性能,显著优于现有方法,在SateHaze1K数据集上也表现出色。
- Conclusion: 该方法为缓解卫星图像大气干扰提供了有效解决方案,在多样化大气条件下都能实现鲁棒的去雾效果,同时保持结构一致性,具有广泛的遥感应用潜力。
[80] Look Beyond: Two-Stage Scene View Generation via Panorama and Video Diffusion
Xueyang Kang,Zhengkang Xiang,Zezheng Zhang,Kourosh Khoshelham
Main category: cs.CV
TL;DR: 提出了一种将单视图新视角合成分解为360度场景外推和视角插值的两阶段方法,通过全景扩散模型和视频扩散模型确保长期视角一致性
- Motivation: 现有单图像新视角合成方法在长距离或循环轨迹中难以保持视角一致性和正确对齐,特别是在输入视角显著偏离时存在大范围未观测区域的问题
- Method: 两阶段方法:第一阶段使用全景扩散模型从输入图像学习场景先验;第二阶段从全景图采样并扭曲关键帧,通过预训练视频扩散模型和空间噪声扩散过程生成新视角
- Result: 在多样化场景数据集上的实验表明,该方法在用户定义轨迹上生成连贯视图方面优于现有方法,即使在循环闭合场景中也能保持全局一致性
- Conclusion: 该方法通过分解策略和关键帧锚定机制有效解决了单视图新视角合成的长期一致性问题,同时支持灵活的相机控制
[81] Quantization Meets OOD: Generalizable Quantization-aware Training from a Flatness Perspective
Jiacheng Jiang,Yuan Meng,Chen Tang,Han Yu,Qun Li,Zhi Wang,Wenwu Zhu
Main category: cs.CV
TL;DR: FQAT是一种面向平坦度的量化感知训练方法,通过层冻结机制和自适应算法解决QAT在分布外数据上的泛化性能下降问题
- Motivation: 当前QAT方法主要关注分布内数据性能,忽视了分布外数据的性能下降问题。研究发现QAT导致损失景观尖锐化,与平坦损失景观有利于OOD泛化的观点相矛盾
- Method: 提出FQAT方法:1)层冻结机制缓解双优化目标梯度冲突;2)无序引导的自适应冻结算法动态确定冻结层;3)设计梯度无序度量识别训练中不稳定层
- Result: 在权威OOD基准测试上的大量实验表明,该方法在分布内和分布外图像分类任务上均优于最先进的基线方法
- Conclusion: FQAT成功解决了QAT在OOD数据上的泛化性能退化问题,通过平坦化损失景观实现了可泛化的量化感知训练
[82] Pose as Clinical Prior: Learning Dual Representations for Scoliosis Screening
Zirui Zhou,Zizhao Peng,Dongyang Jin,Chao Fan,Fengwei An,Shiqi Yu
Main category: cs.CV
TL;DR: 提出了Scoliosis1K-Pose数据集和双表征框架(DRF),通过连续骨架图和离散姿态不对称向量结合临床先验知识,解决了基于姿态的脊柱侧弯筛查中数据稀缺和噪声敏感的问题。
- Motivation: 现有AI脊柱侧弯筛查方法主要依赖轮廓数据,忽略了临床相关的姿态不对称性。姿态数据虽然能提供直观的骨骼表示,但由于大规模标注数据稀缺和原始坐标的离散噪声特性,基于姿态的筛查研究不足。
- Method: 1) 扩展Scoliosis1K数据集创建Scoliosis1K-Pose,包含44.79万帧2D关键点;2) 提出双表征框架(DRF),整合连续骨架图和离散姿态不对称向量(PAV);3) 设计PAV引导注意力模块(PGA),利用临床先验指导特征提取。
- Result: DRF实现了最先进的性能,可视化证实模型能够利用临床不对称线索指导特征提取,促进双表征之间的协同作用。
- Conclusion: 该方法有效解决了姿态数据在脊柱侧弯筛查中的挑战,通过结合临床先验知识和双表征学习,提升了筛查的准确性和可解释性。数据集和代码已公开。
[83] Spotlighter: Revisiting Prompt Tuning from a Representative Mining View
Yutong Gao,Maoyuan Shao,Xinyang Huang,Chuang Zhu,Lijuan Sun,Yu Weng,Xuan Liu,Guoshun Nan
Main category: cs.CV
TL;DR: Spotlighter是一个轻量级的token选择框架,通过评估视觉token的激活值并保留高分token来提升提示调优的准确性和效率,在11个少样本基准测试中显著优于CLIP。
- Motivation: CLIP的成功证明了提示调优可以实现跨模态语义对齐,但冗余或弱相关的特征组件会引入噪声并增加不必要的计算成本。
- Method: 提出Spotlighter框架,从样本级和语义级两个角度评估每个视觉token的激活值,只保留得分最高的token用于下游预测。使用类别特定的语义记忆库来精化选择,并引入两级排名机制动态加权token-原型交互。
- Result: 在11个少样本基准测试中,Spotlighter比CLIP在调和平均准确率上最高提升11.19%,额外实现0.8K FPS,仅增加21个参数。
- Conclusion: Spotlighter被证明是提示调优中有效且可扩展的基线方法,在准确性和效率方面都有显著提升。
[84] DarkVRAI: Capture-Condition Conditioning and Burst-Order Selective Scan for Low-light RAW Video Denoising
Youngjin Oh,Junhyeong Kwon,Junyoung Park,Nam Ik Cho
Main category: cs.CV
TL;DR: DarkVRAI是一个在AIM 2025低光RAW视频去噪挑战赛中获胜的新框架,通过条件化元数据引导和BOSS机制建模长程时序依赖,实现了最先进的低光视频去噪性能。
- Motivation: 低光RAW视频去噪面临严重信号退化挑战,由于高传感器增益和短曝光时间受到视频帧率要求的限制,需要新的解决方案。
- Method: 提出两个主要贡献:(1)将图像去噪的条件化方案成功应用于视频去噪,利用捕获元数据指导对齐和去噪过程;(2)提出Burst-Order Selective Scan (BOSS)机制,有效建模噪声视频序列中的长程时序依赖关系。
- Result: 在严格且真实的基准数据集上展示了最先进的性能,为低光视频去噪设立了新标准。
- Conclusion: 通过协同结合条件化元数据引导和BOSS机制,DarkVRAI框架成功解决了低光RAW视频去噪的挑战,取得了优异的性能表现。
[85] Seeing More, Saying More: Lightweight Language Experts are Dynamic Video Token Compressors
Xiangchen Wang,Jinrui Zhang,Teng Wang,Haigang Zhang,Feng Zheng
Main category: cs.CV
TL;DR: LangDC是一种语言感知的动态token压缩器,通过轻量级语言模型生成视频片段的软描述token作为视觉表示,根据场景丰富度动态调整压缩比例,在减少49%计算量的同时保持竞争性性能。
- Motivation: 现有视频token压缩策略采用固定压缩比例,忽略了不同视频片段语义密度的差异性,导致信息丰富片段表示不足而静态片段计算浪费。
- Method: 使用轻量级语言模型描述视频片段生成软描述token,通过语义密度感知监督训练,动态调整压缩比例(描述长度反映场景丰富度)。
- Result: 相比VideoGPT+减少49%的FLOPs,同时保持竞争性性能,能根据视频片段丰富度自适应调整token压缩比例。
- Conclusion: LangDC通过语言感知的动态token压缩,有效解决了固定压缩比例的问题,模仿人类动态表达视觉信息的方式,在计算效率和性能间取得了良好平衡。
[86] Towards Integrating Multi-Spectral Imaging with Gaussian Splatting
Josef Grün,Lukas Meyer,Maximilian Weiherer,Bernhard Egger,Marc Stamminger,Linus Franke
Main category: cs.CV
TL;DR: 该研究探讨了如何将RGB和多光谱图像整合到3D高斯泼溅框架中,提出了三种策略并验证了联合优化方法的有效性,通过光谱交叉增强RGB重建质量。
- Motivation: 3DGS在RGB数据上表现优异,但直接对多光谱波段进行优化会导致重建质量下降,因为不同光谱域中几何结构表现不一致,尽管实际几何是相同的。
- Method: 评估了三种策略:1) 独立每波段重建;2) 分割优化(先优化RGB几何再复制拟合新波段);3) 联合优化(可选初始RGB阶段)。建议将多光谱数据直接整合到球谐颜色组件中。
- Result: 专用优化的联合策略在多光谱数据集上通过定量指标和定性新视角渲染展示了有效性,提高了整体光谱重建质量,并通过光谱交叉增强RGB结果。
- Conclusion: 分析揭示了在优化过程中何时以及如何引入光谱波段的关键权衡,为鲁棒的多模态3DGS重建提供了实用见解,建议直接整合多光谱数据到球谐颜色组件中。
[87] Weather-Dependent Variations in Driver Gaze Behavior: A Case Study in Rainy Conditions
Ghazal Farhani,Taufiq Rahman,Dominique Charlebois
Main category: cs.CV
TL;DR: 雨天驾驶情况下,驾驶员视线聚焦更长、代码盘查看更频繁、视线位置更高,表明认知负荷增加。眼动分析技术可为驾驶监控系统提供有价值的认知行为线索。
- Motivation: 雨天天气增加了道路交通事故风险,了解经验驾驶员在不良条件下的视觉认知调整对设计更健壮的驾驶监控系统和驾驶辅助系统至关重要。
- Method: 采用两步聚类方法:先将眼动数据在10秒间隔内聚类,然后将聚类质心聚合成元聚类。结合马尔可夫迁移矩阵、定视持续时间、视线位置分布等指标进行分析。
- Result: 雨天条件下,驾驶员代码盘查看频率增加、定视持续时间更长、视线位置更高,而基本的路面关注和镜子查看模式保持一致。这表明雨天驾驶时认知负荷和注意力聚集度提高。
- Conclusion: 研究揭示了不良天气条件下驾驶员视觉注意力的特征变化,为驾驶监控系统和驾驶辅助系统的设计提供了重要的认知行为基础,显示了眼动分析技术在提升驾驶安全中的潜力。
[88] AI-driven Dispensing of Coral Reseeding Devices for Broad-scale Restoration of the Great Barrier Reef
Scarlett Raine,Benjamin Moshirian,Tobias Fischer
Main category: cs.CV
TL;DR: 本文提出了一种基于人工智能、计算机视觉和机器人技术的珊瑚礁自动重播设备部署系统,通过自动化底质分类来识别适合珊瑚生长的海床区域,显著减少对人类专家的依赖并提高恢复效率。
- Motivation: 珊瑚礁面临崩溃危机,气候变化、海洋酸化和污染导致未来十年内70-90%的珊瑚物种可能消失。传统恢复方法依赖人工,效率低下且难以规模化,亟需自动化技术来扩大恢复工作规模。
- Method: 开发了基于人工智能和计算机视觉的自动化底质分类系统,使用机器人技术部署珊瑚重播设备。系统能够实时检测适合珊瑚生长的海床区域,实现自动化部署。
- Result: 在大堡礁的真实测试中,部署准确率达到77.8%,子图像块分类准确率为89.1%,实时模型推理速度为5.5帧/秒。同时公开贡献了大量带标注的底质图像数据集。
- Conclusion: 该自动化系统显著提高了珊瑚礁恢复的效率和范围,减少了人类专家的依赖,为大规模珊瑚礁恢复提供了可行的技术解决方案,并促进了该领域未来的研究发展。
[89] CompSlider: Compositional Slider for Disentangled Multiple-Attribute Image Generation
Zixin Zhu,Kevin Duarte,Mamshad Nayeem Rizve,Chengyuan Xu,Ratheesh Kalarot,Junsong Yuan
Main category: cs.CV
TL;DR: CompSlider是一个基于滑块的文本到图像生成方法,通过解耦多个属性来实现精确的多属性同时控制,无需重新训练基础模型
- Motivation: 现有滑块方法通常为每个属性单独训练适配器,忽略了多个属性之间的纠缠问题,导致不同属性间存在干扰,无法精确同时控制多个属性
- Method: 生成条件先验来控制多个属性,引入新颖的解耦损失和结构损失来组合多个属性变化,同时保持图像结构一致性,在潜在空间中操作
- Result: 能够同时精确控制多个属性,在各种图像属性上表现良好,并可扩展到视频生成,显著降低了训练和推理的计算负担
- Conclusion: CompSlider通过解耦多个属性实现了可靠和独立的属性操作,为文本到图像生成提供了更精确的多属性控制能力
[90] Seeing through Unclear Glass: Occlusion Removal with One Shot
Qiang Li,Yuanming Cao
Main category: cs.CV
TL;DR: 本文提出了一种用于恢复通过受污染玻璃拍摄的图像的全能模型,利用一次性测试时自适应机制来处理各种类型的玻璃污染物。
- Motivation: 现有深度学习方法主要依赖合成数据或仅处理雨滴污染,而现实中的玻璃污染物种类更多样(如泥水、灰尘等),需要更通用的解决方案。
- Method: 采用自监督辅助学习任务的一次性测试时自适应机制,为每个测试图像更新训练好的模型以适应其独特的污染类型。
- Result: 实验结果表明,该方法在定量和定性评估上都优于现有最先进方法,特别是在处理未见过的污染类型时表现优异。
- Conclusion: 提出的全能模型通过测试时自适应机制,能够有效处理各种现实中的玻璃污染物,为图像恢复提供了更通用的解决方案。
[91] A Unified Low-level Foundation Model for Enhancing Pathology Image Quality
Ziyi Liu,Zhe Xu,Jiabo Ma,Wenqaing Li,Junlin Hou,Fuxiang Huang,Xi Wang,Ronald Cheong Kin Chan,Terence Tsz Wai Wong,Hao Chen
Main category: cs.CV
TL;DR: 提出了首个统一的低级别病理学基础模型LPFM,通过对比预训练编码器和条件扩散过程,能够处理图像恢复和虚拟染色等多种低级别视觉任务,在多个任务上显著优于现有方法。
- Motivation: 现实病理图像存在噪声、模糊、低分辨率等退化问题,现有方法针对单一任务设计,缺乏处理多样化低级别视觉挑战的通用性,且物理染色成本高、耗时长、不一致。
- Method: 使用对比预训练编码器从1.9亿未标记病理图像学习可迁移的染色不变特征表示,采用统一条件扩散过程通过文本提示动态适应特定任务。
- Result: 在87,810张全切片图像上训练,在大多数任务(56/66)上显著优于最先进方法(p<0.01),图像恢复PSNR提升10-15%,虚拟染色SSIM提升12-18%。
- Conclusion: LPFM作为首个统一的低级别病理学基础模型,能够有效处理多种图像增强任务,为病理学图像处理提供了通用且高效的解决方案。
[92] SpectMamba: Integrating Frequency and State Space Models for Enhanced Medical Image Detection
Yao Wang,Dong Yang,Zhi Qiao,Wenjian Huang,Liuzhi Yang,Zhen Qian
Main category: cs.CV
TL;DR: SpectMamba是首个基于Mamba架构的医学图像检测模型,通过混合空间-频率注意力块和视觉状态空间模块,在保持线性计算复杂度的同时实现了最先进的性能。
- Motivation: 医学图像异常检测需要高效率和准确性,但CNN感受野有限,Transformer计算成本过高。Mamba在自然语言处理中处理长序列的线性复杂度优势为此提供了新思路。
- Method: 提出SpectMamba架构,包含混合空间-频率注意力块(HSFA)分别学习高低频特征,视觉状态空间模块(VSSM)和Hilbert曲线扫描技术来增强空间相关性和局部依赖。
- Result: 综合实验表明,SpectMamba在各种医学图像检测任务中实现了最先进的性能,同时保持高效性。
- Conclusion: SpectMamba成功将Mamba架构应用于医学图像检测,通过频率-空间特征融合和优化的扫描策略,有效解决了现有模型的局限性,为医学图像分析提供了新的高效解决方案。
[93] Bidirectional Sparse Attention for Faster Video Diffusion Training
Chenlu Zhan,Wen Li,Chuyu Shen,Jun Zhang,Suhui Wu,Hao Zhang
Main category: cs.CV
TL;DR: 提出双向稀疏注意力(BSA)框架解决视频DiT模型的计算瓶颈问题,通过动态稀疏化查询和键值对,显著提升训练和推理效率
- Motivation: 视频扩散Transformer模型在生成高质量视频时面临二次复杂度计算瓶颈,全注意力机制导致训练和推理成本过高,需要解决查询和键值对的稀疏性问题
- Method: BSA框架包含两个关键组件:通过语义相似度选择最具信息量的查询令牌实现查询稀疏化,通过统计动态阈值保留最显著的KV块实现KV稀疏化
- Result: BSA显著加速DiT训练,FLOPs减少高达20倍,注意力训练速度提升17.79倍,同时保持甚至超越全注意力的生成质量
- Conclusion: BSA框架有效解决了视频DiT模型的计算效率问题,为高分辨率长视频生成提供了可行的解决方案
[94] An End-to-End Framework for Video Multi-Person Pose Estimation
Zhihong Wei
Main category: cs.CV
TL;DR: 提出VEPE框架,通过时空Transformer组件实现视频端到端姿态估计,解决传统两阶段方法分离时空维度的问题,提升推理效率300%
- Motivation: 传统视频姿态估计方法将空间和时间维度分离,无法捕获全局时空上下文,且依赖复杂后处理降低推理效率
- Method: 使用三个时空Transformer组件:STPE编码器、STDME记忆编码器和STPD解码器,并引入实例一致性机制增强跨帧查询匹配
- Result: 在Posetrack数据集上超越大多数两阶段模型,推理效率提升300%
- Conclusion: VEPE框架通过端到端设计和时空Transformer组件,有效解决了视频姿态估计中的时空上下文利用和效率问题
[95] PVINet: Point-Voxel Interlaced Network for Point Cloud Compression
Xuan Deng,Xingtao Wang,Xiandong Meng,Xiaopeng Fan,Debin Zhao
Main category: cs.CV
TL;DR: 提出PVINet点云压缩网络,通过点体素交错并行处理全局结构和局部上下文特征,并引入条件稀疏卷积实现特征交互,在基准数据集上达到竞争性性能。
- Motivation: 现有点云压缩方法通常顺序处理全局和局部信息,缺乏两者之间的有效通信,导致重建质量受限。
- Method: 提出点体素交错网络(PVINet),包含体素编码器提取全局结构特征和点编码器建模局部上下文,引入条件稀疏卷积动态定制卷积核实现特征交互。
- Result: 在基准数据集上的实验表明,PVINet相比最先进方法具有竞争性性能。
- Conclusion: PVINet通过并行处理全局局部特征并实现有效交互,提升了点云压缩的重建质量。
[96] FICGen: Frequency-Inspired Contextual Disentanglement for Layout-driven Degraded Image Generation
Wenzhuang Wang,Yifan Zhao,Mingcan Ma,Ming Liu,Zhonglin Jiang,Yong Chen,Jia Li
Main category: cs.CV
TL;DR: 本文提出FICGen方法,通过频率知识迁移和上下文频率感知指导,解决退化场景下布局到图像生成中的上下文幻觉困境,在多个基准测试中超越了现有方法。
- Motivation: 在退化场景(如低光照、水下)中,布局到图像生成存在生成保真度有限和与用户提供布局对齐性弱的问题,主要归因于前景实例被上下文主导的频率分布所淹没的"上下文幻觉困境"。
- Method: 提出频率启发的上下文解耦生成范式(FICGen):1) 使用可学习的双查询机制和频率重采样器从训练集中提取上下文频率原型;2) 采用视觉频率增强注意力将频率原型注入退化生成过程;3) 开发实例一致性映射和自适应空间频率聚合模块来调节解耦和重建混合退化表示。
- Result: 在5个基准测试(从严重低光照到轻度模糊的各种退化场景)上的广泛实验表明,FICGen在生成保真度、对齐性和下游辅助可训练性方面 consistently 超越现有L2I方法。
- Conclusion: FICGen通过将退化图像的频率知识迁移到潜在扩散空间,有效解决了退化场景下的上下文幻觉问题,显著提升了布局到图像生成的性能。
[97] GPSToken: Gaussian Parameterized Spatially-adaptive Tokenization for Image Representation and Generation
Zhengqiang Zhang,Rongyuan Wu,Lingchen Sun,Lei Zhang
Main category: cs.CV
TL;DR: GPSToken是一种新颖的高斯参数化空间自适应标记化框架,使用2D高斯模型动态建模图像区域的位置、形状和纹理,实现非均匀图像标记化,在图像重建和生成任务上达到最先进性能。
- Motivation: 传统方法受限于均匀的2D/1D网格标记化,无法灵活表示不同位置、形状和纹理的图像区域,限制了特征表示的有效性。
- Method: 使用熵驱动算法将图像分割为纹理均匀的可变大小区域,每个区域用2D高斯(均值表示位置,协方差表示形状)和纹理特征参数化,通过专门训练的transformer优化高斯参数,使用可微分渲染器重建特征图。
- Result: 在图像重建和生成任务上,使用128个标记分别达到rFID 0.65和FID 1.50的优异分数,实现了最先进的性能。
- Conclusion: GPSToken通过高斯参数化空间自适应标记化,成功解耦了空间布局和纹理特征,实现了高效的两阶段生成,为图像表示和生成提供了新的有效方法。
[98] MetaSSL: A General Heterogeneous Loss for Semi-Supervised Medical Image Segmentation
Weiren Zhao,Lanfeng Zhong,Xin Liao,Wenjun Liao,Sichuan Zhang,Shaoting Zhang,Guotai Wang
Main category: cs.CV
TL;DR: 提出MetaSSL框架,通过空间异质性损失函数为半监督医学图像分割中的不同像素分配不同权重,利用预测的不确定性和一致性信息来提升性能。
- Motivation: 现有半监督学习方法主要关注生成参考预测的策略,但忽视了标注数据中的潜在噪声以及不同未标注像素的异质性价值,需要更有效地挖掘预测中的丰富信息。
- Method: 基于空间异质性损失函数,将未标注数据的预测分为四个区域(UC、US、DC、DS),根据一致性和置信度分配递减权重,并采用自适应阈值区分置信预测和可疑预测。
- Result: 实验结果表明,该方法与现有SSL框架集成后,在不同数据集上显著提升了分割性能。
- Conclusion: MetaSSL是一个即插即用的通用框架,通过有效利用预测中的不确定性和一致性信息,能够显著提升半监督医学图像分割的效果。
[99] MVTrajecter: Multi-View Pedestrian Tracking with Trajectory Motion Cost and Trajectory Appearance Cost
Taiga Yamane,Ryo Masumura,Satoshi Suzuki,Shota Orihashi
Main category: cs.CV
TL;DR: MVTrajecter是一种新颖的端到端多视角行人跟踪方法,通过利用过去轨迹中的多时间戳信息,引入轨迹运动成本和轨迹外观成本,实现更鲁棒的行人关联。
- Motivation: 现有的端到端MVPT方法仅依赖当前和单个相邻过去时间戳,丢弃了更早的轨迹信息,限制了关联性能。
- Method: 提出轨迹运动成本和轨迹外观成本,基于多时间戳信息计算行人身份相似性;利用注意力机制捕捉多时间戳间关系;即使某个时间戳出现错误关联,也能基于其他时间戳信息进行纠正。
- Result: 大量实验证明MVTrajecter各组件有效性,性能优于之前的最先进方法。
- Conclusion: 利用多时间戳轨迹信息能够显著提升多视角行人跟踪的关联鲁棒性和准确性。
[100] Do Video Language Models Really Know Where to Look? Diagnosing Attention Failures in Video Language Models
Hyunjong Ok,Jaeho Lee
Main category: cs.CV
TL;DR: 研究发现流行的视觉编码器在识别视频关键帧方面存在严重局限,无法为多模态大语言模型准确识别最信息丰富的帧来处理文本查询
- Motivation: 现有的多模态大语言模型依赖视觉语言编码器进行关键帧采样,但这些编码器是否能真正识别最具信息量的帧尚不明确
- Method: 通过实证研究分析流行视觉编码器在关键帧识别方面的能力局限
- Result: 发现当前视觉编码器在识别MLLM应该关注的关键帧方面存在严重不足
- Conclusion: 需要开发更好的关键帧识别技术来支持高效视频多模态大语言模型的发展
[101] DynaMind: Reconstructing Dynamic Visual Scenes from EEG by Aligning Temporal Dynamics and Multimodal Semantics to Guided Diffusion
Junxiang Liu,Junming Lin,Jiangtong Li,Jie Li
Main category: cs.CV
TL;DR: DynaMind是一个从EEG信号重建动态视觉场景的新框架,通过联合建模神经动力学和语义特征,在视频重建精度和视觉保真度方面实现了显著提升
- Motivation: 现有方法在从EEG信号重建动态视觉场景时存在空间分辨率低、时间不匹配和语义信息利用不足的问题,无法充分解析动态连贯性和复杂语义上下文
- Method: 提出DynaMind框架,包含三个核心模块:区域感知语义映射器(RSM)提取多模态语义特征,时间感知动态对齐器(TDA)生成动态潜在序列确保时间一致性,双引导视频重建器(DGVR)将时序蓝图转换为高保真视频
- Result: 在SEED-DV数据集上达到新的SOTA水平,视频和帧级精度分别提升12.5和10.3个百分点,SSIM提升9.4%,FVMD降低19.7%,显示出卓越的视觉保真度和时间连贯性
- Conclusion: 这项研究在神经动力学与高保真视觉语义之间架起了关键桥梁,标志着脑解码领域的重要进展
[102] FocusDPO: Dynamic Preference Optimization for Multi-Subject Personalized Image Generation via Adaptive Focus
Qiaoqiao Jin,Siming Fu,Dong She,Weinan Jia,Hualiang Wang,Mu Liu,Jidong Jiang
Main category: cs.CV
TL;DR: FocusDPO是一个多主体个性化图像生成框架,通过动态语义对应和复杂度感知的焦点区域识别,在训练过程中渐进调整注意力分配,有效解决了多主体控制中的属性泄漏和保真度问题。
- Motivation: 多主体个性化图像生成面临主体保真度保持困难和跨主体属性泄漏的挑战,需要在不进行测试时优化的情况下实现对多个指定主体的细粒度独立控制。
- Method: 基于动态语义对应和参考图像复杂度自适应识别焦点区域,在噪声时间步上渐进调整焦点区域,采用加权策略奖励信息丰富区域并惩罚低置信度区域,建立生成主体与参考主体间的鲁棒对应映射。
- Result: 在单主体和多主体个性化图像合成基准测试中达到最先进性能,显著提升了现有预训练个性化生成模型的性能,有效缓解属性泄漏同时保持优异的主体保真度。
- Conclusion: 该方法推进了可控多主体图像合成的前沿,为多样化生成场景提供了有效的解决方案。
[103] SegAssess: Panoramic quality mapping for robust and transferable unsupervised segmentation assessment
Bingnan Yang,Mi Zhang,Zhili Zhang,Zhan Zhang,Yuanxin Zhao,Xiangyun Hu,Jianya Gong
Main category: cs.CV
TL;DR: 本文提出了SegAssess框架,通过全景质量映射(PQM)范式实现像素级分割质量评估,将SQA转化为四类分割任务,在无监督设置下实现了最先进的性能和卓越的零样本迁移能力。
- Motivation: 现有基于深度学习的无监督分割质量评估方法存在评估粒度粗糙、评估不完整和迁移性差的问题,需要一种更全面、像素级的SQA解决方案。
- Method: 提出SegAssess框架,将SQA建模为细粒度的四类全景分割任务(TP/FP/TN/FN);采用改进的SAM架构,利用输入掩码作为交叉注意力提示;引入边缘引导压缩分支和聚合语义过滤模块处理边缘区域;使用增强混合采样训练策略提升跨域鲁棒性。
- Result: 在来自6个数据源的32个数据集上的综合实验表明,SegAssess达到了最先进的性能,并对未见过的掩码表现出显著的零样本迁移能力。
- Conclusion: SegAssess通过PQM范式为无监督SQA提供了强大且可迁移的解决方案,在遥感图像分割质量评估方面具有重要价值。
[104] PrediTree: A Multi-Temporal Sub-meter Dataset of Multi-Spectral Imagery Aligned With Canopy Height Maps
Hiyam Debary,Mustansar Fiaz,Levente Klein
Main category: cs.CV
TL;DR: PrediTree是首个开源的高分辨率树高预测数据集,包含314万张图像,结合0.5米分辨率LiDAR树高图和时空对齐的多光谱影像,用于训练深度学习模型预测树木生长。
- Motivation: 解决森林监测中缺乏高分辨率树高预测训练数据的关键缺口,使能基于多时相观测的深度学习树高预测方法。
- Method: 提出编码器-解码器框架,输入多时相多光谱影像及相对时间差,预测冠层高度。使用U-Net等架构在PrediTree数据集上进行训练。
- Result: U-Net架构在PrediTree数据集上获得最佳性能,掩码均方误差为11.78%,比ResNet-50提升约12%,比仅使用RGB波段实验误差降低约30%。
- Conclusion: PrediTree数据集为树高预测研究提供了重要资源,U-Net架构在该数据集上表现出优越性能,数据集和代码均已开源。
[105] DcMatch: Unsupervised Multi-Shape Matching with Dual-Level Consistency
Tianwei Ye,Yong Ma,Xiaoguang Mei
Main category: cs.CV
TL;DR: DcMatch是一个无监督学习框架,通过形状图注意力网络和多域一致性损失,实现非刚性多形状匹配的显著性能提升
- Motivation: 解决现有方法仅从单个形状学习规范嵌入的局限性,需要捕捉整个形状集合的底层流形结构以获得更一致的点对点对应关系
- Method: 使用形状图注意力网络构建共享潜在空间,通过宇宙预测器获得形状到宇宙的对应关系,同时在空间域和谱域表示对应关系,并采用新颖的循环一致性损失强制对齐
- Result: 在多个具有挑战性的基准测试中,该方法始终优于先前的最先进方法,在各种多形状匹配场景中表现优异
- Conclusion: DcMatch通过利用形状集合的全局结构和双重一致性约束,为非刚性多形状匹配提供了更有效和鲁棒的解决方案
[106] Generalizable Self-supervised Monocular Depth Estimation with Mixture of Low-Rank Experts for Diverse Endoscopic Scenes
Liangjing Shao,Benshuang Chen,Chenkang Du,Xueli Liu,Xinrong Chen
Main category: cs.CV
TL;DR: 提出了一种自监督单目深度估计框架,通过动态低秩专家混合模块和亮度反射一致性训练,在多种内窥镜场景中实现优异的深度估计性能。
- Motivation: 内窥镜场景中光照条件和组织特征的多样性是深度估计的主要挑战,需要开发能够适应不同内窥镜环境的通用深度估计方法。
- Method: 提出基于输入特征自适应选择低秩专家的模块,并设计自监督训练框架处理亮度和反射不一致性问题,高效微调基础模型。
- Result: 在真实和模拟内窥镜数据集上超越最先进方法,在多样化内窥镜场景中实现最佳的零样本深度估计泛化性能。
- Conclusion: 该方法能够为微创测量和手术提供准确的内窥镜感知,代码将在接受后发布。
[107] Measuring Image-Relation Alignment: Reference-Free Evaluation of VLMs and Synthetic Pre-training for Open-Vocabulary Scene Graph Generation
Maëlic Neau,Zoe Falomir,Cédric Buche,Akihiro Sugimoto
Main category: cs.CV
TL;DR: 提出了一种无参考的开放词汇图象生成评价指标,以公平评估视觉-语言模型的关系预测能力,并通过区域特定提示调整技术生成高质量合成数据来改善模型性能。
- Motivation: 当前场景图象生成的标准测试集词汇量有限,无法有效评估开放词汇模型的能力,同时预训练数据质量较差影响模型的沿午性能。
- Method: 设计了无参考的开放词汇评价指标,并使用区域特定提示调整技术来生成高质量的合成数据集。
- Result: 实验结果显示,使用新的合成数据集进行预训练能够显著提升开放词汇场景图象生成模型的沿午性能。
- Conclusion: 该研究为开放词汇场景图象生成提供了更公平的评价方法和更高质量的数据生成方案,有助于提升模型的实际应用能力。
[108] PRINTER:Deformation-Aware Adversarial Learning for Virtual IHC Staining with In Situ Fidelity
Yizhe Yuan,Bingsen Xue,Bangzheng Pu,Chengxiang Wang,Cheng Jin
Main category: cs.CV
TL;DR: PRINTER是一个弱监督框架,通过原型驱动的内容-染色模式解耦和变形感知对抗学习,实现H&E到IHC的虚拟染色,解决组织切片空间错位问题。
- Motivation: 当前肿瘤空间异质性分析方法存在连续切片空间错位问题,严重影响原位病理学解释的准确性,需要更精确的虚拟染色模式。
- Method: 采用原型驱动的染色模式转移与显式内容-风格解耦、循环注册-合成框架GapBridge进行可变形结构对齐、变形感知对抗学习,生成器和注册网络联合对抗优化风格判别器。
- Result: 大量实验表明PRINTER在保持H&E染色细节和虚拟染色保真度方面表现优异,优于最先进方法。
- Conclusion: 该工作为虚拟染色提供了稳健且可扩展的解决方案,推动了计算病理学领域的发展。
[109] POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion
Yuan Liu,Zhongyin Zhao,Le Tian,Haicheng Wang,Xubing Ye,Yangxiu You,Zilin Yu,Chuhan Wu,Xiao Zhou,Yang Yu,Jie Zhou
Main category: cs.CV
TL;DR: 提出一种全自动化的两阶段框架,通过合成数据生成和自成进步方法,构建高质量文档提取数据集和模型,无需人工标注或知识萎缩
- Motivation: 解决复杂格式文档(如表格、公式、多栏文本)标注成本高、自动标注准确性低的问题,避免知识萎缩导致的模型性能限制
- Method: 两阶段方法:1)合成数据生成阶段:生成大规模多样化的合成数据,训练基础模型;2)自成进步阶段:使用细调模型标注真实文档,通过过滤策略验证标注质量,重新训练模型,迭代提升
- Result: 训练出POINTS-1.5模型(POINTS-Reader),性能超越众多同等或更大规模的现有公开和专有模型
- Conclusion: 该框架能够全自动构建高质量文档提取数据集和模型,有效解决复杂格式文档的标注挑战,为文档转换领域提供了一种无需人工干预的高效解决方案
[110] FantasyHSI: Video-Generation-Centric 4D Human Synthesis In Any Scene through A Graph-based Multi-Agent Framework
Lingzhou Mu,Qiang Wang,Fan Jiang,Mengchao Wang,Yaqi Fan,Mu Xu,Kai Zhang
Main category: cs.CV
TL;DR: FantasyHSI是一个基于视频生成和多智能体系统的人类-场景交互框架,通过动态有向图建模交互过程,包含场景导航、规划、批评三个智能体,使用DPO训练动作生成器,显著提升了泛化能力、长时任务完成度和物理真实性。
- Motivation: 解决人类-场景交互中长时程、高层次任务处理困难以及未见场景泛化能力不足的问题,现有方法在逻辑一致性和物理真实性方面存在局限。
- Method: 构建多智能体系统:场景导航智能体负责环境感知和高级路径规划,规划智能体分解长时程目标为原子动作,批评智能体建立闭环反馈机制纠正轨迹漂移;使用DPO训练动作生成器提升物理真实性。
- Result: 在自定义SceneBench基准测试中,FantasyHSI在泛化能力、长时程任务完成度和物理真实性方面显著优于现有方法,有效减少了肢体扭曲和脚部滑动等伪影。
- Conclusion: FantasyHSI通过多智能体协作和DPO优化,成功解决了HSI中的关键挑战,为复杂环境中的人类行为生成提供了有效的解决方案,具有很好的泛化性能和物理真实性。
[111] RT-DETRv2 Explained in 8 Illustrations
Ethan Qi Yang Chua,Jen Hong Tan
Main category: cs.CV
TL;DR: 通过8个细心设计的图解来解释RT-DETRv2实时检测器的架构,从整体流程到关键模块的工作原理
- Motivation: 对象检测架构难以理解,现有图解无法清晰说明RT-DETRv2的组件工作方式和协同机制
- Method: 通过一系列细心设计的图解,从整体流程到编码器、解码器、多尺度可变形注意力等关键组件的可视化分析
- Result: 提供了清晰的RT-DETRv2工作机制心晶模型,解析了张量流动和各模块逻辑
- Conclusion: 该研究使RT-DETRv2变得真正可理解,为研究人员和实践者提供了更好的架构理解工具
[112] Learning Correlation-aware Aleatoric Uncertainty for 3D Hand Pose Estimation
Lee Chae-Yeon,Nam Hyeon-Woo,Tae-Hyun Oh
Main category: cs.CV
TL;DR: 该论文提出了一种新的3D手部姿态估计方法,通过引入认知不确定性建模和利用线性层捕捉关节相关性,在保持计算效率的同时提升了姿态估计精度。
- Motivation: 现有3D手部姿态估计方法无法估计认知不确定性,且缺乏考虑关节相关性的不确定性建模,这限制了模型的性能和可靠性。
- Method: 提出了一种新颖的参数化方法,使用单个线性层来捕捉手部关节之间的内在相关性,将手部关节输出空间建模为概率分布。该方法可作为附加模块应用于现有模型之上。
- Result: 实验表明,该不确定性建模参数化方法优于现有方法,配备该不确定性头的3D手部姿态估计模型在保持高精度的同时获得了新的不确定性建模能力。
- Conclusion: 该方法成功地将认知不确定性建模引入3D手部姿态估计框架,在关节相关性建模和计算效率之间实现了更好的平衡,为手部姿态估计提供了更可靠的不确定性量化能力。
[113] Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views
Xiangdong Zhang,Shaofeng Zhang,Junchi Yan
Main category: cs.CV
TL;DR: Point-PQAE是一种基于双视图交叉重建的点云自监督学习方法,通过生成两个解耦的点云视图并相互重建,相比单视图自重建方法显著提升了预训练效果
- Motivation: 现有生成式点云自监督学习方法主要关注单视图内掩码点的恢复,而双视图预训练范式能提供更大的多样性和方差,可能实现更具挑战性和信息量的预训练
- Method: 提出交叉重建生成范式,首次开发点云视图生成的裁剪机制,并设计新颖的位置编码来表示两个解耦视图之间的3D相对位置
- Result: 在ScanObjectNN的三个变体上,使用Mlp-Linear评估协议,比自重建基线(Point-MAE)分别提升6.5%、7.0%和6.7%
- Conclusion: 交叉重建显著增加了预训练难度,使该方法在3D自监督学习中超越了之前的单模态自重建方法
[114] ReCap: Event-Aware Image Captioning with Article Retrieval and Semantic Gaussian Normalization
Thinh-Phuc Nguyen,Thanh-Hai Nguyen,Gia-Huy Dinh,Lam-Huy Nguyen,Minh-Triet Tran,Trung-Nghia Le
Main category: cs.CV
TL;DR: ReCap是一个新颖的事件增强图像检索和字幕生成系统,通过整合相关文章的背景信息来生成叙事丰富、事实准确的字幕,解决了传统视觉语言模型缺乏时间、社会和历史上下文的问题。
- Motivation: 现有的图像字幕系统往往产生通用描述,无法捕捉对新闻报导和数字存档等应用至关重要的语义级事件信息。标准视觉语言模型通常只关注可见内容,而忽略了时间、社会和历史的上下文信息。
- Method: ReCap包含三个集成组件:(1)使用DINOv2嵌入的两阶段文章检索系统,先通过全局特征相似性选择候选,再用补丁级互最近邻相似性重新排序;(2)从文章摘要、通用字幕和原始源元数据中综合信息的上下文提取框架;(3)基于大语言模型的字幕生成系统,采用语义高斯归一化来增强流畅性和相关性。
- Result: 在EVENTA 2025大挑战赛Track 1的OpenEvents V1数据集上评估,ReCap获得了0.54666的总体得分,在私有测试集上排名第2。
- Conclusion: ReCap有效地将视觉感知与现实世界知识相结合,为高风险领域中的上下文感知图像理解提供了实用解决方案。
[115] Novel Category Discovery with X-Agent Attention for Open-Vocabulary Semantic Segmentation
Jiahao Li Yang Lu,Yachao Zhang,Fangyong Wang,Yuan Xie,Yanyun Qu
Main category: cs.CV
TL;DR: X-Agent是一个创新的开放词汇语义分割框架,通过潜在语义感知的"代理"来协调跨模态注意力机制,在基准测试中实现了最先进的性能。
- Motivation: 开放词汇语义分割中基础类别训练和开放词汇推理之间的领域差异给潜在未见类别的判别建模带来挑战,现有方法对潜在语义理解机制探索不足。
- Method: 提出X-Agent框架,使用潜在语义感知的"代理"来协调跨模态注意力机制,同时优化潜在语义动态并增强其可感知性。
- Result: 广泛的基准评估表明X-Agent实现了最先进的性能,同时有效增强了潜在语义的显著性。
- Conclusion: X-Agent通过探索视觉语言模型中潜在语义的分布模式和动态,提出了一个有效的开放词汇语义分割解决方案,显著提升了性能。
[116] SAR-NAS: Lightweight SAR Object Detection with Neural Architecture Search
Xinyi Yu,Zhiwei Lin,Yongtao Wang
Main category: cs.CV
TL;DR: 本文首次将神经架构搜索(NAS)应用于SAR目标检测,通过进化搜索优化YOLOv10的骨干网络结构,在SARDet-100K数据集上实现了更高的检测精度和更低的计算开销。
- Motivation: SAR目标检测面临散斑噪声、小目标模糊性和机载计算限制等挑战,现有方法主要关注SAR特定的架构修改,本文探索利用轻量级目标检测器YOLOv10并通过NAS提升其性能。
- Method: 采用神经架构搜索(NAS)系统优化网络结构,特别是骨干网络架构搜索。构建广泛的搜索空间并利用进化搜索,找到平衡精度、参数效率和计算成本的优化架构。
- Result: 在大型SARDet-100K数据集上的实验结果表明,优化后的模型优于现有SAR检测方法,实现了更高的检测精度同时保持较低的计算开销。
- Conclusion: 这项工作为利用NAS解决实际应用问题提供了新的视角,证明了NAS在SAR目标检测中的有效性,为未来研究开辟了新方向。
[117] Multi-Representation Adapter with Neural Architecture Search for Efficient Range-Doppler Radar Object Detection
Zhiwei Lin,Weicheng Zheng,Yongtao Wang
Main category: cs.CV
TL;DR: 这篇论文提出了一种高效的雷达物体检测模型,通过多表征表示、特段提取与融合技术,结合神经网结构搜索,在RADDet和CARRADA数据集上达到了最先进的性能。
- Motivation: 雷达传感器在恶劣光照和天气条件下比摄像头更加稳健,需要高效的范围-多普勒图象物体检测方法。
- Method: 使用热力图和灰度图多表征表示RD雷达图;设计Adapter分支、交换模块和主-辅融合模块来提取、交换和融合特征;构建超网并使用One-Shot神经网结构搜索优化模型效率。
- Result: 模型在准确性和效率之间取得良好平衡,在RADDet和CARRADA数据集上分别达到了71.9和57.1的mAP@50指标,创造了新的最先进性能。
- Conclusion: 该方法通过多表征特征提取和结构搜索技术,有效提升了雷达物体检测的性能和效率,为自动驾驶领域提供了可靠的解决方案。
[118] Cross-Domain Few-Shot Segmentation via Ordinary Differential Equations over Time Intervals
Huan Ni,Qingshan Liu,Xiaonan Niu,Danfeng Hong,Lingli Zhao,Haiyan Guan
Main category: cs.CV
TL;DR: 本文提出了一种基于常微分方程和傅里叶变换的一体化模块FSS-TIs,用于跨域少样本分割任务,通过ODE关系将域特定特征转换为域无关特征,并在多个数据集上表现出优越性能。
- Motivation: 现有跨域少样本分割方法使用多个独立模块,阻碍了知识流动,难以充分发挥各模块潜力。需要一种结构简洁的一体化方法来提升跨域泛化能力。
- Method: 提出FSS-TIs方法,假设域特定特征和域无关特征的光谱之间存在ODE关系,通过时间间隔序列上的迭代变换和随机扰动的仿射变换,将域无关特征空间探索和目标域分布模拟重新表述为ODE内在参数的优化过程。
- Result: 在五个不同领域的数据集上进行的实验表明,FSS-TIs优于现有的CD-FSS方法,深入的消融研究进一步验证了其跨域适应性。
- Conclusion: FSS-TIs通过ODE和傅里叶变换的一体化设计,有效解决了跨域少样本分割中的知识流动问题,在多个跨域任务中表现出优异的性能。
[119] Guided Model-based LiDAR Super-Resolution for Resource-Efficient Automotive scene Segmentation
Alexandros Gkillas,Nikos Piperigkos,Aris S. Lalos
Main category: cs.CV
TL;DR: 提出首个端到端框架,联合优化激光雷达超分辨率和语义分割,使用轻量级架构和新的损失函数,在16通道低成本激光雷达上实现接近64通道高成本传感器的分割性能
- Motivation: 高分辨率激光雷达成本昂贵限制了大规模部署,低成本16通道激光雷达产生的稀疏点云会降低分割精度,需要解决这一矛盾
- Method: 采用联合优化训练框架,SR模块融入语义线索并保留细节;提出新的SR损失函数关注感兴趣区域;使用轻量级模型架构,参数少且易于与分割网络兼容
- Result: 实验表明该方法在分割性能上达到与使用昂贵64通道激光雷达数据相当的水平
- Conclusion: 该框架成功解决了低成本传感器性能受限的问题,为自动驾驶大规模部署提供了可行的技术方案
[120] Prior-Guided Residual Diffusion: Calibrated and Efficient Medical Image Segmentation
Fuyou Mao,Beining Wu,Yanfeng Jiang,Han Xue,Yan Tang,Hao Zhang
Main category: cs.CV
TL;DR: PGRD是一个基于扩散模型的医学图像分割框架,通过先验引导和残差学习来捕获体素级分布,在保持良好校准的同时提高了采样效率。
- Motivation: 医学图像分割中存在模糊性,需要模型能够捕获完整的条件分布而不是单一的点估计,现有方法在校准和采样效率方面存在不足。
- Method: 将离散标签嵌入连续空间对齐分割与扩散建模;使用粗粒度先验预测器提供逐步指导;扩散网络学习先验残差加速收敛;采用深度扩散监督方案稳定训练。
- Result: 在MRI和CT数据集上,PGRD相比贝叶斯、集成、Probabilistic U-Net和普通扩散基线获得了更高的Dice分数和更低的NLL/ECE值,且需要更少的采样步骤。
- Conclusion: PGRD框架能够有效学习医学图像分割中的体素级分布,在保持良好校准性能的同时显著提高了采样效率,为概率性医学图像分割提供了实用解决方案。
[121] Image Quality Enhancement and Detection of Small and Dense Objects in Industrial Recycling Processes
Oussama Messai,Abbass Zein-Eddine,Abdelouahid Bentamou,Mickaël Picq,Nicolas Duquesne,Stéphane Puydarrieux,Yann Gavet
Main category: cs.CV
TL;DR: 本文提出了一种基于全连接卷积网络的轻量级模型,用于检测密集重叠小物体和提升工业噪声图像质量,并在包含10k图像和120k实例的新数据集上评估了监督深度学习方法。
- Motivation: 解决计算机视觉中检测小、密集、重叠物体的挑战,以及改善工业环境中噪声图像质量的问题。
- Method: 使用监督深度学习方法,开发了一个基于全连接卷积网络的轻量级模型,并在新构建的大型数据集上进行性能、准确性和计算效率评估。
- Result: 识别出了最可靠的检测系统,并明确了它们在工业应用中的具体挑战应对能力。同时提出了轻量级图像质量提升模型。
- Conclusion: 该研究为工业环境中的物体检测和图像质量提升提供了有效解决方案,并指出了未来进一步优化模型效果的方向。
[122] Street-Level Geolocalization Using Multimodal Large Language Models and Retrieval-Augmented Generation
Yunus Serhat Bicakci,Joseph Shingleton,Anahid Basiri
Main category: cs.CV
TL;DR: 本文提出了一种新的街道级图像地理定位方法,通过结合开源多模态大语言模型和检索增强生成技术,在不需细调的情况下实现了独特的定位精度。
- Motivation: 随着社交媒体数据和手机摄像头的普及,传统计算机视觉技术在图像定位方面遇到挑战,需要更有效的解决方案来支持导航、位置推荐等重要应用。
- Method: 方法使用SigLIP编码器在两个大规模数据集(EMP-16和OSV-5M)上构建向量数据库,通过检索增强生成技术,在查询图像中添加包含相似和不相似地理位置信息的提示,然后由多模态大语言模型处理。
- Result: 在三个广泛使用的标准数据集(IM2GPS、IM2GPS3k和YFCC4k)上实现了独特的性能,达到了更高的准确性,而且无需昂贵的细调或重新训练。
- Conclusion: 证明了检索增强生成基于多模态大语言模型在地理定位中的有效性,为传统从头开始训练模型的方法提供了替代方案,为GeoAI领域开启了更可访问和可扩展的解决方案的新可能性。
[123] AgroSense: An Integrated Deep Learning System for Crop Recommendation via Soil Image Analysis and Nutrient Profiling
Vishal Pandey,Ranjita Das,Debasmita Biswas
Main category: cs.CV
TL;DR: AgroSense是一个深度学习框架,通过整合土壤图像分类和营养分析,为精准农业提供实时作物推荐,准确率达到98%
- Motivation: 传统土壤分析方法速度慢、劳动密集,不适合田间实时决策,需要智能作物推荐系统来满足全球粮食安全和可持续农业的需求
- Method: 采用双模块架构:土壤分类模块使用ResNet-18、EfficientNet-B0和Vision Transformer对土壤图像进行分类;作物推荐模块使用MLP、XGBoost、LightGBM和TabNet分析结构化土壤数据(营养水平、pH值、降雨量)
- Result: 融合模型达到98.0%准确率,精确率97.8%,召回率97.7%,F1分数96.75%,RMSE和MAE分别降至0.32和0.27。消融研究证实多模态耦合的关键作用,统计验证显示改进显著
- Conclusion: AgroSense为精准农业提供了实用、可扩展的实时决策支持解决方案,为资源受限环境中的轻量级多模态AI系统开辟了新途径
[124] M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision
Che Liu,Zheng Jiang,Chengyu Fang,Heng Guo,Yan-Jie Zhou,Jiaqi Qu,Le Lu,Minfeng Xu
Main category: cs.CV
TL;DR: M3Ret是一个统一的医学图像检索模型,通过自监督学习在包含2D、3D和视频的多模态医学数据集上训练,无需模态特定定制,在零样本检索和跨模态对齐方面达到最先进性能。
- Motivation: 当前医学图像检索方法针对不同模态使用分离的架构和训练策略,这种模态特定的设计限制了可扩展性,阻碍了统一表示的发展。
- Method: 构建包含867,653个医学影像样本的大规模混合模态数据集,使用生成式(MAE)和对比式(SimDINO)自监督学习方法训练统一的视觉编码器M3Ret,无需任何模态特定定制。
- Result: 在所有单个模态的零样本图像检索中达到新的最先进水平,超越DINOv3和BMC-CLIP等强基线;在没有配对数据的情况下实现强跨模态对齐;模型能够泛化到未见过的MRI任务,尽管预训练期间从未见过MRI数据。
- Conclusion: M3Ret展示了纯视觉自监督学习对未见模态的泛化能力,为医学成像社区提供了有前景的信号,是迈向多模态医学图像理解基础模型的重要一步。
[125] Identity-Preserving Text-to-Video Generation via Training-Free Prompt, Image, and Guidance Enhancement
Jiayi Gao,Changcheng Hua,Qingchao Chen,Yuxin Peng,Yang Liu
Main category: cs.CV
TL;DR: 提出无需训练的TPIGE框架,通过提示词增强、参考图像增强和时空引导增强,显著提升身份保持文本到视频生成性能,在ACM Multimedia 2025挑战赛中获第一名
- Motivation: 现有基于微调的身份保持文本到视频生成方法面临数据稀缺和高调优成本的问题,需要一种低成本高性能的解决方案
- Method: 使用GPT-4o进行面部感知提示增强,利用身份保持图像生成器进行提示感知参考图像增强,最后采用ID感知时空引导增强技术联合优化身份保持和视频质量
- Result: 在1000个视频测试集上通过自动和人工评估验证,性能优于现有方法,在ACM Multimedia 2025挑战赛中取得第一名
- Conclusion: TPIGE框架以最小成本实现了身份保持文本到视频生成的最先进性能,具有很强的通用性
[126] Uirapuru: Timely Video Analytics for High-Resolution Steerable Cameras on Edge Devices
Guilherme H. Apostolo,Pablo Bauszat,Vinod Nigade,Henri E. Bal,Lin Wang
Main category: cs.CV
TL;DR: Uirapuru是一个针对可转向高分辨率摄像头的实时视频分析框架,通过结合相机运动理解和自适应分块技术,在动态场景中显著提升分析精度和速度。
- Motivation: 现有实时视频分析技术主要针对静态视角摄像头,而可转向摄像头(如PTZ相机)的转动带来了场景动态性,对传统方法(如帧分块)构成重大挑战。
- Method: Uirapuru框架将相机转动理解融入系统设计,并在每帧级别实现快速自适应分块,以应对动态场景变化。
- Result: 实验表明,Uirapuru在保持指定延迟预算下精度提升1.45倍,或在同等精度下推理速度提升4.53倍,优于现有静态摄像头方法。
- Conclusion: 该框架成功解决了可转向摄像头视频分析的动态性挑战,为智能交通控制和人群监控等应用提供了有效的实时分析解决方案。
[127] Unsupervised Ultra-High-Resolution UAV Low-Light Image Enhancement: A Benchmark, Metric and Framework
Wei Lu,Lingyu Zhu,Si-Bao Chen
Main category: cs.CV
TL;DR: 提出了U3D无监督超高清无人机数据集、EEI边缘效率指标和U3LIE高效框架,解决无人机低光图像增强的独特挑战,实现实时4K处理。
- Motivation: 无人机在低光条件下性能显著下降,现有低光图像增强方法难以处理航空影像的超高分辨率、无配对数据、非均匀光照和部署限制等独特挑战。
- Method: 开发了U3D无监督数据集和评估工具包,提出EEI指标平衡感知质量与部署因素,设计U3LIE框架包含自适应预增强增强(APA)和亮度间隔损失(L_int)。
- Result: U3LIE达到最先进性能,在单GPU上以23.8 FPS处理4K图像,适合实时机载部署。
- Conclusion: 提供了数据集、指标和方法三位一体的完整解决方案,推动全天候无人机视觉系统的发展。
[128] Enhancing Partially Relevant Video Retrieval with Robust Alignment Learning
Long Zhang,Peipei Song,Jianfeng Dong,Kun Li,Xun Yang
Main category: cs.CV
TL;DR: RAL框架通过概率建模和置信门控机制,有效解决了部分相关视频检索中的查询歧义和视频部分相关性带来的数据不确定性问题。
- Motivation: 部分相关视频检索(PRVR)面临的核心挑战是查询歧义性和视频部分相关性导致的数据不确定性,现有方法容易受到具有虚假相似性的干扰视频影响。
- Method: 提出RAL框架:1)将视频和查询编码为多元高斯分布进行概率建模;2)引入可学习的置信门控动态加权相似度;3)作为即插即用解决方案集成到现有架构中。
- Result: 在多种检索骨干网络上的广泛实验证明了该方法的有效性。
- Conclusion: RAL框架通过显式建模数据不确定性,显著提升了部分相关视频检索的性能,能够更好地处理跨模态对齐中的噪声和不确定性。
[129] RibPull: Implicit Occupancy Fields and Medial Axis Extraction for CT Ribcage Scans
Emmanouil Nikolakakis,Amine Ouasfi,Julie Digne,Razvan Marinescu
Main category: cs.CV
TL;DR: RibPull是一种利用隐式占用场连接计算几何和医学影像的方法,通过神经占用场表示CT扫描的胸腔,并应用拉普拉斯收缩提取中轴,相比体素网格能更好地处理稀疏数据和几何操作。
- Motivation: 体素网格在医学影像中存在分辨率限制、拓扑信息丢失和稀疏数据处理效率低的问题,而隐式3D表示能更有效地处理稀疏和噪声数据,保留复杂几何信息。
- Method: 使用神经占用场预测3D点是否在物体内部来表示CT扫描的胸腔,并应用拉普拉斯收缩来提取胸腔的中轴。
- Result: 在RibSeg数据集的20个医学扫描上进行了评估,证明了连续坐标基3D场景表示相比体素基表示的优越性。
- Conclusion: 隐式占用场为医学影像中的几何操作提供了更好的解决方案,能够有效处理稀疏数据并保留几何信息。
[130] Neural Scene Designer: Self-Styled Semantic Image Manipulation
Jianman Lin,Tianshui Chen,Chunmei Qing,Zhijing Yang,Shuangping Huang,Yuheng Ren,Liang Lin
Main category: cs.CV
TL;DR: NSD是一个新颖的图像编辑框架,通过双交叉注意力机制和渐进式自风格表示学习模块,实现了语义控制和风格一致性的双重目标,并在新建立的基准测试中表现出色。
- Motivation: 现有图像编辑方法主要关注语义控制,但忽视了风格一致性的重要性,这影响了图像的整体美感和连贯性。
- Method: 提出Neural Scene Designer框架,采用双并行交叉注意力机制分别处理文本和风格信息,并设计渐进式自风格表示学习模块通过风格对比损失来学习细粒度风格表示。
- Result: 在建立的综合基准测试上进行了广泛实验,证明了该框架在保持风格一致性方面的有效性。
- Conclusion: NSD框架成功解决了图像编辑中的风格一致性问题,为图像编辑和修复任务提供了新的解决方案。
[131] MILO: A Lightweight Perceptual Quality Metric for Image and Latent-Space Optimization
Uğur Çoğalan,Mojtaba Bemana,Karol Myszkowski,Hans-Peter Seidel,Colin Groth
Main category: cs.CV
TL;DR: MILO是一个轻量级、多尺度的感知质量评估指标,通过伪MOS监督训练,在图像和潜在空间优化中表现出色,既可作为图像质量评估工具,也可作为生成管道中的感知优化工具。
- Motivation: 为了解决传统图像质量评估方法需要大规模人工标注数据的问题,同时开发一个既高效又准确的感知质量指标,能够适用于实时应用和生成模型的优化。
- Method: 使用伪MOS监督训练,通过对多样图像应用可复现的失真并由考虑视觉掩蔽效应的质量指标集合进行评分。采用紧凑架构,结合空间掩蔽和课程学习策略,在VAE编码器的潜在表示中进行感知对齐优化。
- Result: MILO在标准FR-IQA基准测试中优于现有指标,推理速度快适合实时应用。在去噪、超分辨率和人脸修复等任务中显著提升性能,同时减少计算开销。
- Conclusion: MILO不仅是一个先进的图像质量评估指标,还是一个实用的感知优化工具,在生成管道中具有重要应用价值,为图像处理和生成任务提供了高效的解决方案。
[132] Bangladeshi Street Food Calorie Estimation Using Improved YOLOv8 and Regression Model
Aparup Dhar,MD Tamim Hossain,Pritom Barua
Main category: cs.CV
TL;DR: 本文针对孟加拉街头食品开发了一个基于改进YOLOv8的自动卡路里估算系统,解决了现有方法在多种食品识别、图像缩放和西方饮食偏向等问题,取得了优异的准确率。
- Motivation: 随着肥胖率持续上升,自动卡路里追踪成为重要工具,但现有方法存在诸多局限:只能提供固定卡路里输出、多食品识别困难、图像缩放标准化问题,以及主要针对西方饮食。
- Method: 首先构建了孟加拉街头食品的多样化数据集,然后改进最先进的视觉模型YOLOv8,开发了精炼的卡路里估算系统,并结合机器学习回归模型。
- Result: 改进模型在分类和分割方面表现优异,计算复杂度仅轻微增加。系统在卡路里估算方面取得了6.94 MAE、11.03 RMSE和96.0% R²分数的优异结果。
- Conclusion: 该系统对现实世界的食品卡路里计算既高效又准确,特别针对孟加拉街头食品提供了定制化解决方案。
[133] InfoScale: Unleashing Training-free Variable-scaled Image Generation via Effective Utilization of Information
Guohui Zhang,Jiangtong Tan,Linjiang Huang,Zhonghang Yuan,Naishan Zheng,Jie Huang,Feng Zhao
Main category: cs.CV
TL;DR: InfoScale是一个信息中心化框架,通过渐进频率补偿、自适应信息聚合和噪声适应三个模块,解决扩散模型在变尺度图像生成中的信息丢失、聚合不灵活和分布不对齐问题。
- Motivation: 扩散模型在训练尺度以外的分辨率上生成图像时性能下降,主要挑战在于不同分辨率的信息量差异需要不同的信息转换过程。
- Method: 提出InfoScale框架,包含:1)渐进频率补偿模块补偿高频信息丢失;2)自适应信息聚合模块灵活调整信息平衡;3)噪声适应模块重新分配初始噪声信息分布。
- Result: 该方法即插即用,大量实验证明在变尺度图像生成中的有效性。
- Conclusion: InfoScale通过信息中心化方法有效解决了扩散模型在变尺度生成中的关键问题,实现了更好的跨分辨率生成性能。
[134] Mamba-CNN: A Hybrid Architecture for Efficient and Accurate Facial Beauty Prediction
Djamel Eddine Boukhari
Main category: cs.CV
TL;DR: 提出Mamba-CNN混合架构,结合CNN效率和SSM全局建模能力,在面部吸引力评估任务上达到SOTA性能
- Motivation: 解决CNN感受野有限和ViT计算成本高的权衡问题,寻求既能建模全局上下文又保持计算效率的解决方案
- Method: 在分层卷积主干中集成轻量级Mamba启发的状态空间模型门控机制,动态调制特征图并选择性强调显著面部特征及其长距离空间关系
- Result: 在SCUT-FBP5500基准测试中取得Pearson相关系数0.9187、MAE 0.2022、RMSE 0.2610的新SOTA结果
- Conclusion: 验证了CNN与选择性SSM结合的协同潜力,为细致视觉理解任务提供了强大的新架构范式
[135] SoccerHigh: A Benchmark Dataset for Automatic Soccer Video Summarization
Artur Díaz-Juan,Coloma Ballester,Gloria Haro
Main category: cs.CV
TL;DR: 本文提出了一个足球视频摘要数据集和基线模型,用于解决体育视频摘要领域缺乏公开数据集的问题,在测试集上达到0.3956的F1分数。
- Motivation: 体育视频摘要(特别是足球比赛)缺乏公开可用的数据集,这阻碍了鲁棒模型的发展。视频编辑需要花费大量时间和精力识别关键片段,自动摘要生成可以显著提高效率。
- Method: 1) 构建包含237场西班牙、法国和意大利联赛比赛的足球视频摘要数据集,使用SoccerNet数据集的广播素材;2) 提出专门为此任务设计的基线模型;3) 引入受目标摘要长度约束的新评估指标
- Result: 基线模型在测试集上达到0.3956的F1分数,提出的新评估指标能够更客观地评估生成内容的质量
- Conclusion: 该研究填补了足球视频摘要领域的数据集空白,提供了基准数据集和基线模型,同时提出的长度约束评估指标为后续研究提供了更客观的评价标准
[136] Traces of Image Memorability in Vision Encoders: Activations, Attention Distributions and Autoencoder Losses
Ece Takmaz,Albert Gatt,Jakub Dotlacil
Main category: cs.CV
TL;DR: 本文探索了预训练视觉编码器中图像记忆性的相关特征,包括潜在激活、注意力分布和图像块均匀性,发现这些特征与记忆性存在相关性,并提出使用稀疏自编码器损失作为记忆性代理指标,效果优于以往基于CNN的方法。
- Motivation: 受认知科学和计算机视觉研究发现启发,探索预训练视觉编码器中哪些内部特征与人类图像记忆性相关,以理解模型内部特征与记忆性之间的关系。
- Method: 分析预训练视觉编码器的潜在激活、注意力分布和图像块均匀性特征,并探索使用视觉变换器表示上的稀疏自编码器损失作为记忆性代理指标。
- Result: 发现这些特征与图像记忆性存在一定程度的相关性,稀疏自编码器损失方法在预测记忆性方面优于以往基于卷积神经网络表示的方法。
- Conclusion: 模型内部某些特征能够有效预测图像的记忆性,为理解视觉编码器内部表征与人类记忆机制之间的关系提供了新的见解。
[137] Im2Haircut: Single-view Strand-based Hair Reconstruction for Human Avatars
Vanessa Sklyarova,Egor Zakharov,Malte Prinzler,Giorgio Becherini,Michael J. Black,Justus Thies
Main category: cs.CV
TL;DR: 基于全局头发先验知识与局部优化的结合,提出了一种从单张照片重建3D头发的新方法,利用真实和合成数据训练Transformer模型,并采用高斯散点技术进行重建。
- Motivation: 从单张照片重建线基头发几何构造面临巧战:头发型多样性、几何复杂性、缺乏真实训练数据,以及传统多视角立体视觉方法只能重建可见头发线索而丢失内部结构。现有方法依赖合成数据但数量质量有限。
- Method: 提出新题训练方案:在合成数据上训练Transformer基于的先验模型获取头发型内部几何知识,同时在学习过程中引入真实数据来建模外部结构。利用这个先验知识,创建基于高斯散点的重建方法从一张或多张图像生成头发型。
- Result: 经过定性和定量比较,证明该方法在抓取详细头发方向、整体轮廓和背部一致性方面都显示出有效性和优异性能。
- Conclusion: 该方法通过结合真实和合成数据训练的Transformer先验模型,有效解决了单张照片3D头发重建的挑战,能够在模拟输入图像中可见头发线索的同时保持头发型的一般3D结构。
[138] PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds
Liu Qifeng,Zhao Dawei,Dong Yabo,Xiao Liang,Wang Juan,Min Chen,Li Fuyang,Jiang Weizhong,Lu Dongming,Nie Yiming
Main category: cs.CV
TL;DR: PointSlice是一种新颖的点云处理方法,通过水平切片将3D点云转换为多组2D数据切片,结合Slice Interaction Network保持垂直关系,在保持高精度的同时显著提升推理速度和减少参数数量。
- Motivation: 解决现有体素方法精度高但推理慢、柱状方法速度快但精度不足的问题,寻求在自动驾驶3D目标检测中实现精度与速度的平衡。
- Method: 提出PointSlice方法:1)水平切片将3D点云转换为多组2D数据切片,仅学习2D数据分布;2)引入Slice Interaction Network(SIN)保持切片间垂直关系,增强3D感知能力。
- Result: 在Waymo数据集上比SAFDNet快1.13倍,参数减少0.79倍,精度仅降低1.2 mAPH;nuScenes数据集达到66.74 mAP的SOTA结果;Argoverse 2数据集快1.10倍,参数减少0.66倍,精度降低1.0 mAP。
- Conclusion: PointSlice在多个数据集上实现了高检测精度和快速推理的平衡,为3D点云目标检测提供了一种有效的解决方案,代码将开源。
[139] A Continuous-Time Consistency Model for 3D Point Cloud Generation
Sebastian Eilermann,René Heesch,Oliver Niggemann
Main category: cs.CV
TL;DR: ConTiCoM-3D是一个连续时间一致性模型,直接在点空间中合成3D形状,无需离散化扩散步骤或预训练教师模型,实现高效的一到两步推理。
- Motivation: 快速准确的3D点云形状生成对于机器人、AR/VR和数字内容创作应用至关重要,需要避免传统方法的迭代去噪和潜在空间编码的计算开销。
- Method: 结合TrigFlow启发的连续噪声调度和基于Chamfer距离的几何损失,使用时间条件神经网络在连续时间中操作,避免昂贵的雅可比向量乘积计算。
- Result: 在ShapeNet基准测试中,ConTiCoM-3D在质量和效率方面匹配或超越了最先进的扩散和潜在一致性模型。
- Conclusion: 该方法为可扩展的3D形状生成提供了一个实用框架,实现了高几何保真度的快速生成。
[140] MSA2-Net: Utilizing Self-Adaptive Convolution Module to Extract Multi-Scale Information in Medical Image Segmentation
Chao Deng,Xiaosen Li,Xiao Qin
Main category: cs.CV
TL;DR: 本研究提出了自适应卷积模块MSA2-Net,通过动态调整卷积核大小来提升医学图像分割性能,在多个数据集上取得了优异的分割精度。
- Motivation: nnUNet框架虽然能自动调整训练脚本中的超参数,但忽略了分割网络内部超参数的调优,限制了模型的泛化能力。
- Method: 设计了自适应卷积模块,根据数据集特征动态调整卷积核大小,集成到MSConvBridge和MSADecoder中,分别用于优化跳跃连接和解码过程。
- Result: 在Synapse、ACDC、Kvasir和ISIC2017数据集上分别获得86.49%、92.56%、93.37%和92.98%的Dice系数。
- Conclusion: MSA2-Net通过自适应卷积机制有效捕获全局和局部特征,在多种医学图像分割任务中表现出强大的鲁棒性和精确性。
[141] Variation-aware Vision Token Dropping for Faster Large Vision-Language Models
Junjie Chen,Xuyang Liu,Zichen Wen,Yiyu Wang,Siteng Huang,Honggang Chen
Main category: cs.CV
TL;DR: V²Drop是一种基于视觉token变化的压缩方法,通过渐进式移除变化最小的视觉token,在保持94.0%图像理解和98.6%视频理解性能的同时,显著降低LLM生成延迟31.5%和74.2%。
- Motivation: 大型视觉语言模型在处理高分辨率图像和长视频时会产生大量token,导致推理效率降低。现有内部LLM token压缩方法存在位置偏差和与高效算子不兼容的问题。
- Method: 从token变化角度提出Variation-aware Vision Token Dropping (V²Drop),在LVLM推理过程中渐进式移除变化最小的视觉token。
- Result: 在多个模型和基准测试中,V²Drop能保持原始模型94.0%的图像理解性能和98.6%的视频理解性能,同时减少LLM生成延迟31.5%和74.2%,结合高效算子还能进一步降低GPU峰值内存使用。
- Conclusion: V²Drop通过token变化感知的压缩方法,有效解决了现有token压缩技术的位置偏差和兼容性问题,显著提升了LVLM的计算效率。
[142] Unified Supervision For Vision-Language Modeling in 3D Computed Tomography
Hao-Chih Lee,Zelong Liu,Hamza Ahmed,Spencer Kim,Sean Huver,Vishwesh Nath,Zahi A. Fayad,Timothy Deyer,Xueyan Mei
Main category: cs.CV
TL;DR: Uniferum是一个统一的体积视觉语言模型,通过整合分类标签和分割掩码等多样化监督信号,在3D CT医学影像中实现了最先进的性能,相比基于CLIP的模型将AUROC提高了7%。
- Motivation: 通用视觉语言模型在放射学等高风险领域缺乏可靠的判别精度,且公开的3D CT数据集稀缺且异质性高,标注格式和粒度差异很大。
- Method: 开发Uniferum体积VLM,统一整合分类标签和分割掩码等多样化监督信号,协调三个具有不同标注的公共3D CT数据集进行训练。
- Result: 在CT-RATE基准测试中AUROC提高7%,相比CLIP基线和传统多标签卷积模型表现更优,在RAD-CHEST和INSPECT数据集上展现出意外的零样本性能。
- Conclusion: 整合异质标注和身体分割能有效提升模型性能,为3D医学影像中临床可靠、数据高效的VLMs设定了新方向。
[143] Acoustic Interference Suppression in Ultrasound images for Real-Time HIFU Monitoring Using an Image-Based Latent Diffusion Model
Dejia Cai,Yao Ran,Kun Yang,Xinwang Shi,Yingying Zhou,Kexian Wu,Yang Xu,Yi Hu,Xiaowei Zhou
Main category: cs.CV
TL;DR: HIFU-ILDiff是一种基于潜在扩散模型的深度学习新方法,能够实时抑制HIFU治疗中超声图像的干扰,显著优于传统的陷波滤波器方法。
- Motivation: HIFU治疗的成功和安全性依赖于实时监测,但使用超声引导HIFU治疗时经常受到干扰的影响,这限制了治疗的精确性。
- Method: 采用Vector Quantized Variational Autoencoder (VQ-VAE)将含噪超声图像编码到低维潜在空间,然后使用潜在扩散模型迭代去除干扰,最后解码重建高分辨率无干扰图像。
- Result: 在体外实验中,HIFU-ILDiff达到SSIM 0.796和PSNR 23.780,显著优于陷波滤波器的SSIM 0.443和PSNR 14.420,且处理速度达到15帧/秒,远快于陷波滤波器的5秒/帧。
- Conclusion: HIFU-ILDiff能够实时去噪HIFU干扰,为HIFU治疗提供高质量的超声引导图像,将极大提高当前临床应用的治疗精度。
[144] Kwai Keye-VL 1.5 Technical Report
Biao Yang,Bin Wen,Boyang Ding,Changyi Liu,Chenglong Chu,Chengru Song,Chongling Rao,Chuan Yi,Da Li,Dunju Zang,Fan Yang,Guorui Zhou,Guowang Zhang,Han Shen,Hao Peng,Haojie Ding,Hao Wang,Hengrui Ju,Jiaming Huang,Jiangxia Cao,Jiankang Chen,Jingyun Hua,Kaibing Chen,Kaiyu Jiang,Kaiyu Tang,Kun Gai,Muhao Wei,Qiang Wang,Ruitao Wang,Sen Na,Shengnan Zhang,Siyang Mao,Sui Huang,Tianke Zhang,Tingting Gao,Wei Chen,Wei Yuan,Xiangyu Wu,Xiao Hu,Xingyu Lu,Yi-Fan Zhang,Yiping Yang,Yulong Chen,Zeyi Lu,Zhenhua Wu,Zhixin Ling,Zhuoran Yang,Ziming Li,Di Xu,Haixuan Gao,Hang Li,Jing Wang,Lejian Ren,Qigen Hu,Qianqian Wang,Shiyao Wang,Xinchen Luo,Yan Li,Yuhang Hu,Zixing Zhang
Main category: cs.CV
TL;DR: Keye-VL-1.5是一个针对视频理解的多模态大语言模型,通过慢-快视频编码策略、渐进式预训练和综合后训练流程,显著提升了视频理解能力。
- Motivation: 现有模型在处理视频内容时面临空间分辨率和时间覆盖之间的权衡问题,视频理解由于视频的动态性和信息密集性而具有挑战性。
- Method: 1) 慢-快视频编码策略:基于帧间相似性动态分配计算资源;2) 四阶段渐进预训练:将上下文长度从8K扩展到128K tokens;3) 综合后训练流程:包括思维链数据构建、GSPO强化学习和对齐训练。
- Result: 在公共基准测试和严格的人工评估中,Keye-VL-1.5相比现有模型有显著改进,在视频理解任务中表现优异,同时在通用多模态基准上保持竞争力。
- Conclusion: Keye-VL-1.5通过创新的编码策略、渐进式训练方法和综合后处理流程,有效解决了视频理解的挑战,为多模态视频理解提供了新的解决方案。
[145] ViSTA-SLAM: Visual SLAM with Symmetric Two-view Association
Ganlin Zhang,Shenhan Qian,Xi Wang,Daniel Cremers
Main category: cs.CV
TL;DR: ViSTA-SLAM是一个实时单目视觉SLAM系统,无需相机内参,使用轻量级对称双视图关联模型作为前端,后端采用特殊设计的Sim(3)位姿图,在相机跟踪和3D重建质量方面优于现有方法。
- Motivation: 开发一个无需相机内参的通用单目视觉SLAM系统,使其能够适用于各种不同的相机设置,同时保持轻量化和高性能。
- Method: 前端使用轻量级对称双视图关联(STA)模型,仅从两张RGB图像同时估计相对相机位姿和回归局部点云图;后端构建专门的Sim(3)位姿图,包含闭环检测来处理累积漂移。
- Result: 前端模型大小仅为同类最先进方法的35%,显著降低了模型复杂度,同时提高了管道中使用的双视图约束质量。在相机跟踪和密集3D重建质量方面均优于当前方法。
- Conclusion: ViSTA-SLAM系统通过创新的轻量级前端设计和专门的后端位姿图优化,实现了无需相机内参的高性能实时单目视觉SLAM,具有广泛的适用性和优越的性能表现。
[146] O-DisCo-Edit: Object Distortion Control for Unified Realistic Video Editing
Yuqing Chen,Junjie Wang,Lin Liu,Ruihang Chu,Xiaopeng Zhang,Qi Tian,Yujiu Yang
Main category: cs.CV
TL;DR: O-DisCo-Edit是一个统一的视频编辑框架,通过创新的对象失真控制信号和复制形式保护模块,实现了高效、高保真度的多样化视频编辑任务。
- Motivation: 当前扩散模型在视频编辑中面临挑战,需要为不同的编辑任务设计不同的控制信号,这增加了模型设计的复杂性并需要大量训练资源。
- Method: 提出O-DisCo-Edit框架,包含基于随机和自适应噪声的对象失真控制信号,以及用于保护非编辑区域的"复制形式"保护模块。
- Result: 广泛的实验和全面的人工评估表明,O-DisCo-Edit在各种视频编辑任务中超越了专业化和多任务的最先进方法。
- Conclusion: 该框架提供了一个统一的解决方案,能够灵活封装多种编辑线索,实现高效、高质量的视频编辑。
[147] TransForSeg: A Multitask Stereo ViT for Joint Stereo Segmentation and 3D Force Estimation in Catheterization
Pedram Fekri,Mehrdad Zadeh,Javad Dargahi
Main category: cs.CV
TL;DR: 提出了一种新颖的编码器-解码器视觉Transformer模型,用于同时处理两个视角的X射线图像,实现导管分割和3D力估计,在合成X射线图像上优于现有最先进方法。
- Motivation: 现有的多任务深度学习模型通过端到端架构为导管插入手术提供触觉和视觉感知数据,但需要逐步扩展感受野来捕获两个视角X射线图像之间的依赖关系。
- Method: 使用视觉Transformer处理两个输入X射线图像作为独立序列,通过编码器-解码器架构捕获长距离依赖关系,使用共享分割头进行导管分割,回归头利用解码器融合信息进行3D力估计。
- Result: 在具有不同噪声水平的合成X射线图像上进行了广泛实验,与最先进的纯分割模型、基于视觉的导管力估计方法以及多任务方法相比,在导管分割和力估计方面都达到了新的最先进水平。
- Conclusion: 提出的立体视觉Transformer模型能够同时从两个角度分割导管并估计其尖端产生的3D力,为导管手术提供了更准确的感知能力。
[148] Improving Large Vision and Language Models by Learning from a Panel of Peers
Jefferson Hernandez,Jing Shi,Simon Jenni,Vicente Ordonez,Kushal Kafle
Main category: cs.CV
TL;DR: 提出Panel-of-Peers学习框架,通过多模型协作评估和迭代自改进,无需大量人工标注数据即可提升LVLM性能
- Motivation: 传统对齐方法依赖昂贵的人工偏好数据,机器生成数据质量有限,自监督数据容易产生幻觉,需要更有效的对齐方案
- Method: 受人类协作学习启发,构建LVLM专家小组,通过模拟同行评审系统进行迭代自改进:生成、评估、精炼输出
- Result: 在15个基准测试中平均得分从48%提升至57%,显著改善模型性能
- Conclusion: Panel-of-Peers框架可作为自监督对齐的可扩展替代方案,有效提升模型性能而无需大量人工标注数据
[149] Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling
Natalia Frumkin,Diana Marculescu
Main category: cs.CV
TL;DR: Q-Sched是一种新的后训练量化方法,通过调整扩散模型调度器而非模型权重,在4倍模型压缩下实现全精度准确率,结合JAQ损失函数优化量化感知预处理系数。
- Motivation: 现有文本到图像扩散模型计算成本高,少步扩散模型仍依赖大型未压缩主干网络,现有后训练量化方法需要全精度校准,限制了在资源受限设备上的应用。
- Method: 提出Q-Sched范式,修改扩散模型调度器而非模型权重;设计JAQ损失函数,结合文本-图像兼容性和图像质量指标进行细粒度优化,无需全精度推理校准。
- Result: 相比FP16 4步潜在一致性模型提升15.5% FID,相比FP16 8步分阶段一致性模型提升16.6% FID;大规模用户研究(80,000+标注)证实了在FLUX.1和SDXL-Turbo上的有效性。
- Conclusion: 量化与少步蒸馏相结合可实现高保真生成,Q-Sched为扩散模型的高效部署提供了新思路,在保持生成质量的同时显著减少计算资源需求。
[150] OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning
Yanqing Liu,Xianhang Li,Letian Zhang,Zirui Wang,Zeyu Zheng,Yuyin Zhou,Cihang Xie
Main category: cs.CV
TL;DR: OpenVision 2简化了原版架构,移除了文本编码器和对比损失,仅保留生成式标题损失,在保持性能的同时显著提升了训练效率和可扩展性。
- Motivation: 提升OpenVision的训练效率,减少计算资源和内存消耗,同时保持多模态性能。
- Method: 移除文本编码器和对比损失,仅使用生成式标题损失进行纯生成式训练,简化架构设计。
- Result: 训练时间减少1.5倍(83h→57h),内存使用减少1.8倍(24.5GB→13.8GB),批次大小从2k增至8k,参数量可扩展至10亿以上,性能在多模态基准测试中保持竞争力。
- Conclusion: 轻量级的纯生成式训练范式对于未来多模态基础模型中视觉编码器的发展具有重要价值。
[151] Reinforced Visual Perception with Tools
Zetong Zhou,Dongping Chen,Zixian Ma,Zhihan Hu,Mingyang Fu,Sinan Wang,Yao Wan,Zhou Zhao,Ranjay Krishna
Main category: cs.CV
TL;DR: 提出了ReVPT方法,通过强化学习增强多模态LLM的视觉工具推理能力,在多个视觉推理基准上实现SOTA性能
- Motivation: 现有的视觉推理方法存在数据生成成本高、依赖精细数据过滤、泛化能力差等局限性,需要新的方法来提升多模态LLM的视觉工具使用能力
- Method: 基于GRPO的新型强化学习算法,训练模型使用四种视觉工具进行推理
- Result: 在SAT、CV-Bench、BLINK和MMStar等基准上取得最优性能,ReVPT-3B和ReVPT-7B在CV-Bench上分别超越指令模型9.03%和9.44%
- Conclusion: 通过强化学习有效提升了多模态LLM的视觉工具使用能力,为基于RL的视觉工具使用提供了新的见解
[152] GaussianGAN: Real-Time Photorealistic controllable Human Avatars
Mohamed Ilyes Lakhal,Richard Bowden
Main category: cs.CV
TL;DR: GaussianGAN是一种实时渲染的动画化人体化身方法,通过高斯泼溅技术和语义分割模块解决现有方法模糊问题,在ZJU Mocap和Thuman4数据集上达到最先进的32.94db和33.39db像素保真度。
- Motivation: 当前神经渲染方法虽然快速且真实,但存在明显的模糊问题,需要开发更清晰、更逼真的人体化身渲染技术。
- Method: 提出高斯泼溅致密化策略从骨骼肢体圆柱结构表面构建高斯点;使用新颖视角分割模块渲染精确语义分割;UNet生成器结合高斯泼溅特征和分割图生成逼真数字化身。
- Result: 实时渲染速度达79 FPS,在视觉感知和质量上超越先前方法,在ZJU Mocap数据集上达到32.94db像素保真度,在Thuman4数据集上达到33.39db。
- Conclusion: GaussianGAN成功解决了现有方法的模糊问题,实现了实时、逼真的人体化身渲染,在像素保真度方面达到了最先进的性能表现。
[153] Examination of PCA Utilisation for Multilabel Classifier of Multispectral Images
Filip Karpowicz,Wiktor Kępiński,Bartosz Staszyński,Grzegorz Sarwas
Main category: cs.CV
TL;DR: 本研究探讨了PCA在ResNet50和DINOv2多标签多光谱图像分类中的效用,发现PCA效果取决于深度学习架构和训练策略。
- Motivation: 多光谱图像数据维度高且处理困难,多标签分类(每个图像可能属于多个类别)进一步增加了特征提取的复杂性。
- Method: 研究流程包括一个可选的PCA步骤,将数据降维到三维,然后输入到三层分类器中,使用ResNet50和DINOv2架构进行多标签分类。
- Result: 研究结果表明,PCA在多标签多光谱图像分类中的有效性强烈依赖于所选的深度学习架构和训练策略。
- Conclusion: 这为未来研究自监督预训练和替代降维方法开辟了新的途径。
[154] Deep Learning-Based Rock Particulate Classification Using Attention-Enhanced ConvNeXt
Anthony Amankwah,Chris Aldrich
Main category: cs.CV
TL;DR: 基于ConvNeXt架构的CNSCA深度学习模型,通过结合自注意力和通道注意力机制,提升了岩石粒度分类的准确性和稳健性
- Motivation: 岩石粒度准确分类对地质工程、矿业和资源管理至关重要,直接影响操作效率和安全性,需要更准确的分类方法
- Method: 在ConvNeXt基础上构建CNSCA模型,结合自注意力机制捕捉长程度空间依赖关系,通道注意力机制强调信息丰富的特征通道,形成混合设计
- Result: 在岩石粒度分类数据集上评估,与三个强基线模型进行对比,结果显示注意力机制显著提升了模型在细粒度分类任务中的能力
- Conclusion: 注意力机制的引入显著提升了深度学习模型在岩石等自然纹理细粒度分类任务中的表现,混合设计能够同时捕捉局部细节和全局上下文关系
[155] Clinical Metadata Guided Limited-Angle CT Image Reconstruction
Yu Shi,Shuyi Fan,Changsheng Fang,Shuo Han,Haodong Li,Li Zhou,Bahareh Morovati,Dayang Wang,Hengyong Yu
Main category: cs.CV
TL;DR: 提出了一种基于临床元数据的两阶段扩散框架,用于解决有限角度CT重建中的严重伪影问题,通过元数据引导生成解剖先验并整合物理约束,显著提升了重建质量。
- Motivation: 有限角度CT虽然能提高时间分辨率和降低辐射剂量,但由于投影截断导致严重伪影,需要解决其病态重建问题。临床元数据(采集参数、患者人口统计和诊断印象)可能提供有价值的先验信息来改善重建质量。
- Method: 两阶段扩散框架:第一阶段使用基于transformer的扩散模型,仅基于元数据从噪声生成粗略解剖先验;第二阶段整合粗略先验和元数据生成高保真结果。两个阶段都使用ADMM模块在每一步采样时强制执行基于物理的数据一致性。
- Result: 在合成和真实心脏CT数据集上的实验表明,整合元数据显著提高了重建保真度,特别是在严重角度截断情况下。相比无元数据的基线方法,在SSIM、PSNR、nMI和PCC等指标上取得了优越性能。消融研究证实不同类型元数据提供互补优势。
- Conclusion: 临床元数据在提高重建质量和效率方面发挥双重作用,支持将其整合到未来的元数据引导医学成像框架中。该方法为有限角度CT重建提供了有效的解决方案。
[156] TransMatch: A Transfer-Learning Framework for Defect Detection in Laser Powder Bed Fusion Additive Manufacturing
Mohsen Asghari Ilani,Yaser Mike Banad
Main category: cs.CV
TL;DR: TransMatch是一个结合迁移学习和半监督少样本学习的新框架,用于解决增材制造缺陷检测中标注数据稀缺的问题,在表面缺陷数据集上达到98.91%的准确率。
- Motivation: 激光粉末床熔融(LPBF)中的表面缺陷对增材制造部件的结构完整性构成重大风险,而现有的标注缺陷数据稀缺,需要新的方法来有效利用有限标注数据和大量未标注数据。
- Method: 提出TransMatch框架,融合迁移学习和半监督少样本学习,能够有效利用标注和未标注的新类别图像,克服了先前元学习方法在增材制造缺陷检测中的局限性。
- Result: 在包含8,284张图像的表面缺陷数据集上,TransMatch实现了98.91%的准确率,损失极小,同时在多个缺陷类别上获得了高精度、召回率和F1分数,能够准确识别裂纹、针孔、孔洞和飞溅等多种缺陷。
- Conclusion: TransMatch代表了增材制造缺陷检测领域的重大进步,为质量保证和可靠性提供了实用且可扩展的解决方案,具有广泛的工业应用前景。
[157] Mixture of Balanced Information Bottlenecks for Long-Tailed Visual Recognition
Yifan Lan,Xin Cai,Jun Cheng,Shan Tan
Main category: cs.CV
TL;DR: 通过平衡信息瓶颈(BIB)和多重平衡信息瓶颈(MBIB)方法,解决深度神经网络在长尾数据分布上的识别挑战,达到了独创性能水平
- Motivation: 实际视觉识别中的数据通常呈现长尾分布,给DNN训练和部署带来挑战,需要有效的表征学习方法
- Method: 给信息瓶颈网络集成损失函数重平衡和自我蓬涩技术,构建BIB方法;提出MBIB结构,多个BIB负责结合不同网络层的知识
- Result: 在CIFAR100-LT、ImageNet-LT和iNaturalist 2018等长尾数据集上达到了独创性能水平
- Conclusion: BIB和MBIB方法能够有效学习保留标签相关信息的充分表征,为长尾视觉识别提供了高效的解决方案
[158] PractiLight: Practical Light Control Using Foundational Diffusion Models
Yotam Erel,Rishabh Dabral,Vladislav Golyanik,Amit H. Bermano,Christian Theobalt
Main category: cs.CV
TL;DR: PractiLight是一个实用的图像光照控制方法,通过轻量级LoRA回归器预测辐照度图,并利用分类器引导将所需光照融入生成过程,实现了跨域的高质量光照控制。
- Motivation: 现有方法需要大量领域特定数据集训练,限制了基础模型的泛化能力。本文旨在利用生成模型的基础知识,实现实用且通用的图像重光照。
- Method: 基于光照关系与自注意力层token交互相似的洞察,训练轻量级LoRA回归器生成辐照度图,然后通过分类器引导将目标光照融入图像生成过程。
- Result: 在多种场景类型上实现了最先进的性能,在质量和控制方面表现出色,同时具有参数和数据效率优势。
- Conclusion: 通过挖掘基础模型的知识,图像光照控制是可行的,该方法实现了实用且通用的重光照效果。
[159] Latent Gene Diffusion for Spatial Transcriptomics Completion
Paula Cárdenas,Leonardo Manrique,Daniela Vega,Daniela Ruiz,Pablo Arbeláez
Main category: cs.CV
TL;DR: LGDiST是首个无参考的潜在基因扩散模型,用于处理空间转录组学数据丢失问题,在26个数据集上平均MSE降低18%,并能提升其他基因表达预测方法性能达10%。
- Motivation: 当前基于计算机视觉的空间转录组学分析方法受数据丢失问题限制,且依赖单细胞RNA测序参考数据,存在对齐质量依赖、批次效应和继承性数据丢失等缺陷。
- Method: 提出LGDiST模型,使用之前被认为无信息的上下文基因构建丰富的生物学意义基因潜在空间,采用扩散模型架构,包含上下文基因、ST潜在空间和邻居条件等关键组件。
- Result: 在26个数据集上平均MSE比之前最优方法降低18%,完成后的ST数据使六种先进方法的基因表达预测性能提升达10%(MSE指标)。消融实验显示移除任何关键组件都会导致性能显著下降。
- Conclusion: LGDiST通过无参考的扩散模型方法有效解决了ST数据丢失问题,其完整架构相比孤立组件能实现显著更好的性能,为空间转录组学分析提供了更可靠的解决方案。
[160] Enabling Federated Object Detection for Connected Autonomous Vehicles: A Deployment-Oriented Evaluation
Komala Subramanyam Cherukuri,Kewei Sha,Zhenhua Huang
Main category: cs.CV
TL;DR: 本文首次对CAV中基于联邦学习的物体检测进行了整体部署导向评估,分析了检测精度、计算成本和资源使用之间的权衡,为CAV中稳健的FL部署铺平了道路。
- Motivation: 集中式物体检测训练在可扩展性、适应性和隐私保护方面存在不足,而联邦学习虽然能够实现分布式CAV车队的协作训练,但在实际部署中面临计算需求高、操作条件多样等挑战。
- Method: 使用最先进的检测器(YOLOv5、YOLOv8、YOLOv11和Deformable DETR),在KITTI、BDD100K和nuScenes数据集上进行评估,分析不同分辨率、批量大小、天气和光照条件以及动态客户端参与下的性能表现。
- Result: 研究提供了模型性能、系统级资源分析和环境鲁棒性的综合评估,揭示了检测精度、计算成本和资源使用之间的权衡关系。
- Conclusion: 这项工作为CAV中稳健的联邦学习部署提供了重要指导,通过全面评估解决了数据异构性、硬件约束和环境变化等关键挑战。
[161] Doctoral Thesis: Geometric Deep Learning For Camera Pose Prediction, Registration, Depth Estimation, and 3D Reconstruction
Xueyang Kang
Main category: cs.CV
TL;DR: 这篇论文提出了一种结合传统几何技术与深度学习的方法,以解决3D视觉中的高维数据和标签数据稀缺挑战,通过集成深度信息、表面法向量等几何先验知识来提高模型的准确性和稳健性。
- Motivation: 直接3D深度学习模型训练面临高维数据挑战和标签数据稀缺问题,传统的SfM和SLAM技术在非结构化环境中表现局限性,需要发展能够生成详细几何表示的方法来支持渲染和语义分析等下游任务。
- Method: 研究发展了专门为关键任务(如相机位始估计、点云注册、深度预测、3D重建)而设计的几何深度学习方法,通过将深度信息、表面法向量、等变性等几何先验知识或约束集成到深度学习模型中。
- Result: 这些方法在真实世界应用中表现出有效性,特别是在数字文化遗产保护和沉涉式VR/AR环境中,显著提升了几何表示的准确性和稳健性。
- Conclusion: 通过结合传统几何技术与深度学习能力,这项研究为3D视觉领域的核心挑战提供了解决方案,能够生成更加稳健、几何感知能力更强的深度学习模型,促进了数字文化遗产保护和虚拟现实应用的发展。
[162] HydroVision: Predicting Optically Active Parameters in Surface Water Using Computer Vision
Shubham Laxmikant Deshmukh,Matthew Wilchek,Feras A. Batarseh
Main category: cs.CV
TL;DR: HydroVision是一个基于深度学习的场景分类框架,使用标准RGB图像估计多种水质参数,为水质监测提供了一种可扩展、成本效益高的替代方案。
- Motivation: 计算机视觉和深度学习的进步使得非接触式水质评估成为可能,这对于灾害响应和公共卫生保护至关重要。传统多光谱和超光谱遥感方法成本高昂且难以大规模应用。
- Method: 使用超过50万张季节性变化的USGS图像训练模型,评估了四种CNN架构(VGG-16、ResNet50、MobileNetV2、DenseNet121)和一个Vision Transformer,通过迁移学习确定最佳性能架构。
- Result: DenseNet121在验证集上表现最佳,预测CDOM的R2分数达到0.89,证明了该框架在真实世界水质监测中的潜力。
- Conclusion: HydroVision展示了使用广泛可用的RGB图像进行水质监测的可行性,虽然当前模型在光照良好条件下优化,未来工作将专注于提高在低光和遮挡场景下的鲁棒性。
[163] Automated Wildfire Damage Assessment from Multi view Ground level Imagery Via Vision Language Models
Miguel Esparza,Archit Gupta,Ali Mostafavi,Kai Yin,Yiming Xiao
Main category: cs.CV
TL;DR: 本文提出了一种无需标签数据的零射击框架,利用预训练视觉语言模型进行野火负青损失分类,通过多视角分析显著提高了准确性。
- Motivation: 野火强度和频率不断升级,需要创新的计算方法进行快速准确的费产损失评估。传统方法耗时,而现代计算机视觉方法通常需要大量标签数据,影响灾后部署效率。
- Method: 研究提出了两种零射击框架:单纯VLM流水线(A)和VLM+LLM流水线(B),基于特定野火损失指标的结构化提示进行损失分类。重点证明了多视角分析在识别细微损失方面的效果。
- Result: 单视角评估F1分数仅0.225-0.511,而多视角分析显著提高到了0.857-0.947。McNemar测试确认多视角分析带来统计上显著的改善,但A和B流水线间的改善不具统计显著性。
- Conclusion: 该研究提供了一种即时可部署、灵活且可解释的工作流程,避免了监督训练的需求,显著加速了灾后响应人员的分流和优先级判断。未来可以进一步探索LLM提示在损失评估中的潜力。
[164] DroneSR: Rethinking Few-shot Thermal Image Super-Resolution from Drone-based Perspective
Zhipeng Weng,Xiaopeng Liu,Ce Liu,Xingyuan Guo,Yukai Shi,Liang Lin
Main category: cs.CV
TL;DR: 通过高斯量化表征学习方法减轻大规模模型在无人机红外图像超分辨任务中的过拟合问题
- Motivation: 大规模模型在少样本无人机红外图像训练数据下容易出现严重过拟合,影响模型的沿块性能
- Method: 提出高斯量化表征学习方法,并配合有效的监控机制跟踪训练过程中的过拟合迹象
- Result: 在构建的无人机红外图像数据集上进行实验,结果显示该方法在减轻过拟合方面显著优于现有超分辨率方法
- Conclusion: 高斯量化表征学习方法能够有效减轻大规模模型的过拟合问题,同时保持模型复杂度,在复杂条件下显著提升模型沿块性能
[165] RSCC: A Large-Scale Remote Sensing Change Caption Dataset for Disaster Events
Zhenyuan Chen,Chenxi Wang,Ningyu Zhang,Feng Zhang
Main category: cs.CV
TL;DR: 提出了RSCC数据集,包含62,315对灾前灾后遥感图像对和详细文本标注,用于训练和评估视觉语言模型在灾害监测中的应用
- Motivation: 现有遥感数据集缺乏时序图像对和详细文本标注,无法捕捉灾害动态影响,需要构建能够支持双时相理解的基准数据集
- Method: 构建大规模RSCC数据集,涵盖地震、洪水、野火等多种灾害类型,提供人类级别的变化描述标注
- Result: RSCC数据集能够支持详细的灾害相关分析,为遥感领域的视觉语言应用提供更准确、可解释和可扩展的解决方案
- Conclusion: RSCC填补了遥感数据在时间和语义上的空白,为灾害感知的双时相理解提供了强有力的基准工具
[166] Towards Interpretable Geo-localization: a Concept-Aware Global Image-GPS Alignment Framework
Furong Jia,Lanxin Liu,Ce Hou,Fan Zhang,Xinyan Liu,Yu Liu
Main category: cs.CV
TL;DR: 提出首个可解释性地理定位框架,通过概念感知对齐模块将图像和位置嵌入投影到地理概念空间,提升定位精度和可解释性
- Motivation: 现有地理定位模型缺乏可解释性,传统概念解释方法与地理对齐目标不匹配,导致解释性和性能都不理想
- Method: 插入概念感知对齐模块,将图像和位置嵌入联合投影到共享地理概念库,最小化概念级损失,在概念特定子空间增强对齐
- Result: 在定位精度上超越GeoCLIP,在多种地理空间预测任务中提升性能,提供更丰富的语义洞察
- Conclusion: 首次将可解释性引入地理定位,概念瓶颈方法能同时提升模型性能和决策过程的可解释性
[167] A Diffusion-Based Framework for Configurable and Realistic Multi-Storage Trace Generation
Seohyun Kim,Junyoung Lee,Jongho Park,Jinhyung Koo,Sungjin Lee,Yeseong Kim
Main category: cs.CV
TL;DR: DiTTO是一个基于扩散模型的框架,用于生成高质量、可配置的多设备存储轨迹,具有高保真度和多样性,配置误差仅8%。
- Motivation: 现有的存储轨迹生成方法难以同时满足真实性、精确配置性和多样性需求,需要一种能够捕捉时间动态和设备间依赖关系的新方法。
- Method: 采用先进的扩散技术,通过用户定义的配置参数来合成连续轨迹,能够精确控制生成轨迹的特性和设备间关系。
- Result: 实验结果表明,DiTTO能够生成高保真度和多样性的轨迹,与指导配置的误差率仅为8%,表现出优异的性能。
- Conclusion: DiTTO框架成功解决了多设备存储轨迹生成的关键挑战,为存储系统测试和优化提供了有效的合成数据生成工具。
[168] Structure-aware Contrastive Learning for Diagram Understanding of Multimodal Models
Hiroshi Sasaki
Main category: cs.CV
TL;DR: 提出了一种针对图表图像理解的新训练范式,通过使用困难样本和专门设计的对比学习损失函数,显著提升了多模态模型在图表领域的表现。
- Motivation: 现有的多模态模型(如CLIP)在处理包含结构化符号信息的专业视觉领域(如图表)时存在局限性,需要针对性的训练策略来提升图表理解能力。
- Method: 使用困难样本进行对比学习,并设计了两种专门利用图表结构特性的损失函数,将这些目标整合到模型训练中。
- Result: 在流程图基准数据集上验证,相比标准CLIP和传统困难负样本CLIP学习范式,在图像-文本匹配和视觉问答任务上都取得了显著改进。
- Conclusion: 针对专业任务的定制化训练策略具有重要意义,该方法推动了视觉-语言整合领域中图表理解能力的进步。
[169] 2D Gaussian Splatting with Semantic Alignment for Image Inpainting
Hongyu Li,Chaofeng Chen,Xiaoming Li,Guangming Lu
Main category: cs.CV
TL;DR: 首个基于2D高斯泼溅的图像修复框架,通过连续渲染范式实现像素级一致性,结合DINO特征保证语义一致性,在标准基准测试中表现优异
- Motivation: 探索高斯泼溅技术在图像修复领域的未开发潜力,该任务需要局部像素合成连贯性和全局语义恢复一致性
- Method: 将不完整图像编码为2D高斯泼溅系数的连续场,通过可微分光栅化过程重建最终图像;引入分块光栅化策略提高效率;整合预训练DINO模型的全局特征来指导语义对齐
- Result: 在标准基准测试中实现了竞争性的定量指标和感知质量表现
- Conclusion: 为将高斯泼溅技术应用于2D图像处理开辟了新方向,证明了该方法在图像修复任务中的有效性
[170] Ensemble-Based Event Camera Place Recognition Under Varying Illumination
Therese Joseph,Tobias Fischer,Michael Milford
Main category: cs.CV
TL;DR: 这篇论文提出了一种基于集成学习的事件相机地点识别方法,通过结合多种事件到帧重建、VPR特征提取器和时间分辨率的序列匹配结果,在严重照明变化条件下实现了更高的回归准确度。
- Motivation: 虽然事件相机在视觉地点识别(VPR)方面具有潜力,但在严重照明变化条件下开发稳健的VPR框架仍然是一个开放的研究问题。传统的集成方法仅使用时间分辨率,需要更广泛的融合策略来提高稳健性。
- Method: 提出了一种集成基于的方法,结合多种事件到帧重建、VPR特征提取器和时间分辨率的序列匹配结果。还对标准序列匹配框架进行了修改,以提高更长序列长度下的性能。
- Result: 在两个长期驾驶数据集上评估(每次辆过8公里),保持了速度和停车时长的自然变化。在昼夜迁移条件下实现了Recall@1指标57%的相对改进。进行了关键设计选择的全面分析,包括分组策略、极性处理、重建方法和特征提取器。
- Conclusion: 该方法通过广泛的融合策略,在变化的照明条件下实现了显著提高的稳健性。识别了关键组件对稳健性能的重要性,并将释放代码库和基准框架以促进未来研究。
[171] MOSAIC: Multi-Subject Personalized Generation via Correspondence-Aware Alignment and Disentanglement
Dong She,Siming Fu,Mushui Liu,Qiaoqiao Jin,Hualiang Wang,Mu Liu,Jidong Jiang
Main category: cs.CV
TL;DR: MOSAIC是一个针对多主体个性化生成的表示中心框架,通过显式语义对应和正交特征解耦来解决身份混合和属性泄漏问题,在4+主体情况下仍能保持高保真度
- Motivation: 现有方法在多主体个性化生成中存在身份混合和属性泄漏问题,主要原因是缺乏对多个参考主体如何在共享表示空间中交互的充分建模
- Method: 提出SemAlign-MS数据集提供细粒度语义对应;使用语义对应注意力损失确保精确的点对点语义对齐;开发多参考解耦损失将不同主体推入正交注意力子空间
- Result: 在多个基准测试中达到最先进性能,在4+参考主体情况下仍能保持高保真度,而现有方法通常在超过3个主体时性能下降
- Conclusion: MOSAIC通过表示层面的精确语义对齐和正交特征解耦,为复杂多主体合成应用开辟了新可能性,解决了多主体生成中的关键挑战
[172] Discrete Noise Inversion for Next-scale Autoregressive Text-based Image Editing
Quan Dao,Xiaoxiao He,Ligong Han,Ngan Hoai Nguyen,Amin Heyrani Nobar,Faez Ahmed,Han Zhang,Viet Anh Nguyen,Dimitris Metaxas
Main category: cs.CV
TL;DR: VARIN是一种基于噪声反转的视觉自回归模型编辑技术,通过位置感知Argmax反演生成逆Gumbel噪声,实现精确的图像重建和文本引导的编辑。
- Motivation: 虽然条件生成已被广泛探索,但无需额外训练即可进行提示引导图像编辑的能力同样重要,因为它支持众多实际应用。
- Method: 提出VARIN方法,利用新颖的位置感知Argmax反演(LAI)伪逆函数生成逆Gumbel噪声,实现源图像精确重建和文本对齐的可控编辑。
- Result: 大量实验表明VARIN能有效根据指定提示修改源图像,同时显著保留原始背景和结构细节。
- Conclusion: VARIN被验证为一种实用的编辑方法,为视觉自回归模型提供了有效的文本到图像编辑能力。
[173] Draw-In-Mind: Learning Precise Image Editing via Chain-of-Thought Imagination
Ziyun Zeng,Junhao Zhang,Wei Li,Mike Zheng Shou
Main category: cs.CV
TL;DR: Draw-In-Mind (DIM) 通过重新分配多模态模型中的设计责任到理解模块,解决了图像编辑中责任不平衡的问题,使用14M图像-文本对和233K思维链数据训练,在4.6B参数规模下实现了SOTA性能。
- Motivation: 当前统一多模态模型在文本到图像生成方面表现良好,但在精确图像编辑方面存在困难,主要原因是理解模块仅作为翻译器,而生成模块需要同时承担设计师和画家的角色,这种责任分配不平衡。
- Method: 提出DIM数据集,包含DIM-T2I(14M长上下文图像-文本对)和DIM-Edit(233K GPT-4o生成的思维链想象);通过两层MLP连接冻结的Qwen2.5-VL-3B和可训练的SANA1.5-1.6B,在DIM数据集上训练得到DIM-4.6B模型。
- Result: DIM-4.6B-Edit在ImgEdit和GEdit-Bench基准测试中达到SOTA或竞争性性能,超越了UniWorld-V1和Step1X-Edit等更大模型。
- Conclusion: 将设计责任明确分配给理解模块能显著提升图像编辑性能,证明了责任重新分配的有效性,即使在小参数规模下也能实现优异性能。
[174] Explaining What Machines See: XAI Strategies in Deep Object Detection Models
FatemehSadat Seyedmomeni,Mohammad Ali Keyvanrad
Main category: cs.CV
TL;DR: 本文对目标检测模型的可解释性方法进行了全面综述,系统分类了基于扰动、梯度、反向传播和图的方法,分析了在主流检测架构上的应用,并探讨了数据集、评估指标和当前挑战。
- Motivation: 深度学习在目标检测中取得了巨大成功,但其黑盒特性在自动驾驶、医疗影像等关键领域带来了可解释性挑战,需要使模型决策更加透明和可信。
- Method: 通过系统文献综述方法,将XAI技术分类为扰动基、梯度基、反向传播基和图基方法,详细分析D-RISE、BODEM、D-CLOSE、FSOD等代表性方法,并研究其在YOLO、SSD、Faster R-CNN、EfficientDet等架构上的适用性。
- Result: 统计显示2022年至2025年中,可解释目标检测领域的发表趋势加速增长,表明该领域重要性不断提升。研究提供了结构化分类法和现有方法的批判性评估。
- Conclusion: 本综述为研究者和从业者选择合适的目标检测可解释性技术提供了指导,旨在促进更可解释AI系统的发展,解决模型可解释性的主要挑战。
[175] Palette Aligned Image Diffusion
Elad Aharoni,Noy Porat,Dani Lischinski,Ariel Shamir
Main category: cs.CV
TL;DR: Palette-Adapter是一种新颖的方法,通过将调色板解释为稀疏直方图并引入熵和距离控制参数,让用户能够灵活控制文本到图像扩散模型对指定调色板的遵循程度。
- Motivation: 调色板是创意工作流程中广泛使用的直观工具,但在用于图像生成时存在显著的模糊性和不稳定性,需要一种能够稳定控制调色板遵循程度的方法。
- Method: 将调色板解释为稀疏直方图,引入直方图熵和调色板到直方图距离两个标量控制参数,使用负直方图机制抑制不需要的色调,并在精心策划的数据集上进行训练以确保颜色空间的广泛泛化。
- Result: 该方法能够在广泛的调色板和提示下实现稳定、语义连贯的图像生成,在定性、定量评估和用户研究中一致优于现有方法,在实现强调色板遵循和高图像质量方面表现优异。
- Conclusion: Palette-Adapter通过创新的直方图解释和控制参数机制,有效解决了调色板条件图像生成的模糊性和不稳定性问题,为创意工作流程提供了强大而灵活的工具。
[176] Vision-Based Embedded System for Noncontact Monitoring of Preterm Infant Behavior in Low-Resource Care Settings
Stanley Mugisha,Rashid Kisitu,Francis Komakech,Excellence Favor
Main category: cs.CV
TL;DR: 这篇论文提出了一种基于边缘计算的视觉监测框架,使用量化的MobileNet模型在Raspberry Pi上实现新生儿行为状态的实时检测,以解决资源稀缺地区早产儿监护的挑战。
- Motivation: 早产是新生儿死亡的主要原因,特别在资源稀缺地区。传统的手工监测或侵入式传感器存在错误率高、不实用和可能造成皮肤损伤等问题。
- Method: 设计了一种非侵入式的视觉监测系统,采用量化的MobileNet模型部署在Raspberry Pi上,通过模型量化减少内存占用,优化视视觉处理流程,并集成安全的IoT通信用于临床报警。
- Result: 在公开新生儿图像数据集上达到了状态自动检测的最高准确率(睡眠检测91.8%,哭哭/正常分类97.7%),同时保持了适合边缘部署的计算效率。模型量化减少了形状大小68%。
- Conclusion: 轻量级优化模型如MobileNet是建立可扩展、低成本、临床可行的NICU监测系统的最可行基础,为改善资源稀缺环境下的早产儿护理推广了道路。
[177] Unsupervised Training of Vision Transformers with Synthetic Negatives
Nikolaos Giakoumoglou,Andreas Floros,Kleanthis Marios Papadopoulos,Tania Stathaki
Main category: cs.CV
TL;DR: 通过集成合成确难负样本来改善视觉Transformer的自盛监督学习性能
- Motivation: 解决确难负样本在视觉Transformer自盛监督学习中没有充分利用的问题
- Method: 在DeiT-S和循环网络(Swin-T)中集成合成确难负样本
- Result: 显著提升了学习表征的辨别能力,两种网络结构都获得了性能改善
- Conclusion: 简单有效的确难负样本集成技术可以显著提升视觉Transformer的表征学习效果
[178] See No Evil: Adversarial Attacks Against Linguistic-Visual Association in Referring Multi-Object Tracking Systems
Halima Bouzidi,Haoyu Liu,Mohammad Al Faruque
Main category: cs.CV
TL;DR: 本文提出了VEIL对抗攻击框架,揭示了Referring Multi-Object Tracking (RMOT)系统在语言-视觉理解和时空推理方面的安全漏洞,通过精心设计的数字和物理扰动可以破坏跟踪逻辑的可靠性。
- Motivation: 尽管RMOT系统在语言-视觉理解方面取得了进展,但其可靠性和鲁棒性研究不足。本文从设计逻辑角度分析RMOT系统的安全影响,识别对抗性漏洞。
- Method: 提出了VEIL对抗框架,针对RMOT系统的语言-视觉引用和目标匹配组件进行攻击,特别针对采用FIFO内存的先进模型,通过持续攻击时空推理在历史缓冲区中引入持久错误。
- Result: 在Refer-KITTI数据集上的综合评估验证了VEIL的有效性,精心设计的扰动可以破坏跟踪逻辑可靠性,导致轨迹ID切换和终止。
- Conclusion: 研究揭示了RMOT系统存在严重的安全漏洞,强调了在关键大规模应用中需要安全感知的RMOT设计的紧迫性。
[179] Fake & Square: Training Self-Supervised Vision Transformers with Synthetic Data and Synthetic Hard Negatives
Nikolaos Giakoumoglou,Andreas Floros,Kleanthis Marios Papadopoulos,Tania Stathaki
Main category: cs.CV
TL;DR: 本文提出Syn2Co框架,探索在自监督学习中利用合成数据增强样本多样性和生成合成困难负样本的方法,以降低对大量真实数据和精心策划负样本的依赖。
- Motivation: 现有对比自监督学习虽然成功,但依赖大量真实数据和精心策划的困难负样本。本文旨在探索替代方案,通过"假装做到"的理念研究合成数据在视觉表示学习中的潜力。
- Method: 提出Syn2Co框架,结合两种"假装"方法:1)利用生成模型产生合成数据增强样本多样性;2)在表示空间中生成合成困难负样本创造多样化挑战性对比。在DeiT-S和Swin-T架构上进行评估。
- Result: 研究结果突出了合成数据在自监督学习中的潜力和局限性,为未来研究方向提供了见解。
- Conclusion: 合成增强训练可以产生更鲁棒和可迁移的视觉表示,但合成数据的使用仍存在一定局限性,需要进一步研究。
[180] ContextFusion and Bootstrap: An Effective Approach to Improve Slot Attention-Based Object-Centric Learning
Pinzhuo Tian,Shengjie Yang,Hang Yu,Alex C. Kot
Main category: cs.CV
TL;DR: 提出ContextFusion阶段和Bootstrap Branch来解决slot attention方法缺乏高层语义信息和无法微调编码器的局限性,显著提升了现有模型的性能
- Motivation: 现有slot attention方法存在两个关键限制:1)缺乏高层语义信息,仅基于颜色和纹理等低层特征分配图像区域;2)无法微调编码器,限制了对象中心学习的灵活性
- Method: 提出ContextFusion阶段利用前景和背景的语义信息,引入辅助指示器提供额外上下文线索;Bootstrap Branch将特征适应与原始重建阶段解耦,通过bootstrap策略训练特征自适应机制
- Result: 实验结果表明,该方法显著提升了不同SOTA slot attention模型在模拟和真实数据集上的性能
- Conclusion: 提出的ContextFusion和Bootstrap Branch能够无缝集成到现有slot attention模型中,有效解决了语义信息不足和编码器微调限制的问题
[181] A Data-Centric Approach to Pedestrian Attribute Recognition: Synthetic Augmentation via Prompt-driven Diffusion Models
Alejandro Alonso,Sawaiz A. Chaudhry,Juan C. SanMiguel,Álvaro García-Martín,Pablo Ayuso-Albizu,Pablo Carballeira
Main category: cs.CV
TL;DR: 提出基于文本引导的数据增强方法,通过扩散模型生成合成行人图像来改进行人属性识别,特别针对训练数据中代表性不足的属性。
- Motivation: 传统行人属性识别方法受限于训练数据集,特别是某些属性代表性不足的问题,需要一种数据中心的解决方案来提升模型泛化能力。
- Method: 1) 定义协议识别弱识别属性;2) 基于提示词的扩散模型生成合成行人图像;3) 设计策略将合成样本融入训练数据,包括基于提示的标注规则和损失函数修改。
- Result: 在主流PAR数据集上验证,方法不仅提升了对代表性不足属性的识别,还改善了整体模型性能,增强了零样本泛化能力。
- Conclusion: 该方法提供了一种高效可扩展的解决方案,无需改变模型架构即可提升真实世界中行人属性的识别性能。
[182] SALAD -- Semantics-Aware Logical Anomaly Detection
Matic Fučka,Vitjan Zavrtanik,Danijel Skočaj
Main category: cs.CV
TL;DR: SALAD是一种语义感知的判别式逻辑异常检测方法,通过显式建模物体组合图分布来改善逻辑异常检测性能,在MVTec LOCO基准上达到96.1%的AUROC。
- Motivation: 现有表面异常检测方法擅长检测结构异常(如凹痕、划痕),但在逻辑异常(如不规则或缺失的物体组件)检测方面表现不佳。现有最佳方法依赖聚合预训练特征或手工描述符,丢弃了空间和语义信息。
- Method: 提出SALAD方法,包含新设计的组合分支来显式建模物体组合图分布,学习重要语义关系。同时引入无需手工标签或类别特定信息的组合图提取新流程。
- Result: 在标准逻辑异常检测基准MVTec LOCO上显著超越最先进方法,达到96.1%的图像级AUROC。
- Conclusion: 通过有效建模组合图分布,SALAD方法在逻辑异常检测方面取得了显著改进,证明了语义感知方法的重要性。
[183] NOOUGAT: Towards Unified Online and Offline Multi-Object Tracking
Benjamin Missaoui,Orcun Cetintas,Guillem Brasó,Tim Meinhardt,Laura Leal-Taixé
Main category: cs.CV
TL;DR: NOOUGAT是一个统一的多目标跟踪框架,通过图神经网络和自回归长时跟踪层处理任意时间跨度的跟踪任务,在在线和离线模式下均达到最先进性能
- Motivation: 解决传统在线和离线多目标跟踪方法的分裂问题,满足实际部署中灵活的时间需求。在线跟踪器难以处理长时遮挡,离线方法仍依赖启发式拼接
- Method: 采用统一的图神经网络框架处理非重叠子片段,通过新颖的自回归长时跟踪层进行融合。子片段大小控制延迟和时间上下文之间的权衡
- Result: 在DanceTrack上在线AssA提升+2.3,SportsMOT提升+9.2,MOT20提升+5.0,离线模式下获得更大增益
- Conclusion: NOOUGAT是首个能够处理任意时间跨度的跟踪器,统一了在线和离线跟踪范式,在多种场景下均表现出优异性能
[184] SegFormer Fine-Tuning with Dropout: Advancing Hair Artifact Removal in Skin Lesion Analysis
Asif Mohammed Saad,Umme Niraj Mahi
Main category: cs.CV
TL;DR: 提出了一种基于SegFormer的改进模型SegformerWithDropout,通过dropout正则化技术实现皮肤镜图像中毛发伪影的精确分割,在多个评估指标上表现出色。
- Motivation: 皮肤镜图像中的毛发伪影会遮挡关键诊断特征,严重影响皮肤病变分析的准确性,需要开发有效的毛发分割方法来提升预处理效果。
- Method: 使用微调的SegFormer模型,采用MiT-B2编码器(ImageNet预训练),在分割头中加入0.3概率的dropout正则化。使用500张带精细毛发标注的皮肤镜图像进行10折交叉验证训练,采用AdamW优化器和交叉熵损失函数。
- Result: 模型在交叉验证中表现优异:平均Dice系数约0.96,IoU值0.93,PSNR约34dB,SSIM 0.97,LPIPS仅0.06,显示出精确的毛发分割能力。
- Conclusion: 该方法能有效分割皮肤镜图像中的毛发伪影,为下游皮肤癌检测任务提供了高质量的预处理解决方案,具有重要的临床应用价值。
[185] Enhancing Zero-Shot Pedestrian Attribute Recognition with Synthetic Data Generation: A Comparative Study with Image-To-Image Diffusion Models
Pablo Ayuso-Albizu,Juan C. SanMiguel,Pablo Carballeira
Main category: cs.CV
TL;DR: 本文研究利用扩散模型生成合成行人图像来增强行人属性识别(PAR)性能,通过优化文本提示和图像属性等关键参数,在零样本数据集上实现了4.5%的性能提升
- Motivation: 行人属性识别在智能监控系统中具有重要应用,但大规模标注数据稀缺,特别是在遮挡、姿态变化和复杂环境等场景中。扩散模型在生成多样化合成图像方面展现出潜力,但针对PAR任务的扩散数据扩展研究仍不充分
- Method: 识别img2img扩散数据扩展的关键参数(文本提示、图像属性等),研究其对PAR图像生成质量的影响,并采用最佳扩展方法为零样本数据集生成合成训练图像
- Result: 实验结果表明提示对齐和图像属性是图像生成的关键因素,通过优化选择使PAR识别性能提升4.5%
- Conclusion: 扩散模型能够有效生成适用于PAR任务的合成行人图像,通过精心设计的参数优化可以显著提升模型在真实场景中的鲁棒性和适应性
[186] Omnidirectional Spatial Modeling from Correlated Panoramas
Xinshen Zhang,Tongxi Fu,Xu Zheng
Main category: cs.CV
TL;DR: 提出了CFpano基准数据集和基于GRPO优化的MLLM方法,用于跨帧全景图像视觉问答,在整体性能上提升5.37%
- Motivation: 解决全向场景理解中现有方法忽视跨帧相关全景图像的问题,填补该领域空白
- Method: 构建CFpano数据集(2700+图像,8000+问答对),提出基于Group Relative Policy Optimization (GRPO)和定制奖励函数的多模态大语言模型
- Result: 在多项选择和开放式VQA任务上均达到最先进性能,整体性能提升5.37%,验证了GRPO的有效性
- Conclusion: 建立了全景场景理解的新基准,为下游应用如具身AI、自动驾驶等提供重要支撑
[187] Understanding Space Is Rocket Science - Only Top Reasoning Models Can Solve Spatial Understanding Tasks
Nils Hoehing,Mayug Maniparambil,Ellen Rushe,Noel E. O'Connor,Anthony Ventresque
Main category: cs.CV
TL;DR: RocketScience是一个开源对比视觉语言模型基准测试,专门测试空间关系理解能力,包含全新的真实世界图像-文本对,主要涵盖相对空间理解和物体顺序。该基准对人类简单但对当前VLM模型困难,实验显示开源和商业VLM在空间关系理解方面存在显著不足,而推理模型表现意外优秀。
- Motivation: 当前视觉语言模型在空间关系理解方面存在明显缺陷,需要专门的基准测试来评估和改进这一能力。
- Method: 创建包含全新真实世界图像-文本对的基准数据集,涵盖相对空间关系和物体顺序,进行对比评估和消融分析,分离物体定位和空间推理的贡献。
- Result: 实验结果显示当前VLM模型在空间关系理解方面表现较差,而推理模型表现较好,性能瓶颈主要在于空间推理能力而非物体定位能力。
- Conclusion: RocketScience基准揭示了VLM在空间关系理解方面的局限性,为改进模型提供了重要基准,数据集以CC-BY-4.0许可证发布。
[188] ADVMEM: Adversarial Memory Initialization for Realistic Test-Time Adaptation via Tracklet-Based Benchmarking
Shyma Alhuwaider,Motasem Alfarra,Juan C. Perez,Merey Ramazanova,Bernard Ghanem
Main category: cs.CV
TL;DR: 提出了一个基于轨迹的新型数据集ITD,用于测试时适应方法的基准测试,该数据集模拟真实世界中的时间依赖性挑战,并提出了对抗性内存初始化策略来提升性能。
- Motivation: 当前TTA基准测试主要关注分布偏移和i.i.d.假设违反,但缺乏对真实场景中时间依赖性的模拟,如视频流中连续帧显示相同对象的情况。
- Method: 从目标跟踪数据集的边界框收集轨迹序列构建ITD数据集,并提出对抗性内存初始化策略来改进基于内存的TTA方法。
- Result: ITD数据集能够有效评估TTA方法在时间依赖性挑战下的表现,提出的对抗性内存初始化策略显著提升了多种方法在挑战性基准上的性能。
- Conclusion: ITD数据集填补了当前TTA基准测试在时间依赖性方面的空白,提出的对抗性初始化策略为处理真实世界中的时序挑战提供了有效解决方案。
[189] Palmistry-Informed Feature Extraction and Analysis using Machine Learning
Shweta Patil
Main category: cs.CV
TL;DR: 使用机器学习技术自动分析手掌特征,通过计算机视觉提取掌纹、纹理和形状等关键特征,建立数据驱动的定量分析框架
- Motivation: 超越传统主观解释,提供数据驱动的定量方法来研究手掌形态与外部验证特征或条件之间的相关性
- Method: 构建计算机视觉流水线,从手掌图像中提取主要线条结构、纹理和形状指标,使用标注手掌图像数据集训练预测模型
- Result: 机器学习模型能够识别手掌数据中的复杂模式,证明了在数字人体测量和个性化用户分析中应用的可行性
- Conclusion: 该方法为计算分析与文化实践交叉研究开辟了新途径,具有在移动平台上部署的潜力
[190] A Multimodal Cross-View Model for Predicting Postoperative Neck Pain in Cervical Spondylosis Patients
Jingyang Shan,Qishuai Yu,Jiacen Liu,Shaolin Zhang,Wen Shen,Yanxiao Zhao,Tianyi Wang,Xiaolin Qin,Yiheng Yin
Main category: cs.CV
TL;DR: Error
- Motivation: Error
- Method: Error
- Result: Error
- Conclusion: Error
[191] DSGC-Net: A Dual-Stream Graph Convolutional Network for Crowd Counting via Feature Correlation Mining
Yihong Wu,Jinqiao Wei,Xionghui Zhao,Yidi Li,Shaoyi Du,Bin Ren,Nicu Sebe
Main category: cs.CV
TL;DR: DSGC-Net是一个基于特征相关性挖掘的双流图卷积网络,通过密度近似和表示近似两个分支处理人群计数中的密度分布差异和个体表示不一致问题,在多个数据集上达到了最先进性能。
- Motivation: 现有的人群计数模型在复杂人群场景中面临两个主要挑战:区域间显著的密度分布差异,以及由视角变化和身体姿态差异导致的个体表示不一致性,这些限制了模型的计数精度。
- Method: 提出DSGC-Net双流图卷积网络,包含密度近似(DA)分支和表示近似(RA)分支。DA分支构建密度驱动的语义图,RA分支构建表示驱动的语义图,分别应用图卷积网络建模潜在语义关系。
- Result: 在三个广泛使用的数据集上进行了大量实验,DSGC-Net优于当前最先进方法。在ShanghaiTech Part A和Part B数据集上分别达到了48.9和5.9的MAE。
- Conclusion: DSGC-Net通过双流图卷积网络有效解决了人群计数中的密度变化适应和表示一致性问题,显著提高了多视角多姿态场景下的计数精度。
[192] RS-OOD: A Vision-Language Augmented Framework for Out-of-Distribution Detection in Remote Sensing
Yingrui Ji,Jiansheng Chen,Jingbo Chen,Anzhi Yue,Chenhao Wang,Kai Li,Yao Zhu
Main category: cs.CV
TL;DR: RS-OOD是一个针对遥感图像的少样本OOD检测框架,通过空间特征增强、双提示对齐机制和置信度引导的自训练循环,显著提升了遥感场景中的异常检测性能。
- Motivation: 现有OOD检测方法主要针对自然图像,难以适应遥感图像的数据稀缺性、复杂多尺度场景结构和显著分布偏移等挑战。
- Method: 提出遥感特定的视觉语言建模框架,包括空间特征增强、双提示对齐机制(交叉验证场景上下文与细粒度语义)和置信度引导的自训练循环(动态挖掘伪标签扩展训练数据)。
- Result: 在多个遥感基准测试中一致优于现有方法,能够以最少标注数据实现高效适配。
- Conclusion: 空间-语义整合对于遥感OOD检测具有关键价值,RS-OOD框架为遥感应用提供了可靠的异常检测解决方案。
[193] SynthGenNet: a self-supervised approach for test-time generalization using synthetic multi-source domain mixing of street view images
Pushpendra Dhakara,Prachi Chachodhia,Vaibhav Kumar
Main category: cs.CV
TL;DR: SynthGenNet是一个自监督师生架构,使用合成多源图像实现鲁棒的测试时域泛化,在复杂城市环境中达到50% mIoU性能
- Motivation: 非结构化城市环境由于复杂多样的布局给场景理解和泛化带来独特挑战,需要解决sim-to-real域差距和减少对标注目标数据的依赖
- Method: 提出ClassMix++算法混合多源合成数据,使用Grounded Mask Consistency Loss提高跨域一致性,集成Pseudo-Label Guided Contrastive Learning进行域不变特征学习
- Result: 在真实世界数据集Indian Driving Dataset上达到50% mIoU,优于依赖单源的现有最佳方法
- Conclusion: 该自监督策略能有效提高预测准确性,处理现实世界变异性,弥合sim-to-real域差距,减少对标注数据的依赖
[194] Data-Driven Loss Functions for Inference-Time Optimization in Text-to-Image Generation
Sapir Esther Yiflach,Yuval Atzmon,Gal Chechik
Main category: cs.CV
TL;DR: 提出Learn-to-Steer框架,通过学习扩散模型内部表示来学习数据驱动的目标函数,显著提升文本到图像生成模型的空间关系准确性
- Motivation: 现有文本到图像扩散模型在空间关系推理方面表现不佳,如左右位置关系等简单任务经常失败,现有方法通过微调或手工设计的损失函数效果有限
- Method: 训练轻量级分类器从扩散模型的交叉注意力图中解码空间关系,然后将该分类器作为学习到的损失函数在推理时使用;采用双重反转策略避免分类器走捷径
- Result: 空间准确性显著提升:FLUX.1-dev从0.20提升到0.61,SD2.1从0.07提升到0.54;方法可泛化到多种关系并显著提高准确性
- Conclusion: 通过直接从模型内部表示学习目标函数而非手工设计,能够有效解决扩散模型的空间推理问题,该方法具有很好的泛化性和实用性
[195] Hues and Cues: Human vs. CLIP
Nuria Alabau-Bosque,Jorge Vila-Tomás,Paula Daudén-Oliver,Pablo Hernández-Cámara,Jose Manuel Jaén-Lorites,Valero Laparra,Jesús Malo
Main category: cs.CV
TL;DR: 通过棋盔游戏Hues & Cues评估CLIP模型的颜色感知和命名能力,发现其与人类观察者基本一致,但也曝露了文化偏见和抽象层次处理的不一致性
- Motivation: 棋盔游戏能够挑战人类的多种特性,但这些任务常被忽略在人工智能模型的人类化评估中,需要新方法来评估模型的能力
- Method: 使用棋盔游戏Hues & Cues测试CLIP模型的颜色感知和颜色命名能力,并评估其与人类观察者的一致性
- Result: CLIP模型在颜色感知方面整体上与人类观察者很一致,但显示出某些文化偏见和在不同抽象层次处理时的不一致性,这些问题在常规测试中难以发现
- Conclusion: 通过棋盔游戏等不同任务来评估模型,可以更好地曝露模型的缺陷,这种方法能够发现常规测试方法难以检测到的问题
[196] OmniActor: A Generalist GUI and Embodied Agent for 2D&3D Worlds
Longrong Yang,Zhixiong Zeng,Yufeng Zhong,Jing Huang,Liming Zheng,Lei Chen,Haibo Qiu,Zequn Qin,Lin Ma,Xi Li
Main category: cs.CV
TL;DR: 提出了OmniActor通用智能体,通过分层混合专家模型解决GUI和实体环境数据冲突,实现跨2D虚拟和3D真实世界的任务执行。
- Motivation: 现有智能体研究主要关注GUI或实体环境,但复杂任务需要在这两种环境中交替交互。混合训练时发现数据冲突导致性能下降,需要解决这种冲突并利用协同效应。
- Method: 提出Layer-heterogeneity MoE架构:浅层参数共享以利用协同效应,深层参数分离以消除冲突。统一GUI和实体任务的动作空间,并收集大规模多源数据进行训练。
- Result: OmniActor在GUI和实体任务上都优于仅使用单一数据训练的智能体,特别是在GUI任务中表现显著提升。
- Conclusion: 通过模拟人脑的脑-小脑机制,成功解决了多模态环境中数据冲突问题,为构建高性能通用智能体提供了有效解决方案。
[197] Ordinal Adaptive Correction: A Data-Centric Approach to Ordinal Image Classification with Noisy Labels
Alireza Sedighi Moghaddam,Mohammad Reza Mohammadi
Main category: cs.CV
TL;DR: 提出ORDAC方法,通过标签分布学习自适应校正序数分类中的噪声标签,在年龄估计和疾病严重程度检测任务上显著提升模型性能
- Motivation: 序数图像分类中标签边界模糊,标注过程容易产生噪声标签,这会显著降低机器学习模型的性能和可靠性
- Method: 提出ORDAC方法,利用标签分布学习(LDL)建模序数标签的模糊性和不确定性,在训练过程中动态调整每个样本标签分布的均值和标准差,校正而非丢弃噪声样本
- Result: 在Adience数据集上,40%噪声情况下ORDAC_R将平均绝对误差从0.86降至0.62,召回率从0.37提升至0.49,在原始数据集的内在噪声校正中也表现有效
- Conclusion: 使用标签分布进行自适应标签校正是提高序数分类模型在噪声数据下鲁棒性和准确性的有效策略
[198] Category-Aware 3D Object Composition with Disentangled Texture and Shape Multi-view Diffusion
Zeren Xiong,Zikun Chen,Zedong Zhang,Xiang Li,Ying Tai,Jian Yang,Jun Li
Main category: cs.CV
TL;DR: 本文提出C33D方法,通过多视图渲染、适配文本-图像协调和多视图滴果技术,实现了从3D模型和文本描述生成结构一致的新颖3D模型合成。
- Motivation: 现有的文本/图像/3D到3D方法在整合多个内容源时存在纹理不一致和形状不准确的问题,需要一种能够生成新颖且结构协调的3D模型的方法。
- Method: 1)从输入3D模型渲染多视图图像和法线图 2)使用适配文本-图像协调(ATIH)根据前视图和文本描述生成新颖2D对象 3)通过纹理多视图滴果精炼剩余多视图RGB图像的纹理 4)使用形状多视图滴果改善多视图RGB图像和法纹图的2D形状 5)重建完整的新颖3D模型
- Result: 广泛实验证明了方法的有效性,能够产生令人印象深刻的3D创作,如鱼鱼(3D)-鲸鱼(文本)等组合。
- Conclusion: C33D方法通过系统化的多步骤处理流程,成功解决了3D对象合成任务中的纹理不一致和形状不准确的挑战,为创建新颖且结构协调的3D模型提供了有效解决方案。
[199] Why Do MLLMs Struggle with Spatial Understanding? A Systematic Analysis from Data to Architecture
Wanyue Zhang,Yibin Huang,Yangbin Xu,JingJing Huang,Helu Zhi,Shuo Ren,Wang Xu,Jiajun Zhang
Main category: cs.CV
TL;DR: 本文系统分析了多模态大语言模型在空间理解方面的局限性,从数据和架构两个角度评估了单视图、多视图和视频三种场景下的表现,发现仅靠增加训练数据无法有效提升空间想象能力,且空间理解更依赖于视觉编码器而非语言模型的位置编码。
- Motivation: 现有研究缺乏对多模态大语言模型空间理解能力的全面系统评估,往往局限于孤立场景,需要从数据和架构角度进行系统性分析。
- Method: 提出了MulSeT基准测试,设计了一系列实验来分析MLLMs的空间推理能力,从数据视角分析训练数据量的影响,从架构视角分析位置编码的作用。
- Result: 空间理解性能随训练数据增加快速收敛,上限较低;空间理解更依赖于视觉编码器的位置编码而非语言模型的位置编码;推理注入探索显示了通过架构设计优化空间理解的潜力。
- Conclusion: 当前MLLMs在空间理解方面存在明显局限,需要通过数据扩展和架构调优来改进空间推理能力,为未来研究指明了方向。
[200] MedDINOv3: How to adapt vision foundation models for medical image segmentation?
Yuheng Li,Yizhou Wu,Yuxiang Lai,Mingzhe Hu,Xiaofeng Yang
Main category: cs.CV
TL;DR: MedDINOv3是一个简单有效的框架,通过多尺度标记聚合和领域自适应预训练,将DINOv3视觉基础模型成功适配到医学图像分割任务,在多个基准测试中达到或超越最先进性能。
- Motivation: 当前深度学习模型在医学图像分割中缺乏跨模态和跨机构的泛化能力,视觉基础模型虽然提供强大表示能力,但在医学图像上存在性能不足和领域差距大的挑战。
- Method: 重新设计简单有效的ViT架构,采用多尺度标记聚合技术,在CT-3M数据集(387万张CT切片)上进行多阶段DINOv3领域自适应预训练,学习鲁棒的密集特征。
- Result: MedDINOv3在四个分割基准测试中匹配或超越了最先进的性能,证明了视觉基础模型作为医学图像分割统一骨干网络的潜力。
- Conclusion: 该研究成功解决了视觉基础模型在医学图像分割中的适配问题,为构建通用的医学图像分割模型提供了有效解决方案,代码已开源。
[201] Decoupling Bidirectional Geometric Representations of 4D cost volume with 2D convolution
Xiaobao Wei,Changyong Shu,Zhaokun Yue,Chang Huang,Weiwei Liu,Shuai Yang,Lirong Yang,Peng Gao,Wenbin Zhang,Gaochao Zhu,Chengxiang Wang
Main category: cs.CV
TL;DR: DBStereo提出了一种基于纯2D卷积的4D成本聚合网络,通过解耦学习实现实时性能和准确性的平衡,超越了现有基于聚合的方法。
- Motivation: 现有的高性能实时立体匹配方法依赖3D正则化,不适用于移动设备;而基于2D正则化的方法在病态区域表现不佳。
- Method: 设计轻量级双向几何聚合块,分别捕获空间和视差表示,通过4D成本体积的解耦特性分析实现纯2D卷积的4D成本聚合。
- Result: 在推理时间和准确性方面均优于所有现有基于聚合的方法,甚至超越了基于迭代的方法IGEV-Stereo。
- Conclusion: 打破了使用3D卷积处理4D成本体积的经验设计,为解耦聚合范式提供了简单而强大的基线。
[202] From Noisy Labels to Intrinsic Structure: A Geometric-Structural Dual-Guided Framework for Noise-Robust Medical Image Segmentation
Tao Wang,Zhenxuan Zhang,Yuanbo Zhou,Xinlin Zhang,Yuanbin Chen,Tao Tan,Guang Yang,Tong Tong
Main category: cs.CV
TL;DR: 提出GSD-Net网络,通过几何和结构双重引导机制提升医学图像分割在噪声标注下的鲁棒性,在多个数据集上达到最先进性能
- Motivation: 医学图像分割依赖大规模高质量标注,但专家标注存在主观性和粗糙标注等噪声问题,影响模型性能
- Method: 几何距离感知模块动态调整像素级权重,结构引导标签精炼模块利用结构先验优化标签,知识迁移模块增强监督和对局部细节的敏感性
- Result: 在6个公开数据集上验证,在Kvasir提升2.52%、Shenzhen提升22.76%、BU-SUC提升8.87%、BraTS2020提升4.59%
- Conclusion: GSD-Net能有效处理噪声标注问题,在模拟噪声和真实多专家标注场景下均表现出优异性能
[203] Faster and Better: Reinforced Collaborative Distillation and Self-Learning for Infrared-Visible Image Fusion
Yuhao Wang,Lingjuan Miao,Zhiqiang Zhou,Yajun Qiao,Lei Zhang
Main category: cs.CV
TL;DR: 一种基于强化学习的协同萌蓬自学习框架,通过动态调整教师指导和生成挑战性样本来提升红外与可见光图像融合质量
- Motivation: 解决轻量级模型在图像融合任务中质量不高的挑战,希望在保持模型轻量的同时提升融合效果
- Method: 提出协同萌蓬和自学习框架,使用强化学习代理探索最佳训练策略,动态调整教师指导强度和生成挑战性样本
- Result: 实验结果表明该方法能显著提升学生模型性能,较现有技术获得更好的融合结果
- Conclusion: 该框架通过强化学习主动优化知识传递过程,能够在轻量模型上实现更高质量的多模态图像融合
[204] Towards High-Fidelity, Identity-Preserving Real-Time Makeup Transfer: Decoupling Style Generation
Lydia Kin Ching Chau,Zhi Yu,Ruo Wei Jiang
Main category: cs.CV
TL;DR: 一种新的实时虚拟化妆试用框架,通过透明化妆提取和图形渲染两步骤,实现高保真度、身份保持且时间一致的美妆转移
- Motivation: 现有方法在解虽半透明化妆与皮肤颜色时遇到困难,导致身份偏移和公平性问题,同时缺乏实时能力和时间一致性
- Method: 将化妆转移解耦为两步:透明化妆提取和图形渲染。使用伪真实数据训练提取模型,包括图形渲染管线和无监督k-means聚类。提出专门的训练目标,如alpha权重重建和唇彩颜色损失
- Result: 方法在多样化姿势、表情和皮肤颜色下实现了稳健的化妆转移,保持时间平滑性。实验证明该方法在抓取细节、维持时间稳定性和保持身份完整性方面都超过现有基线方法
- Conclusion: 该框架有效解决了实时虚拟化妆试用中的关键挑战,为高保真度、身份保持且具有稳健时间一致性的美妆转移提供了可行方案
[205] RiverScope: High-Resolution River Masking Dataset
Rangel Daroya,Taylor Rowley,Jonathan Flores,Elisa Friedmann,Fiona Bennitt,Heejin An,Travis Simmons,Marissa Jean Hughes,Camryn L Kluetmeier,Solomon Kica,J. Daniel Vélez,Sarah E. Esenther,Thomas E. Howard,Yanqi Ye,Audrey Turcotte,Colin Gleason,Subhransu Maji
Main category: cs.CV
TL;DR: RiverScope是一个高分辨率地表水数据集,包含1145张图像和专家标注的水体掩膜,用于评估多传感器性能并建立了首个全球高分辨率河流宽度估算基准。
- Motivation: 解决窄河和泥沙含量高的河流在低分辨率卫星数据中难以准确监测的问题,支持精细尺度的水文建模和可持续水资源管理。
- Method: 通过计算机科学与水文学专家合作,开发包含1145张高分辨率图像的数据集,进行100多小时人工标注,并与多卫星数据配准,评估不同深度学习架构和预训练策略。
- Result: 建立了首个全球高分辨率河流宽度估算基准,中位误差7.2米,显著优于现有卫星方法;最佳模型结合迁移学习和多光谱通道适配器。
- Conclusion: RiverScope为精细尺度和多传感器水文建模提供了宝贵资源,支持气候适应和可持续水资源管理,在河流监测精度方面取得显著突破。
[206] GenCompositor: Generative Video Compositing with Diffusion Transformer
Shuzhou Yang,Xiaoyu Li,Xiaodong Cun,Guangzhi Wang,Lingen Li,Ying Shan,Jian Zhang
Main category: cs.CV
TL;DR: 本文提出了一种基于Diffusion Transformer的生成式视频合成方法,通过创新的DiT管道、背景保持分支和位置嵌入技术,实现自动化视频合成,显著减少人工成本。
- Motivation: 传统视频合成流程需要大量人工劳动和专家协作,制作周期长且成本高。为解决这一问题,作者希望通过生成模型自动化视频合成过程。
- Method: 设计了基于Diffusion Transformer的新型管道,包括轻量级背景保持分支、DiT融合块、前景增强训练方法,以及创新的Extended Rotary Position Embedding (ERoPE)位置嵌入技术。
- Result: 实验表明,该方法有效实现了生成式视频合成,在保真度和一致性方面优于现有解决方案。构建了包含61K组视频的VideoComp数据集。
- Conclusion: 提出的生成式视频合成方法能够自适应地将前景视频的身份和运动信息注入到目标视频中,允许用户自定义动态元素的大小、运动轨迹等属性,大大简化了视频制作流程。
[207] TeRA: Rethinking Text-driven Realistic 3D Avatar Generation
Yanwen Wang,Yiyu Zhuang,Jiawei Zhang,Li Wang,Yifei Zeng,Xun Cao,Xinxin Zuo,Hao Zhu
Main category: cs.CV
TL;DR: TeRA是一个高效的两阶段文本到3D头像生成框架,通过潜在扩散模型在结构化潜在空间中生成逼真3D人体头像,避免了缓慢的迭代优化过程
- Motivation: 现有的基于SDS的文本到3D头像生成模型效率低下,大型3D生成模型也不够有效,需要更高效的解决方案
- Method: 两阶段训练策略:1) 从大型人体重建模型中提取解码器获得结构化潜在空间;2) 训练文本控制的潜在扩散模型在该空间中生成3D头像
- Result: 在主观和客观评估中都优于之前的文本到3D头像生成模型
- Conclusion: TeRA框架通过结构化潜在空间和潜在扩散模型,实现了更高效和有效的文本到3D头像生成,支持基于文本的部分定制
[208] Anisotropic Fourier Features for Positional Encoding in Medical Imaging
Nabil Jabareen,Dongsheng Yuan,Dingming Liu,Foo-Wei Ten,Sören Lukassen
Main category: cs.CV
TL;DR: 提出了一种新的各向异性傅里叶特征位置编码(AFPE),在医学影像中显著优于现有位置编码方法,特别是在处理各向异性数据时效果突出。
- Motivation: 医学影像中复杂的器官形状和各向异性的高维图像特性使得传统位置编码方法表现不佳,需要专门针对医学影像特点设计的位置编码方案。
- Method: 提出了AFPE方法,作为IFPE的泛化版本,能够整合各向异性、类别特定和领域特定的空间依赖关系,在胸部X光片、CT图像和超声心动图等多个医学影像任务上进行系统评估。
- Result: 实验表明选择正确的位置编码能显著提升模型性能,AFPE在所有测试的各向异性设置中都显著优于最先进的位置编码方法。
- Conclusion: 在各向异性的医学图像和视频中,选择适合数据和目标形状的各向异性位置编码至关重要,AFPE为此提供了有效的解决方案。
[209] Enhancing Fitness Movement Recognition with Attention Mechanism and Pre-Trained Feature Extractors
Shanjid Hasan Nishat,Srabonti Deb,Mohiuddin Ahmed
Main category: cs.CV
TL;DR: 这篇论文提出了一种轻量级健身运动识别框架,通过结合2D CNN、LSTM和空间注意力机制,在UCF101数据集上达到了93.34%的最高准确率,适用于实时健康监测应用。
- Motivation: 现有的深度学习方法多依赖3D模型,计算复杂度高,在实时或资源受限环境中应用受限。需要一种轻量级且高效的健身运动识别方案。
- Method: 整合预训练的2D CNN(ResNet50、EfficientNet、ViT)与LSTM网络,并加入空间注意力机制。2D CNN提取空间特征,LSTM捕捉时序依赖关系,注意力机制强化关键信息区域。
- Result: 在UCF101数据集子集上进行评估,ResNet50配置达到了93.34%的最高准确率。较多个现有最先进的HAR系统表现更优。
- Conclusion: 该方法提供了一种可扩展、支持实时处理的健身活动识别解决方案,在视觉基于健康和活动监测领域具有广泛应用前景。
[210] Mix-modal Federated Learning for MRI Image Segmentation
Guyue Hu,Siyuan Song,Jingpeng Sun,Zhe Jin,Chenglong Li,Jin Tang
Main category: cs.CV
TL;DR: 提出了一种新的混合模态联邦学习框架MDM-MixMFL,用于解决分布式医院环境中多模态MRI图像分割的异构性问题
- Motivation: 现有MRI图像分割方法主要采用集中式多模态范式,不适用于工程中非集中式的混合模态医疗场景,存在客户端模态异构性和数据异构性问题
- Method: 提出模态解耦策略和模态记忆机制。模态解耦将每个模态分解为模态特定信息和模态共享信息;模态记忆机制动态存储客户端共享模态原型以补偿局部客户端的不完整模态
- Result: 在两个公共MRI图像分割数据集上的大量实验证明了方法的有效性和优越性
- Conclusion: MDM-MixMFL框架能够有效处理分布式混合模态MRI分割问题,通过解耦和记忆机制实现了异构数据和模态的稳定自适应联邦聚合
[211] Motion-Refined DINOSAUR for Unsupervised Multi-Object Discovery
Xinrui Gong,Oliver Hahn,Christoph Reich,Krishnakant Singh,Simone Schaub-Meyer,Daniel Cremers,Stefan Roth
Main category: cs.CV
TL;DR: MR-DINOSAUR是一个完全无监督的多目标发现方法,通过运动分割和自监督预训练模型改进,在TRI-PD和KITTI数据集上达到SOTA性能
- Motivation: 解决现有无监督多目标发现方法需要监督生成伪标签来训练对象中心学习模型的局限性
- Method: 扩展自监督预训练模型DINOSAUR,通过检索无相机运动的视频帧进行无监督光流运动分割,生成高质量伪标签来精化槽表示,并训练槽停用模块进行前景背景分配
- Result: 在TRI-PD和KITTI数据集上取得了强大的多目标发现结果,优于之前的SOTA方法
- Conclusion: 尽管概念简单,MR-DINOSAUR通过完全无监督的方式实现了优异的多目标发现性能
[212] FastVGGT: Training-Free Acceleration of Visual Geometry Transformer
You Shen,Zhipeng Zhang,Yansong Qu,Liujuan Cao
Main category: cs.CV
TL;DR: 通过分析VGGT模型的瓶颈和关注地图出现的token凹陷现象,提出FastVGGT方案,首次在3D领域利用token合并技术来加速VGGT模型,在保持重建能力的同时实现4倍速度提升。
- Motivation: 解决现有基础模型在处理长序列图像输入时的推理效率低下问题,特别是VGGT模型在大规模图像输入时的性能瓶颈。
- Method: 提出FastVGGT方案,设计了专门适用3D架构和任务的token分区策略,通过无需训练的机制实现token合并,消除冗余计算保持模型能力。
- Result: 在多个3D几何测试集上验证有效性,在1000张输入图像时实现4倍速度提升,同时减轻长序列场景中的错误累积。
- Conclusion: 证明token合并技术是建立可扩展3D视觉系统的原理性解决方案,为大规模图像处理提供了高效的加速方法。
cs.RO
[213] OpenTie: Open-vocabulary Sequential Rebar Tying System
Mingze Liu,Sai Fan,Haozhen Li,Haobo Liang,Yixing Yuan,Yanke Wang
Main category: cs.RO
TL;DR: OpenTie是一个无需训练的3D钢筋绑扎框架,使用RGB到点云生成和开放词汇检测技术,通过双目相机和机械臂实现高精度的水平和垂直钢筋绑扎任务。
- Motivation: 现有产品和研究主要集中在需要模型训练的平面钢筋设置上,无法满足复杂钢筋绑扎场景的需求,因此需要开发无需训练的灵活解决方案。
- Method: 采用RGB到点云生成技术和开放词汇检测方法,通过双目相机捕获图像,应用基于提示的目标检测方法,并结合后处理程序进行图像过滤。
- Result: 在真实世界的钢筋设置实验中验证了系统的有效性,能够实现高精度的水平和垂直钢筋绑扎任务。
- Conclusion: OpenTie框架为建筑工地上的钢筋绑扎任务提供了一种无需模型训练的灵活、高效的解决方案,具有实际应用价值。
[214] Hybrid Perception and Equivariant Diffusion for Robust Multi-Node Rebar Tying
Zhitao Wang,Yirong Xiong,Roberto Horowitz,Yanke Wang,Yuxing Han
Main category: cs.RO
TL;DR: 本文提出一种混合感知与运动规划方法,通过结合几何感知和SE(3)空间上的等变去噪液散模型,实现了使用极少训练数据的精准多节点绳结绑缆任务。
- Motivation: 结构工程中的绳结绑缆任务是重复性高且人工操作带来很大的人体工学风险。虽然机器人操控技术有自动化潜力,但在窄窄的绳结节点中准确估计绑缆姿态仍面临挑战。
- Method: 感知模块采用密度聚类(DBSCAN)、几何特征提取和主成分分析(PCA)来分割绳结条、识别节点并估计方向向量。运动规划基于SE(3)空间上的等变去噪液散模型(Diffusion-EDFs),仅需少量示范数据即可生成避免碰撞的续列末端执行器姿态。
- Result: 系统在单层、多层和杂乱配置的各种绳结网格上验证,显示出高成功率的节点检测和准确的续列绑缆。与依赖大量数据集或手动参数调整的传统方法相比,本方法在显著减少数据需求的同时实现了稳健、高效和适应性强的多节点绑缆。
- Conclusion: 混合感知与液散驱动规划的结合方法有着推进建筑工地自动化任务的巨大潜力,能够同时提高安全性和劳务效率。
[215] Embodied Spatial Intelligence: from Implicit Scene Modeling to Spatial Reasoning
Jiading Fang
Main category: cs.RO
TL;DR: 该论文提出'具身空间智能'概念,通过隐式神经模型构建场景表示和增强LLM空间推理能力,旨在让机器人能够基于自然语言指令在现实世界中感知和行动。
- Motivation: 解决大型语言模型与物理具身之间的鸿沟,创建能够根据自然语言指令在真实世界中感知和行动的机器人系统。
- Method: 在场景表示方面使用自监督相机标定、高保真深度场生成和大规模重建的隐式神经模型;在空间推理方面引入新的导航基准、3D语言接地方法和状态反馈机制。
- Result: 开发了鲁棒、可扩展且准确的场景表示方法,并增强了LLM的空间能力,改善了长时域决策制定。
- Conclusion: 这项工作为机器人能够鲁棒感知环境并智能执行基于语言的复杂指令奠定了基础。
[216] FLUID: A Fine-Grained Lightweight Urban Signalized-Intersection Dataset of Dense Conflict Trajectories
Yiyang Chen,Zhigang Wu,Guohong Zheng,Xuesong Wu,Liwen Xu,Haoyuan Tang,Zhaocheng He,Haipeng Zeng
Main category: cs.RO
TL;DR: FLUID是一个基于无人机采集的精细轨迹数据集,包含城市信号交叉口的密集冲突数据,具有高时空精度和丰富信息,适用于交通行为建模和自动驾驶研究。
- Motivation: 现有交通参与者轨迹数据集在场景代表性、信息丰富度和数据保真度方面存在局限,需要更全面的数据集来支持交通状况评估和政策优化。
- Method: 使用无人机采集三个不同类型交叉口约5小时的视频数据,开发轻量级全流程框架处理轨迹数据,包含8类交通参与者超过20,000个轨迹。
- Result: 数据集平均每分钟发生两次车辆冲突,涉及约25%的机动车辆,验证显示其时空精度高于DataFromSky平台和地面真实测量。
- Conclusion: FLUID数据集揭示了多样化的交互行为,在人类偏好挖掘、交通行为建模和自动驾驶研究方面具有重要价值。
[217] Reinforcement Learning of Dolly-In Filming Using a Ground-Based Robot
Philip Lorimer,Jack Saunders,Alan Hunter,Wenbin Li
Main category: cs.RO
TL;DR: 通过强化学习自动化自由移动拍摄机棱的拍摄控制,较传统控制方法更准确高效
- Motivation: 解决自由移动拍摄机棱在自动化拍摄控制方面的挑战,提升电影制作中的动态运动拍摄能力
- Method: 应用强化学习(RL)算法,开发精细控制流程,在修改的ROSBot 2.0平台上进行真实世界测试
- Result: RL方案在模拟和实际环境中都超越传统比例微分控制器,验证了方法的实用性
- Conclusion: 该研究为复杂拍摄场景的进一步研究奠定基础,有效垩接技术进步与创意电影制作的沟涞
[218] Galaxea Open-World Dataset and G0 Dual-System VLA Model
Tao Jiang,Tianyuan Yuan,Yicheng Liu,Chenhao Lu,Jianning Cui,Xiao Liu,Shuiqi Cheng,Jiyang Gao,Huazhe Xu,Hang Zhao
Main category: cs.RO
TL;DR: 提出了Galaxea开放世界数据集和G0双系统框架,通过三阶段课程学习在真实环境中实现机器人行为学习
- Motivation: 为了解决机器人在真实人类生活和工作环境中执行复杂任务的需求,需要大规模、多样化的数据集和有效的学习框架
- Method: 构建Galaxea开放世界数据集,包含精确的细粒度语言标注;开发G0双系统框架(VLM用于多模态规划+VLA用于细粒度执行);采用三阶段课程学习:跨本体预训练、单本体预训练、任务特定后训练
- Result: 在桌面操作、少样本学习和长时程移动操作等综合基准测试中表现出色,单本体预训练阶段和Galaxea数据集对性能提升至关重要
- Conclusion: Galaxea数据集和G0框架为机器人在真实环境中的行为学习提供了有效解决方案,单本体预训练是获得强性能的关键因素
[219] Aleatoric Uncertainty from AI-based 6D Object Pose Predictors for Object-relative State Estimation
Thomas Jantos,Stephan Weiss,Jan Steinbrener
Main category: cs.RO
TL;DR: 提出一种为深度学习6D位姿预测器添加认知不确定性的方法,通过附加两个多层感知器来动态推断测量不确定性,提升基于扩展卡尔曼滤波的状态估计性能
- Motivation: 深度学习在机器人感知中广泛应用,但现有6D物体位姿预测器缺乏不确定性量化,而概率状态估计器需要准确的测量不确定性信息
- Method: 在预训练的位姿预测器基础上,分离添加平移和旋转部分的多层感知器来推断认知不确定性,保持原有预测器冻结,实现高效训练
- Result: 方法在合成和真实数据上验证有效,相比固定协方差方法显著提升了物体相对状态估计的性能,且计算开销小可部署在边缘设备
- Conclusion: 通过简单添加不确定性推断模块,可以显著改善深度学习位姿预测在状态估计中的实用性,为机器人感知提供更可靠的测量不确定性
[220] Articulated Object Estimation in the Wild
Abdelrhman Werby,Martin Büchner,Adrian Röfer,Chenguang Huang,Wolfram Burgard,Abhinav Valada
Main category: cs.RO
TL;DR: ArtiPoint是一个新颖的3D关节物体运动估计框架,通过结合深度点跟踪和因子图优化,能够从原始RGB-D视频中估计关节部件轨迹和关节轴,在动态相机运动和部分观测条件下表现出色。
- Motivation: 现有关节估计方法主要关注受控设置,假设固定相机视角或直接观测不同物体状态,在无约束真实环境中容易失败。而人类通过观察他人操作物体就能轻松推断关节结构,这启发了本研究的思路。
- Method: 结合深度点跟踪与因子图优化框架,直接从原始RGB-D视频中稳健地估计关节部件轨迹和关节轴。同时创建了首个以自我为中心的在野数据集Arti4D,包含场景级关节物体交互数据。
- Result: 在Arti4D数据集上对一系列经典和基于学习的基线方法进行基准测试,证明了ArtiPoint的优越性能。
- Conclusion: ArtiPoint为在动态相机运动和部分观测条件下估计关节物体模型提供了有效的解决方案,Arti4D数据集的发布将推动该领域未来研究的发展。
[221] AI-Driven Marine Robotics: Emerging Trends in Underwater Perception and Ecosystem Monitoring
Scarlett Raine,Tobias Fischer
Main category: cs.RO
TL;DR: 海洋AI快速发展成为重要研究前沿,通过弱监督学习、开放集识别等技术解决水下环境挑战,推动计算机视觉和环境监测的基础创新。
- Motivation: 海洋生态系统面临气候变化压力,需要可扩展的AI监测方案来应对环境必需、数据集民主化和研究人员从陆地领域转移的趋势。
- Method: 分析水下AI发展的三大驱动因素,研究水下特有挑战(混淀度、隐蕾物种检测等)导致的技术创新,调查数据集、场景理解和3D重建新趋势。
- Result: 水下限制条件推动了基础模型、自监督学习和感知技术的边界拓展,产生了超越海洋应用范围的方法论创新。
- Conclusion: 水下AI不仅是局部应用,而是促进AI创新的重要叉点,其技术进展对计算机视觉、机器人学和环境监测领域都有广泛影响。
[222] AutoDrive-R : Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving
Zhenlong Yuan,Jing Tang,Jinguo Luo,Rui Chen,Chengxuan Qian,Lei Sun,Xiangxiang Chu,Yujun Cai,Dapeng Zhang,Shuo Li
Main category: cs.RO
TL;DR: AutoDrive-R²是一个创新的视觉-语言-动作模型框架,通过思维链推理和强化学习提升自动驾驶系统的决策可解释性和动作合理性,在nuScenes和Waymo数据集上表现出最先进的性能。
- Motivation: 当前VLA模型在自动驾驶系统中虽然展示了多模态感知与决策的整合能力,但其决策过程的可解释性、连贯性以及动作序列的合理性仍未被充分探索。
- Method: 1) 构建nuScenesR²-6K思维链数据集进行监督微调,通过四步逻辑链和自反思验证建立输入信息与输出轨迹的认知桥梁;2) 在强化学习阶段使用GRPO算法,结合物理基础奖励框架(包含空间对齐、车辆动力学和时间平滑性标准)来最大化推理和自反思能力。
- Result: 在nuScenes和Waymo数据集上的广泛评估表明,该方法具有最先进的性能和强大的泛化能力。
- Conclusion: AutoDrive-R²框架通过结合思维链推理和强化学习,显著提升了自动驾驶系统的决策可解释性和动作合理性,为VLA模型在自动驾驶领域的应用提供了新的解决方案。
[223] Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots
Minghuan Liu,Zhengbang Zhu,Xiaoshen Han,Peng Hu,Haotong Lin,Xinyao Li,Jingxiao Chen,Jiafeng Xu,Yichu Yang,Yunfeng Lin,Xinghang Li,Yong Yu,Weinan Zhang,Tao Kong,Bingyi Kang
Main category: cs.RO
TL;DR: 该论文提出Camera Depth Models (CDMs)作为深度相机的插件,通过神经网络数据引擎生成高质量深度数据,有效解决深度相机噪声问题,使模拟训练的策略能够无缝迁移到真实机器人任务中。
- Motivation: 当前机器人操作主要依赖2D视觉观测,泛化能力差。人类依赖3D几何信息进行物体交互,深度相机可提供类似感知能力,但存在精度有限和噪声问题。
- Method: 提出CDMs模型,以RGB图像和原始深度信号为输入,输出去噪后的精确度量深度。开发神经数据引擎,通过模拟深度相机噪声模式生成高质量配对数据。
- Result: CDMs实现接近模拟级别的深度预测精度,有效弥合模拟到真实的差距。在涉及铰接、反射和细长物体的长时程任务中,模拟训练的策略无需添加噪声或真实世界微调即可无缝泛化到真实机器人。
- Conclusion: 该方法为利用模拟数据和3D信息开发通用机器人策略提供了新思路,展示了深度感知在机器人操作中的巨大潜力。
cond-mat.mtrl-sci
[224] Protocol for Clustering 4DSTEM Data for Phase Differentiation in Glasses
Mridul Kumar,Yevgeny Rakita
Main category: cond-mat.mtrl-sci
TL;DR: 使用无监督机器学习分析4D-STEM数据,识别Ge-Sb-Te相变材料的纳米尺度成分和结构异质性
- Motivation: 相变材料的功能特性受纳米尺度成分和结构变化影响,但传统技术难以解析这些变化
- Method: 采用PCA降维、t-SNE和UMAP聚类验证、k-means聚类优化,通过轮廓评分确定最佳聚类数
- Result: 识别出4个不同聚类,分别对应不同的化学特征:Cluster 1富氧和锗,Cluster 2富碲,Cluster 3富锑,Cluster 4富锗,衍射模式证实结构差异
- Conclusion: 聚类分析为关联相变材料局部化学和结构特征提供了强大框架,有助于深入理解其内在异质性
cs.CL
[225] MultiStream-LLM: Bridging Modalities for Robust Sign Language Translation
Marshall Thomas,Edward Fish,Richard Bowden
Main category: cs.CL
TL;DR: MultiStream-LLM是一个模块化的手语翻译框架,通过分离专门的手指拼写、唇读和连续手语识别专家网络,解决了现有端到端模型在高速手指拼写和非手动线索整合方面的失败问题。
- Motivation: 现有的端到端手语翻译模型在处理高速手指拼写和异步非手动面部线索时表现不佳,特别是在翻译姓名、地点和技术术语等关键信息时效果很差。
- Method: 采用模块化框架,使用专门的预测器分别处理连续手语、手指拼写和唇读,每个专家网络将其特定模态解码为token序列,然后通过轻量级transformer融合并行流并解决时间错位问题,最后使用大语言模型生成最终句子。
- Result: 在How2Sign基准测试中达到BLEU-4分数23.5的新SOTA,在ChicagoFSWildPlus手指拼写数据集上达到73.2%的字母准确率。
- Conclusion: 通过分离和解决不同的识别任务再进行融合的多专家方法,为稳健、高保真的手语翻译提供了更强大有效的途径。
cs.HC
[226] Chronotome: Real-Time Topic Modeling for Streaming Embedding Spaces
Matte Lim,Catherine Yeh,Martin Wattenberg,Fernanda Viégas,Panagiotis Michalatos
Main category: cs.HC
TL;DR: 提出了一种结合力导向投影和流式聚类的方法,用于可视化时间序列数据中的语义演变,并开发了Chronotome交互式工具
- Motivation: 现有降维方法难以捕捉真实世界数据(如艺术家作品集、社交媒体历史)中有意义的语义随时间变化
- Method: 结合力导向投影和流式聚类方法,构建嵌入向量的时空地图
- Result: 开发了Chronotome交互式工具,能够实时探索时间数据中的演变主题,在文本和图像数据用例中展示了有效性
- Conclusion: 该方法为理解时间数据集的美学和语义提供了新的视角和工具
[227] EgoTouch: On-Body Touch Input Using AR/VR Headset Cameras
Vimal Mollyn,Chris Harrison
Main category: cs.HC
TL;DR: 使用RGB摄像头实现高精度的充虚实境中肌肤触摸输入,支持多种肌肤颜色、光照条件和运动状态,提供丰富的输入元数据
- Motivation: 充虚实境中用户手臂提供了便捷的触摸输入表面,但现有方案需要特殊设备支持,无法广泛应用于现代XR头显设备
- Method: 仅使用RGB摄像头进行肌肤输入检测,无需特殊仪器装备,通过算法流程实现高精度识别
- Result: 方案在多样化光照条件、肌肤颜色和身体运动(如进行输入时步行)下都表现出高精度和稳健性,同时提供触摸压力、手指识别、攻角和旋转等丰富输入元数据
- Conclusion: 该研究为充虚实境中的肌肤界面提供了符合实际应用需求的技术基础,解决了以往方案在实用性和稳健性方面的不足
eess.IV
[228] Promptable Longitudinal Lesion Segmentation in Whole-Body CT
Yannick Kirchhoff,Maximilian Rokuss,Fabian Isensee,Klaus H. Maier-Hein
Main category: eess.IV
TL;DR: 本文扩展了LongiSeg框架,通过提示功能实现病灶特异性跟踪,并利用大规模合成CT数据进行预训练,显著提升了纵向病灶分割性能。
- Motivation: 纵向全身CT中病灶的准确分割对于监测疾病进展和治疗反应至关重要,但现有方法在跨时间一致跟踪个体病灶方面仍存在局限性。
- Method: 扩展LongiSeg框架使其具备提示功能(点和掩码交互),并利用大规模合成纵向CT数据集进行预训练以解决训练数据有限的问题。
- Result: 预训练显著提高了利用纵向上下文的能力,与从头训练的模型相比,Dice得分提升了最多6个百分点。
- Conclusion: 结合纵向上下文和交互式提示能有效实现稳健的病灶跟踪,证明了该方法的有效性。
[229] Can General-Purpose Omnimodels Compete with Specialists? A Case Study in Medical Image Segmentation
Yizhe Zhang,Qiang Chen,Tao Zhou
Main category: eess.IV
TL;DR: 本研究比较了通用多模态模型(Gemini 2.5 Pro)与专业医学图像分割模型在三种任务中的零样本性能,发现在简单样本上专业模型表现更好,但在困难样本上通用模型展现出更强的鲁棒性。
- Motivation: 随着强大的通用多模态模型的出现,需要研究这些"全能型"系统是否能在知识密集型领域(如医学图像分割)中与高度专业化的模型相媲美。
- Method: 在三种不同的医学图像分割任务(息肉、视网膜血管、乳腺肿瘤)上,基于专业模型的准确性筛选出"最简单"和"最困难"的样本子集,比较通用多模态模型与专业模型的零样本性能。
- Result: 结果呈现任务依赖性:对于息肉和乳腺肿瘤分割,专业模型在简单样本上表现优异,但通用模型在困难样本上展现出更强的鲁棒性;对于精细的视网膜血管分割,专业模型在所有情况下都保持优势。定性分析表明通用模型可能具有更高的敏感性。
- Conclusion: 当前通用多模态模型尚不能完全替代专业模型,但其独特优势表明它们可能与专业模型形成互补作用,特别是在处理具有挑战性的边缘案例时增强鲁棒性。
[230] Towards Early Detection: AI-Based Five-Year Forecasting of Breast Cancer Risk Using Digital Breast Tomosynthesis Imaging
Manon A. Dorster,Felix J. Dorfner,Mason C. Cleveland,Melisa S. Guelen,Jay Patel,Dania Daye,Jean-Philippe Thiran,Albert E. Kim,Christopher P. Bridge
Main category: eess.IV
TL;DR: 基于深度学习框架,利用DBT影像预测5年乳腺癌风险,在大型数据集上达到AUROC 0.80的优异性能
- Motivation: 现有乳腺癌风险预测模型性能有限且未整合数字乳腺断层合成(DBT)影像技术,而早期检测对治疗效果至关重要
- Method: 使用Meta AI DINOv2图像编码器提取特征,结合累积风险层,基于161,753例DBT检查数据训练5年风险预测模型
- Result: 在测试集上,最佳模型在5年预测期内实现了0.80的AUROC,显示出优异的风险预测能力
- Conclusion: DBT-based深度学习方法具有巨大潜力,可作为传统风险评估工具的有力补充,为后续验证和优化研究提供了良好基础
[231] Ultrasound-based detection and malignancy prediction of breast lesions eligible for biopsy: A multi-center clinical-scenario study using nomograms, large language models, and radiologist evaluation
Ali Abbasian Ardakani,Afshin Mohammadi,Taha Yusuf Kuzan,Beyza Nur Kuzan,Hamid Khorshidi,Ashkan Ghorbani,Alisa Mohebbi,Fariborz Faeghi,Sepideh Hatamikia,U Rajendra Acharya
Main category: eess.IV
TL;DR: 整合BIRADS特征和形态学特征的超声指数图表现超过专家医生和大语言模型,能够提高乳腺疾病正确识别率和减少不必要活棆。
- Motivation: 为了开发和外部验证整合BIRADS特征和定量形态学特征的超声指数图,并与专家医生和现有大语言模型进行比较,以改善乳腺疾病的活棆建议和恶性预测的准确性。
- Method: 回顾性多中心研究,收集1747名女性乳腺疾病患者的超声数据。提取10个BIRADS特征和26个形态学特征,通过逻辑回归构建BIRADS、形态学和融合指数图。评估三名放射科医生和两个ChatGPT模型的识别性能。
- Result: 融合指数图在活棆建议和恶性预测上获得最高准确率(83.0%和83.8%),AUC分别为0.901和0.853,超过单独模型、医生和AI模型。外部验证证明了其良好的普适性。
- Conclusion: 整合BIRADS形态学指数图能够按较单独模型、大语言模型和医生更准确地指导活棆决策和预测恶性,有力减少不必要活棆和改善个性化诊疗。
[232] Learn2Reg 2024: New Benchmark Datasets Driving Progress on New Challenges
Lasse Hansen,Wiebke Heyer,Christoph Großbröhmer,Frederic Madesta,Thilo Sentker,Wang Jiazheng,Yuxi Zhang,Hang Zhang,Min Liu,Junyi Wang,Xi Zhu,Yuhua Li,Liwen Wang,Daniil Morozov,Nazim Haouchine,Joel Honkamaa,Pekka Marttinen,Yichao Zhou,Zuopeng Tan,Zhuoyuan Wang,Yi Wang,Hongchao Zhou,Shunbo Hu,Yi Zhang,Qian Tao,Lukas Förner,Thomas Wendler,Bailiang Jian,Christian Wachinger,Jin Kim,Dan Ruan,Marek Wodzinski,Henning Müller,Tony C. W. Mok,Xi Jia,Mikael Brudfors,Seyed-Ahmad Ahmadi,Yunzheng Zhu,William Hsu,Tina Kapur,William M. Wells,Alexandra Golby,Aaron Carass,Harrison Bai,Yihao Liu,Perrine Paul-Gilloteaux,Joakim Lindblad,Nataša Sladoje,Andreas Walter,Junyu Chen,Reuben Dorent,Alessa Hering,Mattias P. Heinrich
Main category: eess.IV
TL;DR: Learn2Reg 2024挑战赛引入了三个新任务,包括大规模多模态配准、无监督脑部配准和显微镜图像配准基准,以解决先前版本在模态多样性和任务复杂性方面的不足。
- Motivation: 现有的医学图像配准基准在模态多样性和任务复杂性方面存在局限,无法全面评估配准方法的性能。
- Method: 引入三个新任务:大规模多模态配准、无监督脑部配准和显微镜图像配准基准,并开发了包括可逆性约束、金字塔特征、关键点对齐和实例优化等新方法。
- Result: 新数据集和方法开发为医学图像配准提供了更全面的评估基准,推动了该领域的技术进步。
- Conclusion: Learn2Reg 2024通过扩展任务范围和方法创新,为医学图像配准建立了更全面和具有挑战性的评估标准。
math.NA
[233] User Manual for Model-based Imaging Inverse Problem
Xiaodong Wang
Main category: math.NA
TL;DR: 这是一份关于基于模型的优化方法在成像逆问题中应用的用户手册,为无凸优化或逆问题理论背景的人员提供系统化的数学理论和逻辑思维指导。
- Motivation: 成像逆问题复杂而具有挑战性,特别是对于没有凸优化或逆问题理论背景的人员。手册的目的是清晰地解释并系统化地组织成像逆问题的数学理论基础。
- Method: 手册采用四个部分的结构:(1)介绍什么是成像逆问题;(2)解释为什么使用优化方法解决成像逆问题;(3)如何解决优化问题;(4)如何在实际成像系统中实现优化算法。
- Result: 手册更加重视逻辑思维而非严格的数学记号,为学习者提供了一个系统的思考框架来理解和解决成像逆问题。
- Conclusion: 这份手册为逆问题处理领域的入门者提供了一个结构化的学习路径,通过四个核心问题引导学习者从理论到实践的全面理解。
cs.AI
[234] FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games
Jaewoo Ahn,Junseo Kim,Heeseung Yun,Jaehyeon Son,Dongmin Park,Jaewoong Cho,Gunhee Kim
Main category: cs.AI
TL;DR: FlashAdventure是一个包含34个Flash冒险游戏的基准测试,用于评估GUI代理完成完整故事情节的能力,并提出了COAST框架和CUA-as-a-Judge自动评估器来解决观察-行为差距问题。
- Motivation: 现有的游戏基准测试缺乏多样性,很少评估代理完成整个故事情节的能力,特别是冒险游戏中复杂的叙事驱动交互带来的挑战。
- Method: 提出了FlashAdventure基准测试、CUA-as-a-Judge自动游戏评估器,以及COAST代理框架,该框架利用长期线索记忆来更好地规划和解决顺序任务。
- Result: 实验显示当前GUI代理在完成完整故事弧方面表现不佳,而COAST通过弥合观察-行为差距提高了里程碑完成率,但最佳代理与人类表现之间仍存在明显差距。
- Conclusion: 虽然COAST框架在解决观察-行为差距方面取得了进展,但GUI代理与人类表现之间的显著差异表明需要继续研究来缩小这一差距。
[235] VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use
Dongfu Jiang,Yi Lu,Zhuofeng Li,Zhiheng Lyu,Ping Nie,Haozhe Wang,Alex Su,Hui Chen,Kai Zou,Chao Du,Tianyu Pang,Wenhu Chen
Main category: cs.AI
TL;DR: VerlTool是一个统一的模块化框架,解决了现有工具增强强化学习系统的碎片化、同步执行瓶颈和有限扩展性问题,通过异步执行实现2倍加速,在6个领域达到竞争性性能。
- Motivation: 现有的工具增强强化学习方法存在代码库碎片化、同步执行瓶颈和跨领域扩展性有限的问题,阻碍了社区采用和算法创新。
- Method: 设计统一模块化框架,提供标准化API支持多模态工具,采用异步rollout执行消除同步瓶颈,通过轻量级Python定义实现快速工具集成。
- Result: 在数学推理、知识问答、SQL生成、视觉推理、网络搜索和软件工程等6个领域达到与专用系统相当的竞争性性能,异步执行实现近2倍加速。
- Conclusion: VerlTool为工具增强的强化学习研究提供了可扩展的基础设施,显著降低了开发开销,支持快速工具集成和多领域统一训练。
[236] Robix: A Unified Model for Robot Interaction, Reasoning and Planning
Huang Fang,Mengxi Zhang,Heng Dong,Wei Li,Zixuan Wang,Qifeng Zhang,Xueyun Tian,Yucheng Hu,Hang Li
Main category: cs.AI
TL;DR: Robix是一个统一的视觉语言架构模型,集成了机器人推理、任务规划和自然语言交互,通过三阶段训练策略实现复杂指令跟随和自然人类交互。
- Motivation: 为了解决机器人系统中高层次认知与低层控制之间的整合问题,以及实现更自然的人机交互和复杂任务执行能力。
- Method: 采用三阶段训练策略:持续预训练增强基础推理能力,监督微调统一建模人机交互和任务规划,强化学习提高推理-行动一致性和长时程任务连贯性。
- Result: 在交互式任务执行中超越开源和商业基线(如GPT-4o和Gemini 2.5 Pro),在多种指令类型和用户参与任务中表现出强泛化能力。
- Conclusion: Robix成功实现了端到端的机器人推理和交互框架,为构建更智能、更自然的机器人系统提供了有效解决方案。
[237] AppCopilot: Toward General, Accurate, Long-Horizon, and Efficient Mobile Agent
Jingru Fan,Yufan Dang,Jingyao Wu,Huatao Li,Runde Yang,Xiyuan Yang,Yuheng Wang,Zhong Zhang,Yaxi Lu,Yankai Lin,Zhiyuan Liu,Dahai Li,Chen Qian
Main category: cs.AI
TL;DR: 本文提出了AppCopilot,一个多模态、多代理的通用设备端助手,解决了移动代理在泛化能力、准确性、长时程能力和效率四个核心问题,通过端到端自主流水线实现了从数据到部署的全栈闭环系统。
- Motivation: 随着大语言模型和多模态基础模型的快速发展,移动代理领域虽然蓬勃发展但未解决根本挑战。本文旨在解决移动代理在实际应用中必须解决的四个核心问题:跨任务、模态、应用和设备的泛化能力;精确的屏幕交互和点击目标准确性;持续多步骤目标的长时程能力;以及在资源受限设备上的高效运行时性能。
- Method: AppCopilot采用端到端自主流水线,涵盖数据收集、训练、部署、高质量高效推理和移动应用开发。在模型层集成多模态基础模型并支持中英文;在推理和控制层结合思维链推理、分层任务规划分解和多代理协作;在执行层支持用户个性化、体验适应、语音交互、函数调用、跨应用跨设备编排和全面移动应用支持;系统设计包含基于性能分析的延迟、内存和能耗优化。
- Result: 实证研究表明,AppCopilot在四个维度上都取得了显著改进:更强的泛化能力、更高精度的屏幕操作、更可靠的长时程任务完成能力,以及更快、更资源高效的运行时性能。
- Conclusion: AppCopilot作为一个全栈闭环系统,成功解决了移动代理的关键挑战,通过多模态、多代理的架构和端到端流水线设计,为移动设备上的通用助手提供了实用且可扩展的解决方案,在泛化、精度、长时程能力和效率方面都表现出色。
[238] UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning
Haoming Wang,Haoyang Zou,Huatong Song,Jiazhan Feng,Junjie Fang,Junting Lu,Longxiang Liu,Qinyu Luo,Shihao Liang,Shijue Huang,Wanjun Zhong,Yining Ye,Yujia Qin,Yuwen Xiong,Yuxin Song,Zhiyong Wu,Bo Li,Chen Dun,Chong Liu,Fuxing Leng,Hanbin Wang,Hao Yu,Haobin Chen,Hongyi Guo,Jing Su,Jingjia Huang,Kai Shen,Kaiyu Shi,Lin Yan,Peiyao Zhao,Pengfei Liu,Qinghao Ye,Renjie Zheng,Wayne Xin Zhao,Wen Heng,Wenhao Huang,Wenqian Wang,Xiaobo Qin,Yi Lin,Youbin Wu,Zehui Chen,Zihao Wang,Baoquan Zhong,Xinchun Zhang,Xujing Li,Yuanfan Li,Zhongkai Zhao,Chengquan Jiang,Faming Wu,Haotian Zhou,Jinlin Pang,Li Han,Qianli Ma,Siyao Liu,Songhua Cai,Wenqi Fu,Xin Liu,Zhi Zhang,Bo Zhou,Guoliang Li,Jiajun Shi,Jiale Yang,Jie Tang,Li Li,Taoran Lu,Woyu Lin,Xiaokang Tong,Xinyao Li,Yichi Zhang,Yu Miao,Zhengxuan Jiang,Zili Li,Ziyuan Zhao,Chenxin Li,Dehua Ma,Feng Lin,Ge Zhang,Haihua Yang,Hangyu Guo,Hongda Zhu,Jiaheng Liu,Junda Du,Kai Cai,Kuanye Li,Lichen Yuan,Meilan Han,Minchao Wang,Shuyue Guo,Tianhao Cheng,Xiaobo Ma,Xiaojun Xiao,Xiaolong Huang,Xinjie Chen,Yidi Du,Yilin Chen,Yiwen Wang,Zhaojian Li,Zhenzhu Yang,Zhiyuan Zeng,Chaolin Jin,Chen Li,Hao Chen,Haoli Chen,Jian Chen,Qinghao Zhao,Guang Shi
Main category: cs.AI
TL;DR: UI-TARS-2是一个原生GUI中心代理模型,通过数据飞轮、多轮强化学习框架、混合GUI环境和统一沙盒平台,在GUI基准测试和游戏环境中显著优于前代和基线模型,展现出强大的泛化能力。
- Motivation: 解决GUI自主代理开发中的数据可扩展性、多轮强化学习、GUI-only操作限制和环境稳定性等开放性问题。
- Method: 采用系统化训练方法:数据飞轮实现可扩展数据生成、稳定化的多轮RL框架、集成文件系统和终端的混合GUI环境、统一沙盒平台进行大规模推演。
- Result: 在GUI基准测试中达到88.2(Online-Mind2Web)、47.5(OSWorld)、50.6(WindowsAgentArena)、73.3(AndroidWorld);在15个游戏套件中平均标准化得分59.8(约60%人类水平);在长时程信息搜索任务和软件工程基准测试中展现良好泛化能力。
- Conclusion: UI-TARS-2在GUI代理领域取得显著进展,展现出强大的泛化能力和在现实世界交互场景中的应用潜力,为大规模代理RL的稳定性和效率提供了重要见解。
q-bio.NC
[239] Automatic Screening of Parkinson's Disease from Visual Explorations
Maria F. Alcala-Durand,J. Camilo Puerta-Acevedo,Julián D. Arias-Londoño,Juan I. Godino-Llorente
Main category: q-bio.NC
TL;DR: 通过视觉探索任务的眼动特征进行帕金森病自动筛查,结合传统眼动特征和视线聚簇特征,使用专家混合集成模型达到0.95的AUC绩效
- Motivation: 眼动可以揭示神经退行性疾病的早期迹象,包括帕金森病,需要开发非侵入性的早期自动筛查方法
- Method: 结合传统眼动特征(跳跃次数、定向持续时间、扫描面积)和视线聚簇特征,从六个视觉探索测试中自动提取特征,使用专家混合集成模型整合双眼和多测试结果
- Result: 集成模型在测试集上达到接近控制特征曲线面积0.95的高性能,显著超过个体分类器
- Conclusion: 视觉探索任务可作为帕金森病早期自动筛查的非侵入性工具,眼动特征组合和集成学习方法显示出高准确性
[240] DCA: Graph-Guided Deep Embedding Clustering for Brain Atlases
Mo Wang,Kaining Peng,Jingsheng Tang,Hongkai Wen,Quanying Liu
Main category: q-bio.NC
TL;DR: Deep Cluster Atlas (DCA) 是一个图引导的深度嵌入聚类框架,用于生成个体化的体素级脑分区图谱,在功能同质性和下游任务性能方面显著优于现有方法。
- Motivation: 现有脑图谱大多是预定义的群体模板,缺乏灵活性和分辨率,无法满足个体化分析需求。
- Method: 结合预训练自编码器和空间正则化深度聚类,生成功能连贯且空间连续的大脑区域,支持灵活的分辨率和解剖范围控制。
- Result: 在多个大规模fMRI数据集上,DCA将功能同质性提高98.8%,轮廓系数提高29%,在自闭症诊断和认知解码等下游任务中表现优异。
- Conclusion: DCA提供了一个灵活、高性能的个体化脑图谱生成框架,为神经影像分析提供了新的工具和标准基准平台。
cs.AR
[241] Energy Efficient Exact and Approximate Systolic Array Architecture for Matrix Multiplication
Pragun Jaswal,L. Hemanth Krishna,B. Srinivasu
Main category: cs.AR
TL;DR: 提出一种包含精确和近似处理单元的脉动阵列架构,用于深度神经网络的高效能矩阵乘法运算,在保持输出质量的同时实现显著节能
- Motivation: 深度神经网络需要高效的矩阵乘法引擎来处理复杂计算,现有设计在能耗方面有待优化
- Method: 使用能量高效的PPC和NPPC单元设计8位精确和近似处理单元,并集成到8x8脉动阵列中,应用于DCT计算和边缘检测卷积
- Result: 相比现有设计节能22%和32%,DCT计算PSNR达38.21dB,边缘检测PSNR达30.45dB
- Conclusion: 所提设计在保持竞争力的输出质量下实现显著能效提升,适用于容错图像和视觉处理应用
[242] GS-TG: 3D Gaussian Splatting Accelerator with Tile Grouping for Reducing Redundant Sorting while Preserving Rasterization Efficiency
Joongho Jo,Jongsun Park
Main category: cs.AR
TL;DR: GS-TG是一种基于瓦片分组的3D高斯泼溅加速器,通过减少冗余排序操作并保持光栅化效率,实现1.54倍的速度提升
- Motivation: 3D高斯泼溅虽然比NeRF速度快,但仍无法满足实时应用的帧率需求,存在瓦片大小选择时的效率权衡问题
- Method: 在排序阶段将小瓦片分组形成大瓦片来共享排序操作,在光栅化阶段使用位掩码标识相关小瓦片以保持原始小瓦片的光栅化效率
- Result: 相比最先进的3D-GS加速器平均加速1.54倍,无需重新训练或微调,可与现有优化技术无缝集成
- Conclusion: GS-TG通过创新的瓦片分组和位掩码技术有效解决了3D-GS渲染中的效率权衡问题,实现了显著的速度提升
cs.DC
[243] Efficient Pyramidal Analysis of Gigapixel Images on a Decentralized Modest Computer Cluster
Marie Reinbigler,Rishi Sharma,Rafael Pires,Elisabeth Brunet,Anne-Marie Kermarrec,Catalin Fetita
Main category: cs.DC
TL;DR: PyramidAI是一种分析千兆像素图像的技术,通过渐进式分辨率分析和自适应区域选择,在保持精度的同时将数据处理量减少2.65倍,计算时间从数小时缩短到几分钟。
- Motivation: 千兆像素图像分析计算需求巨大,需要开发能够降低计算成本的技术,使普通计算机也能进行高效的大规模图像分析。
- Method: 采用渐进式分析方法,从低分辨率开始逐步聚焦感兴趣区域进行高分辨率详细检查,研究两种自适应分辨率选择策略,并评估并行计算潜力。
- Result: 在Camelyon16生物医学数据集上验证,数据处理量减少2.65倍,精度保持,使用12个普通工作节点可将分析时间从超过1小时缩短到几分钟。
- Conclusion: PyramidAI为千兆像素图像分析提供了实用的高效解决方案,实现了计算成本的显著降低和并行计算的可行性。
cs.LG
[244] A-FloPS: Accelerating Diffusion Sampling with Adaptive Flow Path Sampler
Cheng Jin,Zhenyu Xiao,Yuantao Gu
Main category: cs.LG
TL;DR: A-FloPS是一种无需训练的高效扩散模型采样框架,通过重新参数化采样轨迹和自适应速度分解,在极低函数评估次数(如5次)下显著提升采样质量和效率
- Motivation: 扩散模型虽然生成性能优异,但迭代采样过程计算成本高昂。现有训练免费加速方法受限于底层采样轨迹的低效性,需要更有效的解决方案
- Method: 提出A-FloPS框架:1)将预训练扩散模型的采样轨迹重新参数化为流匹配形式;2)采用自适应速度分解机制,将速度场分解为线性漂移项和残差分量;3)主动抑制残差分量的时间变化,恢复高阶积分的精度优势
- Result: 在条件图像生成和文本到图像合成任务中,A-FloPS在样本质量和效率方面均优于最先进的训练免费采样器。仅用5次函数评估即可实现显著更低的FID分数,生成更清晰、更连贯的图像
- Conclusion: A-FloPS为高质量、低延迟生成建模提供了一个通用有效的解决方案,其自适应机制还能改进基于流的原生生成模型,具有很好的通用性
[245] From Data to Decision: A Multi-Stage Framework for Class Imbalance Mitigation in Optical Network Failure Analysis
Yousuf Moiz Ali,Jaroslaw E. Prilepsky,Nicola Sambo,Joao Pedro,Mohammad M. Hosseini,Antonio Napoli,Sergei K. Turitsyn,Pedro Freire
Main category: cs.LG
TL;DR: 本文比较了预处理、处理中和后处理方法在光网络故障管理中的类别不平衡问题,发现后处理方法在故障检测中F1分数提升最高(15.3%),而GenAI方法在故障识别中性能提升最大(24.2%)
- Motivation: 光网络中机器学习故障管理面临严重的类别不平衡问题,正常实例远多于故障案例,而后处理方法在此领域研究较少
- Method: 使用实验数据集对预处理、处理中和后处理方法进行直接比较,包括阈值调整、随机欠采样、SMOTE过采样、元学习和生成式AI等方法
- Result: 故障检测中后处理方法(特别是阈值调整)F1分数提升最高;故障识别中GenAI方法性能提升最大;不同场景下最优方法不同:有类别重叠且延迟关键时SMOTE最有效,无延迟约束时元学习最佳,低重叠场景下生成式AI性能最高
- Conclusion: 不同类别不平衡缓解方法在不同应用场景下各有优势,需要根据具体需求(如延迟要求、类别重叠情况)选择合适的方法
[246] Progressive Element-wise Gradient Estimation for Neural Network Quantization
Kaiqi Zhao
Main category: cs.LG
TL;DR: 提出PEGE方法替代STE,通过渐进式元素级梯度估计和混合精度替换策略,在量化训练中同时最小化任务损失和离散化误差,显著提升低比特量化模型的精度。
- Motivation: 传统的STE方法忽略了连续值与量化值之间的离散化误差,导致低比特量化时精度下降严重,需要更有效的梯度估计方法来改善量化感知训练。
- Method: 提出PEGE方法:1)使用对数课程驱动的混合精度替换策略渐进替换全精度参数;2)将QAT建模为同时优化预测任务损失和量化离散化误差的协同优化问题。
- Result: 在CIFAR-10和ImageNet数据集上,使用ResNet、VGG等多种架构的实验表明,PEGE始终优于现有反向传播方法,低精度模型能达到甚至超越全精度模型的精度。
- Conclusion: PEGE提供了一个统一且可推广的框架,能够有效解决量化训练中的离散化误差问题,为资源受限硬件上的神经网络部署提供了更优的量化解决方案。
[247] Integrated Multivariate Segmentation Tree for the Analysis of Heterogeneous Credit Data in Small and Medium-Sized Enterprises
Lu Han,Xiuying Wang
Main category: cs.LG
TL;DR: 提出IMST模型,整合财务数据和文本信息,提升中小企业信用评估准确率至88.9%,优于传统决策树和其他基准模型。
- Motivation: 传统决策树仅依赖数值变量,难以处理高维数据且无法有效整合文本信息,限制了中小企业信用评估的效果。
- Method: 三阶段方法:1) 矩阵分解将文本数据转为数值矩阵;2) Lasso回归选择重要财务特征;3) 基于基尼指数或熵构建多元分割树,采用最弱链接剪枝控制复杂度。
- Result: 在1,428家中国中小企业数据集上,IMST达到88.9%准确率,优于基准决策树(87.4%)、逻辑回归和SVM等传统模型。
- Conclusion: IMST模型在准确性、可解释性和计算效率方面均表现优异,具有更简洁的架构和更强的风险检测能力。
[248] AMCR: A Framework for Assessing and Mitigating Copyright Risks in Generative Models
Zhipeng Yin,Zichong Wang,Avash Palikhe,Zhen Liu,Jun Liu,Wenbin Zhang
Main category: cs.LG
TL;DR: AMCR框架通过系统重构风险提示、注意力相似性分析和自适应风险缓解,有效检测和减轻生成模型中的版权风险,同时保持图像质量。
- Motivation: 生成模型在文本到图像任务中取得显著进展,但严重依赖大规模训练数据,可能无意中复制受版权保护的内容,带来法律和伦理挑战。现有基于提示的方法在处理微妙侵权情况时效果有限。
- Method: 提出AMCR综合框架:1)系统重构风险提示为安全形式;2)通过注意力相似性分析检测部分侵权;3)在生成过程中自适应缓解风险,减少版权侵权同时保持图像质量。
- Result: 大量实验验证了AMCR在揭示和减轻潜在版权风险方面的有效性,为生成模型的安全部署提供了实用见解和基准。
- Conclusion: AMCR框架为解决生成模型中的版权风险提供了全面有效的解决方案,有助于生成模型在现实世界中的更安全部署。
[249] Forward-Only Continual Learning
Jiao Chen,Jiayi He,Fangfang Chen,Zuohong Lv,Jianhua Tang
Main category: cs.LG
TL;DR: FoRo是一种无需梯度计算的前向持续学习方法,通过CMA-ES优化提示嵌入和知识编码矩阵,显著减少灾难性遗忘并提高效率
- Motivation: 解决预训练模型在持续学习中的灾难性遗忘问题,传统方法依赖反向传播和梯度优化,计算量大且不适合资源受限环境
- Method: 使用轻量级提示调优策略和知识编码机制,通过CMA-ES优化输入层提示嵌入,利用非线性随机投影和递归最小二乘法编码任务特定知识
- Result: 显著降低平均遗忘率并提高准确率,减少内存使用和运行时间,在长任务序列中保持高知识保留
- Conclusion: FoRo为预训练模型的持续学习提供了有前景的方向,特别适用于对效率和效果都有要求的实际多媒体应用
[250] BM-CL: Bias Mitigation through the lens of Continual Learning
Lucas Mansilla,Rodrigo Echeveste,Camila Gonzalez,Diego H. Milone,Enzo Ferrante
Main category: cs.LG
TL;DR: 提出基于持续学习的偏置缓解框架BM-CL,通过将偏置缓解重新定义为持续学习问题,在改善弱势群体结果的同时保持优势群体性能,避免传统方法中的"降级效应"。
- Motivation: 传统偏置缓解技术往往导致"降级效应",即改善弱势群体结果的同时会降低优势群体的性能表现。需要一种方法能够在提高公平性的同时保持整体模型性能。
- Method: 借鉴Learning without Forgetting和Elastic Weight Consolidation等持续学习技术,将偏置缓解重新定义为领域增量持续学习问题,使模型能够适应变化的公平性条件。
- Result: 在合成和真实图像数据集上的实验表明,该框架能够有效缓解偏置,同时最小化原始知识的损失,实现了公平性和有效性的平衡。
- Conclusion: BM-CL框架将公平性和持续学习领域相结合,为开发既公平又有效的机器学习系统提供了有前景的途径。
[251] Scale, Don't Fine-tune: Guiding Multimodal LLMs for Efficient Visual Place Recognition at Test-Time
Jintao Cheng,Weibin Li,Jiehao Luo,Xiaoyu Tang,Zhijian He,Jin Wu,Yao Zou,Wei Zhang
Main category: cs.LG
TL;DR: 一种新的零检查视觉地点识别框架,利用多模态大语言模型的视觉-语言对齐能力,通过测试时缩放技术实现高效相似性评分,在保持计算效率的同时提升了跨域性能。
- Motivation: 当前视觉地点识别方法(包括视觉基础模型和多模态大语言模型)存在计算开销高、跨域迁移能力有限的问题,需要一种新的方法来解决这些限制。
- Method: 提出了一种零检查框架,采用测试时缩放(TTS)技术,通过指导基方法利用MLLM模型的视觉-语言对齐能力进行直接相似性评分。使用结构化提示生成长度可控的JSON输出,并结合不确定性感知自我一致性(UASC)实现实时适应。
- Result: 实验结果显示该方法在跨域视觉地点识别性能上取得了显著改善,计算效率提升达210倍,而且无需额外训练成本。
- Conclusion: 该研究提出的零检查框架通过测试时缩放技术有效解决了当前VPR方法的计算效率和跨域适应性问题,为视觉地点识别领域提供了一种高效、可扩展的新方案。
[252] Conditional- VAE: Equitable Latent Space Allocation for Fair Generation
Aymene Mohammed Bouayed,Samuel Deslauriers-Gauthier,Adrian Iaccovelli,David Naccache
Main category: cs.LG
TL;DR: Conditional-
- Motivation: 传统VAE和
VAE在类别不平衡数据集上,潜在空间分配与训练集类别频率成比例,导致尾部类别表示不足,生成公平性降低。 - Method: 提出Conditional-
VAE,为每个类别定义Student's t联合先验分布,防止多数类别主导,使用γ-power散度推导的闭式目标进行优化,并推导等权重潜在混合Student's t分布用于类别平衡生成。 - Result: 在SVHN-LT、CIFAR100-LT和CelebA数据集上,Conditional-
VAE相比 VAE和高斯基VAE基线始终获得更低的FID分数,在严重类别不平衡情况下表现尤为突出。在每类F1评估中也优于条件高斯VAE。 - Conclusion: 在轻度不平衡情况下高斯基模型仍有竞争力,但在极端不平衡情况下,Conditional-
VAE显著提高了生成公平性和多样性。
cs.GR
[253] Lightning Fast Caching-based Parallel Denoising Prediction for Accelerating Talking Head Generation
Jianzhi Long,Wenhao Sun,Rongcheng Tu,Dacheng Tao
Main category: cs.GR
TL;DR: 提出LightningCP和DFA两种创新方法,专门针对说话头生成任务的时空冗余特性进行优化,显著提升扩散模型推理速度同时保持视频质量
- Motivation: 现有扩散模型加速方法未能充分利用说话头生成任务特有的时空冗余特性,导致推理速度慢,限制了实际应用
- Method: 1. Lightning-fast Caching-based Parallel denoising prediction (LightningCP):缓存静态特征,在推理时跳过大部分模型层;使用缓存特征和估计噪声潜在作为输入进行并行预测,绕过顺序采样。2. Decoupled Foreground Attention (DFA):利用说话头视频的空间解耦特性,将注意力计算限制在动态前景区域;在某些层中移除参考特征以获得额外加速
- Result: 大量实验证明该框架显著提高了推理速度,同时保持了视频质量
- Conclusion: 通过任务特定的优化方法,成功解决了扩散基说话头模型推理速度慢的问题,为实际应用提供了可行的解决方案
[254] 3D-LATTE: Latent Space 3D Editing from Textual Instructions
Maria Parelli,Michael Oechsle,Michael Niemeyer,Federico Tombari,Andreas Geiger
Main category: cs.GR
TL;DR: 提出了一种基于原生3D扩散模型潜在空间的免训练编辑方法,通过混合注意力图和几何感知正则化指导,实现高质量、精确的3D资产编辑。
- Motivation: 现有的基于2D先验的3D资产编辑方法存在视角不一致问题,编辑质量远不如生成模型,需要直接在3D空间中进行操作。
- Method: 在3D扩散模型潜在空间中操作,混合生成和源对象的3D注意力图,结合几何感知正则化指导、傅里叶域频谱调制策略和3D增强细化步骤。
- Result: 方法在多种形状和语义操作上实现了高保真度、精确且鲁棒的编辑效果,优于之前的3D编辑方法。
- Conclusion: 通过直接在3D扩散模型潜在空间中进行操作,避免了2D先验方法的视角不一致问题,实现了高质量的3D资产编辑。
[255] LatentEdit: Adaptive Latent Control for Consistent Semantic Editing
Siyi Liu,Weiming Chen,Yushun Tang,Zhihai He
Main category: cs.GR
TL;DR: LatentEdit是一个基于潜在空间融合的扩散图像编辑框架,通过动态结合当前潜在代码和参考潜在代码,在保持背景相似性的同时实现高质量编辑,无需模型修改且兼容多种架构。
- Motivation: 当前扩散图像编辑在保持背景相似性、速度效率和内存效率方面存在挑战,需要一种既能保持高质量编辑又能快速部署的轻量级解决方案。
- Method: 采用自适应潜在融合框架,动态结合当前潜在代码和参考潜在代码,在高相似度语义重要区域选择性保留源特征,在其他区域根据目标提示生成内容。
- Result: 在PIE-Bench数据集上实验表明,LatentEdit在保真度和可编辑性之间达到最优平衡,在8-15步内超越最先进方法,其无反转变体进一步减少计算量。
- Conclusion: LatentEdit提供了一个轻量级、即插即用的解决方案,显著提升了实时部署效率,在扩散图像编辑领域实现了性能与效率的双重突破。
[256] IntrinsicReal: Adapting IntrinsicAnything from Synthetic to Real Objects
Xiaokang Wei,Zizheng Yan,Zhangyang Xiong,Yiming Hao,Yipeng Qin,Xiaoguang Han
Main category: cs.GR
TL;DR: IntrinsicReal是一个新颖的域适应框架,通过双伪标签策略将IntrinsicAnything从合成数据域适应到真实世界域,显著提升了单张RGB图像反照率估计的性能。
- Motivation: 现有方法主要在合成数据集上训练并直接应用于真实世界图像,忽略了合成数据与真实数据之间的域差距,导致泛化性能不佳。
- Method: 提出双伪标签策略:i)基于分类器预测的绝对置信度阈值进行伪标签,ii)基于单个输入对象的分类器预测相对偏好排序进行伪标签。采用两阶段流水线依次应用这两种技术。
- Result: 在合成和真实世界数据集上都取得了最先进的结果,显著优于现有方法。
- Conclusion: IntrinsicReal通过创新的双伪标签域适应策略,成功解决了真实世界内在图像分解中的域差距问题,为单张RGB图像反照率估计提供了有效的解决方案。
[257] RealMat: Realistic Materials with Diffusion and Reinforcement Learning
Xilong Zhou,Pedro Figueiredo,Miloš Hašan,Valentin Deschaintre,Paul Guerrero,Yiwei Hu,Nima Khademi Kalantari
Main category: cs.GR
TL;DR: RealMat是一个基于扩散模型的材质生成器,通过结合合成数据训练和强化学习优化,利用真实世界材质图像和自然光照条件来提高生成材质的真实感。
- Motivation: 现有的材质生成方法主要依赖合成数据,导致生成结果与真实材质存在视觉差距;而基于真实闪光照片的方法又受限于数据规模和多样性。需要一种既能保证真实性又能保持多样性的材质生成方案。
- Method: 1. 使用2×2网格排列的合成材质图微调预训练的SDXL模型;2. 通过强化学习进一步微调模型,开发基于大规模真实材质图像数据集的真实感奖励函数来提升生成材质的真实感。
- Result: 该方法相比基础模型和相关工作,显著提高了生成材质的真实感,在自然光照条件下生成更加逼真的材质图像。
- Conclusion: RealMat通过结合合成数据训练和基于真实图像数据的强化学习优化,成功解决了材质生成中真实感与多样性之间的平衡问题,为3D内容创作提供了更高质量的材质生成方案。
[258] HodgeFormer: Transformers for Learnable Operators on Triangular Meshes through Data-Driven Hodge Matrices
Akis Nousias,Stavros Nousias
Main category: cs.GR
TL;DR: 这篇论文提出了一种新的深度学习方法,通过多头注意力机制近似Hodge矩阵,避免传统图形Transformer中程费的特征值分解操作,实现更高效的网格分析任务。
- Motivation: 传统的图形Transformer需要使用耐计算量大的特征值分解操作来获取象征式嵌入,如拉普拉斯矩阵或热核签名等,这会带来显著的计算开销。
- Method: 受离散外微分中Hodge拉普拉斯算子显式构造的启发,设计了新的深度学习层,利用多头注意力机制来近似Hodge矩阵(★0, ★1, ★2),学习作用于网格顶点、边和面的离散算子家族。
- Result: 该方法在网格分割和分类任务中达到了可比的性能,同时显著提高了计算效率,避免了复杂的预处理操作。
- Conclusion: 该研究提供了一种更高效的网格分析方法,通过直接学习框架替代传统的特征值分解方法,为图形深度学习领域带来了计算效率上的重要改进。
[259] GRMM: Real-Time High-Fidelity Gaussian Morphable Head Model with Learned Residuals
Mohit Mendiratta,Mayur Deshmukh,Kartik Teotia,Vladislav Golyanik,Adam Kortylewski,Christian Theobalt
Main category: cs.GR
TL;DR: GRMM是首个基于高斯溅射的全头3D可变形模型,通过残差几何和外观组件增强传统3DMM,实现高细节捕捉和实时渲染
- Motivation: 传统PCA网格模型分辨率有限,神经体积方法渲染慢,现有高斯溅射模型依赖网格先验,无法捕捉细粒度几何和完整头部细节
- Method: 在基础3DMM上添加残差几何和外观组件,使用粗粒度解码器生成网格变形,细粒度解码器处理高斯外观,轻量CNN细化渲染图像
- Result: 在单目3D人脸重建、新视角合成和表情迁移任务中超越现有方法,保持75FPS实时渲染性能
- Conclusion: GRMM通过残差学习和EXPRESS-50数据集实现了高保真度、精确表情控制和实时性能的统一
[260] Unifi3D: A Study on 3D Representations for Generation and Reconstruction in a Common Framework
Nina Wiedemann,Sainan Liu,Quentin Leboutet,Katelyn Gao,Benjamin Ummenhofer,Michael Paulitsch,Kai Yuan
Main category: cs.GR
TL;DR: 这篇论文提出了一个统一的3D表示评估框架,用于比较不同3D表示方式在重建和生成任务中的性能,包括质量、计算效率和沿化性能。
- Motivation: 随着文本和图像生成的快速发展,3D生成成为新研究热点,但3D表示方式多样且分散,需要统一的评估标准来比较不同方法的优劣势劣。
- Method: 建立了一个统一的评估框架,比较了多种3D表示方式(体素格子、神经光度场、签名距离函数、点云、八叉树等),评估了预处理、网格重建、自动编码器压缩和生成等步骤的性能。
- Result: 发现重建错误对整体性能有重大影响,应该联合评估生成和重建性能。提供了选择适合3D模型的实践建议。
- Conclusion: 该框架为3D表示方式提供了统一的评估标准,有助于开发更稳健和专门化的3D生成解决方案,代码已开源。
Powered by Deepseek & arXiv Daily AI Enhanced