Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Case Study: Transformer-Based Solution for the Automatic Digitization of Gas Plants
I. Bailo,F. Buonora,G. Ciarfaglia,L. T. Consoli,A. Evangelista,M. Gabusi,M. Ghiani,C. Petracca Ciavarella,F. Picariello,F. Sarcina,F. Tuosto,V. Zullo,L. Airoldi,G. Bruno,D. D. Gobbo,S. Pezzenati,G. A. Tona
Main category: cs.CV
TL;DR: 使用生成式AI模型自动化SNAM能源基础设施的工厂结构获取,通过OCR、视觉LLM、目标检测等技术从P&ID图纸中提取设计数据和层次结构信息。
- Motivation: 能源转型需要数字化和创新技术,传统工厂数字化过程依赖人工处理文档,效率低下。本文旨在设计基于AI的解决方案来自动化工厂信息提取,提高MGM用户的工作效率。
- Method: 采用OCR、视觉LLM、目标检测、关系推理和优化算法,并扩展了最先进的场景图生成模型,引入新的Transformer架构来深入分析工厂组件间的复杂关系。
- Result: 文本信息提取准确率达到91%,组件识别准确率93%,层次结构提取准确率约80%。
- Conclusion: 基于AI的技术协同使用能够克服数据多样性带来的挑战,成功实现了工厂数字化的自动化信息提取,取得了令人满意的准确率。
[2] Assessing Identity Leakage in Talking Face Generation: Metrics and Evaluation Framework
Dogucan Yaman,Fevziye Irem Eyiokur,Hazım Kemal Ekenel,Alexander Waibel
Main category: cs.CV
TL;DR: 提出了一种系统性的评估方法来分析和量化说话人脸生成中的嘴唇泄漏问题,包括三种测试设置和衍生指标,为未来研究建立更可靠的基准。
- Motivation: 基于修复的说话人脸生成方法在保持说话人一致性时可能引入嘴唇泄漏问题,即生成的嘴唇受到参考图像影响而非仅由驱动音频决定,而传统指标难以检测此类问题。
- Method: 使用三种互补测试设置:静音输入生成、不匹配的音频-视频配对和匹配的音频-视频合成,并引入嘴唇同步差异和基于静音音频的嘴唇同步分数等衍生指标。
- Result: 提出的方法能够有效分析和量化嘴唇泄漏问题,并研究了不同身份参考选择对泄漏的影响,为参考设计提供了见解。
- Conclusion: 该评估方法是模型无关的,为说话人脸生成领域的未来研究建立了更可靠的基准。
[3] A Multi-Drone Multi-View Dataset and Deep Learning Framework for Pedestrian Detection and Tracking
Kosta Dakic,Kanchana Thilakarathna,Rodrigo N. Calheiros,Teng Joon Lim
Main category: cs.CV
TL;DR: 提出了MATRIX数据集和深度学习框架,用于解决多无人机动态监控中的行人检测与跟踪问题,在复杂遮挡环境下保持约90%的检测跟踪精度。
- Motivation: 现有方法在动态相机位置和复杂遮挡环境下表现不佳,需要开发能够处理多无人机动态监控场景的解决方案。
- Method: 使用实时相机标定、基于特征的图像配准,以及在鸟瞰图表示中进行多视角特征融合的深度学习框架。
- Result: 在复杂环境下保持约90%的检测跟踪精度,成功跟踪约80%的轨迹,并表现出良好的泛化能力和鲁棒性。
- Conclusion: MATRIX数据集和框架为推进动态多视角监控系统提供了重要基准,在现实部署中具有实用价值。
[4] Learning Topology-Driven Multi-Subspace Fusion for Grassmannian Deep Network
Xuan Yu,Tianyang Xu
Main category: cs.CV
TL;DR: 提出了一种基于Grassmann流形的拓扑驱动多子空间融合框架,通过自适应子空间协作来捕捉复杂几何结构,在多个任务上实现了最先进的性能。
- Motivation: 现有方法主要依赖静态单子空间表示,忽略了多子空间之间的动态相互作用对捕捉复杂几何结构的重要性。
- Method: 提出自适应多子空间建模机制和多子空间交互块,通过拓扑收敛分析和Fréchet均值优化在流形上融合异构几何表示。
- Result: 在3D动作识别、EEG分类和图任务上的广泛实验证明了最先进的性能,实现了优越的判别性和可解释性。
- Conclusion: 该工作不仅推进了几何深度学习,还成功将欧几里得网络的多通道交互原理适应到非欧几里得领域。
[5] Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising
Assaf Singer,Noam Rotstein,Amir Mann,Ron Kimmel,Or Litany
Main category: cs.CV
TL;DR: TTM是一个无需训练、即插即用的视频生成框架,通过粗参考动画实现精确的运动控制,同时保持外观一致性。
- Motivation: 现有的基于图像和文本条件的视频生成方法无法提供精确的运动控制,而需要特定模型微调的方法计算成本高且限制性强。
- Method: 使用用户友好的操作(如剪切拖动或深度重投影)获得粗参考动画作为运动线索,结合图像条件保持外观,并采用双时钟去噪策略在运动指定区域强制对齐,在其他区域保持灵活性。
- Result: 在物体和相机运动基准测试中,TTM在真实感和运动控制方面匹配或超越了现有的基于训练的基线方法。
- Conclusion: TTM提供了一种轻量级、无需训练的运动和外观控制视频生成方法,超越了仅使用文本提示的限制。
[6] CADIC: Continual Anomaly Detection Based on Incremental Coreset
Gen Yang,Zhipeng Deng,Junfeng Man
Main category: cs.CV
TL;DR: 提出了一种新的持续异常检测框架,使用统一内存库而非任务特定子内存库,通过核心集增量更新嵌入,在MVTec AD和Visa数据集上达到最先进检测精度。
- Motivation: 现有基于嵌入的持续异常检测方法需要为每个任务构建特定类别的子内存库,限制了方法的灵活性和可扩展性。
- Method: 所有任务共享统一内存库,在固定大小的核心集中增量更新嵌入,推理阶段通过最近邻匹配机制计算异常分数。
- Result: 在MVTec AD和Visa数据集上分别达到0.972和0.891的平均图像级AUROC分数,在真实电子纸数据集上实现100%异常样本检测准确率。
- Conclusion: 该方法通过统一内存库解决了任务特定内存碎片化问题,在多个数据集上表现出优越性能和实际应用价值。
[7] Predict and Resist: Long-Term Accident Anticipation under Sensor Noise
Xingcheng Liu,Bin Rao,Yanchen Guan,Chengyue Wang,Haicheng Liao,Jiaxun Zhang,Chengyu Lin,Meixin Zhu,Zhenning Li
Main category: cs.CV
TL;DR: 提出一个结合扩散去噪和时间感知actor-critic模型的统一框架,用于自动驾驶中的事故预测,在传感器退化和噪声条件下实现早期可靠预警。
- Motivation: 解决自动驾驶事故预测中的两个关键挑战:传感器输入噪声或退化(如天气、运动模糊、硬件限制),以及需要平衡早期预警与误报抑制的及时可靠预测需求。
- Method: 使用扩散模块通过迭代细化重建噪声弹性图像和对象特征,同时采用时间感知actor-critic架构进行长期时序推理和时间加权奖励,确定最佳预警时机。
- Result: 在三个基准数据集(DAD、CCD、A3D)上达到最先进精度,显著提高平均事故前时间,在Gaussian和脉冲噪声下保持鲁棒性能。
- Conclusion: 该模型在常规和复杂交通场景中产生更早、更稳定且与人类判断一致的预测,具有实际安全关键部署的潜力。
[8] RS-Net: Context-Aware Relation Scoring for Dynamic Scene Graph Generation
Hae-Won Jo,Yeong-Jun Cho
Main category: cs.CV
TL;DR: 提出了RS-Net框架,通过空间上下文编码器和时间编码器对物体对的关系重要性进行评分,提升动态场景图生成中关系预测的性能。
- Motivation: 现有动态场景图生成方法仅在有标注的物体对上训练,缺乏对非相关物体对的指导,导致在推理时难以识别有意义的关系。
- Method: RS-Net包含空间上下文编码器(带可学习上下文标记)和时间编码器,通过评分机制评估物体对的关系重要性,并集成到统一的三元组评分机制中。
- Result: 在Action Genome数据集上的实验表明,RS-Net显著提高了Recall和Precision,特别是在mean Recall上有明显提升,能够有效处理关系的长尾分布问题。
- Conclusion: RS-Net能够轻松集成到现有DSGG模型中,无需架构修改,在保持竞争力的效率下实现了优于最先进方法的性能。
[9] Privacy Beyond Pixels: Latent Anonymization for Privacy-Preserving Video Understanding
Joseph Fioresi,Ishan Rajendrakumar Dave,Mubarak Shah
Main category: cs.CV
TL;DR: 提出了一种在潜在空间中保护视频基础模型视觉隐私的新方法,通过轻量级的匿名化适配器模块从视频特征中移除私人信息,同时保持通用任务效用。
- Motivation: 视频基础模型提取的时空特征在分享或存储时会无意中泄露敏感个人信息(如肤色、性别、服装),而现有的像素级匿名化方法需要重新训练整个模型,不适合视频基础模型。
- Method: 设计了轻量级匿名化适配器模块(AAM),采用三种新的训练目标:片段级自监督隐私目标、协同训练目标和潜在一致性损失,可在冻结的视频编码器上即插即用。
- Result: 在多个下游任务(动作识别、时序动作检测、异常检测)中,隐私泄露显著减少35%,同时保持接近基线的效用性能,并能有效缓解动作识别模型中的性别偏见。
- Conclusion: 该方法为视频基础模型提供了一种高效、通用的隐私保护解决方案,能够在保护隐私的同时保持模型性能,并促进更公平的视频理解。
[10] Rethinking generative image pretraining: How far are we from scaling up next-pixel prediction?
Xinchen Yan,Chen Liang,Lijun Yu,Adams Wei Yu,Yifeng Lu,Quoc V. Le
Main category: cs.CV
TL;DR: 本文研究了自回归逐像素预测的扩展特性,发现最优扩展策略严重依赖具体任务,且随着图像分辨率增加,模型规模需要比数据规模增长更快。计算能力而非训练数据量是主要瓶颈。
- Motivation: 探索自回归逐像素预测这一简单但研究不足的统一视觉模型框架的扩展特性,了解不同任务(分类与生成)的最优扩展策略差异。
- Method: 在32x32分辨率图像上训练一系列Transformer模型,使用IsoFlops配置在不同计算预算下(最高7e19 FLOPs),评估三个目标指标:逐像素预测目标、ImageNet分类准确率和生成质量(Fr'echet距离)。
- Result: 1) 分类和生成的最优扩展策略不同,生成任务需要数据规模比分类任务快3-5倍增长;2) 分辨率增加时,模型规模需比数据规模增长更快;3) 主要瓶颈是计算能力而非训练数据量。
- Conclusion: 基于计算能力每年增长4-5倍的预测,未来5年内逐像素图像建模是可行的,计算能力是限制因素而非数据量。
[11] Harnessing Diffusion-Generated Synthetic Images for Fair Image Classification
Abhipsa Basu,Aviral Gupta,Abhijnya Bhat,R. Venkatesh Babu
Main category: cs.CV
TL;DR: 该研究探索了多种扩散模型微调技术(LoRA和DreamBooth)来生成更准确的平衡训练数据,通过聚类和每个聚类训练DreamBooth模型来解决组内变异问题,在多个基准测试中表现优于原始Stable Diffusion,并与SOTA去偏技术相当。
- Motivation: 图像分类系统经常因训练数据中群体代表性不均而继承偏见,例如人脸数据集中金发与女性的过度关联会强化刻板印象。现有方法使用Stable Diffusion生成平衡数据但难以保持原始数据分布。
- Method: 采用LoRA和DreamBooth等扩散模型微调技术,通过直接学习训练样本生成更准确的图像表示;为防止单个DreamBooth模型被组内过度变异淹没,对每个组内图像进行聚类并为每个聚类训练单独的DreamBooth模型;使用这些模型生成群体平衡数据进行预训练,然后在真实数据上微调。
- Result: 在多个基准测试中,研究的微调方法平均表现优于原始Stable Diffusion,与SOTA去偏技术(如Group-DRO)结果相当,且随着数据集偏见严重程度增加,表现超过这些技术。
- Conclusion: 通过扩散模型微调和聚类技术可以有效生成平衡的训练数据,缓解图像分类系统中的偏见问题,特别是在偏见严重的数据集上表现优异。
[12] WiCV at CVPR 2025: The Women in Computer Vision Workshop
Estefania Talavera,Deblina Bhattacharjee,Himangi Mittal,Mengwei Ren,Karen Sanchez,Carla Muntean,JungEun Kim,Mona Jalal
Main category: cs.CV
TL;DR: WiCV@CVPR 2025是第16届致力于提升女性及少数群体在计算机视觉领域可见度和专业发展的研讨会,包含14篇录用论文、80名学员与37名导师的指导项目,吸引了100多名现场参与者。
- Motivation: 记录WiCV研讨会的影响和演变,为未来版本和其他促进AI和计算机视觉社区多样性、公平性和包容性的倡议提供参考。
- Method: 通过研讨会程序、参与统计、指导成果和历史趋势分析来评估WiCV的影响。
- Result: 2025年研讨会收录14篇论文(32篇投稿),5篇口头报告,36篇扩展摘要海报,指导项目匹配80名学员与37名导师,吸引100多名现场参与者,获得10个赞助商和约44,000美元资助。
- Conclusion: WiCV持续通过技术交流、指导项目和资金支持,有效促进计算机视觉领域的多样性和包容性,为新兴研究人员提供成长平台。
[13] Adaptive graph Kolmogorov-Arnold network for 3D human pose estimation
Abu Taib Mohammed Shahjahan,A. Ben Hamza
Main category: cs.CV
TL;DR: PoseKAN是一个基于图Kolmogorov-Arnold网络的自适应图框架,用于从单张图像进行2D到3D姿态提升,通过可学习的边函数和多跳特征聚合来克服GCN的局部感受野限制和频谱偏差问题。
- Motivation: GCN方法在3D人体姿态估计中受限于局部感受野,难以捕捉处理遮挡和深度模糊所需的长程依赖关系,并且存在频谱偏差问题,优先处理低频分量而难以建模高频细节。
- Method: 提出PoseKAN框架,将KAN扩展到图学习,使用可学习的边函数进行数据驱动的自适应特征变换,采用多跳特征聚合结合局部和远距离邻居信息,包含残差PoseKAN块进行深度特征精炼和全局响应归一化。
- Result: 在基准数据集上的广泛实验表明,该模型在性能上与最先进方法具有竞争力。
- Conclusion: PoseKAN通过自适应图KAN框架有效解决了GCN在3D人体姿态估计中的局限性,提高了模型对复杂姿态变化的表达能力。
[14] SIFT-Graph: Benchmarking Multimodal Defense Against Image Adversarial Attacks With Robust Feature Graph
Jingjie He,Weijie Liang,Zihan Shan,Matthew Caesar
Main category: cs.CV
TL;DR: 提出SIFT-Graph多模态防御框架,通过结合手工特征和深度学习特征来增强视觉模型对抗对抗攻击的鲁棒性。
- Motivation: 传统深度视觉模型依赖密集像素级表示,对微小扰动高度敏感,而传统防御策略缺乏利用固有鲁棒视觉特征的机制。
- Method: 集成SIFT关键点与图注意力网络,提取尺度旋转不变的局部结构特征,然后与ViT、CNN等传统视觉模型融合。
- Result: 初步结果显示,该方法能有效提升模型对基于梯度的白盒对抗攻击的鲁棒性,且仅导致干净准确率轻微下降。
- Conclusion: SIFT-Graph通过结合结构感知的多模态特征,为视觉模型提供了有效的对抗防御机制。
[15] DT-NVS: Diffusion Transformers for Novel View Synthesis
Wonbong Jang,Jonathan Tremblay,Lourdes Agapito
Main category: cs.CV
TL;DR: DT-NVS是一个基于3D扩散模型的广义新视角合成方法,使用仅图像损失在大规模真实世界视频数据集上训练,能够从单张图像生成多样化的新视角。
- Motivation: 现有扩散方法主要关注小范围相机移动或非自然物体场景,限制了在真实世界环境中的应用。本文旨在解决从单张图像生成自然场景新视角的未充分探索问题。
- Method: 提出基于transformer架构的3D感知扩散模型,改进了transformer和自注意力机制,引入新的相机条件策略和训练范式(交换参考帧角色),在未对齐的真实世界视频数据集上训练。
- Result: 在单图像广义新视角合成任务上,相比最先进的3D感知扩散模型和确定性方法有改进,能够生成多样化输出。
- Conclusion: DT-NVS成功实现了从单张图像生成自然场景新视角的目标,在真实世界应用中具有潜力。
[16] Enhancing Rotation-Invariant 3D Learning with Global Pose Awareness and Attention Mechanisms
Jiaxun Guo,Manar Amayri,Nizar Bouguila,Xin Liu,Wentao Fan
Main category: cs.CV
TL;DR: 提出了一种新的旋转不变学习方法SiPF,通过引入全局一致的参考点(阴影)来解决现有方法因感受野受限导致的翼尖特征崩溃问题,在保持旋转不变性的同时保留全局姿态信息。
- Motivation: 现有旋转不变学习方法使用手工制作的RI特征替代原始坐标,虽然对任意旋转具有鲁棒性,但会丢失全局姿态信息,无法区分几何相似但空间位置不同的结构(如飞机的左右机翼)。
- Method: 提出阴影感知姿态特征(SiPF),通过学习的共享旋转推导出全局一致的参考点(阴影),增强局部RI描述符;设计旋转不变注意力卷积(RIAttnConv)将SiPF集成到特征聚合中;基于Bingham分布设计任务自适应阴影定位模块,动态学习最优全局旋转。
- Result: 在3D分类和部件分割基准测试中,该方法显著优于现有RI方法,特别是在需要细粒度空间区分能力的任务中表现突出。
- Conclusion: SiPF方法通过引入全局一致的阴影参考点,有效解决了旋转不变学习中的翼尖特征崩溃问题,在保持旋转不变性的同时显著提升了模型对空间结构的区分能力。
[17] SasMamba: A Lightweight Structure-Aware Stride State Space Model for 3D Human Pose Estimation
Hu Cui,Wenqiang Hua,Renjing Huang,Shurui Jia,Tessai Hayama
Main category: cs.CV
TL;DR: 提出了一种基于骨架结构感知的步长SSM(SAS-SSM)方法,用于3D人体姿态估计,通过结构感知的时空卷积和步长扫描策略,在保持线性计算复杂度的同时有效建模局部和全局姿态信息。
- Motivation: 现有基于SSM的方法通常通过手动设计的扫描操作将2D姿态序列展平为纯时间序列,这会破坏人体姿态的固有空间结构,并使时空特征纠缠,难以捕捉复杂的姿态依赖关系。
- Method: 提出SAS-SSM方法:1)使用结构感知的时空卷积动态捕捉关节间的局部交互;2)应用基于步长的扫描策略构建多尺度全局结构表示。
- Result: 基于SAS-SSM的SasMamba模型在3D姿态估计中取得了有竞争力的性能,且相比现有混合模型参数显著减少。
- Conclusion: SAS-SSM方法能够灵活建模局部和全局姿态信息,同时保持线性计算复杂度,为3D人体姿态估计提供了有效的解决方案。
[18] Improve Contrastive Clustering Performance by Multiple Fusing-Augmenting ViT Blocks
Cheng Wang,Shuisheng Zhou,Fengjiao Peng,Jin Sheng,Feng Ye,Yinli Dong
Main category: cs.CV
TL;DR: 提出了一种基于Vision Transformer的多重融合增强ViT块(MFAVBs)用于图像聚类,通过显式融合正样本对的特征来提升聚类性能。
- Motivation: 现有的对比学习网络通过参数共享或动量更新隐式交互,未能充分利用正样本对的互补性和相似性来提取聚类特征。
- Method: 设计MFAVBs模块:两个预处理增强作为正样本对分别输入共享权重的ViT,输出特征融合后输入更大的ViT;学习特征被分割为新增强正样本对传递给后续FAVBs;最后将特征投影到实例级和聚类级空间计算交叉熵损失。
- Result: 在七个公开数据集上的实验表明,MFAVBs作为对比聚类骨干网络在聚类性能上优于最先进技术。
- Conclusion: MFAVBs通过显式特征融合和多重增强操作,有效提升了图像聚类的性能。
[19] Classifying Histopathologic Glioblastoma Sub-regions with EfficientNet
Sanyukta Adap,Ujjwal Baid,Spyridon Bakas
Main category: cs.CV
TL;DR: 该研究开发了一种基于EfficientNet架构的四步深度学习方法来分类胶质母细胞瘤的6个组织病理学区域,在训练集上表现优异(F1=0.98),但在验证和测试集上性能下降(F1=0.546和0.517),揭示了模型泛化到新数据的挑战。
- Motivation: 胶质母细胞瘤预后极差,尽管临床诊断有所进展但患者预后未显著改善。自动化、准确识别GBM不同组织学亚区域有助于大规模形态学理解该疾病。
- Method: 设计了四步深度学习方法,使用EfficientNet架构(B0-B4变体)在BraTS-Path 2024数据集上分类6个组织病理学区域,采用5折交叉验证。
- Result: EfficientNet-B1和B4在训练集上表现最佳(F1=0.98),但在验证集和测试集上性能显著下降(F1分别为0.546和0.517)。
- Conclusion: 训练、验证和测试数据间的性能差异凸显了开发能良好泛化到新数据的模型的挑战,这对临床应用至关重要。
[20] Improving VisNet for Object Recognition
Mehdi Fatan Serj,C. Alejandro Parraga,Xavier Otazu
Main category: cs.CV
TL;DR: 该研究探讨了VisNet及其增强变体在物体识别和对称性分类中的性能,通过引入径向基函数神经元、马氏距离学习和视网膜预处理等方法,显著提升了识别准确率。
- Motivation: 生物视觉系统在物体识别方面具有高效性,但在人工系统中复制这种能力仍具挑战性。研究旨在验证VisNet这类生物启发模型的有效性和适应性。
- Method: 使用VisNet模型及其增强变体,结合Hebbian学习、时间连续性、径向基函数神经元、马氏距离学习和视网膜预处理,构建不变性表征。
- Result: 在MNIST、CIFAR10和自定义对称物体数据集上的实验表明,增强版VisNet变体相比基线模型显著提高了识别准确率。
- Conclusion: VisNet架构具有强大的适应性和生物相关性,为神经科学和人工智能中的视觉识别提供了有力且可解释的框架。
[21] Asymmetric Cross-Modal Knowledge Distillation: Bridging Modalities with Weak Semantic Consistency
Riling Wei,Kelu Yao,Chuanguang Yang,Jin Wang,Zhuoyan Gao,Chao Li
Main category: cs.CV
TL;DR: 本文提出了一种非对称跨模态知识蒸馏框架SemBridge,用于解决弱语义一致性下的知识迁移问题,在遥感场景分类任务中取得了最先进的性能。
- Motivation: 现实场景中配对模态数据有限,对称跨模态知识蒸馏应用受限,需要研究弱语义一致性下的知识学习方法来连接语义重叠有限的模态。
- Method: 提出SemBridge框架,包含学生友好匹配模块(利用自监督学习获取语义知识并动态选择相关教师样本)和语义感知知识对齐模块(使用拉格朗日优化寻找最优传输路径)。
- Result: 在6种不同模型架构和多个数据集上,与7种现有方法相比,该框架实现了最先进的性能。
- Conclusion: SemBridge框架有效解决了弱语义一致性下的跨模态知识蒸馏问题,在遥感场景分类中表现出色。
[22] LLM-Guided Probabilistic Fusion for Label-Efficient Document Layout Analysis
Ibne Farabi Shihab,Sanjeda Akter,Anuj Sharma
Main category: cs.CV
TL;DR: 提出一种融合视觉预测与LLM结构先验的半监督文档布局理解框架,通过概率加权提升检测性能,在少量标注数据下达到SOTA效果。
- Motivation: 文档布局理解仍然需要大量标注数据,尽管半监督学习有所进展。需要一种方法能够有效利用未标注文档中的结构信息来减少数据依赖。
- Method: 使用OCR-LLM流水线推断文档层次区域,通过逆方差融合将教师检测器输出与LLM结构先验结合,生成精炼的伪标签。采用实例自适应门控机制优化权重分配。
- Result: 在PubLayNet上,使用5%标注数据:轻量级SwiftFormer达到88.2±0.3 AP;LayoutLMv3达到89.7±0.4 AP,超越标准半监督学习(89.1±0.4 AP)并匹配需要1亿+页面预训练的UDOP(89.8 AP)。开源LLM部署损失极小。
- Conclusion: LLM结构先验与轻量级和预训练架构互补,能够提供语义消歧,实现隐私保护部署,在低数据场景下显著提升文档布局理解性能。
[23] Consistency Change Detection Framework for Unsupervised Remote Sensing Change Detection
Yating Liu,Yan Lu
Main category: cs.CV
TL;DR: 提出了一种新颖的一致性变化检测框架(CCDF),通过循环一致性模块和语义一致性模块解决生成器过拟合问题,在无监督遥感变化检测中表现优异
- Motivation: 现有的无监督方法通过生成器网络进行风格转换和重建来捕捉变化区域,但往往因生成器过拟合而导致性能不佳
- Method: 提出CCDF框架,包含循环一致性模块减少生成器过拟合,语义一致性模块实现细节重建
- Result: 大量实验表明该方法优于其他最先进方法
- Conclusion: CCDF框架有效解决了无监督遥感变化检测中的生成器过拟合问题,提高了检测性能
[24] HitoMi-Cam: A Shape-Agnostic Person Detection Method Using the Spectral Characteristics of Clothing
Shuji Ono
Main category: cs.CV
TL;DR: 提出HitoMi-Cam,一种基于光谱反射特性的轻量级、形状无关的人员检测方法,可在资源受限的边缘设备上实现实时检测,在CNN性能下降的搜救场景中表现优异。
- Motivation: 解决CNN目标检测的形状依赖性缺陷,特别是在训练数据未包含的姿势下性能下降的问题,为搜救等形状不可预测的实时应用场景提供解决方案。
- Method: 利用服装的光谱反射特性进行人员检测,在无GPU的资源受限边缘设备上实现HitoMi-Cam系统。
- Result: 处理速度达23.2fps(253x190像素),在模拟搜救场景中平均精度达93.5%,远超对比CNN模型的最佳53.8%,误报率极低。
- Conclusion: HitoMi-Cam不是CNN检测器的替代品,而是在特定条件下(如形状不可预测的灾难救援场景)的补充工具,光谱检测在边缘设备实时运行中具有可行性。
[25] Negative Entity Suppression for Zero-Shot Captioning with Synthetic Images
Zimao Lu,Hui Xu,Bing Liu,Ke Wang
Main category: cs.CV
TL;DR: 提出Negative Entity Suppression (NES)方法解决零样本图像描述中的幻觉问题,通过合成图像、负实体过滤和注意力级抑制三个步骤,在保持域内性能的同时提升跨域泛化能力。
- Motivation: 文本训练方法在零样本图像描述中面临跨域泛化差和幻觉问题,检索方法可能因检索到无关内容而加剧幻觉,需要解决负实体问题。
- Method: NES包含三阶段:使用合成图像确保训练和推理中图像到文本检索的一致性;过滤检索内容中的负实体;应用注意力级抑制来减少幻觉倾向特征的影响。
- Result: 在多个基准测试中,NES在保持域内性能竞争力的同时,提升了跨域迁移能力并降低了幻觉率,在零样本图像描述中取得了新的最优结果。
- Conclusion: NES方法有效解决了零样本图像描述中的幻觉问题,通过负实体抑制机制显著提升了跨域泛化性能。
[26] SPEED-Q: Staged Processing with Enhanced Distillation towards Efficient Low-bit On-device VLM Quantization
Tianyu Guo,Shanwei Zhao,Shiai Zhu,Chenguang Ma
Main category: cs.CV
TL;DR: SPEED-Q是一个针对视觉语言模型(VLMs)的低比特权重量化框架,专门解决小型十亿参数级VLMs在边缘设备上的部署问题。
- Motivation: 在边缘设备上部署VLMs需要低延迟和隐私保护,但现有研究很少探索VLMs的激进量化,特别是适合资源受限设备的1B-2B参数模型。
- Method: 提出SPEED-Q框架,包含分阶段敏感度自适应机制来协调不同模态性能,以及蒸馏增强量化策略来稳定训练过程并减少数据依赖。
- Result: 在多个基准测试中,SPEED-Q在2位设置下比现有量化方法准确率高6倍,在2位和4位设置下均优于先前的设备上VLMs。
- Conclusion: SPEED-Q能够实现复杂VLMs的准确、稳定且数据高效的量化,是首个专门为小型十亿参数级VLMs低比特量化设计的框架。
[27] Machines Serve Human: A Novel Variable Human-machine Collaborative Compression Framework
Zifu Zhang,Shengxi Li,Xiancheng Sun,Mai Xu,Zhengyuan Liu,Jingyuan Xia
Main category: cs.CV
TL;DR: 提出Diff-FCHM方法,首次基于机器视觉压缩构建人机协同压缩框架,通过扩散先验恢复高保真细节,在机器视觉和人类视觉压缩方面均取得显著优势。
- Motivation: 现有协同压缩方法主要基于人类视觉压缩流程,在整合机器视觉压缩时存在复杂度和比特率不足的问题。机器视觉仅关注图像/视频核心区域,所需信息远少于人类视觉压缩。
- Method: 基于机器视觉导向的压缩构建协同框架,开发即插即用可变比特率策略,渐进聚合机器视觉压缩语义,利用扩散先验无缝恢复人类视觉的高保真细节。
- Result: 实验验证Diff-FCHM在机器视觉和人类视觉压缩方面均取得持续优越性能,具有显著优势。
- Conclusion: 成功实现了首个基于机器视觉压缩的人机协同压缩方法,为同时服务于人类感知和机器智能的图像/视频数据压缩提供了有效解决方案。
[28] From Structure to Detail: Hierarchical Distillation for Efficient Diffusion Model
Hanbo Cheng,Peng Wang,Kaixiang Lei,Qi Li,Zhen Zou,Pengfei Hu,Jun Du
Main category: cs.CV
TL;DR: 本文提出分层蒸馏(HD)框架,将轨迹蒸馏和分布蒸馏结合,前者提供结构草图作为初始化,后者进行细节精炼,并引入自适应加权判别器(AWD)来提升生成质量。
- Motivation: 扩散模型的推理延迟阻碍实时应用。现有轨迹蒸馏方法保留全局结构但牺牲高频细节,分布蒸馏方法保真度高但易出现模式崩溃和训练不稳定。需要结合两者优势。
- Method: 1. 分层蒸馏框架:轨迹蒸馏作为结构草图提供初始化,分布蒸馏进行精炼;2. 自适应加权判别器(AWD):动态分配token权重,专注局部缺陷进行细节优化。
- Result: 在ImageNet 256×256上单步模型FID达到2.26,媲美250步教师模型;在高分辨率文本到图像MJHQ基准测试中表现优异,证明方法通用性。
- Conclusion: 该方法为高保真单步扩散模型建立了稳健的新范式,成功结合了轨迹蒸馏和分布蒸馏的优势。
[29] Boosting Adversarial Transferability via Ensemble Non-Attention
Yipeng Zou,Qin Liu,Jie Wu,Yu Peng,Guo Chen,Hui Zhou,Guanghui Ye
Main category: cs.CV
TL;DR: NAMEA是一种新颖的集成攻击方法,通过将集成模型中非注意力区域的梯度整合到迭代梯度优化过程中,显著提升了跨异构模型架构的对抗样本迁移性。
- Motivation: 现有集成攻击在跨异构模型架构迁移时效果不佳,主要原因是异构代理模型的梯度更新方向差异很大,难以在充分利用个体模型的同时减少集成模型的梯度方差。
- Method: 提出NAMEA方法,首次将集成模型中非注意力区域的梯度整合到迭代梯度优化中。通过观察发现异构模型的注意力区域差异很大,因此分别融合注意力区域和非注意力区域的梯度,使用元学习方式合并梯度。
- Result: 在ImageNet数据集上的实验表明,NAMEA比当前最先进的集成攻击方法AdaEA和SMER分别平均提升了15.0%和9.6%的攻击成功率。
- Conclusion: 这是首次探索集成非注意力在提升跨架构迁移性方面的能力,为发起集成攻击提供了新的思路。
[30] Neural B-frame Video Compression with Bi-directional Reference Harmonization
Yuxi Liu,Dengchao Jin,Shuai Huo,Jiawen Gu,Chao Zhou,Huihui Bai,Ming Lu,Zhan Ma
Main category: cs.CV
TL;DR: 提出了一种新的双向参考帧协调视频压缩方法BRHVC,通过双向运动收敛和双向上下文融合来优化双向参考帧的利用,在HEVC数据集上超越了传统编码方法VTM-RA。
- Motivation: 神经B帧视频压缩(NBVC)相比P帧压缩研究较少,虽然可以利用双向参考帧获得更好的压缩性能,但分层编码可能导致连续时间预测复杂化,特别是在帧跨度较大的层次上,造成两个参考帧贡献不平衡。
- Method: 提出BRHVC方法,包含双向运动收敛(BMC)和双向上下文融合(BCF)。BMC在运动压缩中收敛多个光流,实现更准确的大规模运动补偿;BCF在运动补偿精度指导下显式建模参考上下文的权重。
- Result: 实验结果表明BRHVC超越了之前最先进的神经视频压缩方法,甚至在HEVC数据集上超过了传统编码VTM-RA(随机访问配置)。
- Conclusion: 通过更高效的运动和上下文处理,BRHVC能够有效协调双向参考帧,显著提升了神经B帧视频压缩的性能。
[31] FGM-HD: Boosting Generation Diversity of Fractal Generative Models through Hausdorff Dimension Induction
Haowei Zhang,Yuanpei Zhao,Jizhe Zhou,Mao Li
Main category: cs.CV
TL;DR: 提出基于Hausdorff维度的FGM-HD框架,通过可学习的HD估计方法和动态调度策略,在保持图像质量的同时显著提升分形生成模型的多样性
- Motivation: 分形生成模型(FGMs)能生成高质量图像,但其固有的自相似性限制了输出图像的多样性。需要解决FGMs多样性不足的问题
- Method: 1) 提出可学习的HD估计方法直接从图像嵌入预测HD;2) 采用基于HD的损失函数和单调动量驱动调度策略;3) 在推理时使用HD引导的拒绝采样选择几何更丰富的输出
- Result: 在ImageNet数据集上的实验表明,FGM-HD框架相比原始FGMs输出多样性提升了39%,同时保持了相当的图像质量
- Conclusion: 这是首个将HD引入FGM的工作,有效提升了生成输出的多样性,并为FGM发展提供了理论贡献
[32] AuthSig: Safeguarding Scanned Signatures Against Unauthorized Reuse in Paperless Workflows
RuiQiang Zhang,Zehua Ma,Guanjie Wang,Chang Liu,Hengyi Wang,Weiming Zhang
Main category: cs.CV
TL;DR: AuthSig是一个基于生成模型和水印的新型静态电子签名框架,通过将认证信息嵌入签名图像来解决静态扫描签名的安全问题,实现"一次签名,一次使用"策略。
- Motivation: 随着无纸化工作流程的深入,签名从传统纸质转向电子格式。尽管有动态压力敏感和PKI数字签名,静态扫描签名因便利性仍广泛使用,但这些图像几乎失去认证属性,无法可靠验证且易被恶意复制重用。
- Method: 利用人类视觉系统对细微风格变化不敏感的特性,AuthSig在生成过程中精细调节风格嵌入来隐式编码水印位。为解决手写签名数据稀缺问题,引入关键点驱动的数据增强策略增强风格多样性以支持鲁棒水印嵌入。
- Result: 实验结果显示,AuthSig在数字域失真和签名特定退化下提取准确率超过98%,在打印扫描场景中仍保持有效。
- Conclusion: AuthSig框架成功解决了静态电子签名的安全认证问题,通过生成式水印技术实现了可靠的签名验证和防复制保护。
[33] Efficient and Effective In-context Demonstration Selection with Coreset
Zihua Wang,Jiarui Wang,Haiyang Xu,Ming Yan,Fei Huang,Xu Yang,Xiu-Shen Wei,Siya Mi,Yu Zhang
Main category: cs.CV
TL;DR: 提出CoDR框架,通过核心集构建和双重检索机制,解决ICL中演示样本选择的效率与效果平衡问题。
- Motivation: 传统演示选择方法(随机、相似性、信息分数采样)在效率和效果上存在不足,无法有效平衡两者。
- Method: 使用聚类剪枝构建多样化核心集,并采用双重检索机制实现全局演示选择。
- Result: 实验表明CoDR显著提升了ICL性能,优于现有策略。
- Conclusion: CoDR为演示选择提供了高效且有效的解决方案。
[34] WDT-MD: Wavelet Diffusion Transformers for Microaneurysm Detection in Fundus Images
Yifei Sun,Yuzhi He,Junhao Jia,Jinhong Wang,Ruiquan Ge,Changmiao Wang,Hongxia Xu
Main category: cs.CV
TL;DR: 提出WDT-MD框架,通过小波扩散Transformer解决微动脉瘤检测中的身份映射、假阳性高和正常特征重建差三大问题,在IDRiD和e-ophtha数据集上表现优于现有方法。
- Motivation: 微动脉瘤是糖尿病视网膜病变的最早病理标志,但人工筛查劳动密集且易出错。现有基于扩散的异常检测方法存在身份映射、难以区分微动脉瘤与其他异常、正常特征重建不佳三大限制,阻碍临床应用。
- Method: 提出WDT-MD框架:1)噪声编码图像条件机制避免身份映射;2)通过修复合成伪正常模式引入像素级监督;3)结合扩散Transformer全局建模能力与多尺度小波分析的小波扩散Transformer架构。
- Result: 在IDRiD和e-ophtha MA数据集上的综合实验表明,WDT-MD在像素级和图像级微动脉瘤检测中均优于最先进方法。
- Conclusion: WDT-MD框架显著提升了微动脉瘤检测性能,对改善早期糖尿病视网膜病变筛查具有重要前景。
[35] An ICTM-RMSAV Framework for Bias-Field Aware Image Segmentation under Poisson and Multiplicative Noise
Xinyu Wang,Wenjun Yao,Fanghui Song,Zhichang Guo
Main category: cs.CV
TL;DR: 提出了一种结合去噪项的变分分割模型,适用于受Gamma分布乘性噪声和泊松噪声污染的图像,通过自适应TV正则化和偏置场估计解决强度不均匀性问题。
- Motivation: 现有图像分割方法在图像被严重噪声污染和存在强度不均匀性时性能下降,需要开发能同时处理噪声和强度不均匀性的鲁棒分割方法。
- Method: 在ICTM框架下集成去噪项,包括I-散度项和自适应TV正则化器,使用灰度级指标的空间自适应权重,估计平滑变化的偏置场,采用RMSAV方案进行高效优化。
- Result: 在合成和真实图像上的广泛实验表明,该模型在存在强度不均匀性和多种噪声类型的情况下,相比竞争方法实现了更优越的准确性和鲁棒性。
- Conclusion: 所提出的模型能够有效处理噪声污染和强度不均匀性,在图像分割任务中表现出优异的性能。
[36] T-Rex-Omni: Integrating Negative Visual Prompt in Generic Object Detection
Jiazhou Zhou,Qing Jiang,Kanghao Chen,Lutao Jiang,Yuanhuiyi Lyu,Ying-Cong Chen,Lei Zhang
Main category: cs.CV
TL;DR: T-Rex-Omni是一个新颖的开放集目标检测框架,通过引入负视觉提示来抑制视觉相似但语义不同的干扰物,显著提升了零样本检测性能。
- Motivation: 当前开放集目标检测器仅依赖基于文本描述或视觉示例的正向提示,在面对视觉相似但语义不同的干扰物时表现脆弱。
- Method: 提出了统一的视觉提示编码器联合处理正负视觉提示,训练免费的负向否定计算模块动态抑制负响应,以及负向否定铰链损失增强正负嵌入的区分度。
- Result: 在零样本检测中表现出色,显著缩小了视觉提示与文本提示方法之间的性能差距,在长尾场景中表现尤为突出(LVIS-minival上达到51.2 AP_r)。
- Conclusion: 负向提示是推进开放集视觉识别系统的关键新维度,T-Rex-Omni支持灵活的正向和联合正负推理模式部署。
[37] Causally-Grounded Dual-Path Attention Intervention for Object Hallucination Mitigation in LVLMs
Liu Yu,Zhonghao Chen,Ping Kuang,Zhikun Feng,Fan Zhou,Lan Wang,Gillian Dobbie
Main category: cs.CV
TL;DR: Owl是一个基于因果推理的双模态注意力重加权框架,通过建模幻觉过程的结构因果图,将视觉和文本注意力作为中介变量,提出VTACR指标量化模态贡献不平衡,并通过细粒度注意力干预和双路径对比解码策略显著减少目标幻觉。
- Motivation: 现有基于语言解码器的缓解方法通常独立调节视觉或文本注意力,忽略了它们作为两个关键因果因素的相互作用。目标幻觉在大型视觉语言模型中仍然是一个关键挑战。
- Method: 提出Owl框架,通过结构因果图建模幻觉过程;引入VTACR指标量化模态贡献不平衡;设计细粒度注意力干预机制,动态调整token和layer级注意力;提出双路径对比解码策略,一条路径强调视觉基础预测,另一条放大幻觉预测。
- Result: 在POPE和CHAIR基准测试中,Owl实现了显著的幻觉减少,在保持视觉语言理解能力的同时,在忠实度方面设定了新的SOTA。
- Conclusion: Owl通过因果推理和双模态注意力调节,有效缓解了LVLM中的目标幻觉问题,为幻觉缓解提供了新的解决方案。
[38] Dense Cross-Scale Image Alignment With Fully Spatial Correlation and Just Noticeable Difference Guidance
Jinkun You,Jiaxue Li,Jie Zhang,Yicong Zhou
Main category: cs.CV
TL;DR: 提出了一种密集跨尺度图像对齐模型,通过考虑跨尺度特征相关性来降低对齐难度,支持精度与效率的灵活权衡,并引入全空间相关模块和恰可察觉差异来提升精度。
- Motivation: 现有无监督图像对齐方法存在精度有限和计算复杂度高的问题,需要开发更准确且高效的对齐方法。
- Method: 采用密集跨尺度图像对齐模型,考虑跨尺度特征相关性;引入全空间相关模块提升精度;利用恰可察觉差异使模型关注对失真更敏感的图像区域。
- Result: 广泛的定量和定性实验表明,该方法在精度和效率方面均优于现有最先进方法。
- Conclusion: 所提出的密集跨尺度图像对齐模型能够有效解决现有方法的局限性,在保持低计算成本的同时显著提升对齐精度。
[39] USF-Net: A Unified Spatiotemporal Fusion Network for Ground-Based Remote Sensing Cloud Image Sequence Extrapolation
Penghui Niu,Taotao Cai,Jiashuai She,Yajuan Zhang,Junhua Gua,Ping Zhanga,Jungong Hane,Jianxin Li
Main category: cs.CV
TL;DR: 提出USF-Net网络解决地基遥感云图序列外推问题,通过自适应大核卷积和低复杂度注意力机制,结合时间流信息,在编码器-解码器框架中实现时空融合。
- Motivation: 现有方法存在三个主要局限:依赖静态核缺乏自适应多分辨率特征提取、时间引导不足导致长程时空依赖建模不佳、注意力机制二次计算成本高影响实际部署效率。
- Method: USF-Net包含编码器(三个基础层)、USTM模块(SiB带SSM动态捕获多尺度上下文信息,TiB带TAM高效建模长程时间依赖)、DSM带TGM统一建模时空依赖,解码器使用DUM解决"鬼影效应"。
- Result: 在ASI-CIS数据集上的大量实验表明,USF-Net显著优于现有最先进方法,在预测精度和计算效率之间实现了优越平衡。
- Conclusion: USF-Net为地基云图外推提供了有效的解决方案,同时发布了ASI-CIS数据集,代码将在GitHub开源。
[40] 4KDehazeFlow: Ultra-High-Definition Image Dehazing via Flow Matching
Xingchi Chen,Pu Wang,Xuerui Li,Chaopeng Li,Juxiang Zhou,Jianhou Gan,Dianjie Lu,Guijuan Zhang,Wenqi Ren,Zhuoran Zheng
Main category: cs.CV
TL;DR: 提出了4KDehazeFlow方法,基于流匹配和雾感知向量场,通过渐进优化连续向量场流实现高质量去雾,兼容多种深度学习网络,使用可学习3D查找表编码雾变换参数,采用四阶龙格-库塔ODE求解器稳定求解去雾流场。
- Motivation: 解决超高清图像去雾面临的挑战:先验方法场景适应性有限,深度学习方法计算复杂度高且存在色彩失真问题。
- Method: 基于流匹配和雾感知向量场建模去雾过程,使用可学习3D查找表编码变换参数,采用四阶龙格-库塔ODE求解器迭代求解去雾流场。
- Result: 在实验中超过7种最先进方法,PSNR提升2dB,在浓雾场景和色彩保真度方面表现更好。
- Conclusion: 4KDehazeFlow是一种高效、高质量的超高清图像去雾方法,具有通用性和优越性能。
[41] PAN: A World Model for General, Interactable, and Long-Horizon World Simulation
PAN Team,Jiannan Xiang,Yi Gu,Zihan Liu,Zeyu Feng,Qiyue Gao,Yiyan Hu,Benhao Huang,Guangyi Liu,Yichi Yang,Kun Zhou,Davit Abrahamyan,Arif Ahmad,Ganesh Bannur,Junrong Chen,Kimi Chen,Mingkai Deng,Ruobing Han,Xinqi Huang,Haoqiang Kang,Zheqi Li,Enze Ma,Hector Ren,Yashowardhan Shinde,Rohan Shingre,Ramsundar Tanikella,Kaiming Tao,Dequan Yang,Xinle Yu,Cong Zeng,Binglin Zhou,Hector Liu,Zhiting Hu,Eric P. Xing
Main category: cs.CV
TL;DR: PAN是一个通用的、可交互的、长视野的世界模型,通过高质量视频模拟预测未来世界状态,结合了基于LLM的自回归潜在动态骨干和视频扩散解码器,实现潜在空间推理与世界动态的统一。
- Motivation: 现有视频生成模型缺乏因果控制、交互性和长视野一致性,而现有世界模型往往局限于特定领域且深度和可控性有限,难以泛化到多样化环境和交互格式。
- Method: 采用生成潜在预测(GLP)架构,结合基于大语言模型的自回归潜在动态骨干(支持语言指定动作)和视频扩散解码器(重建感知细节和时间连贯的视觉观察)。
- Result: 在大规模视频-动作对数据集上训练,PAN在动作条件世界模拟、长视野预测和模拟推理方面表现优异,优于其他视频生成器和世界模型。
- Conclusion: PAN朝着通用世界模型迈出了一步,能够为推理和行动提供未来世界状态的预测模拟。
[42] VietMEAgent: Culturally-Aware Few-Shot Multimodal Explanation for Vietnamese Visual Question Answering
Hai-Dang Nguyen,Minh-Anh Dang,Minh-Tan Le,Minh-Tuan Le
Main category: cs.CV
TL;DR: 提出了VietMEAgent框架,用于解决越南文化相关的视觉问答问题,通过结合文化对象检测和结构化程序生成,实现可解释的答案预测和解释。
- Motivation: 当前视觉问答系统在处理文化特定内容时存在局限,因为文化知识在训练语料中代表性不足,且推理过程对最终用户不够透明。
- Method: 集成文化对象检测骨干网络与结构化程序生成层,构建包含文化实体知识库的双模态解释模块,结合视觉注意力和结构化文本解释。
- Result: 构建了越南文化VQA数据集,展示了基于编程的方法在文化AI中的实用性,系统能够提供透明解释,揭示计算原理和文化背景。
- Conclusion: 该框架支持教育和文化保护,强调可解释性和文化敏感性,为文化AI提供了实用的编程方法。
[43] Diversifying Counterattacks: Orthogonal Exploration for Robust CLIP Inference
Chengze Jiang,Minjing Dong,Xinli Shi,Jie Gui
Main category: cs.CV
TL;DR: 提出了DOC方法,通过正交梯度方向和动量更新增强对抗性攻击的多样性,提高视觉语言预训练模型的鲁棒性
- Motivation: 现有的对抗性防御方法TTC由于优化目标限制,生成的对抗性扰动多样性不足,无法有效应对广泛的攻击模式
- Method: 提出方向正交对抗攻击(DOC),结合正交梯度方向和动量更新来扩展对抗性攻击空间,并引入基于平均余弦相似度的方向敏感度评分
- Result: 在16个数据集上的实验表明,DOC在各种攻击下都能提高对抗鲁棒性,同时保持竞争力的干净准确率
- Conclusion: DOC通过增强对抗性攻击的多样性和覆盖范围,有效提升了视觉语言预训练模型的对抗鲁棒性
[44] Composition-Incremental Learning for Compositional Generalization
Zhen Li,Yuwei Wu,Chenchen Jing,Che Sun,Chuanhao Li,Yunde Jia
Main category: cs.CV
TL;DR: 该论文提出了一种用于组合零样本学习的组合增量学习框架,旨在通过持续学习新组合来逐步提升模型的组合泛化能力。
- Motivation: 现实世界数据持续涌现,组合方式近乎无限、长尾分布且不完全可见,因此需要模型能够以增量方式逐步提升组合泛化能力。
- Method: 提出了一个伪重放框架,利用视觉合成器合成已学习组合的视觉表示,并通过语言基元蒸馏机制在学习过程中保持对齐的基元表示。
- Result: 在构建的MIT-States-CompIL和C-GQA-CompIL基准上进行了广泛实验,证明了所提框架的有效性。
- Conclusion: 该研究为组合增量学习提供了有效的解决方案,能够持续提升模型的组合泛化能力。
[45] Ultra-Light Test-Time Adaptation for Vision--Language Models
Byunghyun Kim
Main category: cs.CV
TL;DR: UL-TTA是一种无需训练和反向传播的测试时自适应方法,通过在线EM风格程序仅调整logit级别参数(类别原型、先验概率和温度),在领域偏移下显著提升CLIP等视觉语言模型的准确性和校准性。
- Motivation: 现有测试时自适应方法需要反向传播、协方差估计或大量内存,不适用于流式和边缘场景。本文旨在开发轻量级、无需训练的自适应框架来解决领域偏移下的特征漂移、类别先验不匹配和校准问题。
- Method: 提出UL-TTA框架:冻结主干网络,仅在线调整logit级别参数;使用选择性样本过滤、闭式贝叶斯更新、解耦温度预测和轻量防护机制来防止长期流中的漂移。
- Result: 在多个大规模跨域和OOD基准测试中,UL-TTA相比零样本CLIP平均提升4.7个百分点的top-1准确率,同时将ECE降低20-30%,延迟开销低于8%,在长达20万样本的流式测试中无崩溃。
- Conclusion: 研究表明仅通过logit级别的贝叶斯自适应就足以在领域偏移下为视觉语言模型获得最先进的准确率-校准权衡,无需更新任何主干网络参数。
[46] DKDS: A Benchmark Dataset of Degraded Kuzushiji Documents with Seals for Detection and Binarization
Rui-Yang Ju,Kohei Yamashita,Hirotaka Kameko,Shinsuke Mori
Main category: cs.CV
TL;DR: 本文介绍了DKDS数据集,专门针对包含印章和退化的日本草书文字(Kuzushiji)文档,提供了文本和印章检测、文档二值化两个基准任务,并给出了基线模型结果。
- Motivation: 现有的OCR方法在干净的Kuzushiji文档上表现良好,但无法有效处理文档退化和印章等噪声,目前缺乏专门针对这些挑战的数据集。
- Method: 构建了DKDS数据集,包含两个基准任务:(1) 使用YOLO模型进行文本和印章检测;(2) 使用传统算法、K-means聚类和GAN方法进行文档二值化。
- Result: 提供了文本和印章检测、文档二值化的基线结果,数据集和实现代码已公开。
- Conclusion: DKDS数据集填补了Kuzushiji文档处理中噪声挑战的空白,为相关研究提供了新的基准平台。
[47] PIFF: A Physics-Informed Generative Flow Model for Real-Time Flood Depth Mapping
ChunLiang Wu,Tsunhua Yang,Hungying Chen
Main category: cs.CV
TL;DR: PIFF是一个基于物理的流生成神经网络,用于近实时洪水深度估计,通过结合物理约束和数据驱动学习,替代昂贵的数值模拟。
- Motivation: 传统洪水测绘方法如数值建模和航空摄影在效率和可靠性方面存在局限,需要更高效的实时洪水预测方案。
- Method: 基于图像到图像的生成框架,将数字高程模型映射到洪水深度预测,使用简化的淹没模型嵌入水动力先验,并采用基于transformer的降雨编码器捕捉降水时间依赖性。
- Result: 在台湾台南26公里研究区域测试了182个降雨情景(24小时降雨量24-720毫米),结果表明PIFF为洪水预测和响应提供了有效的数据驱动替代方案。
- Conclusion: PIFF通过整合物理约束与数据驱动学习,能够准确捕捉降雨、地形、SPM与洪水之间的因果关系,实现准确、实时的洪水测绘。
[48] MACEval: A Multi-Agent Continual Evaluation Network for Large Models
Zijian Chen,Yuze Sun,Yuan Tian,Wenjun Zhang,Guangtao Zhai
Main category: cs.CV
TL;DR: MACEval是一个多智能体持续评估网络,用于大模型的动态评估,通过角色分配、过程数据生成和评估路由实现自动、高效、灵活的评估。
- Motivation: 现有的大模型评估基准多为封闭式,容易因数据污染导致过拟合,且维护成本高、难以适应模型能力的快速发展。
- Method: 采用多智能体交互式评估模式,通过角色分配、过程数据生成和级联智能体网络进行评估路由。
- Result: 在9个开放式任务和23个大模型上的实验表明,MACEval实现了自动、高效、经济的评估,并能灵活迁移或集成现有基准。
- Conclusion: MACEval为大模型评估开辟了新方向,提供了可持续、纵向的性能量化方法。
[49] PressTrack-HMR: Pressure-Based Top-Down Multi-Person Global Human Mesh Recovery
Jiayue Yuan,Fangting Xie,Guangwen Ouyang,Changhai Ma,Ziyu Wu,Heyu Ding,Quan Wan,Yi Ke,Yuchen Wu,Xiaohui Cai
Main category: cs.CV
TL;DR: PressTrack-HMR:一种基于压力信号的多人全局人体网格恢复方法,通过检测跟踪策略从原始压力数据中分离个体信号,并在多人交互压力数据集MIP上验证了其有效性。
- Motivation: 传统视觉方法在多人场景中受遮挡、光照不足和隐私问题限制,而基于压力信号的触觉交互提供了一种无遮挡、保护隐私的替代方案,但多人同时行走时如何区分混合压力信号仍是挑战。
- Method: 提出PressTrack-HMR,采用自上而下的检测跟踪策略,首先从原始压力数据中识别和分割每个个体的压力信号,然后对每个提取的个体信号执行人体网格恢复。
- Result: 在多人HMR任务中表现出色,达到89.2mm MPJPE和112.6mm WA-MPJPE100,展示了触觉垫在普遍、保护隐私的多人动作识别方面的潜力。
- Conclusion: PressTrack-HMR证明了仅使用压力信号进行多人全局人体网格恢复的可行性,为基于压力的人类运动分析在多人场景中的研究提供了新的数据集和方法。
[50] HOTFLoc++: End-to-End Hierarchical LiDAR Place Recognition, Re-Ranking, and 6-DoF Metric Localisation in Forests
Ethan Griffiths,Maryam Haghighat,Simon Denman,Clinton Fookes,Milad Ramezani
Main category: cs.CV
TL;DR: HOTFLoc++是一个用于森林环境LiDAR地点识别、重排序和6自由度定位的端到端框架,采用八叉树变换器提取多粒度层次局部描述符,在挑战性场景中表现出色。
- Motivation: 解决森林环境中LiDAR地点识别面临的杂波、自相似性和视角变化等挑战,提高定位精度和鲁棒性。
- Method: 使用八叉树变换器提取层次局部描述符,提出可学习的多尺度几何验证模块减少重排序失败,采用从粗到精的配准方法。
- Result: 在CS-Wild-Places数据集上平均Recall@1达到90.7%,比基线提升29.6个百分点;在Wild-Places和MulRan数据集上分别达到91.7%和96.0%;97.2%的6-DoF配准尝试误差小于2米和5度。
- Conclusion: 该方法在保持高精度的同时,运行时间比RANSAC快两个数量级,多尺度重排序模块平均减少约2倍的定位误差。
[51] DBINDS -- Can Initial Noise from Diffusion Model Inversion Help Reveal AI-Generated Videos?
Yanlin Wu,Xiaogang Yuan,Dezhi An
Main category: cs.CV
TL;DR: DBINDS是一个基于扩散模型反演的AI生成视频检测器,通过分析潜在空间动态而非像素特征,在单一生成器训练下实现跨生成器的强泛化性能。
- Motivation: AI生成视频技术快速发展,对内容安全和取证分析构成严重挑战。现有检测器主要依赖像素级视觉线索,对未见过的生成器泛化能力差。
- Method: 提出DBINDS检测器,通过扩散反演恢复初始噪声序列,发现真实和生成视频的初始噪声存在系统性差异。构建初始噪声差异序列(INDS),提取多领域多尺度特征,结合特征优化和贝叶斯搜索调优的LightGBM分类器。
- Result: 在GenVidBench基准测试中,DBINDS(仅用单一生成器训练)实现了强大的跨生成器性能,在有限数据设置下表现出良好的泛化性和鲁棒性。
- Conclusion: 基于扩散模型反演的潜在空间动态分析为AI生成视频检测提供了有效方法,能够在训练数据有限的情况下实现跨生成器的强泛化检测能力。
[52] Towards Trustworthy Dermatology MLLMs: A Benchmark and Multimodal Evaluator for Diagnostic Narratives
Yuhao Shen,Jiahe Qian,Shuping Zhang,Zhangtianyi Chen,Tao Lu,Juexiao Zhou
Main category: cs.CV
TL;DR: 提出了DermBench和DermEval评估框架,用于可靠评估多模态大语言模型在皮肤病诊断中的表现,解决了临床部署中的评估瓶颈问题。
- Motivation: 多模态大语言模型越来越多地用于从皮肤病图像直接生成诊断叙述,但可靠的评估仍然是临床负责任部署的主要瓶颈。
- Method: 构建DermBench基准测试集(4000张真实皮肤病图像+专家认证诊断叙述),并使用基于LLM的评判器对候选叙述进行多维度评分;训练DermEval无参考多模态评估器,能够对图像和生成叙述进行结构化批判和评分。
- Result: 在4500个病例的多样化数据集上实验表明,DermBench和DermEval与专家评分高度一致,平均偏差分别为0.251和0.117(满分5分),能够可靠衡量不同多模态LLM的诊断能力和可信度。
- Conclusion: 该评估框架实现了临床意义明确、可重现且可扩展的评估,为多模态模型在皮肤病诊断中的可靠部署提供了关键工具。
[53] Taming Object Hallucinations with Verified Atomic Confidence Estimation
Jiarui Liu,Weihao Xuan,Zhijing Jin,Mona Diab
Main category: cs.CV
TL;DR: TACO是一个通过自验证和置信度校准来减少多模态大语言模型幻觉的框架,无需外部视觉专家,在多个基准测试中表现优于直接提示和视觉对比解码方法。
- Motivation: 多模态大语言模型经常出现幻觉问题,特别是在对象存在性、属性和关系方面的错误,这降低了它们的可靠性。
- Method: TACO将响应分解为原子查询,通过改写减少对措辞的敏感性,使用自一致性(黑盒)或自置信度(灰盒)聚合来估计置信度,最后用语言模型精炼答案。
- Result: 在五个基准测试(POPE、MME、HallusionBench、AMBER和MM-Hal Bench)和两个MLLM上的实验表明,TACO始终优于直接提示和视觉对比解码,减少了系统性偏差并改善了置信度校准。
- Conclusion: TACO框架有效增强了多模态大语言模型的忠实性,证明了其在减轻幻觉方面的有效性。
[54] Spatial Information Bottleneck for Interpretable Visual Recognition
Kaixiang Shu,Kai Meng,Junqin Luo
Main category: cs.CV
TL;DR: 提出空间信息瓶颈(S-IB)框架,从信息论角度优化梯度归因,通过最大化前景区域互信息、最小化背景区域互信息,实现空间信息解耦,提升模型可解释性和鲁棒性。
- Motivation: 深度神经网络通常学习空间纠缠的表示,将判别性前景特征与虚假背景相关性混合,这削弱了模型的可解释性和鲁棒性。
- Method: 从信息论角度理解梯度归因,证明反向传播中的向量-雅可比积(VJP)构成输入特征相对于类别标签的最小充分统计量。提出编码-解码视角:前向传播将输入编码到类别空间,反向传播中的VJP将此编码解码回特征空间。通过空间信息瓶颈(S-IB)最大化前景VJP与输入的互信息,同时最小化背景区域的互信息。
- Result: 在五个基准测试上的实验表明,六种解释方法均获得普遍改进,实现了更好的前景集中和背景抑制,无需方法特定调优,同时获得一致的分类准确率提升。
- Conclusion: 直接优化训练期间VJP的空间结构可以改善各种解释范式的可视化质量,S-IB框架有效鼓励网络仅在类别相关空间区域编码信息。
[55] GRACE: Designing Generative Face Video Codec via Agile Hardware-Centric Workflow
Rui Wan,Qi Zheng,Ruoyu Zhang,Bu Chen,Jiaming Liu,Min Li,Minge Jing,Jinjia Zhou,Yibo Fan
Main category: cs.CV
TL;DR: 本文提出了一种面向FPGA的动画生成编解码器(AGC)边缘部署方案,通过算法压缩和软硬件协同设计,在PYNQ-Z1平台上实现了比CPU和GPU分别高24.9倍和4.1倍的能效。
- Motivation: AGC解码器在资源受限的边缘设备上部署面临参数多、算法适应性差、功耗高等挑战,需要高效的硬件加速方案。
- Method: 采用网络压缩方法(静态量化和层融合),设计基于协处理器范式的重叠加速器,包含卷积、网格采样、上采样等硬件引擎,并应用双缓冲流水线和循环展开等并行优化策略。
- Result: 在PYNQ-Z1平台上建立AGC FPGA原型,能效比CPU高24.9倍,比GPU高4.1倍,每个像素重建仅需11.7微焦耳。
- Conclusion: 提出的FPGA部署方案有效解决了AGC在边缘设备上的部署挑战,实现了显著的能效提升。
[56] Deep Learning for Metabolic Rate Estimation from Biosignals: A Comparative Study of Architectures and Signal Selection
Sarvenaz Babakhani,David Remy,Alina Roitberg
Main category: cs.CV
TL;DR: 本文系统评估了深度学习架构和生理信号选择在能量消耗估计中的作用,发现分钟通气量是最具预测性的单个信号,Transformer模型在所有活动中达到最低RMSE(0.87 W/kg)。
- Motivation: 现有研究很少区分神经网络架构和信号选择在能量消耗估计中的各自作用,本文旨在系统评估这两个方面。
- Method: 比较经典基线方法与新型神经网络架构,评估单个信号、信号对和分组传感器输入在不同身体活动中的表现。
- Result: 分钟通气量是最具预测性的单个信号,Transformer模型在所有活动中达到最低RMSE(0.87 W/kg)。低强度活动表现更好(RMSE低至0.29 W/kg),高强度活动RMSE较大但标准化误差相对可比。
- Conclusion: 研究揭示了强烈的个体间变异性,强调了自适应建模策略的必要性。
[57] Enriching Knowledge Distillation with Cross-Modal Teacher Fusion
Amir M. Mansourian,Amir Mohammad Babaei,Shohreh Kasaei
Main category: cs.CV
TL;DR: RichKD提出了一种多教师知识蒸馏框架,通过融合传统教师和CLIP的视觉语言知识,提供更丰富多样的监督信号,显著提升学生模型的性能和鲁棒性。
- Motivation: 现有知识蒸馏方法主要依赖单模态视觉信息,缺乏知识多样性,忽视了跨模态表示的潜力。CLIP的视觉语言知识作为补充监督源在知识蒸馏中尚未充分探索。
- Method: 提出简单有效的框架,将传统教师的logits和特征与CLIP的logits和特征进行融合。通过CLIP的多提示文本指导,融合监督既捕捉数据集特定信息,又获得语义丰富的视觉线索。
- Result: 融合教师产生更自信可靠的预测,显著增加自信正确案例,减少自信错误案例。与CLIP融合优化了整个logit分布,为非目标类别生成语义有意义的概率,提高了类间一致性和蒸馏质量。
- Conclusion: 尽管方法简单,RichKD在多个基准测试中持续优于现有基线方法,并在分布偏移和输入损坏条件下表现出更强的鲁棒性。
[58] DensiCrafter: Physically-Constrained Generation and Fabrication of Self-Supporting Hollow Structures
Shengqi Dang,Fu Chai,Jiaxin Li,Chao Yuan,Wei Ye,Nan Cao
Main category: cs.CV
TL;DR: DensiCrafter是一个生成轻量自支撑3D空心结构的框架,通过优化密度场实现,可减少43%材料质量并保持高几何保真度。
- Motivation: 现有3D生成模型往往忽略物理约束和可制造性考虑,需要解决生成既轻量又自支撑的3D设计挑战。
- Method: 从Trellis生成的粗体素网格出发,将其解释为连续密度场进行优化,引入三个可微分、物理约束且无需模拟的损失项,结合质量正则化和受限优化域。
- Result: 在文本到3D任务中实现了高达43%的材料质量减少,相比基线方法提高了稳定性并保持高几何保真度。
- Conclusion: 该方法能够可靠地制造空心设计并实现自支撑,无需对预训练模型进行架构修改即可集成。
[59] DualFete: Revisiting Teacher-Student Interactions from a Feedback Perspective for Semi-supervised Medical Image Segmentation
Le Yi,Wei Huang,Lei Zhang,Kefu Zhao,Yan Wang,Zizhou Wang
Main category: cs.CV
TL;DR: 提出了一种在师生框架中引入反馈机制的方法,通过学生向教师提供反馈来纠正错误传播,特别设计了双教师反馈模型来增强反馈动态性。
- Motivation: 医学图像分割中的师生范式容易受到图像固有模糊性的影响,导致错误监督和自我强化的偏见。现有方法多依赖外部修改,忽略了框架内在的错误纠正潜力。
- Method: 在师生框架中引入反馈机制,包括反馈归因器(识别触发学生更新的伪标签)和反馈接收器(确定反馈应用位置)。进一步提出双教师反馈模型,通过跨教师监督解决分歧。
- Result: 在三个医学图像基准测试上的综合评估表明,该方法能有效解决半监督医学图像分割中的错误传播问题。
- Conclusion: 反馈机制能有效对抗师生框架中的错误再确认,双教师模型通过动态反馈循环带来更多收益,避免了一致性错误。
[60] FQ-PETR: Fully Quantized Position Embedding Transformation for Multi-View 3D Object Detection
Jiangyong Yu,Changyong Shu,Sifan Zhou,Zichen Yu,Xing Hu,Yan Chen,Dawei Yang
Main category: cs.CV
TL;DR: FQ-PETR是一个针对PETR系列3D检测模型的完全量化框架,通过量化友好位置嵌入、双查找表算法和数值稳定后量化等创新,在W8A8量化下实现接近浮点精度(仅1%性能下降)和75%延迟降低。
- Motivation: PETR系列模型在3D检测中表现优异但存在高计算成本和内存占用问题,直接应用现有量化方法会导致严重精度下降,主要面临多模态特征幅度差异和非线性算子量化效率低两大挑战。
- Method: 提出三个关键技术:1)量化友好的LiDAR射线位置嵌入,用单点采样替换多点采样;2)双查找表算法高效近似非线性函数;3)数值稳定后量化,在softmax数值稳定后进行量化以减少注意力失真。
- Result: 在PETR、StreamPETR、PETRv2、MV2d等模型上,W8A8量化下实现接近浮点精度(仅1%性能下降),同时降低延迟高达75%,显著优于现有PTQ和QAT基线方法。
- Conclusion: FQ-PETR成功解决了PETR系列模型量化中的关键挑战,为3D检测模型的部署提供了高效的量化解决方案,在保持精度的同时大幅提升推理效率。
[61] Spatio-Temporal Context Learning with Temporal Difference Convolution for Moving Infrared Small Target Detection
Houzhang Fang,Shukai Guo,Qiuhuan Chen,Yi Chang,Luxin Yan
Main category: cs.CV
TL;DR: 提出了一种新颖的移动红外小目标检测网络TDCNet,通过时间差分卷积重参数化模块和多尺度运动上下文特征提取,有效解决了弱目标特征和复杂背景干扰的挑战。
- Motivation: 移动红外小目标检测在实际应用中至关重要,但由于目标特征弱和背景干扰复杂,仍然极具挑战性。现有方法在时空特征建模方面存在局限:时间差分方法运动线索明确但空间特征提取能力有限,3D卷积能有效表示时空特征但缺乏对时间维度运动动态的显式感知。
- Method: 提出TDCNet网络,包含时间差分卷积重参数化模块(三个并行TDC块,捕获不同时间范围的上下文依赖)和TDC引导的时空注意力机制(在TDC主干和并行3D主干之间进行交叉注意力建模全局语义依赖)。
- Result: 在IRSTD-UAV和公共红外数据集上的大量实验表明,TDCNet在移动目标检测中实现了最先进的检测性能。
- Conclusion: TDCNet通过有效提取和增强时空特征,显著提高了移动红外小目标检测性能,特别是在抑制复杂背景中的伪运动杂波方面表现优异。
[62] Learning by Neighbor-Aware Semantics, Deciding by Open-form Flows: Towards Robust Zero-Shot Skeleton Action Recognition
Yang Chen,Miaoge Li,Zhijie Rao,Deze Zeng,Song Guo,Jingcai Guo
Main category: cs.CV
TL;DR: 提出Flora方法用于零样本骨架动作识别,通过灵活的邻居感知语义调整和分布感知流分类器解决现有方法的两个核心问题:不稳定的点对点对齐和僵化的分类器边界。
- Motivation: 现有零样本骨架动作识别方法存在两个根本问题:(1) 由于不完美语义导致的脆弱点对点对齐;(2) 受限于静态决策边界和粗粒度锚点的僵化分类器。
- Method: Flora包含两个核心组件:1) 灵活的邻居感知语义调整,通过融入相邻类间上下文线索形成方向感知区域语义,结合跨模态几何一致性目标确保稳定的点对区域对齐;2) 开放形式分布感知流分类器,使用无噪声流匹配弥合语义与骨架潜在嵌入的模态分布差距,同时通过无条件对比正则化增强可区分性。
- Result: 在三个基准数据集上的广泛实验验证了方法的有效性,即使在仅使用10%可见数据训练时也表现出特别令人印象深刻的性能。
- Conclusion: Flora方法通过灵活的语义调整和分布感知流分类器,有效解决了零样本骨架动作识别中的对齐和分类器边界问题,在多个数据集上取得了优异性能。
[63] OUGS: Active View Selection via Object-aware Uncertainty Estimation in 3DGS
Haiyi Li,Qi Chen,Denis Kalkofen,Hsiang-Ting Chen
Main category: cs.CV
TL;DR: OUGS提出了一种基于3D高斯泼溅的主动重建框架,通过物理参数的不确定性传播和语义分割,实现针对特定物体的高效高质量重建。
- Motivation: 现有主动重建方法依赖场景级不确定性度量,容易受到无关背景干扰,导致物体中心任务中的视图选择效率低下。
- Method: 从3D高斯基元的物理参数(位置、尺度、旋转)推导不确定性,通过渲染雅可比矩阵传播协方差,结合语义分割掩码生成目标感知的不确定性分数。
- Result: 在公开数据集上的实验表明,该方法显著提高了3DGS重建过程的效率,相比现有方法对目标物体实现了更高质量的重建。
- Conclusion: OUGS提供了一个原则性的物理基础不确定性模型,既能有效提升物体重建质量,也能作为全局场景的鲁棒不确定性估计器。
[64] BronchOpt : Vision-Based Pose Optimization with Fine-Tuned Foundation Models for Accurate Bronchoscopy Navigation
Hongchao Shu,Roger D. Soberanis-Mukul,Jiru Xu,Hao Ding,Morgan Ringel,Mali Shen,Saif Iftekar Sayed,Hedyeh Rafii-Tari,Mathias Unberath
Main category: cs.CV
TL;DR: 提出了一个基于视觉的支气管镜导航框架,通过2D-3D配准实现术中内窥镜视图与术前CT解剖的帧级定位,并创建了首个公开的合成基准数据集来标准化评估。
- Motivation: 由于呼吸运动、解剖变异和CT与身体差异导致的变形和不对齐,支气管镜尖端在术中的精确定位仍然具有挑战性。现有视觉方法在跨域和跨患者泛化方面存在不足。
- Method: 使用微调的模态和域不变编码器直接计算真实内窥镜RGB帧与CT渲染深度图之间的相似性,通过可微分渲染模块迭代优化相机位姿。仅使用合成数据训练,在独立基准数据集上评估。
- Result: 在合成基准数据集上达到平均平移误差2.65毫米和旋转误差0.19弧度,在真实患者数据上表现出强大的跨域泛化能力,无需域特定适配即可实现一致的2D-3D对齐。
- Conclusion: 该框架通过迭代视觉优化实现了鲁棒的域不变定位,新的基准数据集为基于视觉的支气管镜导航的标准化进展奠定了基础。
[65] Hand Held Multi-Object Tracking Dataset in American Football
Rintaro Otsubo,Kanta Sawafuji,Hideo Saito
Main category: cs.CV
TL;DR: 构建了首个美式橄榄球球员检测与追踪数据集,评估了多种方法,发现微调检测模型和集成重识别模型能显著提升追踪精度。
- Motivation: 解决美式橄榄球球员追踪中因频繁遮挡和身体接触带来的挑战,填补该领域缺乏标准化数据集的空白,实现公平的方法比较。
- Method: 构建首个美式橄榄球球员检测与追踪数据集,比较评估多种检测和追踪方法,包括微调检测模型和集成重识别模型。
- Result: 在拥挤场景中实现了准确的检测和追踪,微调检测模型性能优于预训练模型,集成微调检测器和重识别模型显著提升了追踪精度。
- Conclusion: 该工作实现了在具有挑战性的高密度场景中对美式橄榄球球员的鲁棒检测与追踪,超越了传统方法的性能。
[66] Revisiting Cross-Architecture Distillation: Adaptive Dual-Teacher Transfer for Lightweight Video Models
Ying Peng,Hongsen Ye,Changxin Huang,Xiping Hu,Jian Chen,Runhao Zeng
Main category: cs.CV
TL;DR: 提出双教师知识蒸馏框架,同时利用ViT和CNN教师来指导轻量CNN学生,通过差异感知权重分配和结构差异感知蒸馏策略,显著提升视频动作识别性能。
- Motivation: Vision Transformers在视频动作识别中表现优异但计算成本高,轻量CNNs效率高但精度不足。现有跨架构知识蒸馏方法存在架构不匹配问题,且忽视了强CNN教师的价值。
- Method: 双教师知识蒸馏框架:1) 差异感知教师加权 - 基于教师置信度和与学生预测差异动态融合ViT和CNN教师预测;2) 结构差异感知蒸馏 - 学生通过轻量辅助分支学习ViT与CNN教师间的残差特征,关注可迁移的架构差异。
- Result: 在HMDB51、EPIC-KITCHENS-100和Kinetics-400基准测试中持续优于最先进蒸馏方法,在HMDB51上最高获得5.95%的准确率提升。
- Conclusion: 提出的双教师蒸馏框架有效解决了架构不匹配问题,通过协同利用异质和同质教师,显著提升了轻量CNN学生的性能。
[67] DreamPose3D: Hallucinative Diffusion with Prompt Learning for 3D Human Pose Estimation
Jerrin Bright,Yuhao Chen,John S. Zelek
Main category: cs.CV
TL;DR: DreamPose3D是一个基于扩散模型的3D人体姿态估计框架,通过动作感知推理和时间想象来提升姿态估计的准确性和鲁棒性。
- Motivation: 现有方法主要依赖几何线索并独立预测每帧3D姿态,难以解决模糊动作和泛化到真实场景的问题。受人类理解和预测运动方式的启发,需要结合高层意图推理和时间一致性建模。
- Method: 使用扩散模型框架,通过从2D姿态序列提取任务相关动作提示来动态调节去噪过程;引入包含运动学关节亲和力的表示编码器;使用幻觉姿态解码器预测时间一致的3D姿态序列。
- Result: 在Human3.6M和MPI-3DHP数据集上达到最先进性能,在广播棒球数据集上对模糊和噪声2D输入也表现出强鲁棒性,有效处理时间一致性和意图驱动的运动变化。
- Conclusion: DreamPose3D通过结合动作感知推理、结构关系建模和时间一致性预测,显著提升了3D人体姿态估计的性能和鲁棒性,特别是在处理模糊和噪声输入时表现出色。
[68] vMFCoOp: Towards Equilibrium on a Unified Hyperspherical Manifold for Prompting Biomedical VLMs
Minye Shao,Sihan Guo,Xinrun Li,Xingyu Miao,Haoran Duan,Yang Long
Main category: cs.CV
TL;DR: vMFCoOp是一个在超球面流形上使用von Mises-Fisher分布对齐LLM和CLIP语义偏差的框架,通过统一语义锚点实现稳健的生物医学提示学习和优越的小样本分类。
- Motivation: 解决LLM和CLIP变体之间由于不同训练语料和模型架构导致的语义不对齐问题,以及传统欧几里得空间优化在多模态对齐中缺乏统一表示能力和局部几何约束的问题。
- Method: 在共享超球面流形上逆估计von Mises-Fisher分布,通过统一语义锚点对齐任意LLM和CLIP骨干网络的语义偏差,采用三个互补约束。
- Result: 在14个医学数据集、12种医学成像模式和13个解剖区域上表现一致改进,在准确性、泛化性和临床适用性方面优于最先进方法。
- Conclusion: vMFCoOp框架通过超球面流形对齐实现了稳健的生物医学提示学习,为生物医学视觉语言模型的小样本适应提供了可扩展的解决方案。
[69] RF-DETR: Neural Architecture Search for Real-Time Detection Transformers
Isaac Robinson,Peter Robicheaux,Matvei Popov,Deva Ramanan,Neehar Peri
Main category: cs.CV
TL;DR: RF-DETR是一个轻量级目标检测器,通过神经架构搜索发现目标数据集上的精度-延迟帕累托曲线,在COCO和Roboflow100-VL数据集上显著优于现有实时检测方法。
- Motivation: 开放词汇检测器在COCO上表现良好,但在包含预训练中未见类别的新领域数据集上泛化能力不足,需要一种轻量级解决方案来适应不同目标域。
- Method: 使用权重共享神经架构搜索,在目标数据集上微调预训练基础网络,无需重新训练即可评估数千种网络配置的精度-延迟权衡,并重新审视DETR的可调参数以提升跨域迁移能力。
- Result: RF-DETR在COCO上达到48.0 AP,比D-FINE提升5.3 AP;在Roboflow100-VL上比GroundingDINO提升1.2 AP,速度快20倍;RF-DETR (2x-large)是首个在COCO上超过60 AP的实时检测器。
- Conclusion: RF-DETR通过神经架构搜索有效解决了开放词汇检测器在新领域的泛化问题,在保持实时性的同时显著提升了检测精度。
cs.HC
[70] "It's trained by non-disabled people": Evaluating How Image Quality Affects Product Captioning with VLMs
Kapil Garg,Xinru Tang,Jimin Heo,Dwayne R. Morgan,Darren Gergle,Erik B. Sudderth,Anne Marie Piper
Main category: cs.HC
TL;DR: 该研究评估了图像质量问题对视觉语言模型为盲人和低视力人群生成产品描述准确性的影响,发现模型在无质量问题的图像上准确率达98%,但在有质量问题时降至75%,且问题叠加时表现更差。
- Motivation: 了解常见图像质量问题(如模糊、构图不当)如何影响VLM生成描述的准确性,以及这些描述是否满足BLV人群的信息需求。
- Method: 基于对86名BLV人士的调查,系统评估图像质量问题对VLM生成描述的影响。
- Result: 最佳模型在无质量问题的图像上识别产品准确率达98%,但在有质量问题时整体准确率降至75%,且随着问题叠加表现显著恶化。
- Conclusion: 需要以残疾人群体验为中心的模型评估,并为HCI和ML研究人员提供具体建议,使VLM对BLV人群更可靠。
[71] Plug-and-Play Clarifier: A Zero-Shot Multimodal Framework for Egocentric Intent Disambiguation
Sicheng Yang,Yukai Huang,Weitong Cai,Shitong Sun,You He,Jiankang Deng,Hang Zhang,Jifei Song,Zhensong Zhang
Main category: cs.HC
TL;DR: 提出了一个零样本模块化框架来解决以自我为中心AI代理中的多模态意图模糊问题,通过文本、视觉和跨模态三个澄清器模块显著提升意图理解性能。
- Motivation: 现有单一视觉语言模型在处理多模态模糊输入时存在困难,经常导致任务失败或产生幻觉响应,这限制了以自我为中心AI代理的性能。
- Method: 采用模块化框架,包含三个协同模块:文本澄清器通过对话驱动推理交互式消除语言意图模糊;视觉澄清器提供实时指导反馈,指导用户调整位置以改善捕捉质量;跨模态澄清器通过接地机制稳健解释3D指向手势并识别用户指向的具体对象。
- Result: 实验表明该框架将小型语言模型(4-8B)的意图澄清性能提升约30%,使其能与更大模型竞争;视觉澄清器将纠正指导准确率提高20%以上;跨模态澄清器将参考接地的语义答案准确率提高5%。
- Conclusion: 该方法提供了一个即插即用框架,有效解决多模态模糊问题,显著提升以自我为中心交互中的用户体验。
cs.MM
[72] Spatio-Temporal Data Enhanced Vision-Language Model for Traffic Scene Understanding
Jingtian Ma,Jingyuan Wang,Wayne Xin Zhao,Guoping Liu,Xiang Wen
Main category: cs.MM
TL;DR: 提出了ST-CLIP模型,将时空信息整合到视觉语言模型中,用于交通场景理解任务,通过多方面的提示学习方法来增强模型性能。
- Motivation: 现有研究往往将交通场景理解视为普通图像理解任务,忽略了时空信息以及交通场景不同方面之间的相互关系。
- Method: 基于CLIP模型,设计了时空上下文感知多方面提示学习方法,包括动态时空上下文表示模块和双层时空感知多方面提示学习模块。
- Result: 在两个真实世界数据集上的实验表明,在复杂场景理解场景中具有优越性能,并采用少样本学习策略。
- Conclusion: 这是首次将时空信息整合到视觉语言模型中以促进交通场景理解任务的尝试,证明了方法的有效性。
cs.GR
[73] A Finite Difference Approximation of Second Order Regularization of Neural-SDFs
Haotian Yin,Aleksander Plocharski,Michal Jan Wlodarczyk,Przemyslaw Musialski
Main category: cs.GR
TL;DR: 提出了一种基于有限差分框架的曲率正则化方法,用于神经符号距离场学习,替代了计算昂贵的二阶自动微分方法。
- Motivation: 现有方法使用二阶自动微分来施加曲率先验,计算准确但计算成本高;其他方法避免显式Hessian矩阵组装但仍需要高阶微分。
- Method: 使用轻量级有限差分模板来近似二阶导数,基于泰勒展开,截断误差为O(h^2),可作为高斯曲率和秩亏损失的直接替代品。
- Result: 实验表明有限差分变体达到与自动微分对应方法相当的重建保真度,同时将GPU内存使用和训练时间减少高达两倍。
- Conclusion: 所提出的公式在稀疏、不完整和非CAD数据上表现稳健且通用,为曲率感知SDF学习提供了高效可扩展的替代方案。
cs.NE
[74] Stabilizing Direct Training of Spiking Neural Networks: Membrane Potential Initialization and Threshold-robust Surrogate Gradient
Hyunho Kook,Byeongho Yu,Jeong Min Oh,Eunhyeok Park
Main category: cs.NE
TL;DR: 提出了MP-Init和TrSG两种创新方法来解决SNN训练中的时间协变量偏移和梯度不稳定问题,在静态和动态图像数据集上实现了最先进的准确率。
- Motivation: SNN直接训练在早期时间步已能产生高质量输出,但其固有的非线性和时间依赖性带来了时间协变量偏移和不稳定的梯度流等挑战。
- Method: MP-Init通过将初始膜电位与其稳态分布对齐来解决TCS问题,TrSG在训练期间稳定阈值电压的梯度流。
- Result: 在静态和动态图像数据集上的广泛实验验证了该方法,实现了最先进的准确率。
- Conclusion: 该方法为SNN的高效训练提供了有效解决方案,代码已开源。
eess.SP
[75] OG-PCL: Efficient Sparse Point Cloud Processing for Human Activity Recognition
Jiuqi Yan,Chendong Xu,Dongyu Liu
Main category: eess.SP
TL;DR: 提出OG-PCL网络用于处理毫米波雷达产生的稀疏3D点云,参数仅0.83M,在RadHAR数据集上达到91.75%准确率,优于现有基线方法。
- Motivation: 毫米波雷达的人体活动识别提供了一种保护隐私且鲁棒的替代方案,相比基于摄像头和可穿戴设备的方法。
- Method: 采用Occupancy-Gated Parallel-CNN Bi-LSTM网络结构,包含三视图并行结构以保留三维空间信息,并引入Occupancy-Gated Convolution块处理稀疏点云。
- Result: 在RadHAR数据集上达到91.75%准确率,参数大小仅0.83M,优于2D CNN、PointNet和3D CNN等基线方法。
- Conclusion: OG-PCL为轻量级平台上的实时雷达人体活动识别提供了一个紧凑而准确的框架。
[76] RadHARSimulator V2: Video to Doppler Generator
Weicheng Gao
Main category: eess.SP
TL;DR: 提出了RadHARSimulator V2模拟器,可直接从视频生成多普勒频谱,用于雷达人体活动识别。同时提出了混合并行-串行神经网络架构用于HAR任务。
- Motivation: 现有雷达人体活动识别方法缺乏全面的模拟方法,现有软件基于模型或运动捕捉数据开发,灵活性有限。
- Method: 模拟器包含计算机视觉和雷达模块。视觉模块使用目标检测、姿态估计和卡尔曼滤波获取3D姿态;雷达模块使用Savitzky-Golay平滑、延迟模型和镜像方法模拟回波,生成距离-时间图和多普勒-时间图。
- Result: 通过数值实验验证了所设计模拟器和网络模型的有效性。
- Conclusion: 该模拟器为雷达人体活动识别提供了灵活全面的仿真解决方案,代码已开源。
cond-mat.mtrl-sci
[77] MicroEvoEval: A Systematic Evaluation Framework for Image-Based Microstructure Evolution Prediction
Qinyi Zhang,Duanyu Feng,Ronghui Han,Yangshuai Wang,Hao Wang
Main category: cond-mat.mtrl-sci
TL;DR: MicroEvoEval是首个用于基于图像的微观结构演化预测的综合基准,评估了14个模型在4个代表性任务上的表现,发现现代架构在长期稳定性和物理保真度方面表现更优。
- Motivation: 微观结构演化模拟对材料设计至关重要,但现有深度学习研究缺乏标准化基准,存在模型比较不全面、过度强调数值精度而忽视物理保真度、未分析误差传播等问题。
- Method: 构建MicroEvoEval基准,评估14个领域特定和通用架构模型,在4个代表性任务上使用结构化数据集进行短期和长期评估,采用多维度评估框架包括数值精度、计算成本和结构保持指标。
- Result: 现代架构(如VMamba)不仅实现了更优的长期稳定性和物理保真度,而且计算效率提高了一个数量级。
- Conclusion: 需要整体性评估,现代架构是开发高效可靠替代模型的有前景方向,对数据驱动材料科学具有重要意义。
cs.LG
[78] BayesQ: Uncertainty-Guided Bayesian Quantization
Ismail Lamaakal,Chaymae Yahyati,Yassine Maleh,Khalid El Makkaoui,Ibrahim Ouahbi
Main category: cs.LG
TL;DR: BayesQ是一个基于后验期望损失的贝叶斯后训练量化框架,通过高斯后验拟合、协方差白化、码本设计和混合精度分配,在3.0/3.5/4.0比特下显著优于GPTQ等基线方法。
- Motivation: 现有后训练量化方法通常忽略权重不确定性,导致在低比特量化时性能下降。BayesQ旨在通过贝叶斯框架将量化重新定义为不确定性感知的风险最小化问题。
- Method: 1) 对权重拟合轻量级高斯后验;2) 基于后验协方差进行白化;3) 设计最小化后验期望失真的码本;4) 使用贪心背包算法分配混合精度;5) 可选校准蒸馏对齐量化模型与后验预测教师。
- Result: 在ResNet-50(ImageNet)上比GPTQ提升+1.5/+0.7/+0.3 top-1百分点,在BERT-base(GLUE)上提升+1.1/+0.4/+0.2 GLUE分数,预处理成本与GPTQ相当。
- Conclusion: BayesQ将低比特量化重新定义为实用的不确定性感知风险最小化问题,在保持效率的同时显著提升量化性能。
[79] Fast -means clustering in Riemannian manifolds via Fréchet maps: Applications to large-dimensional SPD matrices
Ji Shi,Nicolas Charon,Andreas Mang,Demetrio Labate,Robert Azencott
Main category: cs.LG
TL;DR: 提出了一种在高维非欧几里得流形上聚类数据的高效框架,通过p-Fréchet映射将流形数据嵌入到低维欧几里得空间,然后应用标准聚类方法,显著提升了计算效率。
- Motivation: 标准内在方法在高维非欧几里得流形上聚类时面临计算挑战,需要开发更高效的框架来克服这些困难。
- Method: 使用p-Fréchet映射将流形数据嵌入到低维欧几里得空间,然后应用k-means等标准欧几里得聚类技术。
- Result: 在合成和真实SPD(n)数据上的实验表明,该方法比内在流形方法运行时间减少高达两个数量级,同时保持高聚类精度。
- Conclusion: 该框架为高维非欧几里得流形上的数据聚类提供了一种高效且准确的解决方案,特别适用于现有方法难以处理的情况。
[80] FSampler: Training Free Acceleration of Diffusion Sampling via Epsilon Extrapolation
Michael A. Vladimir
Main category: cs.LG
TL;DR: FSampler是一种无需训练、与采样器无关的执行层,通过减少函数评估次数来加速扩散采样。它使用历史去噪信号进行外推预测,在保持采样器更新规则不变的情况下跳过部分模型调用,实现8-22%的时间节省和15-25%的模型调用减少。
- Motivation: 扩散模型采样过程中需要大量函数评估,计算成本高昂。FSampler旨在减少模型调用次数,加速采样过程,同时保持高质量输出。
- Method: FSampler维护最近模型调用的去噪信号历史,使用二阶、三阶或四阶有限差分预测器外推下一个epsilon。在选定步骤用预测的epsilon替代模型调用,通过验证机制、学习稳定器和梯度估计稳定器确保稳定性。
- Result: 在FLUX.1 dev、Qwen Image和Wan 2.2等模型上,FSampler在保持高保真度(SSIM 0.95-0.99)的同时,减少时间8-22%,模型调用15-25%。使用激进自适应门时,模型调用可减少45-50%(SSIM 0.73-0.74)。
- Conclusion: FSampler提供了一种有效的扩散采样加速方法,兼容多种采样器,无需修改采样器公式,在保持质量的同时显著减少计算成本。
eess.IV
[81] SAMora: Enhancing SAM through Hierarchical Self-Supervised Pre-Training for Medical Images
Shuhang Chen,Hangjie Yuan,Pengwei Liu,Hanxue Gu,Tao Feng,Dong Ni
Main category: eess.IV
TL;DR: SAMora是一个创新框架,通过图像、补丁和像素级别的自监督学习目标捕获分层医学知识,显著提升SAM在医学图像分割中的性能,特别是在少样本场景下。
- Motivation: 解决SAM在医学图像分割中仅使用少量标注数据时性能受限的问题,同时利用医学数据中丰富但常被忽视的分层信息。
- Method: 提出SAMora框架,在图像、补丁和像素级别应用互补的自监督学习目标捕获分层医学知识,并引入HL-Attn分层融合模块整合多尺度特征。
- Result: 在Synapse、LA和PROMISE12数据集上,SAMora在少样本和全监督设置下均优于现有SAM变体,达到最先进性能,同时将微调轮次减少90%。
- Conclusion: SAMora通过分层自监督学习有效提升了SAM在医学图像分割中的性能,兼容多种SAM变体,在少样本场景下表现优异。
[82] Fluence Map Prediction with Deep Learning: A Transformer-based Approach
Ujunwa Mgboh,Rafi Sultan,Dongxiao Zhu,Joshua Kim
Main category: eess.IV
TL;DR: 基于深度学习的方法加速IMRT通量图生成,使用3D Swin-UNETR网络直接从CT图像和解剖轮廓预测九束通量图,实现自动化的逆向计划生成。
- Motivation: 传统IMRT优化耗时且依赖规划师经验,需要开发更高效、自动化的通量图预测方法。
- Method: 使用端到端3D Swin-UNETR网络,基于transformer架构,利用分层自注意力机制捕捉局部解剖结构和长程空间依赖关系,从CT图像和解剖轮廓直接预测通量图。
- Result: 测试集上平均R²为0.95±0.02,MAE为0.035±0.008,伽马通过率为85±10%(3%/3mm),预测计划与临床计划在DVH参数上无显著差异。
- Conclusion: Swin-UNETR框架实现了完全自动化、无需逆向优化的通量图预测,提高了空间一致性、准确性和效率,为自动化IMRT计划生成提供了可扩展的解决方案。
[83] 3D-TDA -- Topological feature extraction from 3D images for Alzheimer's disease classification
Faisal Ahmed,Taymaz Akan,Fatih Gelir,Owen T. Carmichael,Elizabeth A. Disbrow,Steven A. Conrad,Mohammad A. N. Bhuiyan
Main category: eess.IV
TL;DR: 提出了一种基于持久同调的特征提取方法分析脑部结构MRI,通过Betti函数将拓扑特征转换为特征向量,结合XGBoost实现高效机器学习模型,在ADNI 3D MRI疾病诊断中优于最先进的深度学习模型。
- Motivation: 随着阿尔茨海默病疾病修饰疗法获得监管批准,基于最低成本测量方式的早期、客观、准确临床诊断需求日益迫切。
- Method: 使用持久同调分析脑部结构MRI,通过Betti函数将拓扑特征转换为特征向量,并与XGBoost等简单机器学习模型集成。
- Result: 在ADNI 3D MRI疾病诊断中,二元分类平均准确率97.43%、灵敏度99.09%;三分类平均准确率95.47%、灵敏度94.98%,优于最先进的深度学习模型。
- Conclusion: 该方法无需数据增强或大量预处理,特别适合小数据集,拓扑特征与深度学习特征提供不同类型信息,具有与其他模型结合的潜力。
[84] ROI-based Deep Image Compression with Implicit Bit Allocation
Kai Hu,Han Wang,Renhe Liu,Zhilin Li,Shenghui Song,Yu Liu
Main category: eess.IV
TL;DR: 提出了一种基于隐式比特分配的高效ROI图像压缩模型,通过掩码引导特征增强模块和双解码器实现区域自适应编码,在保持背景质量的同时显著提升率失真性能。
- Motivation: 现有ROI压缩方法主要采用显式比特分配策略,通过硬门控抑制背景信息,这会严重影响熵模型的统计分布,从而限制压缩模型的编码性能。
- Method: 提出掩码引导特征增强模块(MGFE),包含区域自适应注意力块和频率-空间协作注意力块;使用双解码器分别重建前景和背景图像;采用隐式比特分配策略。
- Result: 在COCO2017数据集上的实验表明,该方法在率失真性能上显著优于显式比特分配方法,同时保持重建背景区域的满意视觉质量。
- Conclusion: 这是首个利用隐式比特分配实现高质量区域自适应编码的工作,证明了隐式比特分配在ROI图像压缩中的优越性。
[85] Augment to Augment: Diverse Augmentations Enable Competitive Ultra-Low-Field MRI Enhancement
Felix F Zimmermann
Main category: eess.IV
TL;DR: 该论文研究了在超低场MRI图像增强任务中,通过任务适应的数据增强方法(包括在高场数据上的辅助任务)显著提升了图像保真度,在ULF-EnC挑战中取得了良好排名。
- Motivation: 超低场MRI虽然更具可及性,但存在信噪比低、空间分辨率差和对比度偏离高场标准的问题。图像到图像转换可以映射ULF图像到高场外观,但受限于稀缺的配对训练数据。
- Method: 在ULF-EnC挑战约束下(50对3D体积;无外部数据),研究任务适应的数据增强如何影响标准深度模型进行ULF图像增强,包括在高场数据上的强大多样化增强和辅助任务。
- Result: 强大多样化的数据增强显著提高了保真度。提交在公共验证排行榜上脑掩码SSIM排名第三,在最终测试排行榜上官方得分排名第四。
- Conclusion: 任务适应的数据增强方法能有效提升超低场MRI图像增强性能,特别是在配对训练数据稀缺的情况下。
cs.AI
[86] History-Aware Reasoning for GUI Agents
Ziwei Wang,Leyang Yang,Xiaoxuan Tang,Sheng Zhou,Dajun Chen,Wei Jiang,Yong Li
Main category: cs.AI
TL;DR: 提出了历史感知推理框架,通过反思错误和获取情节推理知识来增强GUI代理的短期记忆能力,解决现有方法在长时程GUI任务中历史交互意识薄弱的问题。
- Motivation: 现有GUI代理在显式推理中表现出弱短期记忆,将链式交互视为离散的屏幕理解,缺乏对情节内历史交互的感知,这种历史无关推理限制了GUI自动化的性能。
- Method: 提出历史感知推理框架,包括构建反思学习场景、合成定制修正指南和设计混合强化学习奖励函数,开发了HAR-GUI-3B端到端模型。
- Result: 在多个GUI相关基准测试上的综合评估表明,该方法有效且具有良好泛化能力,将推理模式从历史无关转变为历史感知。
- Conclusion: HAR框架通过增强短期记忆和屏幕细节感知,显著提升了GUI代理在长时程交互任务中的表现,为GUI自动化提供了更可靠的推理能力。
cs.RO
[87] Expand Your SCOPE: Semantic Cognition over Potential-Based Exploration for Embodied Visual Navigation
Ningnan Wang,Weihuang Chen,Liming Chen,Haoxuan Ji,Zhongyu Guo,Xuchong Zhang,Hongbin Sun
Main category: cs.RO
TL;DR: 提出了SCOPE框架,通过显式利用边界信息驱动基于潜力的探索,在零样本视觉导航任务中实现更明智的目标相关决策
- Motivation: 现有零样本研究虽然通过记忆机制改进了长时程规划,但忽视了视觉边界对轨迹和观察的根本影响,且未能推断部分视觉观察与导航目标之间的关系
- Method: 使用视觉语言模型估计探索潜力,构建时空潜力图捕获边界动态以支持长时程规划,并引入自我重新考虑机制来修正先前决策
- Result: 在两个不同的具身导航任务中,SCOPE在准确率上比最先进基线方法高出4.6%,核心组件带来更好的校准、更强的泛化能力和更高的决策质量
- Conclusion: SCOPE通过显式利用边界信息和自我重新考虑机制,在零样本具身视觉导航中实现了更可靠的性能提升
[88] UniMM-V2X: MoE-Enhanced Multi-Level Fusion for End-to-End Cooperative Autonomous Driving
Ziyi Song,Chen Xia,Chenbing Wang,Haibao Yu,Sheng Zhou,Zhisheng Niu
Main category: cs.RO
TL;DR: UniMM-V2X是一个端到端多智能体框架,通过多层次融合策略和混合专家架构实现感知、预测和规划的层次化协作,在DAIR-V2X数据集上取得了最先进的性能。
- Motivation: 现有自动驾驶系统存在感知有限和孤立决策的问题,多智能体方法主要关注感知层面协作,忽视了与下游规划和控制的协调,未能充分利用端到端自动驾驶的潜力。
- Method: 提出多层次融合策略统一感知和预测协作,让智能体共享查询并进行协同推理;采用混合专家架构动态增强BEV表示,并将MoE扩展到解码器以捕捉多样化运动模式。
- Result: 在DAIR-V2X数据集上,感知精度提升39.7%,预测误差降低7.2%,规划性能提升33.2%,相比UniV2X有显著改进。
- Conclusion: MoE增强的多层次协作范式展示了强大的性能,为端到端自动驾驶提供了有效的多智能体协作解决方案。
[89] SMF-VO: Direct Ego-Motion Estimation via Sparse Motion Fields
Sangheon Yang,Yeongin Yoon,Hong Mo Jung,Jongwoo Lim
Main category: cs.RO
TL;DR: SMF-VO是一种轻量级的视觉里程计方法,通过直接估计瞬时线速度和角速度来替代传统的姿态估计,实现了在资源受限设备上的高效实时性能。
- Motivation: 传统VO/VIO方法采用'姿态中心'范式,需要大规模地标维护和持续地图优化,计算成本高,限制了在资源受限设备上的实时性能。
- Method: 提出稀疏运动场视觉里程计(SMF-VO),直接从稀疏光流估计瞬时线速度和角速度,采用通用的3D射线运动场公式,适用于各种相机模型。
- Result: 在基准数据集上展示了优越的效率和竞争性精度,在树莓派5上仅使用CPU即可实现超过100 FPS的性能。
- Conclusion: 为传统方法提供了可扩展且高效的替代方案,非常适合移动机器人和可穿戴设备应用。
[90] SPIDER: Scalable Physics-Informed Dexterous Retargeting
Chaoyi Pan,Changhao Wang,Haozhi Qi,Zixi Liu,Homanga Bharadhwaj,Akash Sharma,Tingfan Wu,Guanya Shi,Jitendra Malik,Francois Hogan
Main category: cs.RO
TL;DR: SPIDER是一个基于物理的重新定位框架,可将人类运动数据转化为机器人可执行的动态可行轨迹,解决机器人数据稀缺问题。
- Motivation: 人类运动数据丰富但机器人专用数据稀缺昂贵,且由于体现差距和动态信息缺失,人类演示无法直接在机器人上执行。
- Method: 使用基于物理的大规模采样和课程式虚拟接触引导,将人类演示转化为动态可行的机器人轨迹,同时保持任务结构和目标。
- Result: 在9种人形/灵巧手实体和6个数据集上测试,成功率比标准采样提高18%,比强化学习基线快10倍,生成了240万帧动态可行数据集。
- Conclusion: SPIDER作为通用物理重定位方法,能处理多样化质量数据并生成高质量数据,有效支持强化学习等策略学习方法。
[91] MAP-VLA: Memory-Augmented Prompting for Vision-Language-Action Model in Robotic Manipulation
Runhao Li,Wenkai Guo,Zhenyu Wu,Changyuan Wang,Haoyuan Deng,Zhenyu Weng,Yap-Peng Tan,Ziwei Wang
Main category: cs.RO
TL;DR: 提出了MAP-VLA框架,通过记忆增强提示机制提升预训练VLA模型在长时程机器人操作任务中的表现,无需重新训练模型。
- Motivation: 现有的预训练视觉-语言-动作模型在长时程任务中表现不佳,因为它们缺乏记忆机制,仅依赖即时感官输入。
- Method: 构建基于历史演示的记忆库,将记忆单元实现为可学习的软提示,通过轨迹相似性匹配检索相关记忆并动态集成到VLA模型中。
- Result: 在仿真基准测试中实现7.0%的绝对性能提升,在真实机器人评估中实现25.0%的性能提升,超越当前最先进方法。
- Conclusion: MAP-VLA为冻结的VLA模型提供了一个轻量级、灵活的即插即用解决方案,有效提升了长时程机器人操作任务的性能。
[92] SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation
Hao Shi,Bin Xie,Yingfei Liu,Yang Yue,Tiancai Wang,Haoqiang Fan,Xiangyu Zhang,Gao Huang
Main category: cs.RO
TL;DR: SpatialActor是一个用于机器人操作的解耦框架,通过显式分离语义和几何信息来解决现有方法对深度噪声敏感和忽略低层空间线索的问题。
- Motivation: 现有的点云方法存在稀疏采样问题,导致细粒度语义丢失;基于图像的方法将RGB和深度输入到预训练的2D骨干网络中,但纠缠的语义和几何对真实世界中的深度噪声敏感,且忽视了精确交互所需的低层空间线索。
- Method: 提出SpatialActor框架:1)语义引导几何模块自适应融合来自噪声深度和语义引导专家先验的两种互补几何信息;2)空间变换器利用低层空间线索进行准确的2D-3D映射,并实现空间特征间的交互。
- Result: 在多个仿真和真实世界场景的50+任务上评估,SpatialActor在RLBench上达到87.4%的SOTA性能,在不同噪声条件下提升13.9%到19.4%,表现出强鲁棒性。同时显著增强了新任务的少样本泛化能力,并在各种空间扰动下保持鲁棒性。
- Conclusion: SpatialActor通过解耦语义和几何表示,有效解决了机器人操作中的噪声敏感性和空间精度问题,在多种任务和条件下都表现出优异的性能和鲁棒性。
[93] IFG: Internet-Scale Guidance for Functional Grasping Generation
Ray Muxin Liu,Mingxuan Li,Kenneth Shaw,Deepak Pathak
Main category: cs.RO
TL;DR: 结合互联网规模模型的大规模语义理解与基于仿真的局部几何感知力闭合方法,实现无需手动训练数据的高性能语义抓取
- Motivation: 大型视觉模型虽然能在杂乱场景中分割和理解物体部件,但缺乏精确控制灵巧机器人手进行3D抓取所需的几何理解能力
- Method: 利用仿真和力闭合抓取生成管道理解手和物体的局部几何,然后将生成的数据蒸馏到在相机点云上实时运行的扩散模型中
- Result: 实现了高性能的语义抓取,无需任何手动收集的训练数据
- Conclusion: 通过结合全局语义理解和局部几何精度,该方法成功解决了语义抓取中的几何理解挑战
stat.ME
[94] Moving pattern-based modeling using a new type of interval ARX model
Changping Sun
Main category: stat.ME
TL;DR: 提出了一种新的区间ARX模型来处理区间数据,并将其应用于移动模式建模,在烧结过程中验证了该方法的有效性。
- Motivation: 克服传统ARX模型在处理区间数据方面的不足,开发能够处理区间数据的新型模型结构。
- Method: 定义了区间数与实矩阵之间的新算子,将其应用于传统ARX模型得到区间ARX模型,并将该模型应用于移动模式建模。
- Result: 仿真结果表明,基于新型区间ARX模型的移动模式建模对模型参数变化具有鲁棒性,且性能优于先前工作。
- Conclusion: 提出的区间ARX模型能够有效处理区间数据,在移动模式建模中表现出良好的鲁棒性和优越性能。
Powered by Deepseek & arXiv Daily AI Enhanced