Skip to content
每日arXiv - 2025年7月16日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] CWNet: Causal Wavelet Network for Low-Light Image Enhancement

Tongshun Zhang,Pingping Liu,Yubing Lu,Mengen Cai,Zijian Zhang,Zhe Zhang,Qiuzhan Zhou

Main category: cs.CV

TL;DR: CWNet是一种基于小波变换和因果推理的低光图像增强方法,通过全局和局部因果分析提升语义信息恢复能力。

  • Motivation: 传统低光图像增强方法忽视实例级语义信息和特征特性,CWNet旨在解决这一问题。
  • Method: 结合因果推理和小波变换,采用全局度量学习和局部CLIP语义损失,优化频率信息恢复。
  • Result: CWNet在多个数据集上显著优于现有方法,表现鲁棒。
  • Conclusion: CWNet通过因果推理和小波变换,有效提升了低光图像增强的精度和语义一致性。

[2] Integrating Biological Knowledge for Robust Microscopy Image Profiling on De Novo Cell Lines

Jiayuan Chen,Thai-Hoang Pham,Yuanlong Wang,Ping Zhang

Main category: cs.CV

TL;DR: 提出了一种整合外部生物知识的新框架,通过解耦扰动特异性和细胞系特异性表征,提升显微镜图像分析模型对新细胞系的泛化能力。

  • Motivation: 现有高通量筛选技术在新细胞系中表现不佳,主要由于细胞形态和生物异质性。需要一种方法提升模型的泛化能力。
  • Method: 结合外部生物知识(如蛋白质相互作用图和转录组特征),解耦扰动特异性和细胞系特异性表征,改进预训练策略。
  • Result: 在RxRx数据库上的实验表明,该方法显著提升了对新细胞系的显微镜图像分析性能。
  • Conclusion: 该方法为基于表型的药物发现提供了有效工具,尤其在处理新细胞系时表现优异。

[3] Auditing Facial Emotion Recognition Datasets for Posed Expressions and Racial Bias

Rina Khan,Catherine Stinson

Main category: cs.CV

TL;DR: 该论文分析了FER算法在识别自发表情和不同肤色人群时的性能下降问题,并提出了一种识别自发或摆拍图像的方法。研究发现数据集中的摆拍图像较多,且模型对非白人或深肤色人群存在偏见。

  • Motivation: FER算法在识别自发表情和不同肤色人群时性能下降,可能导致实际应用中的偏见和危害。
  • Method: 对两个先进的FER数据集进行审计,随机抽样检查图像是自发还是摆拍,并测试模型在不同肤色人群上的表现。
  • Result: 发现数据集中存在大量摆拍图像,且模型对非白人或深肤色人群更倾向于预测负面情绪。
  • Conclusion: 数据集和模型的偏见可能导致实际应用中的不公平和危害,需改进数据收集和模型训练方法。

[4] FPC-Net: Revisiting SuperPoint with Descriptor-Free Keypoint Detection via Feature Pyramids and Consistency-Based Implicit Matching

Ionuţ Grigore,Călin-Adrian Popa,Claudiu Leoveanu-Condrei

Main category: cs.CV

TL;DR: 提出一种无需描述符的兴趣点匹配方法,显著降低内存使用,但匹配精度略低于传统方法。

  • Motivation: 传统方法依赖描述符进行兴趣点匹配,计算和存储成本高,希望找到更高效的方法。
  • Method: 在兴趣点检测阶段直接关联匹配点,避免描述符的计算和存储。
  • Result: 匹配精度略低,但内存使用大幅减少。
  • Conclusion: 该方法为几何计算机视觉任务提供了一种高效且节省资源的解决方案。

[5] A New Dataset and Performance Benchmark for Real-time Spacecraft Segmentation in Onboard Flight Computers

Jeffrey Joan Sam,Janhavi Sathe,Nikhil Chigali,Naman Gupta,Radhey Ruparel,Yicheng Jiang,Janmajay Singh,James W. Berck,Arko Barman

Main category: cs.CV

TL;DR: 论文提出了一种新的航天器图像数据集,用于训练实时自主检测系统,并测试了YOLOv8和YOLOv11模型在该数据集上的性能。

  • Motivation: 航天器在太空环境中易受损害,人工或机器人维修成本高昂,因此需要开发可靠的自主检测系统。
  • Method: 创建了一个包含64k标注图像的航天器数据集,结合真实和合成背景,并添加噪声和失真。使用YOLOv8和YOLOv11模型进行微调和性能测试。
  • Result: 模型在Dice分数(0.92)、Hausdorff距离(0.69)和推理时间(0.5秒)方面表现优异。
  • Conclusion: 该数据集和模型为航天器实时图像分割提供了有效的解决方案,适用于NASA的检查任务。

[6] Warehouse Spatial Question Answering with LLM Agent

Hsiang-Wei Huang,Jen-Hao Cheng,Kuang-Ming Chen,Cheng-Yen Yang,Bahaa Alattar,Yi-Ru Lin,Pyongkun Kim,Sangwon Kim,Kwangju Kim,Chung-I Huang,Jenq-Neng Hwang

Main category: cs.CV

TL;DR: 提出了一种数据高效的方法,通过LLM代理系统增强空间推理能力,解决复杂室内仓库场景中的空间问答任务。

  • Motivation: 现有多模态大语言模型(MLLMs)在空间理解任务上表现不足,需要更高效的方法提升其能力。
  • Method: 设计了一个集成多种工具的LLM代理系统,支持空间推理和API工具交互。
  • Result: 在2025 AI City Challenge数据集上验证了系统在物体检索、计数和距离估计任务中的高准确性和效率。
  • Conclusion: 该方法为复杂场景中的空间推理任务提供了一种高效解决方案,代码已开源。

[7] ThinkingViT: Matryoshka Thinking Vision Transformer for Elastic Inference

Ali Hojjat,Janek Haberer,Soren Pirk,Olaf Landsiedel

Main category: cs.CV

TL;DR: ThinkingViT是一种嵌套ViT架构,通过动态调整计算资源以适应输入复杂度,提高效率。

  • Motivation: 解决现有嵌套Transformer模型对所有输入分配相同计算资源导致的效率低下问题。
  • Method: 采用渐进式思考阶段和Token Recycling机制,动态激活注意力头并根据预测确定性终止或继续计算。
  • Result: 在相同吞吐量下,ThinkingViT比基线模型准确率提升2.0个百分点,在相同计算量下提升2.9个百分点。
  • Conclusion: ThinkingViT通过动态计算分配显著提升了模型效率和性能,并可作为插件升级现有ViT模型。

[8] LLM-Guided Agentic Object Detection for Open-World Understanding

Furkan Mumcu,Michael J. Jones,Anoop Cherian,Yasin Yilmaz

Main category: cs.CV

TL;DR: 提出了一种基于LLM的自主目标检测框架(LAOD),通过动态生成场景特定对象名称,实现无需标签的零样本检测。

  • Motivation: 传统目标检测依赖固定类别集,灵活性不足;现有开放世界和开放词汇检测方法存在局限性,如缺乏未知对象的语义标签或依赖用户提示。
  • Method: 利用大型语言模型(LLM)生成场景特定对象名称,结合开放词汇检测器实现动态目标定位。
  • Result: 在LVIS、COCO和COCO-OOD数据集上验证了方法的有效性,展示了检测和命名新对象的强大性能。
  • Conclusion: LAOD框架提高了开放世界理解的自主性和适应性。

[9] Winsor-CAM: Human-Tunable Visual Explanations from Deep Networks via Layer-Wise Winsorization

Casey Wall,Longwei Wang,Rodrigue Rizk,KC Santosh

Main category: cs.CV

TL;DR: Winsor-CAM是一种改进的Grad-CAM方法,通过跨所有卷积层聚合信息并应用Winsorization技术,生成更鲁棒和连贯的显著性图。

  • Motivation: 解释卷积神经网络(CNN)的决策过程对于在高风险领域部署模型至关重要,而现有方法(如Grad-CAM)可能掩盖重要语义线索或放大噪声。
  • Method: 提出Winsor-CAM,结合Winsorization技术(基于百分位的异常值衰减)和用户可调阈值,跨层聚合信息。
  • Result: 在PASCAL VOC 2012数据集上评估,Winsor-CAM生成的显著性图更易解释,定位性能优于Grad-CAM和均匀层平均基线。
  • Conclusion: Winsor-CAM通过提供可解释的多层洞察和人工控制,推动了可信AI的发展。

[10] Sparse Fine-Tuning of Transformers for Generative Tasks

Wei Chen,Jingxi Yu,Zichen Miao,Qiang Qiu

Main category: cs.CV

TL;DR: 提出了一种基于稀疏编码的微调框架,通过稀疏组合特征字典原子来改进模型的可解释性和任务适应性。

  • Motivation: 现有微调方法难以解释参数更新的贡献,稀疏表示能更好地理解模型如何适应新任务。
  • Method: 引入稀疏编码框架,将微调特征表示为特征字典原子的稀疏组合,稀疏系数指示原子重要性。
  • Result: 在图像编辑和文本到图像概念定制任务中表现优于基线方法。
  • Conclusion: 稀疏编码框架提高了模型的可解释性和任务适应性,并在多个任务中验证了其有效性。

[11] A Lightweight and Robust Framework for Real-Time Colorectal Polyp Detection Using LOF-Based Preprocessing and YOLO-v11n

Saadat Behzadi,Danial Sharifrazi,Bita Mesbahzadeh,Javad Hassannataj Joloudarid,Roohallah Alizadehsani

Main category: cs.CV

TL;DR: 提出了一种结合LOF算法和YOLO-v11n的轻量级高效结直肠息肉检测框架,显著提升了检测性能。

  • Motivation: 结直肠癌是全球主要死因之一,及时准确的息肉检测对诊断和预防至关重要。
  • Method: 使用LOF算法过滤噪声数据,结合YOLO-v11n模型,在五个公共数据集上测试,并通过5折交叉验证和增强策略优化。
  • Result: 精度95.83%,召回率91.85%,F1分数93.48%,mAP@0.5为96.48%,mAP@0.5:0.95为77.75%。
  • Conclusion: 该方法适合临床实时结肠镜检查,强调了数据预处理和模型效率在医学影像AI系统中的重要性。

[12] Trexplorer Super: Topologically Correct Centerline Tree Tracking of Tubular Objects in CT Volumes

Roman Naeem,David Hagerman,Jennifer Alvén,Lennart Svensson,Fredrik Kahl

Main category: cs.CV

TL;DR: Trexplorer Super是一种改进的3D医学图像中心线跟踪模型,解决了重复分支和提前终止的问题,并在新开发的数据集上优于现有SOTA模型。

  • Motivation: 准确跟踪管状树结构(如血管和气道)对医学任务至关重要,但现有模型存在重复分支和提前终止的问题。
  • Method: 提出Trexplorer Super,通过新方法改进性能,并开发了三个难度递增的中心线数据集(一个合成,两个真实)用于评估。
  • Result: Trexplorer Super在所有数据集上优于现有SOTA模型,但合成数据表现不一定适用于真实数据。
  • Conclusion: Trexplorer Super显著提升了中心线跟踪性能,数据集和代码已开源。

[13] Modernizing CNN-based Weather Forecast Model towards Higher Computational Efficiency

Minjong Cheon,Eunhan Goo,Su-Hyeon Shin,Muhammad Ahmed,Hyungjun Kim

Main category: cs.CV

TL;DR: 论文提出了一种基于CNN的轻量级全球天气预报模型KAI-a,其性能与最先进模型相当,但计算需求显著降低。

  • Motivation: 尽管基于Transformer的AI天气预报模型取得了显著进展,但其高复杂性和资源需求限制了实用性。因此,研究旨在开发一种更高效的CNN架构。
  • Method: KAI-a采用尺度不变架构和InceptionNeXt模块,结合地球系统数据特性设计,训练于ERA5数据集,仅需7百万参数和12小时训练时间。
  • Result: KAI-a在中期天气预报中表现与最先进模型相当,且能有效捕捉极端事件(如2018年欧洲热浪和东亚夏季风)。
  • Conclusion: KAI-a展示了CNN架构在天气预报中的高效性和实用性,为未来轻量级模型设计提供了方向。

[14] Commuting Distance Regularization for Timescale-Dependent Label Inconsistency in EEG Emotion Recognition

Xiaocong Zeng,Craig Michoski,Yan Pang,Dongyang Kuang

Main category: cs.CV

TL;DR: 论文提出两种新的正则化策略(LVL和LGCL)解决EEG情感识别中的时间尺度依赖标签不一致问题,并通过实验验证其优于现有方法。

  • Motivation: 解决EEG情感识别中时间尺度依赖标签不一致(TsDLI)问题,提升模型泛化能力和可解释性。
  • Method: 提出Local Variation Loss (LVL)和Local-Global Consistency Loss (LGCL)两种正则化策略,结合数学原理和图论框架。
  • Result: 在DREAMER和DEAP数据集上,LVL和LGCL表现优于现有方法,LVL在所有基准测试中排名最高。
  • Conclusion: 提出的方法在标签不一致情况下实现了预测性能和可解释性的平衡,LVL表现尤为突出。

[15] GeoDistill: Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization

Shaowen Tong,Zimin Xia,Alexandre Alahi,Xuming He,Yujiao Shi

Main category: cs.CV

TL;DR: GeoDistill提出了一种基于几何引导的弱监督自蒸馏框架,通过教师-学生学习和视场掩码提升跨视图定位性能。

  • Motivation: 现有方法依赖全监督学习,需要昂贵的姿态标注。GeoDistill旨在通过弱监督方式减少标注需求,提升定位鲁棒性。
  • Method: 使用教师模型定位全景图像,学生模型通过视场掩码学习局部特征,并通过对齐预测结果优化特征学习。
  • Result: 实验表明,GeoDistill显著提升了定位性能,且适用于全景和有限视场图像。
  • Conclusion: GeoDistill为跨视图定位提供了一种高效、可扩展的解决方案。

[16] Graph Aggregation Prototype Learning for Semantic Change Detection in Remote Sensing

Zhengyi Xu,Haoran Wu,Wen Jiang,Jie Geng

Main category: cs.CV

TL;DR: 论文提出了一种名为GAPL-SCD的图聚合原型学习方法,用于解决语义变化检测中的多任务优化问题,通过自适应权重分配和梯度旋转提升性能。

  • Motivation: 语义变化检测(SCD)需要同时优化多个任务,容易因任务间冲突导致负迁移,影响性能。
  • Method: 设计了多任务联合优化框架,结合图聚合原型学习模块、自适应权重分配和梯度旋转方法,增强多任务学习能力。
  • Result: 在SECOND和Landsat-SCD数据集上取得最优性能,显著提升了SCD任务的准确性和鲁棒性。
  • Conclusion: GAPL-SCD方法有效解决了多任务优化问题,为语义变化检测提供了更优的解决方案。

[17] Robust ID-Specific Face Restoration via Alignment Learning

Yushun Fang,Lu Liu,Xiang Gao,Qiang Hu,Ning Cao,Jianghe Cui,Gang Chen,Xiaoyun Zhang

Main category: cs.CV

TL;DR: RIDFR是一种基于扩散模型的ID特定人脸修复框架,通过内容注入和身份注入模块,结合对齐学习,解决了身份模糊问题,实现了高质量修复。

  • Motivation: 当前人脸修复技术虽在视觉质量上有显著提升,但身份模糊问题仍未解决,RIDFR旨在解决这一挑战。
  • Method: RIDFR利用预训练扩散模型,结合内容注入模块和身份注入模块,并通过对齐学习抑制ID无关语义干扰。
  • Result: 实验表明,RIDFR优于现有方法,能重建高质量且身份保真的结果,具有强鲁棒性。
  • Conclusion: RIDFR通过创新设计有效解决了身份模糊问题,为人脸修复领域提供了新思路。

[18] Women Sport Actions Dataset for Visual Classification Using Small Scale Training Data

Palash Ray,Mahuya Sasmal,Asish Bera

Main category: cs.CV

TL;DR: 本文提出一个新的女性运动数据集WomenSports,并设计了一种结合通道注意力的CNN方法,用于小规模训练数据的运动动作分类,取得了89.15%的分类准确率。

  • Motivation: 现有数据集缺乏足够的女性和运动动作多样性,限制了相关研究的发展。
  • Method: 提出WomenSports数据集,并设计了一种基于CNN和通道注意力的深度特征提取方法。
  • Result: 在WomenSports数据集上,使用ResNet-50达到89.15%的分类准确率。
  • Conclusion: 该数据集和方法为女性运动动作分类提供了有效工具,并公开了数据集以促进研究。

[19] Conceptualizing Multi-scale Wavelet Attention and Ray-based Encoding for Human-Object Interaction Detection

Quan Bi Pay,Vishnu Monn Baskaran,Junn Yong Loo,KokSheik Wong,Simon See

Main category: cs.CV

TL;DR: 提出了一种基于小波注意力机制和射线编码器的新型HOI检测架构,解决了现有方法效率低和资源消耗大的问题。

  • Motivation: 现有HOI检测器效率低且依赖资源密集型训练方法,需要更高效的架构。
  • Method: 设计小波注意力机制和射线编码器,分别提取多阶交互特征和优化注意力区域。
  • Result: 在ImageNet和HICO-DET等基准数据集上表现优异。
  • Conclusion: 新架构显著提升了HOI检测的效率和准确性,代码已开源。

[20] Mind the Gap: Bridging Occlusion in Gait Recognition via Residual Gap Correction

Ayush Gupta,Siyuan Huang,Rama Chellappa

Main category: cs.CV

TL;DR: RG-Gait提出了一种通过残差学习解决步态识别中遮挡问题的方法,同时保持对完整步态的识别性能。

  • Motivation: 步态识别在远距离身份识别中具有潜力,但现有方法未有效解决遮挡问题,且部分方法需要不切实际的成对数据。
  • Method: 将遮挡步态建模为完整步态表示的残差偏差,通过残差学习网络自适应整合残差,提升遮挡步态识别性能。
  • Result: 在Gait3D、GREW和BRIAR数据集上验证了方法的有效性,显著提升遮挡步态识别且不影响完整步态性能。
  • Conclusion: 残差学习是解决遮挡步态识别并保留完整步态性能的有效技术。

[21] SpaRTAN: Spatial Reinforcement Token-based Aggregation Network for Visual Recognition

Quan Bi Pay,Vishnu Monn Baskaran,Junn Yong Loo,KokSheik Wong,Simon See

Main category: cs.CV

TL;DR: SpaRTAN是一种轻量级架构设计,通过多尺度空间特征和通道聚合模块提升性能,同时保持参数高效性。

  • Motivation: 现代CNN和Transformer存在简单性偏好和信息冗余问题,限制了复杂结构特征的捕捉。
  • Method: SpaRTAN采用多尺度核和波基通道聚合模块,动态捕获和强化特征。
  • Result: 在ImageNet-1k和COCO上表现优异,参数效率高。
  • Conclusion: SpaRTAN通过高效设计实现了高性能,解决了现有模型的局限性。

[22] Bridge Feature Matching and Cross-Modal Alignment with Mutual-filtering for Zero-shot Anomaly Detection

Yuhu Bai,Jiangning Zhang,Yunkang Cao,Guangyuan Lu,Qingdong He,Xiangtai Li,Guanzhong Tian

Main category: cs.CV

TL;DR: FiSeCLIP利用CLIP模型进行零样本异常检测,通过特征匹配和跨模态对齐,结合批次测试和文本信息过滤噪声,显著提升性能。

  • Motivation: 零样本异常检测(ZSAD)在工业应用中需求广泛,但现有方法在测试效率和准确性上存在不足。
  • Method: 结合特征匹配与跨模态对齐,利用批次内图像作为参考,并通过文本信息过滤噪声,恢复CLIP的局部语义相关性。
  • Result: 在MVTec-AD等基准测试中,FiSeCLIP在异常分类和分割任务上表现优异,超越现有SOTA方法。
  • Conclusion: FiSeCLIP为零样本异常检测提供了更强基线,展示了CLIP模型在细粒度任务中的潜力。

[23] Semantically Informed Salient Regions Guided Radiology Report Generation

Zeyi Hou,Zeqiang Wei,Ruixin Yan,Ning Lang,Xiuzhuang Zhou

Main category: cs.CV

TL;DR: 提出了一种基于语义显著区域的放射学报告生成方法(SISRNet),通过关注医学关键区域,提高报告的临床准确性。

  • Motivation: 现有方法因数据偏差导致生成的报告医学准确性不足,限制了临床应用。
  • Method: 利用细粒度跨模态语义识别医学关键区域,并在图像建模和报告生成中系统关注这些区域。
  • Result: 在IU-Xray和MIMIC-CXR数据集上表现优于同类方法。
  • Conclusion: SISRNet能有效捕捉细微异常,减轻数据偏差影响,生成更准确的临床报告。

[24] Human-Guided Shade Artifact Suppression in CBCT-to-MDCT Translation via Schrödinger Bridge with Conditional Diffusion

Sung Ho Kang,Hyun-Cheol Park

Main category: cs.CV

TL;DR: 提出了一种基于Schrodinger Bridge框架的CBCT-to-MDCT转换方法,结合GAN先验和人类引导的条件扩散,确保解剖保真度和感知可控性。

  • Motivation: 解决传统GAN或扩散模型在医学图像转换中边界一致性和临床偏好对齐的不足。
  • Method: 采用Schrodinger Bridge框架,结合GAN先验和人类反馈(通过CFG),通过迭代优化和锦标赛选择实现偏好学习。
  • Result: 在临床数据集上,该方法在RMSE、SSIM、LPIPS和Dice指标上表现优越,仅需10步采样。
  • Conclusion: 该框架高效且有效,适用于实时、偏好对齐的医学图像转换。

[25] Personalized OVSS: Understanding Personal Concept in Open-Vocabulary Semantic Segmentation

Sunghyun Park,Jungsoo Lee,Shubhankar Borse,Munawar Hayat,Sungha Choi,Kyuwoong Hwang,Fatih Porikli

Main category: cs.CV

TL;DR: 论文提出了一种个性化开放词汇语义分割任务,通过文本提示调优和负掩模提案解决现有方法无法识别个性化文本的问题。

  • Motivation: 现有开放词汇语义分割(OVSS)无法识别个性化文本(如“我的马克杯”),导致无法分割用户感兴趣的特定区域。
  • Method: 提出基于文本提示调优的插件方法,结合负掩模提案减少误预测,并通过视觉嵌入增强文本提示表示。
  • Result: 在FSSper、CUBper和ADEper等新基准上验证了方法的优越性。
  • Conclusion: 该方法在不影响原始OVSS性能的情况下,显著提升了个性化分割效果。

[26] Efficient Dual-domain Image Dehazing with Haze Prior Perception

Lirong Zheng,Yanshan Li,Rui Yu,Kaihao Zhang

Main category: cs.CV

TL;DR: DGFDNet提出了一种双域去雾网络,结合空间和频率域特征,通过物理引导的退化对齐提升性能。

  • Motivation: Transformer模型在单图像去雾中计算成本高,现有方法依赖空间域特征或频率域线索,但耦合不足。
  • Method: DGFDNet包含HAFM模块(自适应增强雾相关频率成分)和MGAM模块(多尺度特征融合),并通过PCGB分支迭代优化先验。
  • Result: 在四个基准数据集上,DGFDNet实现了最先进的性能,兼具鲁棒性和实时性。
  • Conclusion: DGFDNet通过双域协同和物理引导,显著提升了去雾效果和效率。

[27] A Multi-View High-Resolution Foot-Ankle Complex Point Cloud Dataset During Gait for Occlusion-Robust 3D Completion

Jie-Wen Li,Zi-Han Ye,Qingyuan Zhou,Jiayi Song,Ying He,Ben Fei,Wen-Ming Chen

Main category: cs.CV

TL;DR: FootGait3D是一个专注于足踝区域的高分辨率点云数据集,用于动态步态分析,支持3D点云补全方法的评估。

  • Motivation: 动态步态中足踝表面几何数据的准确采集因遮挡和视角限制而具有挑战性,需要更精细的数据集。
  • Method: 使用五相机深度传感系统采集46名受试者的8,403帧点云数据,包含完整和部分视图。
  • Result: FootGait3D为形状补全任务提供了基准测试平台,支持单模态和多模态补全网络的评估。
  • Conclusion: FootGait3D在生物力学、临床步态分析和机器人应用中具有重要潜力,数据集已公开。

[28] Combining Transformers and CNNs for Efficient Object Detection in High-Resolution Satellite Imagery

Nicolas Drapier,Aladine Chetouani,Aurélien Chateigner

Main category: cs.CV

TL;DR: GLOD是一种基于Swin Transformer的端到端目标检测架构,用于高分辨率卫星图像,通过UpConvMixer块和Fusion Blocks实现多尺度特征提取,性能优于现有方法11.46%。

  • Motivation: 解决高分辨率卫星图像中目标检测的挑战,提升检测精度和计算效率。
  • Method: 采用Swin Transformer作为主干网络,结合UpConvMixer块和Fusion Blocks进行特征提取与融合,引入CBAM注意力机制和多路径头设计。
  • Result: 在xView数据集上达到32.95%的检测精度,优于现有方法11.46%。
  • Conclusion: GLOD通过创新的架构设计,显著提升了卫星图像目标检测的性能,同时保持了计算效率。

[29] Alleviating Textual Reliance in Medical Language-guided Segmentation via Prototype-driven Semantic Approximation

Shuchang Ye,Usman Naseem,Mingyuan Meng,Jinman Kim

Main category: cs.CV

TL;DR: ProLearn是一种原型驱动的学习框架,通过原型驱动的语义近似模块(PSA)减少对文本输入的依赖,提升医学图像分割性能。

  • Motivation: 解决医学语言引导分割中对成对图像-文本输入的依赖问题,充分利用无文本数据并扩展临床应用场景。
  • Method: 引入PSA模块,通过离散且紧凑的原型空间近似文本输入的语义指导,支持无文本图像的分割。
  • Result: 在QaTa-COV19、MosMedData+和Kvasir-SEG数据集上表现优于现有方法。
  • Conclusion: ProLearn有效减少了对文本输入的依赖,提升了语言引导分割的适用性和性能。

[30] Robust 3D-Masked Part-level Editing in 3D Gaussian Splatting with Regularized Score Distillation Sampling

Hayeon Kim,Ji Ha Jang,Se Young Chun

Main category: cs.CV

TL;DR: RoMaP提出了一种新的局部3D高斯编辑框架,通过3D-GALP模块和正则化SDS损失,实现了精确且大幅度的部分级别修改。

  • Motivation: 当前3D神经表示和实例级编辑模型在实现精确局部3D编辑时面临挑战,尤其是高斯溅射技术因多视角2D分割不一致和SDS损失的模糊性而受限。
  • Method: RoMaP引入3D-GALP模块生成鲁棒的3D掩码,并结合正则化SDS损失(包括L1锚定损失和高斯先验去除等)来优化编辑效果。
  • Result: 实验表明,RoMaP在重建和生成的高斯场景中实现了最先进的局部3D编辑效果,定性和定量均表现优异。
  • Conclusion: RoMaP为3D高斯编辑提供了更鲁棒和灵活的解决方案,显著提升了部分级别编辑的精确性和一致性。

[31] Joint angle model based learning to refine kinematic human pose estimation

Chang Peng,Yifei Zhou,Huifeng Xi,Shiqing Huang,Chuangye Chen,Jianming Yang,Bao Yang,Zhenyu Jiang

Main category: cs.CV

TL;DR: 提出了一种基于关节角度的新方法,用于改进无标记人体姿态估计(HPE),解决了关键点识别错误和轨迹波动问题。

  • Motivation: 现有HPE方法在关键点识别和轨迹分析中存在误差,且训练数据标注不准确限制了深度学习模型的性能。
  • Method: 通过关节角度建模和高阶傅里叶级数逼近关节角度变化,设计双向循环网络作为后处理模块。
  • Result: 在花样滑冰和霹雳舞等挑战性场景中,JAR方法优于现有HPE改进网络。
  • Conclusion: 基于关节角度的改进方法显著提升了HPE的准确性和稳定性。

[32] GKNet: Graph-based Keypoints Network for Monocular Pose Estimation of Non-cooperative Spacecraft

Weizhao Ma,Dong Zhou,Yuhui Hu,Zipeng He

Main category: cs.CV

TL;DR: 论文提出了一种基于图的关键点网络(GKNet),用于非合作航天器的单目姿态估计,解决了结构对称性和部分遮挡问题,并发布了一个新的数据集SKD。

  • Motivation: 非合作航天器的单目姿态估计对在轨服务任务至关重要,但现有关键点检测器在结构对称性和部分遮挡下表现不佳。
  • Method: 提出了GKNet,利用关键点图的几何约束,并发布了SKD数据集用于验证。
  • Result: 实验表明GKNet在精度和有效性上优于现有方法。
  • Conclusion: GKNet和SKD数据集为非合作航天器的姿态估计提供了高效解决方案。

[33] Automatic Road Subsurface Distress Recognition from Ground Penetrating Radar Images using Deep Learning-based Cross-verification

Chang Peng,Bao Yang,Meiqi Li,Ge Zhang,Hui Sun,Zhenyu Jiang

Main category: cs.CV

TL;DR: 提出了一种基于交叉验证策略的深度学习模型,用于从GPR图像中自动识别道路地下病害(RSD),显著提高了准确性和效率。

  • Motivation: GPR图像中的RSD识别依赖人工且效率低,现有深度学习方法受限于数据稀缺和网络区分能力不足。
  • Method: 构建了高质量的3D GPR数据集,并提出基于YOLO模型的交叉验证策略,优化RSD识别。
  • Result: 在实地测试中召回率达到98.6%,检测系统可减少约90%的人工工作量。
  • Conclusion: 该方法显著提升了RSD识别的自动化水平和效率,具有实际应用价值。

[34] Atmos-Bench: 3D Atmospheric Structures for Climate Insight

Tianchi Xu

Main category: cs.CV

TL;DR: 提出了Atmos-Bench,首个3D大气基准数据集,并开发了FourCastX模型,用于从卫星LiDAR数据中恢复大气结构,无需辅助输入即可超越现有方法。

  • Motivation: 现有方法依赖辅助输入和简化物理近似,缺乏标准化3D基准,且无法充分捕捉真实辐射传输和大气散射-吸收效应。
  • Method: 结合WRF和增强的COSP模拟器生成高质量3D散射体积数据,嵌入ATB-BC物理约束,开发频率增强的时空混合专家网络FourCastX。
  • Result: 在Atmos-Bench数据集上,FourCastX在355 nm和532 nm波段均优于现有基线模型。
  • Conclusion: Atmos-Bench为卫星3D大气结构恢复设立了新标准,有助于更深入的气候研究。

[35] A Survey on Interpretability in Visual Recognition

Qiyang Wan,Chengzhi Gao,Ruiping Wang,Xilin Chen

Main category: cs.CV

TL;DR: 本文系统综述了视觉识别模型的可解释性研究,提出了一种以人为中心的分类法,并探讨了评估指标和新技术的机遇。

  • Motivation: 随着视觉识别模型在关键领域的应用增加,理解其机制和失败原因的需求推动了可解释性研究的发展。
  • Method: 提出了一种基于意图、对象、呈现和方法的分类法,系统梳理了可解释性方法。
  • Result: 建立了视觉识别模型可解释性方法的系统性分类标准,并总结了评估指标的需求。
  • Conclusion: 本文旨在组织现有研究并启发未来对视觉识别模型可解释性的探索。

[36] KptLLM++: Towards Generic Keypoint Comprehension with Large Language Model

Jie Yang,Wang Zeng,Sheng Jin,Lumin Xu,Wentao Liu,Chen Qian,Zhen Li,Ruimao Zhang

Main category: cs.CV

TL;DR: KptLLM++是一种新型多模态大语言模型,专注于通用关键点理解,通过用户指令整合多模态输入,实现高精度关键点检测。

  • Motivation: 现有MLLMs在捕捉细粒度语义信息(如关键点)方面表现不足,而关键点对细粒度图像分析等应用至关重要。
  • Method: 采用“识别-检测”范式,先解释关键点语义,再通过链式思维推理机制定位其精确位置,并扩展训练数据集至50万样本。
  • Result: 在多个关键点检测基准测试中表现优异,展示了卓越的准确性和泛化能力。
  • Conclusion: KptLLM++为细粒度图像理解提供了统一解决方案,并推动了人机交互的变革。

[37] Jellyfish Species Identification: A CNN Based Artificial Neural Network Approach

Md. Sabbir Hossen,Md. Saiduzzaman,Pabon Shaha,Mostofa Kamal Nasir

Main category: cs.CV

TL;DR: 提出了一种基于深度学习的框架,用于水母物种检测和分类,结合多种特征提取技术和分类器,最高准确率达98%。

  • Motivation: 水母在海洋生态系统中具有重要作用,但其快速繁殖和生态影响对生物多样性和保护构成挑战,准确识别水母物种对生态监测和管理至关重要。
  • Method: 整合MobileNetV3、ResNet50、EfficientNetV2-B0和VGG16等特征提取技术,结合传统机器学习分类器和前馈神经网络分类器,并使用softmax函数直接分类。
  • Result: MobileNetV3与人工神经网络的组合表现最佳,准确率达98%,显著优于其他组合。
  • Conclusion: 深度学习与混合框架在解决生物多样性挑战和推进海洋物种检测方面具有显著效果。

[38] Try Harder: Hard Sample Generation and Learning for Clothes-Changing Person Re-ID

Hankun Liu,Yujian Zhao,Guanglin Niu

Main category: cs.CV

TL;DR: 提出了一种多模态引导的困难样本生成与学习框架(HSGL),通过结合文本和视觉模态显式定义、生成和优化困难样本,提升了服装变化行人重识别(CC-ReID)的性能。

  • Motivation: 困难样本在行人重识别任务中具有挑战性,尤其是在服装变化场景下。其模糊性和相似性限制了针对性学习策略的设计,并降低了模型的鲁棒性。
  • Method: HSGL框架包含两部分:1)双粒度困难样本生成(DGHSG),利用多模态线索合成语义一致的样本;2)困难样本自适应学习(HSAL),通过硬度感知优化策略调整特征距离。
  • Result: 在多个CC-ReID基准测试中表现优异,显著加速了学习过程,并在PRCC和LTCC数据集上达到最优性能。
  • Conclusion: HSGL框架通过多模态引导的困难样本生成与学习,有效提升了CC-ReID任务的鲁棒性和性能。

[39] MMOne: Representing Multiple Modalities in One Scene

Zhifeng Gu,Bing Wang

Main category: cs.CV

TL;DR: 论文提出了一种名为MMOne的通用框架,用于解决多模态场景表示中的模态冲突问题,通过模态建模模块和多模态分解机制,实现了更紧凑和高效的多模态表示。

  • Motivation: 人类通过多模态感知世界,但不同模态之间的固有差异(如属性差异和粒度差异)带来了挑战。本文旨在解决这些挑战,提升多模态场景表示的能力。
  • Method: 提出MMOne框架,包括模态建模模块(使用新颖的模态指示器)和多模态分解机制(将多模态高斯分布分解为单模态高斯分布),以分离共享和模态特定信息。
  • Result: 实验表明,该方法显著提升了各模态的表示能力,并具有扩展到更多模态的潜力。
  • Conclusion: MMOne框架有效解决了多模态场景表示中的模态冲突问题,提供了一种紧凑且高效的解决方案。

[40] RMAU-NET: A Residual-Multihead-Attention U-Net Architecture for Landslide Segmentation and Detection from Remote Sensing Images

Lam Pham,Cam Le,Hieu Tang,Khang Truong,Truong Nguyen,Jasmin Lampert,Alexander Schindler,Martin Boyer,Son Phan

Main category: cs.CV

TL;DR: 提出了一种基于深度学习的端到端模型,利用遥感图像自动观测滑坡事件,并在多个数据集上取得了较高的检测和分割性能。

  • Motivation: 滑坡灾害频发,但传统观测方法在大范围和复杂地形下难以实现自动化,因此需要一种高效的技术手段。
  • Method: 设计了一种新型神经网络架构,用于滑坡检测和分割任务,输入为遥感图像。
  • Result: 在LandSlide4Sense、Bijie和Nepal数据集上,检测任务的F1分数分别为98.23和93.83,分割任务的mIoU分数为63.74和76.88。
  • Conclusion: 实验结果表明,该模型具有实际应用于滑坡观测系统的潜力。

[41] Assessing Color Vision Test in Large Vision-language Models

Hongfei Ye,Bin Chen,Wenxi Liu,Yu Zhang,Zhao Li,Dandan Ni,Hongyang Chen

Main category: cs.CV

TL;DR: 本文研究了大型视觉语言模型的色彩视觉能力,提出了测试任务并构建数据集,分析了错误类型并提出优化策略。

  • Motivation: 大型视觉语言模型的色彩视觉能力尚未被充分研究,本文旨在填补这一空白。
  • Method: 定义色彩视觉测试任务,构建多类别、多难度数据集,分析模型错误并提出微调策略。
  • Result: 通过测试任务和数据集,揭示了模型在色彩视觉上的不足,并提出了改进方法。
  • Conclusion: 本文为大型视觉语言模型的色彩视觉能力提供了测试框架和优化方向。

[42] Clustering-Guided Multi-Layer Contrastive Representation Learning for Citrus Disease Classification

Jun Chen,Yonghua Yu,Weifu Li,Yaohui Chen,Hong Chen

Main category: cs.CV

TL;DR: 提出了一种自监督对比学习方法(CMCRL),用于柑橘病害检测,无需大量标注数据,性能优于现有方法。

  • Motivation: 解决柑橘病害检测中依赖大量标注数据的问题,提高检测效率和准确性。
  • Method: 采用聚类引导的自监督多层对比表示学习(CMCRL),结合簇中心对比和多层对比训练。
  • Result: 在公开数据集CDD上性能提升4.5%-30.1%,接近全监督方法,且在F1分数、精确率和召回率上表现优异。
  • Conclusion: CMCRL方法在减少标注需求的同时,显著提升了柑橘病害检测的性能和鲁棒性。

[43] How Far Have Medical Vision-Language Models Come? A Comprehensive Benchmarking Study

Che Liu,Jiazhen Pan,Weixiang Shen,Wenjia Bai,Daniel Rueckert,Rossella Arcucci

Main category: cs.CV

TL;DR: 该论文评估了通用和医学专用视觉语言模型(VLMs)在医疗任务中的表现,发现通用大模型在某些任务上已超越医学专用模型,但推理能力仍是瓶颈,且性能差异显著,临床部署可靠性不足。

  • Motivation: 探索视觉语言模型在医疗任务中的能力,填补现有研究的空白。
  • Method: 评估了3B到72B参数的通用和医学专用VLMs在八个基准测试中的表现,分为理解和推理两部分。
  • Result: 通用大模型在某些任务上表现优于医学专用模型;推理能力普遍较弱;不同基准测试性能差异大。
  • Conclusion: 当前模型尚无法满足临床部署的可靠性要求,需加强多模态对齐和更严格的评估协议。

[44] A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Xinkui Zhao,Jinsong Shu,Yangyang Wu,Guanjie Cheng,Zihe Liu,Naibo Wang,Shuiguang Deng,Zhongle Xie,Jianwei Yin

Main category: cs.CV

TL;DR: 提出了一种名为MCULoRA的新方法,通过解耦模态组合的共享信息和动态调整训练比例,有效解决了多模态情感识别中模态不完整的问题。

  • Motivation: 实际应用中多模态数据常因传感器故障或隐私保护而缺失,现有方法因模态组合训练梯度冲突导致性能下降。
  • Method: MCULoRA包含两个模块:MCLA(解耦模态组合的共享信息)和DPFT(动态调整训练比例)。
  • Result: 在多个基准数据集上,MCULoRA显著优于现有方法。
  • Conclusion: MCULoRA为不完整多模态学习提供了一种高效参数训练框架,提升了任务准确性。

[45] NarrLV: Towards a Comprehensive Narrative-Centric Evaluation for Long Video Generation Models

X. Feng,H. Yu,M. Wu,S. Hu,J. Chen,C. Zhu,J. Wu,X. Chu,K. Huang

Main category: cs.CV

TL;DR: 提出了首个用于评估长视频生成模型叙事表达能力的基准NarrLV,基于电影叙事理论设计定量指标和自动提示生成流程,并通过实验验证其与人类判断的一致性。

  • Motivation: 现有长视频生成模型缺乏专门评估叙事表达能力的基准,导致评估主要依赖简单叙事提示的基准(如VBench)。
  • Method: 1. 引入时间叙事原子(TNA)作为基本叙事单元,设计自动提示生成流程;2. 基于叙事内容表达的三个层次,设计基于MLLM的评估指标。
  • Result: 实验表明,NarrLV的评估指标与人类判断高度一致,揭示了当前视频生成模型在叙事表达上的能力边界。
  • Conclusion: NarrLV为长视频生成模型的叙事表达能力提供了首个全面评估基准,填补了研究空白。

[46] Fairness-Aware Grouping for Continuous Sensitive Variables: Application for Debiasing Face Analysis with respect to Skin Tone

Veronika Shilova,Emmanuel Malherbe,Giovanni Palma,Laurent Risser,Jean-Michel Loubes

Main category: cs.CV

TL;DR: 提出一种基于公平性的分组方法,针对连续敏感属性,通过最大化组间歧视差异的新标准,识别关键子群体。

  • Motivation: 现有方法在处理连续敏感属性(如肤色)时,预设分组可能忽略少数群体的歧视问题。
  • Method: 提出基于歧视水平的公平性分组方法,最大化组间歧视差异,并验证其鲁棒性和单调公平性。
  • Result: 在合成数据集和真实数据集(CelebA、FFHQ)上验证,发现更细致的歧视模式,且结果稳定。
  • Conclusion: 该方法在提高公平性的同时保持准确性,适用于工业部署。

[47] MFGDiffusion: Mask-Guided Smoke Synthesis for Enhanced Forest Fire Detection

Guanghao Wu,Chen Xu,Hai Song,Chong Wang,Qixing Zhang

Main category: cs.CV

TL;DR: 提出了一种生成森林火灾烟雾图像的综合框架,通过改进修复模型和引入新的损失函数,生成高质量烟雾图像,提升烟雾检测模型性能。

  • Motivation: 解决森林火灾烟雾图像数据稀缺及现有修复模型生成烟雾图像质量不足的问题。
  • Method: 结合预训练分割模型和多模态模型获取烟雾掩码和图像描述,提出基于掩码和掩码图像特征的网络架构及掩膜随机差异损失函数。
  • Result: 生成的烟雾图像真实多样,有效提升了烟雾检测模型的性能。
  • Conclusion: 提出的框架能高质量生成烟雾图像,为森林火灾烟雾检测提供有力支持。

[48] ViewSRD: 3D Visual Grounding via Structured Multi-View Decomposition

Ronggang Huang,Haoxin Yang,Yan Cai,Xuemiao Xu,Huaidong Zhang,Shengfeng He

Main category: cs.CV

TL;DR: ViewSRD框架通过结构化多视角分解解决3D视觉定位中的复杂查询和视角不一致问题,显著优于现有方法。

  • Motivation: 现有方法难以处理复杂多锚点查询和视角变化导致的空间描述不一致问题。
  • Method: 提出ViewSRD框架,包含Simple Relation Decoupling (SRD)模块解耦复杂查询,Multi-view Textual-Scene Interaction (Multi-TSI)模块整合多视角特征,以及Textual-Scene Reasoning模块综合预测。
  • Result: 在3D视觉定位数据集上表现显著优于现有方法,尤其在复杂空间区分任务中。
  • Conclusion: ViewSRD通过结构化多视角分解有效解决了3D视觉定位中的关键挑战。

[49] YOLOatr : Deep Learning Based Automatic Target Detection and Localization in Thermal Infrared Imagery

Aon Safdar,Usman Akram,Waseem Anwar,Basit Malik,Mian Ibad Ali

Main category: cs.CV

TL;DR: 论文提出了一种改进的单阶段检测器YOLOatr,用于热红外图像中的目标检测与识别,解决了现有深度学习模型在该领域的性能不足问题。

  • Motivation: 热红外图像在国防和监控领域的目标检测与识别面临诸多挑战,如数据集有限、硬件限制、天气影响等,导致现有SOTA模型表现不佳。
  • Method: 基于改进的YOLOv5s,优化了检测头、特征融合和自定义数据增强策略,提出了YOLOatr模型。
  • Result: 在DSIAC MWIR数据集上,YOLOatr实现了高达99.6%的ATR性能,优于现有方法。
  • Conclusion: YOLOatr在热红外图像目标识别任务中表现出色,为实时ATR提供了有效解决方案。

[50] Tomato Multi-Angle Multi-Pose Dataset for Fine-Grained Phenotyping

Yujie Zhang,Sabine Struckmeyer,Andreas Kolb,Sven Reichardt

Main category: cs.CV

TL;DR: TomatoMAP是一个基于物联网的番茄表型数据集,通过标准化数据采集协议提供64,464张RGB图像,包含7个ROI的标注和50个精细生长阶段分类。深度学习模型验证了其准确性。

  • Motivation: 传统植物表型分析方法存在观察者偏见和不一致性问题,影响准确性和可重复性。
  • Method: 开发TomatoMAP数据集,使用IoT成像系统和标准化协议采集数据,结合深度学习框架(MobileNetv3、YOLOv11、MaskRCNN)进行验证。
  • Result: 模型在精细表型分析中达到与专家相当的准确性和速度,Cohen's Kappa和热图验证了方法的可靠性。
  • Conclusion: TomatoMAP数据集和自动化方法为植物表型分析提供了高精度和可重复的解决方案。

[51] Task-Oriented Human Grasp Synthesis via Context- and Task-Aware Diffusers

An-Lun Liu,Yu-Wei Chao,Yi-Ting Chen

Main category: cs.CV

TL;DR: 论文提出了一种任务导向的人体抓取合成方法,通过任务感知接触地图结合场景和任务信息,显著提升了抓取质量和任务性能。

  • Motivation: 传统抓取合成方法缺乏对任务和场景的全面考虑,导致抓取姿势与任务需求不匹配。
  • Method: 采用两阶段流程:首先生成任务感知接触地图,随后基于该地图合成任务导向的人体抓取姿势。
  • Result: 实验验证了结合场景和任务信息的重要性,新方法在抓取质量和任务性能上显著优于现有方法。
  • Conclusion: 任务感知接触地图是提升抓取合成效果的关键,新方法为任务导向抓取提供了有效解决方案。

[52] Detección y Cuantificación de Erosión Fluvial con Visión Artificial

Paúl Maji,Marlon Túquerres,Stalin Valencia,Marcela Valenzuela,Christian Mejia-Escobar

Main category: cs.CV

TL;DR: 本文提出了一种基于人工智能的方法,利用YOLOv11模型自动识别侵蚀区域并估算其面积,开发了交互式网页应用EROSCAN。

  • Motivation: 传统方法需要专业知识且处理繁琐,希望通过AI技术简化侵蚀检测与监测。
  • Method: 使用YOLOv11模型,结合照片和LiDAR图像进行微调训练,通过Roboflow平台标注数据。
  • Result: 实验显示模型能高效检测侵蚀模式(准确率70%),并精确计算侵蚀面积。
  • Conclusion: EROSCAN工具优化了侵蚀检测与量化,有助于风险管理和土地规划决策。

[53] A Mixed-Primitive-based Gaussian Splatting Method for Surface Reconstruction

Haoxuan Qu,Yujun Cai,Hossein Rahmani,Ajay Kumar,Junsong Yuan,Jun Liu

Main category: cs.CV

TL;DR: 提出了一种新型框架,首次在Gaussian Splatting中引入多种几何基元,以提升复杂物体表面重建的质量。

  • Motivation: 现有GS方法仅使用单一类型的基元(高斯椭圆或椭球)表示物体表面,难以满足复杂形状的高质量重建需求。
  • Method: 提出组合式Splatting策略、混合基元初始化策略和顶点修剪机制,支持多种基元的Splatting与渲染。
  • Result: 实验表明,该框架能有效提升表面重建的准确性。
  • Conclusion: 通过引入多种基元,显著提升了Gaussian Splatting在复杂物体表面重建中的表现。

[54] MonoMVSNet: Monocular Priors Guided Multi-View Stereo Network

Jianfei Jiang,Qiankun Liu,Haochen Yu,Hongyuan Liu,Liyong Wang,Jiansheng Chen,Huimin Ma

Main category: cs.CV

TL;DR: MonoMVSNet结合单目深度估计与多视角立体匹配,通过注意力机制和动态深度候选更新,解决了纹理缺失和反射区域的挑战,在多个数据集上表现优异。

  • Motivation: 现有MVS方法在纹理缺失和反射区域表现不佳,而单目深度估计无需特征匹配,能提供更鲁棒的深度信息。
  • Method: 提出MonoMVSNet,通过注意力机制整合单目特征,动态更新深度候选,并设计相对一致性损失。
  • Result: 在DTU和Tanks-and-Temples数据集上达到SOTA,排名第一。
  • Conclusion: MonoMVSNet通过融合单目深度与多视角几何,显著提升了MVS在复杂场景中的性能。

[55] UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks

Peiran Wu,Yunze Liu,Zhengdong Zhu,Enmin Zhou,Shawn Shen

Main category: cs.CV

TL;DR: 论文提出了UGC-VideoCap,一个专注于音频和视觉模态平衡整合的新基准和模型框架,用于短格式用户生成视频的详细多模态字幕生成。

  • Motivation: 现有视频字幕基准和模型主要依赖视觉内容,忽视了音频在传达场景动态和叙事背景中的关键作用,限制了多模态视频理解的进展。
  • Method: 提出了UGC-VideoCap基准,包含1000个TikTok视频和4000个QA对,以及UGC-VideoCaptioner(3B)模型,采用两阶段训练策略(监督微调和GRPO)。
  • Result: UGC-VideoCap和模型为无约束真实场景下的多模态视频字幕生成提供了高质量基准和数据高效解决方案。
  • Conclusion: 该研究为多模态视频字幕生成提供了新的基准和模型,推动了真实场景下的视频理解进展。

[56] Attributes Shape the Embedding Space of Face Recognition Models

Pierrick Leroy,Antonio Mastropietro,Marco Nurisso,Francesco Vaccarino

Main category: cs.CV

TL;DR: 论文提出了一种几何方法,用于描述人脸识别模型对可解释属性(如发色、图像对比度)的依赖性或不变性,并引入了一种物理启发的对齐度量。

  • Motivation: 尽管深度神经网络在人脸识别任务中取得了显著进展,但现有方法主要关注身份信息,忽略了嵌入空间中多尺度几何结构的影响。
  • Method: 提出几何方法描述模型对属性的依赖性或不变性,引入物理启发的对齐度量,并在简化模型和广泛使用的人脸识别模型上进行评估。
  • Result: 模型对不同属性表现出不同程度的鲁棒性,揭示了其优势和弱点,增强了可解释性。
  • Conclusion: 该方法为理解人脸识别模型的属性依赖性和不变性提供了新视角,有助于改进模型设计。

[57] Implementing Adaptations for Vision AutoRegressive Model

Kaif Shaikh,Antoni Kowalczuk,Franziska Boenisch,Adam Dziedzic

Main category: cs.CV

TL;DR: VAR在图像生成领域作为扩散模型的替代方案,本文研究其适应性和差分隐私(DP)适应性问题,发现VAR在非DP适应中表现优于扩散模型,但DP适应性能较差。

  • Motivation: 研究VAR模型的适应性和差分隐私适应性问题,填补VAR在隐私保护适应方面的研究空白。
  • Method: 实现并对比多种VAR适应策略,与最先进的扩散模型适应策略进行基准测试。
  • Result: VAR在非DP适应中表现优于扩散模型,但DP适应性能较差。
  • Conclusion: VAR在非DP适应中具有优势,但需进一步研究其隐私保护适应方法。

[58] COLI: A Hierarchical Efficient Compressor for Large Images

Haoran Wang,Hanyu Pei,Yang Lyu,Kai Zhang,Li Li,Feng-Lei Fan

Main category: cs.CV

TL;DR: 论文提出COLI框架,利用神经表示视频(NeRV)技术改进大图像压缩,解决了传统方法细节丢失和数据驱动方法泛化性差的问题,同时提升压缩速度和压缩比。

  • Motivation: 高分辨率大视场图像的普及需要高效压缩方法,传统方法难以保留关键细节,数据驱动方法泛化性有限,而隐式神经表示(INRs)虽具潜力,但压缩速度慢且压缩比不佳。
  • Method: 提出COLI框架,通过预训练-微调范式、混合精度训练和并行化目标加速INR压缩;引入超压缩技术提升压缩比。
  • Result: 在两个医学影像数据集上,COLI在显著降低比特每像素(bpp)的同时,PSNR和SSIM指标表现优异,且NeRV训练速度提升4倍。
  • Conclusion: COLI通过创新技术解决了INR压缩的瓶颈,为高效图像压缩提供了新思路。

[59] HUG-VAS: A Hierarchical NURBS-Based Generative Model for Aortic Geometry Synthesis and Controllable Editing

Pan Du,Mingqi Xu,Xiaozhi Zhu,Jian-xun Wang

Main category: cs.CV

TL;DR: HUG-VAS是一种基于NURBS和扩散生成模型的血管几何合成方法,能够生成高保真度的主动脉几何结构,适用于心血管诊断和治疗规划。

  • Motivation: 传统统计形状建模方法依赖线性假设,难以处理复杂拓扑结构(如多分支血管),因此需要更灵活且高保真的建模方法。
  • Method: HUG-VAS结合NURBS表面参数化和扩散生成模型,采用分层架构(中心线生成和径向轮廓合成),支持零样本条件生成。
  • Result: 模型生成的结果在生物标志物分布上与原始数据集高度匹配,适用于交互式分割、图像重建和设备优化等应用。
  • Conclusion: HUG-VAS首次通过NURBS和分层扩散过程统一整合了图像先验与生成形状建模,为心血管几何建模提供了新思路。

[60] C-FBI: A Combinatorial method using Convolutions for Circle Fitting in Blurry Images

Esteban Román Catafau,Torbjörn E. M. Nordling

Main category: cs.CV

TL;DR: 3C-FBI算法通过结合组合边缘像素采样和卷积参数空间密度估计,实现了在模糊图像中高精度、实时的圆检测与拟合。

  • Motivation: 解决在退化成像条件下鲁棒的圆检测与拟合这一基础计算机视觉挑战。
  • Method: 结合高效的组合边缘像素采样和卷积参数空间密度估计。
  • Result: 在真实医学数据、合成数据及不同分辨率与异常值污染水平的系统分析中,3C-FBI实现了最先进的精度(Jaccard指数0.896)和实时性能(40.3 fps),显著优于传统方法。
  • Conclusion: 3C-FBI在精度、速度和鲁棒性上的优异表现,使其适用于医疗影像、机器人和工业检测等挑战性场景。

[61] COLIBRI Fuzzy Model: Color Linguistic-Based Representation and Interpretation

Pakizar Shamoi,Nuray Toganas,Muragul Muratbekova,Elnara Kadyrgali,Adilet Yerkin,Ayan Igali,Malika Ziyada,Ayana Adilova,Aron Karatayev,Yerdauit Torekhan

Main category: cs.CV

TL;DR: 论文提出了一种基于人类感知的模糊颜色模型COLIBRI,通过模糊集和逻辑构建颜色分类框架,实验验证其与传统颜色模型相比更符合人类感知。

  • Motivation: 计算机难以模仿人类颜色感知,需要一种更符合人类视觉感知的计算颜色表示方法。
  • Method: 采用三阶段实验方法:初步实验确定可区分颜色刺激,大规模人类分类调查(1000+被试),提取模糊分区生成隶属函数。
  • Result: 模型在人类感知对齐上优于传统颜色模型(如RGB、HSV、LAB),并支持基于反馈和上下文的自适应。
  • Conclusion: COLIBRI模型在设计和AI等领域具有重要意义,填补了大规模人类感知颜色建模的空白。

[62] CATVis: Context-Aware Thought Visualization

Tariq Mehmood,Hamza Ahmad,Muhammad Haroon Shakeel,Murtaza Taj

Main category: cs.CV

TL;DR: 提出了一种新颖的5阶段框架,用于从EEG信号解码视觉表示,通过跨模态对齐和重新排序实现上下文感知的EEG到图像生成,实验结果显示其性能优于现有方法。

  • Motivation: EEG信号解码视觉表示存在挑战,因其复杂且噪声多,需要一种更有效的方法。
  • Method: 5阶段框架:EEG编码器分类概念、跨模态对齐EEG与文本嵌入、重新排序优化标题、加权插值丰富语义、预训练Stable Diffusion模型生成图像。
  • Result: 生成高质量图像,分类准确率提升13.43%,生成准确率提升15.21%,Fréchet Inception Distance降低36.61%。
  • Conclusion: 该方法在语义对齐和图像质量上优于现有技术,为EEG到图像生成提供了有效解决方案。

[63] CharaConsist: Fine-Grained Consistent Character Generation

Mengyu Wang,Henghui Ding,Jianing Peng,Yao Zhao,Yunpeng Chen,Yunchao Wei

Main category: cs.CV

TL;DR: 提出CharaConsist方法,通过点跟踪注意力和自适应令牌合并,解决文本到图像生成中身份和背景一致性问题。

  • Motivation: 现有方法在生成一致内容时无法保持背景细节和身份一致性,限制了实际应用。
  • Method: 采用点跟踪注意力和自适应令牌合并,结合前景与背景解耦控制。
  • Result: CharaConsist能生成高质量视觉输出,支持连续或离散场景中的一致内容生成。
  • Conclusion: CharaConsist是首个针对DiT模型的文本到图像一致生成方法,扩展了实际应用范围。

[64] Streaming 4D Visual Geometry Transformer

Dong Zhuo,Wenzhao Zheng,Jiahe Guo,Yuqi Wu,Jie Zhou,Jiwen Lu

Main category: cs.CV

TL;DR: 提出了一种流式4D视觉几何变换器,用于实时感知和重建视频中的4D时空几何,结合因果注意力和历史缓存,实现高效在线处理。

  • Motivation: 解决从视频中实时感知和重建4D时空几何的挑战,支持交互式应用。
  • Method: 采用因果变换器架构,结合时间因果注意力和历史缓存,从双向视觉几何变换器中蒸馏知识进行训练。
  • Result: 在多种4D几何感知基准测试中表现优异,提高了在线推理速度,同时保持高质量空间一致性。
  • Conclusion: 该模型为可扩展和交互式4D视觉系统提供了有效解决方案。

Zhen Xu,Hongyu Zhou,Sida Peng,Haotong Lin,Haoyu Guo,Jiahao Shao,Peishan Yang,Qinglin Yang,Sheng Miao,Xingyi He,Yifan Wang,Yue Wang,Ruizhen Hu,Yiyi Liao,Xiaowei Zhou,Hujun Bao

Main category: cs.CV

TL;DR: 本文综述了深度估计在3D计算机视觉中的重要性,探讨了传统硬件传感器方法的局限性,以及基于视觉方法的挑战和潜力,提出了深度基础模型的概念及其未来研究方向。

  • Motivation: 深度估计是3D计算机视觉中的核心任务,传统方法成本高且受限,而基于视觉的方法在泛化性和稳定性上面临挑战,因此需要探索深度基础模型以解决这些问题。
  • Method: 综述了单目、立体、多视图和单目视频设置下的深度学习架构和范式,并探讨了大规模数据集的作用。
  • Result: 提出了深度基础模型的概念,并总结了关键架构和训练策略,为未来研究提供了方向。
  • Conclusion: 深度基础模型有望解决现有挑战,未来研究应关注其泛化能力和实际应用。

math.OC

[66] Deep Equilibrium models for Poisson Imaging Inverse problems via Mirror Descent

Christian Daniele,Silvia Villa,Samuel Vaiter,Luca Calatroni

Main category: math.OC

TL;DR: 论文提出了一种基于镜像下降的深度均衡模型(DEQ),用于解决泊松逆问题,通过非欧几何适应数据项结构,学习神经正则化器。

  • Motivation: 传统方法在处理泊松逆问题时存在局限性,需要扩展DEQ的应用范围以适应Kullback-Leibler散度的数据保真项。
  • Method: 提出基于镜像下降的DEQ新框架,利用非欧几何适应数据项结构,并确保收敛性。
  • Result: 数值实验表明,该方法优于传统模型,与Bregman Plug-and-Play方法性能相当,但减少了初始化和超参数调优的敏感性。
  • Conclusion: 该方法为泊松逆问题提供了一种高效且鲁棒的解决方案,代码已开源。

eess.IV

[67] Latent Space Consistency for Sparse-View CT Reconstruction

Duoyou Chen,Yunqing Chen,Can Zhang,Zhou Wang,Cheng Chen,Ruoxiu Xiao

Main category: eess.IV

TL;DR: 提出了一种名为CLS-DM的模型,通过跨模态特征对比学习,解决2D X射线与3D CT模态在潜在空间中的对齐问题,提升了稀疏X射线重建CT的效果。

  • Motivation: CT重建面临时间消耗大和辐射高的问题,稀疏X射线重建方法成为研究热点,但现有模型在跨模态潜在空间对齐上表现不足。
  • Method: 提出CLS-DM模型,利用跨模态特征对比学习,从2D X射线图像中提取3D潜在信息,实现模态间潜在空间对齐。
  • Result: 在LIDC-IDRI和CTSpine1K数据集上,CLS-DM在PSNR和SSIM指标上优于经典和最新生成模型。
  • Conclusion: CLS-DM不仅提升了稀疏X射线重建CT的效果,还可推广至其他跨模态任务,如文本到图像合成。

[68] 3D Magnetic Inverse Routine for Single-Segment Magnetic Field Images

J. Senthilnath,Chen Hao,F. C. Wellstood

Main category: eess.IV

TL;DR: 提出了一种名为3D MIR的新方法,结合深度学习、空间物理约束和优化技术,从磁场图像中恢复3D电流信息。

  • Motivation: 在半导体封装中,准确恢复3D信息对无损检测和电路缺陷定位至关重要。
  • Method: 分三个阶段:1) CNN处理磁场图像预测参数;2) 利用空间物理约束提供初始估计;3) 优化器调整参数以最小化误差。
  • Result: 3D MIR方法能够高精度恢复3D信息,为半导体封装中的磁场图像重建设定了新标准。
  • Conclusion: 该方法展示了深度学习和物理驱动优化结合在实际应用中的潜力。

[69] HANS-Net: Hyperbolic Convolution and Adaptive Temporal Attention for Accurate and Generalizable Liver and Tumor Segmentation in CT Imaging

Arefin Ittesafun Abian,Ripon Kumar Debnath,Md. Abdur Rahman,Mohaimenul Azam Khan Raiaan,Md Rafiqul Islam,Asif Karim,Reem E. Mohamed,Sami Azam

Main category: eess.IV

TL;DR: HANS-Net是一种新型肝脏和肿瘤分割框架,结合双曲卷积、多尺度纹理学习、突触可塑性机制和隐式神经表示,显著提升了分割精度和泛化能力。

  • Motivation: 由于复杂的解剖结构、肿瘤外观多变和标注数据有限,腹部CT图像中的肝脏和肿瘤分割仍具挑战性。
  • Method: HANS-Net结合双曲卷积、小波分解模块、突触可塑性机制和隐式神经表示,并引入不确定性感知的蒙特卡洛丢弃和时间注意力机制。
  • Result: 在LiTS数据集上,HANS-Net的Dice得分为93.26%,IoU为88.09%,ASSD为0.72 mm,VOE为11.91%;在3D-IRCADb-01数据集上也表现出色。
  • Conclusion: HANS-Net在肝脏和肿瘤分割中表现出高效性、鲁棒性和泛化能力。

[70] Comparative Analysis of Vision Transformers and Traditional Deep Learning Approaches for Automated Pneumonia Detection in Chest X-Rays

Gaurav Singh

Main category: eess.IV

TL;DR: 比较传统机器学习和深度学习在肺炎检测中的表现,发现Vision Transformers(尤其是Cross-ViT)在准确率和召回率上优于传统方法。

  • Motivation: 肺炎(如COVID-19引起的)需要快速准确诊断,研究旨在评估不同自动化检测方法的性能。
  • Method: 使用5,856张儿科胸片,比较传统机器学习(PCA聚类、逻辑回归等)和深度学习(CNN、ViT等)方法。
  • Result: Cross-ViT表现最佳,准确率88.25%,召回率99.42%,优于传统CNN。
  • Conclusion: Vision Transformers在肺炎检测中表现优异,有望提升诊断速度和准确性。

[71] Focus on Texture: Rethinking Pre-training in Masked Autoencoders for Medical Image Classification

Chetan Madan,Aarjav Satia,Soumen Basu,Pankaj Gupta,Usha Dutta,Chetan Arora

Main category: eess.IV

TL;DR: GLCM-MAE是一种基于GLCM特征的新型MAE预训练框架,用于医学图像的自监督表示学习,显著提升了下游任务的性能。

  • Motivation: 传统MAE在医学图像中因纹理信息的重要性而表现不佳,GLCM-MAE通过引入GLCM重建损失来保留形态特征。
  • Method: 提出GLCM-MAE框架,使用GLCM矩阵匹配作为重建损失,并设计可微分的GLCM损失函数。
  • Result: 在胆囊癌、乳腺癌、肺炎和COVID检测任务中,GLCM-MAE分别提升了2.1%、3.1%、0.5%和0.6%的性能。
  • Conclusion: GLCM-MAE通过GLCM损失有效保留了医学图像的纹理特征,显著提升了自监督预训练的效果。

[72] U-RWKV: Lightweight medical image segmentation with direction-adaptive RWKV

Hongbo Ye,Fenghe Tang,Peiang Zhao,Zhen Huang,Dexin Zhao,Minghao Bian,S. Kevin Zhou

Main category: eess.IV

TL;DR: U-RWKV是一种基于RWKV架构的轻量级高性能医学图像分割框架,通过DARM和SASE模块解决了长距离依赖和方向偏差问题,计算效率高,适用于资源受限环境。

  • Motivation: 解决现有方法(如U-Net)在全局有效感受野(ERFs)和长距离依赖建模上的不足,以提升医疗图像分割的公平性和可及性。
  • Method: 提出U-RWKV框架,结合DARM(方向自适应RWKV模块)和SASE(阶段自适应挤压-激励模块),实现高效的长距离建模和动态特征提取。
  • Result: 实验表明U-RWKV在分割性能和计算效率上达到最先进水平,适用于资源受限环境。
  • Conclusion: U-RWKV为资源受限环境提供了一种高效的医学图像分割解决方案,推动了先进医疗成像技术的普及。

cs.LG

[73] FedGSCA: Medical Federated Learning with Global Sample Selector and Client Adaptive Adjuster under Label Noise

Mengwen Ye,Yingzi Huangfu,Shujian Gao,Wei Ren,Weifan Liu,Zekuan Yu

Main category: cs.LG

TL;DR: FedGSCA是一个针对医疗联邦学习中标签噪声问题的新框架,通过全局样本选择器和客户端自适应调整机制提升模型鲁棒性。

  • Motivation: 解决医疗联邦学习中因数据异质性和噪声导致的模型性能下降问题。
  • Method: 结合全局样本选择器和客户端自适应调整机制(CAA),动态处理噪声和类别不平衡。
  • Result: 在多种噪声条件下优于现有方法,尤其在极端和异质噪声场景中表现突出。
  • Conclusion: FedGSCA显著提升模型稳定性和噪声处理能力,适用于真实医疗联邦学习场景。

[74] Flows and Diffusions on the Neural Manifold

Daniel Saragih,Deyu Cao,Tejas Balaji

Main category: cs.LG

TL;DR: 该论文将扩散和基于流的生成模型扩展到权重空间学习,通过梯度流匹配统一轨迹推断技术,优化权重生成并提升下游任务性能。

  • Motivation: 将扩散和流模型的成功扩展到权重空间学习,利用优化动态的结构先验改进权重生成和初始化。
  • Method: 提出梯度流匹配框架,结合轨迹推断技术,探索架构和算法选择(如奖励微调、自编码器、任务上下文条件化)。
  • Result: 实验表明,该方法在生成分布内权重、改进下游训练初始化和微调性能方面优于基线。
  • Conclusion: 该方法为权重空间学习提供了理论框架,并在安全关键系统中展示了实际应用潜力。

[75] A Simple Baseline for Stable and Plastic Neural Networks

É. Künzel,A. Jaziri,V. Ramesh

Main category: cs.LG

TL;DR: RDBP是一种简单、低开销的持续学习方法,结合ReLUDown和Decreasing Backpropagation机制,在Continual ImageNet基准测试中表现优异。

  • Motivation: 解决持续学习中模型在适应新任务时遗忘旧知识的问题,平衡可塑性与稳定性。
  • Method: 结合ReLUDown(轻量级激活修改)和Decreasing Backpropagation(梯度调度方案)。
  • Result: 在Continual ImageNet基准测试中表现优于或匹配现有方法,同时降低计算成本。
  • Conclusion: RDBP为持续学习提供了实用解决方案,并为未来方法设定了基准。

[76] Spatial Reasoners for Continuous Variables in Any Domain

Bart Pogodzinski,Christopher Wewer,Bernt Schiele,Jan Eric Lenssen

Main category: cs.LG

TL;DR: Spatial Reasoners是一个软件框架,用于通过生成去噪模型对连续变量进行空间推理。

  • Motivation: 生成去噪模型在图像生成中已成为标准,但在多连续变量推理中的应用仍需基础设施支持。
  • Method: 提供易于使用的接口,支持变量映射、生成模型范式和推理策略。
  • Result: 框架开源,旨在促进该领域的研究。
  • Conclusion: Spatial Reasoners为生成推理提供了高效工具,简化了研究流程。

[77] First-Order Error Matters: Accurate Compensation for Quantized Large Language Models

Xingyu Zheng,Haotong Qin,Yuye Li,Jiakai Wang,Jinyang Guo,Michele Magno,Xianglong Liu

Main category: cs.LG

TL;DR: FOEM是一种新的后训练量化方法,通过显式引入一阶梯度项改进量化误差补偿,显著提升模型性能。

  • Motivation: 现有补偿式权重校准方法假设一阶项可忽略,但实际中渐进补偿过程会累积一阶偏差,导致假设不成立。
  • Method: FOEM直接计算潜变量与全精度权重的差异来近似梯度,避免反向传播的高成本,并利用预计算的Cholesky因子实时恢复Hessian子矩阵的逆。
  • Result: 在3比特权重量化中,FOEM将Llama3-8B的困惑度降低89.6%,并将Llama3-70B的5-shot MMLU准确率从51.7%提升至74.9%。
  • Conclusion: FOEM在多种模型和基准测试中表现优异,可无缝集成先进技术,进一步缩小与全精度基线的差距。

[78] LogTinyLLM: Tiny Large Language Models Based Contextual Log Anomaly Detection

Isaiah Thompson Ocansey,Ritwik Bhattacharya,Tanmay Sen

Main category: cs.LG

TL;DR: 论文提出了一种基于LoRA和适配器的高效参数微调方法,用于检测大规模日志数据中的异常序列,相比传统方法显著提升了性能。

  • Motivation: 传统基于规则或深度学习的日志异常检测方法因日志数据量大且复杂而效果有限,亟需更高效的检测方法。
  • Method: 采用低秩适应(LoRA)和适配器方法对小型大语言模型进行微调,并在Thunderbird数据集上进行比较。
  • Result: LoRA微调方法比LogBert全微调方法性能提升18-19%,准确率达到97.76%-98.83%,而后者仅为79.37%。
  • Conclusion: LoRA微调方法在日志异常检测中表现优异,显著优于传统全微调方法。

cs.AI

[79] NavComposer: Composing Language Instructions for Navigation Trajectories through Action-Scene-Object Modularization

Zongtao He,Liuyi Wang,Lu Chen,Chengju Liu,Qijun Chen

Main category: cs.AI

TL;DR: NavComposer是一个自动生成高质量导航指令的框架,通过分解和重组语义实体(如动作、场景和对象)来生成自然语言指令。NavInstrCritic是一个无需标注的评估系统,从对比匹配、语义一致性和语言多样性三个维度评估指令质量。

  • Motivation: 现有专家提供的导航指令数量有限,而合成注释质量不足,限制了大规模研究。
  • Method: NavComposer分解语义实体并重组为指令,支持数据无关的适应;NavInstrCritic提供多维度的无标注评估。
  • Result: 实验证明方法的有效性,支持更可扩展和通用的研究。
  • Conclusion: NavComposer和NavInstrCritic解决了指令生成和评估的局限性,推动了语言导航研究的进展。

cs.NE

[80] SFATTI: Spiking FPGA Accelerator for Temporal Task-driven Inference -- A Case Study on MNIST

Alessio Caviglia,Filippo Marostica,Alessio Carpegna,Alessandro Savino,Stefano Di Carlo

Main category: cs.NE

TL;DR: 论文探讨了使用Spiker+框架生成优化的SNN加速器,用于MNIST数据集的手写数字识别,分析了边缘计算中的权衡。

  • Motivation: 硬件加速器对边缘应用(如图像识别)的低延迟和高效能至关重要,而SNN因其事件驱动和稀疏特性适合低功耗FPGA部署。
  • Method: 利用开源的Spiker+框架,支持高级网络拓扑、神经元模型和量化规范,自动生成可部署的HDL。
  • Result: 评估了多种配置,分析了边缘计算约束下的性能权衡。
  • Conclusion: Spiker+框架为SNN在FPGA上的高效部署提供了可行方案。

cs.CL

[81] Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific Papers

Yilun Zhao,Chengye Wang,Chuhan Li,Arman Cohan

Main category: cs.CL

TL;DR: MISS-QA是首个评估模型解读科学文献中示意图能力的基准,包含1,500个专家标注示例,测试了18种前沿多模态模型,发现与人类专家存在显著差距。

  • Motivation: 科学文献中的示意图包含丰富信息,但现有模型在解读此类多模态内容时能力不足,需专门基准进行评估和改进。
  • Method: 构建MISS-QA基准,包含465篇科学文献中的1,500个标注示例,测试18种多模态模型(如o4-mini、Gemini-2.5-Flash等)的示意图解读能力。
  • Result: 模型表现显著低于人类专家,尤其在无法回答的问题上表现更差,错误分析揭示了当前模型的局限性。
  • Conclusion: MISS-QA为提升多模态科学文献理解提供了关键见解,未来需进一步优化模型能力。

[82] Teach Me Sign: Stepwise Prompting LLM for Sign Language Production

Zhaoyi An,Rei Kawakami

Main category: cs.CL

TL;DR: TEAM-Sign通过微调大语言模型(LLM),将其视为另一种自然语言,解决了手语生成的复杂性和独特规则问题。

  • Motivation: 探索LLM在手语生成中的应用,填补其在复杂性和独特规则方面的局限性。
  • Method: 采用逐步提示策略,提取LLM中的手语知识,支持学习和生成过程。
  • Result: 在How2Sign和Phoenix14T数据集上验证了方法的有效性,成功对齐手语和口语的分布和语法规则。
  • Conclusion: TEAM-Sign利用LLM的知识和推理能力,有效解决了手语生成的挑战。

quant-ph

[83] Stochastic Entanglement Configuration for Constructive Entanglement Topologies in Quantum Machine Learning with Application to Cardiac MRI

Mehri Mehrnia,Mohammed S. M. Elbaz

Main category: quant-ph

TL;DR: 提出了一种随机纠缠配置方法,用于生成多样化的纠缠拓扑,显著提升量子机器学习模型的性能。

  • Motivation: 当前方法使用固定的纠缠拓扑,无法适应任务需求,限制了量子模型超越经典模型的潜力。
  • Method: 通过随机二进制矩阵编码纠缠拓扑,利用纠缠密度和单量子比特约束作为关键指标,探索候选拓扑空间。
  • Result: 在心脏MRI疾病分类任务中,64种构造性纠缠配置(16%)显著超越经典基线,最高准确率提升20%。
  • Conclusion: 该方法展示了构造性纠缠的鲁棒性和泛化能力,为量子机器学习提供了高效策略。

cs.GR

[84] Elevating 3D Models: High-Quality Texture and Geometry Refinement from a Low-Quality Model

Nuri Ryu,Jiyun Won,Jooeun Son,Minsu Gong,Joo-Haeng Lee,Sunghyun Cho

Main category: cs.GR

TL;DR: Elevate3D是一个新框架,将低质量3D资产提升为高质量,通过HFS-SDEdit方法增强纹理并改进几何细节。

  • Motivation: 高质量3D资产稀缺且获取成本高,Elevate3D旨在解决这一问题。
  • Method: 采用HFS-SDEdit方法增强纹理,结合单目几何预测器改进几何细节,逐视图交替优化。
  • Result: Elevate3D在3D模型细化中达到最先进质量,优于现有方法。
  • Conclusion: Elevate3D有效解决了高质量开源3D资产稀缺的问题。

q-bio.QM

[85] AGFS-Tractometry: A Novel Atlas-Guided Fine-Scale Tractometry Approach for Enhanced Along-Tract Group Statistical Comparison Using Diffusion MRI Tractography

Ruixi Zheng,Wei Zhang,Yijie Li,Xi Zhu,Zhou Lan,Jarrett Rushmore,Yogesh Rathi,Nikos Makris,Lauren J. O'Donnell,Fan Zhang

Main category: q-bio.QM

TL;DR: 提出了一种新型的基于图谱引导的精细尺度纤维束分析方法AGFS-Tractometry,通过利用纤维束空间信息和置换检验,增强群体间的沿束统计分析。

  • Motivation: 研究动机是改进现有的纤维束分析方法,以更灵敏和特异地检测白质局部差异。
  • Method: 方法包括创建图谱引导的纤维束分析模板和提出非参数置换检验的群体比较方法。
  • Result: 实验结果表明,AGFS-Tractometry在合成数据和真实数据中均表现出更高的敏感性和特异性。
  • Conclusion: 结论是AGFS-Tractometry能够检测细微或空间局部的白质群体差异,相关代码和模板已开源。

cs.RO

[86] rt-RISeg: Real-Time Model-Free Robot Interactive Segmentation for Active Instance-Level Object Understanding

Howard H. Qian,Yiting Chen,Gaotian Wang,Podshara Chanrungmaneekul,Kaiyu Hang

Main category: cs.RO

TL;DR: 提出了一种实时交互感知框架rt-RISeg,通过机器人交互和设计的体帧不变特征(BFIF)来分割未见物体,无需学习分割模型,性能优于现有方法。

  • Motivation: 现有未见物体实例分割(UOIS)方法依赖大规模数据集训练,容易过拟合静态视觉特征,泛化性能差。
  • Method: 基于视觉交互性,提出rt-RISeg框架,利用机器人交互和体帧不变特征实时分割物体。
  • Result: 平均分割准确率比现有UOIS方法高27.5%,且分割结果可作为视觉基础模型的提示。
  • Conclusion: rt-RISeg通过交互感知显著提升了未见物体的分割性能,且具有独立性和可扩展性。

[87] Whom to Respond To? A Transformer-Based Model for Multi-Party Social Robot Interaction

He Zhu,Ryo Miyoshi,Yuki Okafuji

Main category: cs.RO

TL;DR: 提出了一种基于Transformer的多任务学习框架,用于提升社交机器人在多用户环境中的决策能力,包括新的损失函数和数据集,实验表明其性能优于现有方法。

  • Motivation: 多用户环境中,社交机器人需要理解上下文并决定何时及向谁回应,而现有研究主要关注单用户交互。
  • Method: 采用Transformer框架,提出两种新损失函数:一种约束主动说话者以改进场景建模,另一种引导响应选择针对机器人的话语。构建了包含真实复杂性的多用户HRI数据集。
  • Result: 模型在响应决策上达到最先进性能,优于启发式和单任务方法。
  • Conclusion: 该研究推动了社交机器人在自然、上下文感知的多方交互中的发展。

[88] Learning to Tune Like an Expert: Interpretable and Scene-Aware Navigation via MLLM Reasoning and CVAE-Based Adaptation

Yanbo Wang,Zipeng Fang,Lei Zhao,Weidong Chen

Main category: cs.RO

TL;DR: LE-Nav是一种基于多模态大语言模型和条件变分自编码器的导航框架,通过自适应调整规划器超参数,提升服务机器人在动态环境中的导航性能。

  • Motivation: 传统导航系统依赖固定参数,难以适应动态环境和多样化场景,导致性能下降和社会接受度降低。
  • Method: 利用多模态大语言模型推理和条件变分自编码器,结合单次示例和链式思维提示策略,实现零样本场景理解和专家级超参数调整。
  • Result: 实验表明,LE-Nav生成的超参数在多样化的规划器和场景中达到人类水平,实际导航试验和用户研究显示其在成功率、效率、安全性和舒适性上优于现有方法。
  • Conclusion: LE-Nav通过自适应超参数调整,显著提升了服务机器人在动态环境中的导航性能和社会接受度。

[89] TRAN-D: 2D Gaussian Splatting-based Sparse-view Transparent Object Depth Reconstruction via Physics Simulation for Scene Update

Jeongyun Kim,Seunghoon Jeong,Giseop Kim,Myung-Hwan Jeon,Eunji Jun,Ayoung Kim

Main category: cs.RO

TL;DR: TRAN-D是一种基于2D高斯泼溅的透明物体深度重建方法,通过分离透明物体与背景并优化高斯分布,显著提升了稀疏视角和动态环境下的3D几何重建效果。

  • Motivation: 透明物体的3D几何重建因反射和折射等物理特性而具有挑战性,尤其是在稀疏视角和动态环境中。
  • Method: TRAN-D通过分离透明物体与背景,优化对应高斯分布,并引入物体感知损失和物理模拟,减少伪影并提升重建效率。
  • Result: 在合成和真实场景中,TRAN-D比现有方法平均绝对误差降低39%,单图像更新时精度提升1.5倍。
  • Conclusion: TRAN-D在透明物体重建中表现出色,显著优于现有方法,适用于稀疏视角和动态环境。

[90] All Eyes, no IMU: Learning Flight Attitude from Vision Alone

Jesse J. Hagenaars,Stein Stroobants,Sander M. Bohte,Guido C. H. E. De Croon

Main category: cs.RO

TL;DR: 论文提出了一种仅依赖视觉的飞行控制方法,使用事件相机和神经网络替代传统惯性传感器,实现了无人机的稳定飞行。

  • Motivation: 许多飞行生物依赖视觉而非重力感知,而飞行机器人通常依赖惯性传感器。本研究旨在探索仅通过视觉实现飞行控制的可能性。
  • Method: 使用向下事件相机和循环卷积神经网络,通过监督学习训练,从事件流中估计姿态和旋转速率。
  • Result: 实验证明该方法可替代传统惯性测量单元,且网络在不同环境和视野下表现出良好的泛化能力。
  • Conclusion: 视觉飞行控制是未来小型自主飞行机器人的可行方案。