Skip to content
每日arXiv - 2025年7月10日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Unveiling the Underwater World: CLIP Perception Model-Guided Underwater Image Enhancement

Jiangzhong Cao,Zekai Zeng,Xu Zhang,Huan Zhang,Chunling Fan,Gangyi Jiang,Weisi Lin

Main category: cs.CV

TL;DR: 提出了一种结合CLIP感知损失模块和课程对比正则化的水下图像增强方法,显著提升了图像质量和泛化能力。

  • Motivation: 水下图像质量受光吸收和散射影响,现有深度学习方法忽视人类感知且约束不足,导致增强图像感知质量下降或内容恢复不佳。
  • Method: 利用CLIP模型的视觉语义特征提取能力设计感知损失模块,并结合课程对比正则化优化增强网络。
  • Result: 实验表明,该方法在视觉质量和泛化能力上优于现有技术。
  • Conclusion: 结合CLIP感知和课程对比正则化能有效提升水下图像增强的感知质量和内容恢复效果。

[2] SPARC: Concept-Aligned Sparse Autoencoders for Cross-Model and Cross-Modal Interpretability

Ali Nasiri-Sarvi,Hassan Rivaz,Mahdi S. Hosseini

Main category: cs.CV

TL;DR: SPARC框架通过统一的潜在空间和跨模型对齐机制,显著提升了不同AI模型间概念的兼容性和可解释性。

  • Motivation: 现有方法(如稀疏自编码器)为每个模型生成独立的概念空间,导致跨模型解释性受限。
  • Method: SPARC采用全局TopK稀疏机制和跨重构损失,学习跨架构和模态的共享潜在空间。
  • Result: 在Open Images上,SPARC将概念对齐的Jaccard相似度提升至0.80,远超先前方法。
  • Conclusion: SPARC不仅实现了跨模型概念的直接比较,还支持文本引导的空间定位和跨模态检索等应用。

[3] A Probabilistic Approach to Uncertainty Quantification Leveraging 3D Geometry

Rushil Desai,Frederik Warburg,Trevor Darrell,Marissa Ramirez de Chanlatte

Main category: cs.CV

TL;DR: BayesSDF提出了一种新的概率框架,用于量化神经隐式SDF模型中的不确定性,解决了现有方法在几何一致性和校准方面的不足。

  • Motivation: 科学仿真应用中需要精确的3D几何表示和不确定性量化,例如森林环境中的流体模拟。
  • Method: BayesSDF利用拉普拉斯近似和基于Hessian的度量,实现高效的表面感知不确定性估计。
  • Result: 实验表明,BayesSDF在校准和几何一致性上优于现有方法,并能提供可操作的不确定性度量。
  • Conclusion: BayesSDF为不确定性感知的3D重建、仿真和机器人决策提供了坚实基础。

[4] LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance

Zhang Li,Biao Yang,Qiang Liu,Shuo Zhang,Zhiyin Ma,Shuo Zhang,Liang Yin,Linger Deng,Yabo Sun,Yuliang Liu,Xiang Bai

Main category: cs.CV

TL;DR: LIRA框架通过结合语义增强特征提取器和交错局部视觉耦合,解决了多模态模型在分割和理解任务中的不准确和幻觉问题,并在实验中表现出色。

  • Motivation: 多模态模型在分割和理解任务中存在不准确和幻觉问题,主要由于视觉理解能力弱和缺乏细粒度感知。
  • Method: LIRA框架包含语义增强特征提取器(SEFE)和交错局部视觉耦合(ILVC),分别提升分割精度和减少幻觉。
  • Result: LIRA在分割和理解任务中达到最先进性能。
  • Conclusion: LIRA通过改进视觉理解和细粒度感知,显著提升了多模态模型的性能。

[5] Advancing Offline Handwritten Text Recognition: A Systematic Review of Data Augmentation and Generation Techniques

Yassin Hussein Rassul,Aram M. Ahmed,Polla Fattah,Bryar A. Hassan,Arwaa W. Abdulkareem,Tarik A. Rashid,Joan Lu

Main category: cs.CV

TL;DR: 本文综述了离线手写文本识别(HTR)中的数据增强与生成技术,分析了传统方法与深度学习方法(如GANs、扩散模型和基于Transformer的方法),并探讨了生成多样且真实手写样本的挑战。

  • Motivation: 离线HTR系统在历史文档数字化等领域至关重要,但标注数据稀缺限制了其性能,尤其是低资源语言和复杂脚本。
  • Method: 采用PRISMA方法筛选了1,302篇研究,最终分析848篇,涵盖IEEE、Springer等学术资源。
  • Result: 综述了现有数据集、评估指标和先进方法,揭示了研究空白。
  • Conclusion: 提出了未来研究方向,以推动手写文本生成在多语言和多风格领域的发展。

[6] Centralized Copy-Paste: Enhanced Data Augmentation Strategy for Wildland Fire Semantic Segmentation

Joon Tai Kim,Tianle Chen,Ziyu Dong,Nishanth Kunchala,Alexander Guller,Daniel Ospina Acero,Roger Williams,Mrinal Kumar

Main category: cs.CV

TL;DR: 论文提出了一种名为CCPDA的数据增强方法,专注于提升野火分割模型的性能,通过复制粘贴火源区域到目标图像中,增加数据集多样性。

  • Motivation: 由于标注图像成本高且公开数据集稀缺,野火科学领域需要一种有效的数据增强方法来提升分割模型的训练效果。
  • Method: CCPDA方法包括三步:识别火源簇、集中技术聚焦火源核心、将处理后的火源粘贴到目标图像。
  • Result: CCPDA在数值分析中表现优于其他增强方法,显著提升了火类分割性能。
  • Conclusion: CCPDA有效缓解了小规模标注数据集的训练难题,尤其在火类分割中表现突出。

[7] AR2: Attention-Guided Repair for the Robustness of CNNs Against Common Corruptions

Fuyuan Zhang,Qichen Wang,Jianjun Zhao

Main category: cs.CV

TL;DR: AR2通过注意力引导修复方法提升预训练CNN的鲁棒性,无需改变架构,在标准基准测试中表现优异。

  • Motivation: 深度神经网络在常见损坏(如噪声、模糊等)下性能显著下降,限制了其在实际应用中的可靠性。
  • Method: AR2通过对齐干净和损坏图像的类激活图(CAMs),采用迭代修复策略结合CAM引导的细化和标准微调。
  • Result: AR2在CIFAR-10-C、CIFAR-100-C和ImageNet-C基准测试中优于现有方法,平衡了干净数据和损坏数据的准确性。
  • Conclusion: AR2为提升模型在多样化损坏环境中的可靠性提供了鲁棒且可扩展的解决方案。

[8] When Trackers Date Fish: A Benchmark and Framework for Underwater Multiple Fish Tracking

Weiran Li,Yeqiang Liu,Qiannan Guo,Yijie Wei,Hwa Liang Leo,Zhenbo Li

Main category: cs.CV

TL;DR: 论文提出了首个水下多鱼跟踪数据集MFT25,并开发了专用跟踪框架SU-T,在非线性和形态特征方面优化,性能优于现有方法。

  • Motivation: 水下多目标跟踪在海洋生态和水产养殖中很重要,但相关研究较少,缺乏专用数据集和方法。
  • Method: 提出MFT25数据集和SU-T跟踪框架,包含UKF优化和FishIoU匹配方法。
  • Result: SU-T在MFT25上表现优异,HOTA为34.1,IDF1为44.6。
  • Conclusion: MFT25和SU-T为水下跟踪研究提供了基础,对海洋生物学和水产养殖有重要应用。

[9] SImpHAR: Advancing impedance-based human activity recognition using 3D simulation and text-to-motion models

Lala Shakti Swarup Ray,Mengxi Liu,Deepika Gurung,Bo Zhou,Sungho Suh,Paul Lukowicz

Main category: cs.CV

TL;DR: SImpHAR框架通过模拟生物阻抗信号和两阶段训练策略,显著提升了基于生物阻抗的人体活动识别性能。

  • Motivation: 生物阻抗传感在精细动作捕捉中具有优势,但缺乏标记数据限制了其应用。
  • Method: 提出模拟管道生成逼真生物阻抗信号,并采用两阶段训练策略,无需标签对齐的合成数据。
  • Result: 在多个数据集上表现优于现有方法,准确率和F1分数分别提升22.3%和21.8%。
  • Conclusion: 模拟驱动增强和模块化训练为基于阻抗的HAR提供了新思路。

[10] Hierarchical Multi-Stage Transformer Architecture for Context-Aware Temporal Action Localization

Hayat Ullah,Arslan Munir,Oliver Nina

Main category: cs.CV

TL;DR: 提出了一种名为PCL-Former的分层多阶段Transformer架构,用于时序动作定位任务,通过专用模块处理不同子任务,并在多个基准数据集上取得显著性能提升。

  • Motivation: 受Transformer和多阶段架构在视频识别和目标检测领域的成功启发,探索其在时序动作定位任务中的潜力。
  • Method: 设计了PCL-Former,包含三个专用Transformer模块:Proposal-Former(候选段识别)、Classification-Former(动作分类)和Localization-Former(边界预测),每个模块配备专用损失函数。
  • Result: 在THUMOS-14、ActivityNet-1.3和HACS数据集上分别超越现有最佳方法2.8%、1.2%和4.8%。
  • Conclusion: PCL-Former通过模块化设计和专用损失函数,显著提升了时序动作定位任务的性能。

[11] THOR: Thermal-guided Hand-Object Reasoning via Adaptive Vision Sampling

Soroush Shahi,Farzad Shahabi,Rama Nabulsi,Glenn Fernandes,Aggelos Katsaggelos,Nabil Alshurafa

Main category: cs.CV

TL;DR: THOR是一种实时自适应时空RGB帧采样方法,利用热感技术捕捉手部活动,显著减少数据处理量和能耗。

  • Motivation: 解决穿戴相机连续处理RGB图像的高能耗、大数据量、隐私和计算资源问题。
  • Method: 结合低分辨率热感数据动态调整RGB采样率,并利用热感线索定位感兴趣区域。
  • Result: 仅需3%的原始RGB数据,活动识别F1分数达95%,与全视频(94%)相当。
  • Conclusion: THOR为实时监测手部活动提供了一种更实用的解决方案。

[12] EA: An Event Autoencoder for High-Speed Vision Sensing

Riadul Islam,Joey Mulé,Dhandeep Challagundla,Shahmir Rizvi,Sean Carson

Main category: cs.CV

TL;DR: 提出了一种事件自动编码器架构,用于高效压缩和重建事件数据,提升事件相机的物体检测性能。

  • Motivation: 传统帧式视觉系统在动态环境中存在运动模糊、高延迟和冗余数据处理的问题,事件相机虽能异步捕捉亮度变化,但稀疏和噪声事件流对物体检测构成挑战。
  • Method: 采用卷积编码,结合自适应阈值选择和轻量级分类器,以降低计算复杂度并提高识别精度。
  • Result: 在SEFD数据集上,模型精度与YOLO-v4相当,但参数减少35.5倍;在嵌入式平台上实现8至44.8 FPS的高帧率。
  • Conclusion: 该模型显著提升了事件相机的性能,适用于低功耗、高速的边缘计算实时应用。

[13] Video-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning

Ziyang Wang,Jaehong Yoon,Shoubin Yu,Md Mohaiminul Islam,Gedas Bertasius,Mohit Bansal

Main category: cs.CV

TL;DR: Video-RTS通过结合数据高效的强化学习和视频自适应测试时间缩放策略,显著提升了视频推理能力的数据效率,无需大规模监督微调。

  • Motivation: 现有基于强化学习和大型语言模型的视频推理方法依赖大规模监督微调和长链思维标注,成本高且难以扩展。
  • Method: 跳过资源密集的监督微调步骤,采用纯强化学习训练和输出奖励,结合稀疏到密集的视频测试时间缩放策略。
  • Result: 在多个视频推理基准测试中,Video-RTS仅用3.6%的训练样本,平均准确率提升2.4%,在Video-Holmes和MMVU上分别提升4.2%和2.6%。
  • Conclusion: Video-RTS通过纯强化学习和自适应视频测试时间缩放的互补优势,实现了高效的视频推理性能。

[14] Mask6D: Masked Pose Priors For 6D Object Pose Estimation

Yuechen Xie,Haobo Jiang,Jin Xie

Main category: cs.CV

TL;DR: 提出了一种名为Mask6D的新型预训练策略,通过结合2D-3D对应图和可见掩码图,提升了在遮挡或杂乱场景下的6D物体姿态估计性能。

  • Motivation: 当前基于单目RGB图像的姿态估计网络在遮挡或杂乱场景下难以提取区分性姿态特征,限制了性能。
  • Method: 引入2D-3D对应图和可见掩码图作为额外模态信息,设计基于重建的预训练模型和对象聚焦的损失函数。
  • Result: 实验表明,该方法优于现有端到端姿态估计方法。
  • Conclusion: Mask6D通过预训练策略显著提升了姿态估计的鲁棒性。

[15] Bilateral Collaboration with Large Vision-Language Models for Open Vocabulary Human-Object Interaction Detection

Yupeng Hu,Changxing Ding,Chang Sun,Shaoli Huang,Xiangmin Xu

Main category: cs.CV

TL;DR: 提出了一种双边协作框架(BC-HOI)用于开放词汇HOI检测,通过注意力偏差引导(ABG)和LLM监督指导(LSG)提升细粒度特征生成能力。

  • Motivation: 现有方法依赖视觉语言模型(VLM)生成的特征,但这些特征过于粗粒度,与检测任务需求不符。
  • Method: 提出BC-HOI框架,包括ABG(引导VLM生成细粒度特征)和LSG(利用LLM提供细粒度监督)。
  • Result: 在HICO-DET和V-COCO基准测试中表现优异。
  • Conclusion: BC-HOI框架有效解决了开放词汇HOI检测中的细粒度特征问题。

[16] What Demands Attention in Urban Street Scenes? From Scene Understanding towards Road Safety: A Survey of Vision-driven Datasets and Studies

Yaoqi Huang,Julie Stephany Berrio,Mao Shan,Stewart Worrall

Main category: cs.CV

TL;DR: 该论文通过分类交通场景中的关键元素,分析视觉驱动任务和数据集,提出了一种统一的分类框架,并总结了现有研究的不足与潜在解决方案。

  • Motivation: 利用视觉传感器和计算机视觉算法的进步,提升道路安全,需要系统化分类和分析交通场景中的关键元素。
  • Method: 提出一种分类法,将交通实体分为异常和正常但关键两类,涵盖10个类别和20个子类,并分析35个视觉驱动任务和73个数据集。
  • Result: 建立了跨领域的统一分析框架,总结了各基准的优缺点,为资源优化和标准统一提供信息。
  • Conclusion: 论文通过整合分类法和全面分析,为研究者提供了整体视角,并指出了关键研究缺口。

[17] FIFA: Unified Faithfulness Evaluation Framework for Text-to-Video and Video-to-Text Generation

Liqiang Jing,Viet Lai,Seunghyun Yoon,Trung Bui,Xinya Du

Main category: cs.CV

TL;DR: FIFA是一个统一的视频多模态大语言模型(VideoMLLMs)忠实性评估框架,通过提取描述性事实、建模语义依赖关系,并利用VideoQA模型验证,解决了现有方法在开放回答中的幻觉问题。

  • Motivation: 现有评估方法局限于单一任务且无法评估开放回答中的幻觉问题,因此需要一种更全面的评估框架。
  • Method: 提出FIFA框架,包括提取描述性事实、构建时空语义依赖图,以及利用VideoQA模型验证;进一步引入基于工具的后校正框架Post-Correction。
  • Result: FIFA比现有评估方法更接近人类判断,Post-Correction有效提升了文本和视频生成的事实一致性。
  • Conclusion: FIFA为VideoMLLMs的忠实性评估提供了有效解决方案,Post-Correction进一步优化了生成内容的事实一致性。

[18] Concept Unlearning by Modeling Key Steps of Diffusion Process

Chaoshuo Zhang,Chenhao Lin,Zhengyu Zhao,Le Yang,Qian Wang,Chao Shen

Main category: cs.CV

TL;DR: 提出了一种名为KSCU的新方法,通过专注于扩散模型生成过程中的关键步骤,有效平衡概念遗忘与生成能力保留。

  • Motivation: 现有概念遗忘方法难以平衡遗忘效果与生成能力保留,存在安全风险。
  • Method: KSCU方法利用扩散模型的逐步采样特性,针对关键步骤进行微调,减少参数更新。
  • Result: 实验表明,KSCU能有效防止生成不良图像,同时保留模型的生成能力。
  • Conclusion: KSCU为文本到图像扩散模型的安全使用提供了有效解决方案。

[19] Speak2Sign3D: A Multi-modal Pipeline for English Speech to American Sign Language Animation

Kazi Mahathir Rahman,Naveed Imtiaz Nafis,Md. Farhan Sadik,Mohammad Al Rafi,Mehedi Hasan Shahed

Main category: cs.CV

TL;DR: 该研究提出了一种将英语语音转换为流畅3D手语动画的完整流程,结合语音识别、文本翻译和动作生成技术。

  • Motivation: 解决将英语口语转换为手语动画的挑战,填补现有研究空白。
  • Method: 使用Whisper进行语音转文本,MarianMT模型翻译为ASL gloss,结合Word2Vec和FastText优化翻译,并通过3D关键点系统生成动画。
  • Result: 系统表现优异,BLEU分数达0.7714和0.8923,并创建了新数据集Sign3D-WLASL和BookGlossCorpus-CG。
  • Conclusion: 该框架整合音频、文本和动作,实现了从英语口语到逼真3D手语动画的完整转换。

[20] ILNet: Trajectory Prediction with Inverse Learning Attention for Enhancing Intention Capture

Mingjin Zeng,Nan Ouyang,Wenkang Wan,Lei Ao,Qing Cai,Kai Sheng

Main category: cs.CV

TL;DR: ILNet提出了一种基于逆向学习注意力机制和动态锚点选择的多智能体轨迹预测方法,显著提升了复杂交互场景下的预测性能。

  • Motivation: 受人类驾驶行为的启发,旨在解决现有方法在时空交互协调和动态适应性方面的不足。
  • Method: 采用逆向学习注意力机制(IL Attention)建模交互意图,并引入动态锚点选择(DAS)模块优化轨迹预测。
  • Result: 在INTERACTION和Argoverse数据集上达到最优性能,尤其在复杂交互场景中表现突出。
  • Conclusion: ILNet通过动态建模交互意图和优化锚点选择,显著提升了轨迹预测的准确性和多模态分布能力。

[21] A model-agnostic active learning approach for animal detection from camera traps

Thi Thu Thuy Nguyen,Duc Thanh Nguyen

Main category: cs.CV

TL;DR: 提出了一种模型无关的主动学习方法,用于优化野生动物相机陷阱数据的标注和检测模型训练,仅需30%的数据即可达到全量数据的效果。

  • Motivation: 野生动物相机陷阱数据量大且标注成本高,现有主动学习方法需完全访问模型,限制了应用。
  • Method: 结合样本在对象和图像层面的不确定性和多样性,提出模型无关的主动学习方法。
  • Result: 实验表明,仅用30%的训练数据,动物检测器性能可达到或超过全量数据的效果。
  • Conclusion: 该方法有效降低了数据标注成本,提升了野生动物监测和保护的自动化水平。

[22] Token Bottleneck: One Token to Remember Dynamics

Taekyung Kim,Dongyoon Han,Byeongho Heo,Jeongeun Park,Sangdoo Yun

Main category: cs.CV

TL;DR: ToBo是一种自监督学习框架,通过压缩场景为瓶颈令牌并预测后续场景,学习动态场景的紧凑表示。

  • Motivation: 动态场景的紧凑表示对视觉跟踪和机器人操作等任务至关重要。
  • Method: ToBo通过压缩参考场景为瓶颈令牌,并利用少量目标补丁预测目标场景,嵌入时间动态。
  • Result: 在视频标签传播和机器人操作等任务中表现优于基线,并在真实环境中验证了鲁棒性。
  • Conclusion: ToBo能有效学习动态场景表示,适用于多种任务和模型规模。

[23] Concept-TRAK: Understanding how diffusion models learn concepts through concept-level attribution

Yonghyun Park,Chieh-Hsin Lai,Satoshi Hayakawa,Yuhta Takida,Naoki Murata,Wei-Hsiang Liao,Woosung Choi,Kin Wai Cheuk,Junghyun Koo,Yuki Mitsufuji

Main category: cs.CV

TL;DR: 论文提出了一种名为Concept-TRAK的新方法,用于解决扩散模型在图像生成中的版权和透明度问题,通过概念级归因提供更细粒度的贡献分析。

  • Motivation: 扩散模型在图像生成中表现优异,但其广泛使用引发了版权和模型透明度的担忧。现有方法无法精确识别对特定元素(如风格或对象)的贡献。
  • Method: Concept-TRAK通过两种创新扩展了影响函数:(1) 基于扩散后验采样的训练损失;(2) 强调语义相关性的概念感知奖励函数。
  • Result: 在AbC基准测试中,Concept-TRAK显著优于现有方法,并通过案例研究展示了其在负责任AI开发中的实用性。
  • Conclusion: 概念级归因为生成AI的开发和治理提供了可操作的见解,解决了版权和透明度问题。

[24] Divergence-Based Similarity Function for Multi-View Contrastive Learning

Jae Hyoung Jeon,Cheolsu Lim,Myungjoo Kang

Main category: cs.CV

TL;DR: 提出了一种基于分布差异的相似性函数(DSF),通过将多视图表示为分布并测量分布间的差异来捕捉联合结构,显著提升了性能。

  • Motivation: 现有方法主要捕捉成对关系,未能建模多视图的联合结构。
  • Method: 提出DSF,将多视图表示为分布并计算分布间的差异作为相似性度量。
  • Result: DSF在kNN分类和线性评估等任务中表现优异,且效率更高。
  • Conclusion: DSF无需温度超参数即可有效工作,且与余弦相似性存在理论联系。

[25] Edge-Boundary-Texture Loss: A Tri-Class Generalization of Weighted Binary Cross-Entropy for Enhanced Edge Detection

Hao Shu

Main category: cs.CV

TL;DR: 论文提出了一种新的损失函数EBT,通过将像素分为边缘、边界和纹理三类,优化边缘检测性能。

  • Motivation: 传统WBCE损失函数对所有非边缘像素一视同仁,忽略了边界和纹理的结构差异,导致预测模糊。
  • Method: 提出EBT损失函数,将像素分为三类(边缘、边界、纹理),并为每类分配不同的监督权重。
  • Result: 实验证明EBT损失在多个基准测试中表现优于WBCE,且超参数鲁棒性强。
  • Conclusion: EBT损失函数易于部署,性能优越,无需复杂调参。

[26] MOST: Motion Diffusion Model for Rare Text via Temporal Clip Banzhaf Interaction

Yin Wang,Mu li,Zhiying Leng,Frederick W. B. Li,Xiaohui Liang

Main category: cs.CV

TL;DR: MOST是一种新颖的运动扩散模型,通过时间片段Banzhaf交互解决从罕见语言提示生成人类运动的挑战。

  • Motivation: 现有方法在粗粒度匹配和忽略语义线索方面存在问题,MOST通过利用细粒度片段关系来解决这些问题。
  • Method: MOST采用时间片段Banzhaf交互量化文本-运动一致性,并通过运动提示模块生成语义一致的运动。
  • Result: MOST在文本到运动检索和生成方面达到最先进水平,尤其在罕见提示上表现突出。
  • Conclusion: MOST通过细粒度匹配和消除冗余,显著提升了文本到运动生成的效果。

[27] Ambiguity-aware Point Cloud Segmentation by Adaptive Margin Contrastive Learning

Yang Chen,Yueqi Duan,Haowen Sun,Jiwen Lu,Yap-Peng Tan

Main category: cs.CV

TL;DR: 提出了一种自适应边界对比学习方法(AMContrast3D和AMContrast3D++),用于点云3D语义分割,通过模糊度感知优化模型训练。

  • Motivation: 现有方法对模糊区域的点采用均等惩罚目标,忽略了点间模糊性差异,导致模型性能受限。
  • Method: 设计AMContrast3D,结合对比学习和模糊度估计框架,为不同模糊度的点分配自适应目标;进一步提出AMContrast3D++,通过并行训练分支和模糊度预测模块优化嵌入表示。
  • Result: 在S3DIS和ScanNet数据集上验证了方法的有效性,提升了分割性能和鲁棒性。
  • Conclusion: 通过模糊度感知的自适应目标设计,显著改善了3D语义分割的效果。

[28] Capturing Stable HDR Videos Using a Dual-Camera System

Qianyu Zhang,Bolun Zheng,Hangjia Pan,Lingyu Zhu,Zunjie Zhu,Zongpeng Li,Shiqi Wang

Main category: cs.CV

TL;DR: 提出了一种双摄像头系统(DCS)和曝光自适应融合网络(EAFNet)来解决HDR视频重建中的闪烁问题,通过参考序列和非参考序列的互补,结合多尺度架构,实现了高性能的HDR视频重建。

  • Motivation: HDR视频重建中,交替曝光方法导致的曝光波动常引起闪烁问题,需要一种更稳定的解决方案。
  • Method: 使用双摄像头系统(DCS)分别捕获参考序列和非参考序列,结合EAFNet进行特征对齐、融合和重建,减少伪影。
  • Result: 实验表明,该方法在不同数据集上达到了最先进的性能,验证了DCS在HDR视频重建中的潜力。
  • Conclusion: DCS和EAFNet的结合有效解决了HDR视频重建中的闪烁问题,展示了高性能和广泛的应用前景。

[29] Cross-Modal Dual-Causal Learning for Long-Term Action Recognition

Xu Shaowu,Jia Xibin,Gao Junyu,Sun Qianmei,Chang Jing,Fan Chao

Main category: cs.CV

TL;DR: CMDCL提出了一种跨模态双因果学习方法,通过文本和视觉因果干预解决长期动作识别中的跨模态偏差和视觉混淆问题。

  • Motivation: 长期动作识别(LTAR)因时间跨度长、动作关联复杂及视觉混淆问题而具有挑战性。现有方法多依赖统计相关性而非因果机制,且缺乏跨模态因果建模。
  • Method: CMDCL引入结构因果模型,通过文本因果干预解决文本嵌入的跨模态偏差,并通过视觉因果干预去除视觉模态中的混淆因素。
  • Result: 在Charades、Breakfast和COIN三个基准测试中,CMDCL表现出色。
  • Conclusion: CMDCL通过双因果干预实现了鲁棒的动作表示,有效解决了LTAR的挑战。

[30] Omni-Fusion of Spatial and Spectral for Hyperspectral Image Segmentation

Qing Zhang,Guoquan Pei,Yan Wang

Main category: cs.CV

TL;DR: 提出了一种名为Omni-Fuse的新型空间-光谱全融合网络,用于高光谱图像分割,显著提升了分割性能。

  • Motivation: 医学高光谱成像(MHSI)在疾病诊断中潜力巨大,但高维度和光谱冗余特性使其空间和光谱信息融合具有挑战性。
  • Method: 设计了跨维度特征融合操作,包括双向注意力机制、光谱引导的空间查询选择和两阶段跨维度解码器。
  • Result: 在两个显微高光谱图像数据集上的实验表明,该方法在DSC指标上比现有方法提升了5.73%。
  • Conclusion: Omni-Fuse通过高效的跨维度融合显著提升了高光谱图像的分割性能。

[31] PointVDP: Learning View-Dependent Projection by Fireworks Rays for 3D Point Cloud Segmentation

Yang Chen,Yueqi Duan,Haowen Sun,Ziwei Wang,Jiwen Lu,Yap-Peng Tan

Main category: cs.CV

TL;DR: 提出了一种视图依赖投影(VDP)方法,用于点云分割,通过动态适应不同视角的几何结构生成高效的3D到2D映射。

  • Motivation: 现有基于投影的方法在复杂场景中使用视图无关的投影,依赖预定义参数,限制了点的感知能力和投影多样性,且多投影导致计算冗余。
  • Method: 设计了VDP框架,通过数据驱动生成投影,模拟烟花的自适应行为预测射线,并引入颜色正则化优化框架。
  • Result: 在S3DIS和ScanNet基准测试中表现优异,计算成本低。
  • Conclusion: PointVDP提供了一种资源高效的语义理解解决方案。

[32] EXAONE Path 2.0: Pathology Foundation Model with End-to-End Supervision

Myungjang Pyeon,Janghyeon Lee,Minsoo Lee,Juseung Yun,Hwanil Choi,Jonghyun Kim,Jiwon Kim,Yi Hu,Jongseong Jang,Soonyoung Lee

Main category: cs.CV

TL;DR: EXAONE Path 2.0提出了一种在数字病理学中通过直接幻灯片级监督学习补丁级表示的方法,显著提高了数据效率和性能。

  • Motivation: 现有自监督学习方法在补丁级训练中可能忽略复杂的领域特定特征,且数据效率低。
  • Method: 通过直接幻灯片级监督学习补丁级表示,使用37k全幻灯片图像进行训练。
  • Result: 在10个生物标志物预测任务中达到最先进的平均性能。
  • Conclusion: EXAONE Path 2.0显著提升了数据效率和预测性能。

[33] Learning from Sparse Point Labels for Dense Carcinosis Localization in Advanced Ovarian Cancer Assessment

Farahdiba Zarin,Riccardo Oliva,Vinkle Srivastav,Armine Vardazaryan,Andrea Rosati,Alice Zampolini Faustini,Giovanni Scambia,Anna Fagotti,Pietro Mascagni,Nicolas Padoy

Main category: cs.CV

TL;DR: 该论文提出了一种从稀疏标签中学习的方法,用于医学图像中的关键点定位任务,特别针对卵巢癌患者的腹腔镜视频帧。通过稀疏热图回归和新的损失函数(Crag and Tail loss),有效利用稀疏标注并减少假阴性影响。

  • Motivation: 医学领域标注成本高,尤其是像素级密集标注,因此需要从少量标注中学习,以推动研究进展。
  • Method: 将问题建模为稀疏热图回归,并提出Crag and Tail损失函数,以高效利用稀疏标注并减少假阴性影响。
  • Result: 通过消融实验验证了方法的有效性,能够准确实现关键点的密集定位。
  • Conclusion: 该方法在密集标注难以获取的场景中具有潜力,可推动相关研究。

[34] ClipGS: Clippable Gaussian Splatting for Interactive Cinematic Visualization of Volumetric Medical Data

Chengkun Li,Yuqi Tong,Kai Chen,Zhenya Yang,Ruiyang Li,Shi Qiu,Jason Ying-Kuen Chan,Pheng-Ann Heng,Qi Dou

Main category: cs.CV

TL;DR: ClipGS是一种创新的高斯点框架,支持交互式医学数据可视化,通过可学习的截断方案和自适应调整模型,显著提升了渲染质量和效率。

  • Motivation: 医学数据可视化对诊断和手术规划至关重要,但现有方法计算成本高且渲染速度慢,限制了交互式应用。
  • Method: 提出ClipGS框架,支持裁剪平面,采用可学习的截断方案和自适应调整模型,动态优化高斯基元的可见性和变形。
  • Result: 在五种医学数据上验证,平均PSNR为36.635,帧率为156 FPS,模型大小为16.1 MB,优于现有方法。
  • Conclusion: ClipGS在渲染质量和效率上表现优异,为医学数据可视化提供了高效解决方案。

[35] Diff2I2P: Differentiable Image-to-Point Cloud Registration with Diffusion Prior

Juncheng Mu,Chengwei Ren,Weixiang Zhang,Liang Pan,Xiao-Ping Zhang,Yue Gao

Main category: cs.CV

TL;DR: Diff2I2P提出了一种基于扩散先验的全可微分I2P配准框架,通过CSD和DCT模块解决模态差距问题,显著提升了配准性能。

  • Motivation: 现有方法通过度量学习实现跨模态特征对齐,但忽视了图像与点云数据的固有模态差距,导致跨模态对应关系不准确。
  • Method: 提出Diff2I2P框架,结合Control-Side Score Distillation(CSD)和Deformable Correspondence Tuning(DCT)模块,利用扩散先验优化跨模态特征学习。
  • Result: 在7-Scenes基准测试中,Diff2I2P比现有方法提高了7%以上的配准召回率。
  • Conclusion: Diff2I2P通过扩散先验和可微分设计,显著提升了跨模态配准性能。

[36] MS-DPPs: Multi-Source Determinantal Point Processes for Contextual Diversity Refinement of Composite Attributes in Text to Image Retrieval

Naoya Sogi,Takashi Shibata,Makoto Terao,Masanori Suganuma,Takayuki Okatani

Main category: cs.CV

TL;DR: 论文提出了一种名为CDR-CA的新任务,通过多源DPP方法优化多属性多样性,以适应不同应用场景。

  • Motivation: 传统方法仅关注图像外观多样性的提升,而忽略了应用场景对多样性需求的变化,限制了结果多样化的应用范围。
  • Method: 提出Multi-Source DPPs方法,扩展了DPP模型,引入统一相似度矩阵和切线归一化以反映上下文。
  • Result: 实验证明该方法在优化多属性多样性方面有效。
  • Conclusion: CDR-CA任务及Multi-Source DPPs方法为解决应用场景相关的多样性优化问题提供了新思路。

[37] Enhancing Diffusion Model Stability for Image Restoration via Gradient Management

Hongjie Wu,Mingqin Zhang,Linchao He,Ji-Zhe Zhou,Jiancheng Lv

Main category: cs.CV

TL;DR: 论文提出了一种名为SPGD的梯度管理技术,通过渐进式似然预热和自适应方向动量平滑,解决了扩散模型中先验与似然梯度冲突及不稳定性问题,显著提升了图像恢复性能。

  • Motivation: 扩散模型在图像恢复中表现出色,但先验与似然梯度之间的冲突及不稳定性影响了生成过程。论文旨在分析并解决这些问题。
  • Method: 提出SPGD技术,包含渐进式似然预热策略和自适应方向动量平滑,以管理梯度冲突和波动。
  • Result: 实验表明,SPGD显著提升了生成稳定性,在定量指标和视觉结果上均达到最优性能。
  • Conclusion: SPGD通过梯度管理有效解决了扩散模型中的不稳定性问题,为图像恢复任务提供了高效解决方案。

[38] MK-Pose: Category-Level Object Pose Estimation via Multimodal-Based Keypoint Learning

Yifan Yang,Peili Song,Enfan Lan,Dong Liu,Jingtai Liu

Main category: cs.CV

TL;DR: MK-Pose是一种多模态关键点学习框架,结合RGB图像、点云和类别文本描述,通过自监督关键点检测和图增强特征融合模块,显著提升了类别级物体姿态估计的性能。

  • Motivation: 解决现有方法在物体遮挡和跨实例、跨类别泛化能力上的不足,提升类别级物体姿态估计的准确性。
  • Method: 提出MK-Pose框架,整合RGB图像、点云和文本描述,采用自监督关键点检测、注意力查询生成、软热图匹配和图关系建模,并设计图增强特征融合模块。
  • Result: 在CAMERA25和REAL275数据集上表现优异,IoU和平均精度均优于现有方法,且在HouseCat6D数据集上展示了跨数据集能力。
  • Conclusion: MK-Pose通过多模态融合和图增强特征处理,显著提升了类别级物体姿态估计的性能,适用于实际应用场景。

[39] FlexGaussian: Flexible and Cost-Effective Training-Free Compression for 3D Gaussian Splatting

Boyuan Tian,Qizhe Gao,Siran Xianyu,Xiaotong Cui,Minjia Zhang

Main category: cs.CV

TL;DR: FlexGaussian是一种无需训练的3D高斯压缩方法,结合混合精度量化和属性判别剪枝,实现高效压缩。

  • Motivation: 现有压缩方法需要大量重新训练或微调,缺乏灵活性,无法适应不同压缩需求。
  • Method: 采用混合精度量化和属性判别剪枝,无需重新训练。
  • Result: 压缩率高达96.4%,渲染质量损失小(PSNR下降<1 dB),速度比现有方法快1.7-2.1倍。
  • Conclusion: FlexGaussian是一种灵活、高效的3D高斯压缩方法,适用于移动设备。

[40] Text-promptable Object Counting via Quantity Awareness Enhancement

Miaojing Shi,Xiaowen Zhang,Zijie Yue,Yong Luo,Cairong Zhao,Li Li

Main category: cs.CV

TL;DR: QUANet通过引入数量导向的文本提示和视觉-文本数量对齐损失,提升了模型在计数任务中的数量感知能力。

  • Motivation: 现有方法在文本提示中仅包含对象类别信息,不足以训练模型准确区分计数任务中的对象数量。
  • Method: QUANet采用双流自适应计数解码器,包括Transformer流、CNN流和T2C适配器,并引入跨流数量排序损失优化预测。
  • Result: 在FSC-147、CARPK、PUCPR+和ShanghaiTech等标准基准测试中表现出强大的零样本类无关计数泛化能力。
  • Conclusion: QUANet通过创新设计和损失函数,显著提升了计数任务的性能。

[41] StixelNExT++: Lightweight Monocular Scene Segmentation and Representation for Collective Perception

Marcel Vosshans,Omar Ait-Aider,Youcef Mezouar,Markus Enzweiler

Main category: cs.CV

TL;DR: StixelNExT++是一种用于单目感知系统的新型场景表示方法,通过聚类3D Stixel单元增强物体分割,实现高效场景信息压缩,并支持点云和鸟瞰图表示。

  • Motivation: 改进现有的Stixel表示方法,提升单目感知系统的场景理解和物体分割能力。
  • Method: 基于Stixel表示,推断3D Stixels并聚类小单元,使用轻量级神经网络,训练数据来自LiDAR生成的标注。
  • Result: 在Waymo数据集上30米范围内表现优异,计算时间低至10毫秒/帧。
  • Conclusion: StixelNExT++在自动驾驶系统中具有集体感知潜力。

[42] Spatial-Temporal Graph Mamba for Music-Guided Dance Video Synthesis

Hao Tang,Ling Shao,Zhenyu Zhang,Luc Van Gool,Nicu Sebe

Main category: cs.CV

TL;DR: STG-Mamba是一种用于音乐引导舞蹈视频合成的空间-时间图模型,包含音乐到骨架和骨架到视频的转换模块,实验表明其性能优于现有方法。

  • Motivation: 解决音乐到舞蹈视频的合成问题,通过空间-时间建模捕捉关节依赖关系。
  • Method: 1. 音乐到骨架转换:使用STGM块建模空间-时间依赖;2. 骨架到视频转换:采用自监督正则化网络。
  • Result: 在包含54,944个视频片段的数据集上,STG-Mamba显著优于现有方法。
  • Conclusion: STG-Mamba在音乐引导舞蹈视频合成任务中表现出色,具有实际应用潜力。

[43] A Neural Representation Framework with LLM-Driven Spatial Reasoning for Open-Vocabulary 3D Visual Grounding

Zhenyang Liu,Sixiao Zheng,Siyu Chen,Cairong Zhao,Longfei Liang,Xiangyang Xue,Yanwei Fu

Main category: cs.CV

TL;DR: 提出SpatialReasoner框架,通过LLM驱动的空间推理提升开放词汇3D视觉定位能力,解决现有方法在空间关系推理上的不足。

  • Motivation: 开放词汇3D视觉定位对具身AI应用至关重要,但现有方法在处理语言查询中的空间关系时表现不佳。
  • Method: 结合LLM驱动的空间推理和视觉属性增强的分层特征场,通过CLIP特征和SAM掩码提取实现目标定位。
  • Result: 实验表明,SpatialReasoner优于基线模型,显著提升了空间推理能力。
  • Conclusion: SpatialReasoner框架有效解决了3D视觉定位中的空间关系推理问题,具有广泛的应用潜力。

[44] Hierarchical Feature Alignment for Gloss-Free Sign Language Translation

Sobhan Asasi,Mohamed Ilyes Lakhal,Richard Bowden

Main category: cs.CV

TL;DR: 提出了一种基于伪注释和对比视频-语言对齐的分层预训练策略,用于提升手语翻译质量。

  • Motivation: 解决现有方法在视觉与文本表示之间的差异问题,同时避免依赖注释的灵活性需求。
  • Method: 采用分层特征提取(帧、片段、视频级),结合伪注释和对比对齐策略。
  • Result: 实验显示BLEU-4和ROUGE分数提升,同时保持效率。
  • Conclusion: 分层预训练策略有效提升了手语翻译的性能。

[45] MADPOT: Medical Anomaly Detection with CLIP Adaptation and Partial Optimal Transport

Mahshid Shiri,Cigdem Beyan,Vittorio Murino

Main category: cs.CV

TL;DR: 提出了一种结合视觉适配器、提示学习、部分最优传输(POT)和对比学习(CL)的新方法,用于改进CLIP在医学图像异常检测(AD)中的适应性。

  • Motivation: 医学异常检测面临成像模态多样、解剖变异大和标记数据有限等挑战。
  • Method: 采用多提示学习与POT对齐局部特征,结合CL增强类内凝聚和类间分离。
  • Result: 在少样本、零样本和跨数据集场景中取得最先进结果,无需合成数据或记忆库。
  • Conclusion: 该方法显著提升了医学图像异常检测的性能和适应性。

[46] Residual Prior-driven Frequency-aware Network for Image Fusion

Guan Zheng,Xue Wang,Wenhua Qian,Peng Liu,Runzhuo Ma

Main category: cs.CV

TL;DR: RPFNet通过残差先验和频域融合解决图像融合中的计算成本和互补特征捕获问题,显著提升融合效果。

  • Motivation: 图像融合需整合多模态互补信息,但全局空间建模计算成本高且缺乏真实标签,增加了互补特征捕获的难度。
  • Method: 提出RPFNet,包含残差先验模块(RPM)提取模态差异信息,频域融合模块(FDFM)实现高效全局建模,交叉促进模块(CPM)增强局部与全局特征协同。训练中引入辅助解码器和显著性结构损失。
  • Result: RPFNet有效整合判别特征,增强纹理细节和显著目标,提升高级视觉任务性能。
  • Conclusion: RPFNet通过频域融合和残差先验,显著提升图像融合效果,适用于高级视觉任务部署。

[47] DIFFUMA: High-Fidelity Spatio-Temporal Video Prediction via Dual-Path Mamba and Diffusion Enhancement

Xinyu Xie,Weifeng Cao,Jun Shi,Yangyang Hu,Hui Liang,Wanyong Liang,Xiaoliang Qian

Main category: cs.CV

TL;DR: 论文提出了一种名为DIFFUMA的双路径预测架构,并发布了首个半导体晶圆切割过程的公开数据集CHDL,显著提升了预测性能。

  • Motivation: 在半导体制造等高精度工业场景中,缺乏专门的基准数据集阻碍了对复杂过程建模和预测的研究。
  • Method: 构建了CHDL数据集,并提出DIFFUMA模型,结合Mamba模块和扩散模块,分别捕捉全局时间上下文和增强空间细节。
  • Result: 在CHDL数据集上,DIFFUMA将MSE降低了39%,SSIM从0.926提升至0.988,性能优于现有方法。
  • Conclusion: 该研究不仅提出了新的SOTA模型,还为工业AI研究提供了宝贵的数据资源。

[48] PromptTea: Let Prompts Tell TeaCache the Optimal Threshold

Zishen Huang,Chunyu Yang,Mengyuan Ren

Main category: cs.CV

TL;DR: 论文提出了一种基于提示复杂度的自适应缓存方法(PCA缓存),通过动态调整重用阈值来加速视频生成,同时保持高质量。

  • Motivation: 现有固定频率的缓存机制在复杂场景中质量下降明显,手动调整阈值效率低且缺乏鲁棒性。
  • Method: 提出PCA缓存,根据输入提示的复杂度动态调整重用阈值;改进TeaCache的输入-输出关系建模;引入DynCFGCache动态选择重用CFG输出。
  • Result: 实验显示方法显著加速(如Wan2.1模型2.79倍速度提升),同时保持高视觉保真度。
  • Conclusion: PCA缓存和动态机制有效解决了视频生成中的速度瓶颈,兼顾效率与质量。

[49] Dual-Granularity Cross-Modal Identity Association for Weakly-Supervised Text-to-Person Image Matching

Yafei Zhang,Yongle Shang,Huafeng Li

Main category: cs.CV

TL;DR: 提出了一种局部和全局双粒度身份关联机制,通过跨模态身份关系和动态调整机制提升文本到人物图像匹配的准确性。

  • Motivation: 现有方法难以处理复杂的一对多身份关系,限制了性能提升,因此需要一种新机制来解决这一问题。
  • Method: 采用局部和全局双粒度身份关联机制,局部层面明确建立跨模态身份关系,全局层面构建动态跨模态身份关联网络并结合置信度动态调整机制。
  • Result: 实验结果表明,该方法显著提高了跨模态匹配的准确性。
  • Conclusion: 该方法为文本到人物图像匹配提供了一种高效实用的解决方案。

[50] Finetuning Vision-Language Models as OCR Systems for Low-Resource Languages: A Case Study of Manchu

Yan Hon Michael Chung,Donghyeok Choi

Main category: cs.CV

TL;DR: 该研究通过微调三种开源视觉语言模型(LLaMA-3.2-11B、Qwen2.5-VL-7B、Qwen2.5-VL-3B),在6万张合成的满文单词图像上训练,开发了高性能OCR系统,显著提升了濒危语言满文的识别效果。

  • Motivation: 满文是一种濒危语言,对理解早期现代东亚历史至关重要,但目前缺乏能够处理真实历史文档的有效OCR系统。
  • Method: 研究采用参数高效的训练方法,在合成数据上微调三种视觉语言模型,并评估其在真实手写文档上的表现。
  • Result: LLaMA-3.2-11B在合成数据上表现优异(98.3%单词准确率),在真实文档上保持93.1%的准确率,远超传统方法。
  • Conclusion: 该研究为濒危语言OCR提供了可迁移的框架,降低了技术和财务门槛,使历史学家和语言学家能够处理历史档案。

[51] FOLC-Net: A Federated-Optimized Lightweight Architecture for Enhanced MRI Disease Diagnosis across Axial, Coronal, and Sagittal Views

Saif Ur Rehman Khan,Muhammad Nabeel Asim,Sebastian Vollmer,Andreas Dengel

Main category: cs.CV

TL;DR: FOLC-Net框架通过轻量级架构和优化机制,显著提升了MRI多视角和单视角分析的性能,尤其在矢状面表现突出。

  • Motivation: 解决现有SOTA模型在处理MRI轴向、冠状面和矢状面时性能下降的问题。
  • Method: 提出FOLC-Net,结合MRFO优化、全局模型克隆和ConvNeXt,实现高效模型生成和客户端适应性。
  • Result: FOLC-Net在矢状面准确率达92.44%,优于现有方法,并在多视角和单视角中均表现优异。
  • Conclusion: FOLC-Net为分散式环境下的医学图像分析提供了更可靠和鲁棒的解决方案。

[52] Unlocking Thermal Aerial Imaging: Synthetic Enhancement of UAV Datasets

Antonella Barisic Kulas,Andreja Jurasovic,Stjepan Bogdan

Main category: cs.CV

TL;DR: 提出了一种从空中视角生成合成热图像的新方法,扩展了现有热数据集,验证了热探测器在物体检测任务中的优越性。

  • Motivation: 无人机热成像在搜索救援、野生动物监测等领域潜力巨大,但缺乏大规模多样化热数据集阻碍了深度学习模型的进展。
  • Method: 通过整合任意物体类别到现有热背景中,控制其位置、尺度和方向,生成合成热图像。
  • Result: 在物体检测任务中表现出色,热探测器性能优于可见光训练的模型。
  • Conclusion: 合成热图像方法成功扩展了热数据集的应用范围,验证了热探测器在特定任务中的优势。

[53] GreenHyperSpectra: A multi-source hyperspectral dataset for global vegetation trait prediction

Eya Cherif,Arthur Ouaknine,Luke A. Brown,Phuong D. Dao,Kyle R. Kovach,Bing Lu,Daniel Mederer,Hannes Feilhauer,Teja Kattenborn,David Rolnick

Main category: cs.CV

TL;DR: 论文提出GreenHyperSpectra数据集,用于植物性状预测的跨域半监督和自监督方法,显著提升了光谱表征学习的效果。

  • Motivation: 传统野外采样难以覆盖生态学意义的空间尺度,而机器学习结合高光谱遥感数据为解决这一问题提供了可能,但面临标签稀缺和域偏移的挑战。
  • Method: 提出GreenHyperSpectra数据集,采用半监督和自监督方法预训练多输出回归模型,并在分布内和分布外场景下评估。
  • Result: 模型在性状预测上优于现有监督基线,显著提升了光谱表征学习效果。
  • Conclusion: GreenHyperSpectra为植物功能性状评估与表征学习的结合提供了方法论框架,推动了相关研究。

[54] Democratizing High-Fidelity Co-Speech Gesture Video Generation

Xu Yang,Shaoli Huang,Shenbo Xie,Xuelin Chen,Yifei Liu,Changxing Ding

Main category: cs.CV

TL;DR: 提出了一种轻量级框架,利用2D全身骨架作为辅助条件,通过扩散模型生成与音频同步的演讲者视频,并发布了首个公开数据集CSG-405。

  • Motivation: 解决语音到视频生成任务中音频与视觉内容的一对多映射问题,以及数据稀缺和高计算需求。
  • Method: 使用2D骨架作为条件,结合细粒度音频片段和参考图像骨架,通过扩散模型预测骨骼运动,再输入现有人体视频生成模型。
  • Result: 方法在视觉质量和同步性上优于现有技术,并能泛化到不同演讲者和场景。
  • Conclusion: 提出的框架和数据集为语音手势视频生成提供了高效且可扩展的解决方案。

[55] HVI-CIDNet+: Beyond Extreme Darkness for Low-Light Image Enhancement

Qingsen Yan,Kangbiao Shi,Yixu Feng,Tao Hu,Peng Wu,Guansong Pang,Yanning Zhang

Main category: cs.CV

TL;DR: 提出了一种新的颜色空间HVI和网络HVI-CIDNet+,用于低光图像增强,解决了现有方法的颜色偏差和噪声问题。

  • Motivation: 现有基于sRGB和HSV颜色空间的低光图像增强方法存在颜色偏差和噪声问题,需要一种更有效的解决方案。
  • Method: 提出HVI颜色空间,结合HV颜色图和可学习强度,设计HVI-CIDNet+网络,利用预训练视觉语言模型和Prior-guided Attention Block(PAB)进行内容恢复和颜色校正。
  • Result: 在10个基准数据集上,HVI-CIDNet+优于现有方法。
  • Conclusion: HVI颜色空间和HVI-CIDNet+网络有效解决了低光图像增强中的颜色偏差和噪声问题,性能优越。

[56] Physics-Grounded Motion Forecasting via Equation Discovery for Trajectory-Guided Image-to-Video Generation

Tao Feng,Xianbing Zhao,Zhenhua Chen,Tien Tsin Wong,Hamid Rezatofighi,Gholamreza Haffari,Lizhen Qu

Main category: cs.CV

TL;DR: 提出了一种结合符号回归和轨迹引导图像到视频模型的新框架,用于物理基础视频预测,提升了生成视频的物理对齐性。

  • Motivation: 现有扩散和自回归视频生成模型缺乏准确的物理对齐,无法复现实世界物体运动的动态。
  • Method: 通过提取输入视频的运动轨迹,使用检索式预训练增强符号回归,发现运动方程以预测物理准确的未来轨迹,并指导视频生成。
  • Result: 在经典力学场景(如弹簧质量、摆锤和抛射运动)中成功恢复真实解析方程,并优于基线方法。
  • Conclusion: 新框架显著提升了生成视频的物理准确性,无需微调现有模型。

[57] Know Your Attention Maps: Class-specific Token Masking for Weakly Supervised Semantic Segmentation

Joelle Hanna,Damian Borth

Main category: cs.CV

TL;DR: 提出一种基于Vision Transformer的端到端弱监督语义分割方法,利用多[CLS]令牌的注意力图生成伪分割掩码,性能优于现有方法。

  • Motivation: 传统弱监督语义分割方法依赖外部模块(如CAM)生成伪掩码,本文旨在直接利用ViT的注意力图,提升效率和准确性。
  • Method: 训练稀疏ViT,每个类别对应一个[CLS]令牌,采用随机掩码策略促进令牌-类别分配;推理时聚合各[CLS]令牌的自注意力图生成伪掩码。
  • Result: 在多个标准数据集上表现优于现有方法,生成的伪掩码可用于训练分割模型,性能接近全监督模型。
  • Conclusion: 该方法显著减少对细粒度标注数据的依赖,同时提升分割性能,为弱监督语义分割提供了新思路。

[58] IAP: Invisible Adversarial Patch Attack through Perceptibility-Aware Localization and Perturbation Optimization

Subrat Kishore Dutta,Xiao Zhang

Main category: cs.CV

TL;DR: IAP是一种新的对抗性补丁攻击框架,通过感知感知定位和扰动优化方案生成高度不可见的对抗性补丁。

  • Motivation: 现有方法在目标攻击场景下表现不佳或生成的补丁不连贯,容易被人类或自动防御系统察觉。
  • Method: IAP结合类感知定位和敏感性图选择补丁位置,并使用感知感知正则化对抗损失和颜色恒常性优化扰动。
  • Result: 在各种图像基准和模型架构上,IAP在目标攻击中表现优异,同时显著提高了补丁的不可见性。
  • Conclusion: IAP不仅对人类高度不可见,还能有效规避多种先进的补丁防御系统。

[59] Longitudinal Study of Facial Biometrics at the BEZ: Temporal Variance Analysis

Mathias Schulz,Alexander Spenke,Pia Funk,Florian Blümel,Markus Rohde,Ralph Breithaupt,Gerd Nolden,Norbert Jung,Robert Lange

Main category: cs.CV

TL;DR: 长期生物特征评估显示,个体间生物特征分数在短期内波动较大,而非长期变化。

  • Motivation: 研究长期生物特征变化的稳定性,为生物特征分析提供更可靠的数据基础。
  • Method: 使用多种生物特征工具和技术,对400多名参与者进行两年半的定期评估,分析238,000多个数据集的长期比较分数。
  • Result: 生物特征分数在个体间短期内波动显著,长期变化较小。
  • Conclusion: 长期、受控的生物特征测试对数据分析和未来技术进步至关重要。

[60] SemRaFiner: Panoptic Segmentation in Sparse and Noisy Radar Point Clouds

Matthias Zeller,Daniel Casado Herraez,Bengisu Ayan,Jens Behley,Michael Heidingsfeld,Cyrill Stachniss

Main category: cs.CV

TL;DR: 论文提出了一种名为SemRaFiner的方法,用于改进稀疏雷达点云中的全景分割,以增强自动驾驶车辆的语义场景理解。

  • Motivation: 摄像头和LiDAR在恶劣天气下表现不佳且无法提供运动信息,而雷达虽能克服这些限制,但其数据稀疏且噪声多。因此,需要一种方法来优化雷达数据的特征提取和全景分割。
  • Method: SemRaFiner方法通过适应稀疏雷达点云的密度变化和优化特征提取来提高精度,并提出了一种优化的训练流程,结合数据增强来细化实例分配。
  • Result: 实验表明,SemRaFiner在基于雷达的全景分割任务中优于现有方法。
  • Conclusion: SemRaFiner通过改进雷达数据的处理,显著提升了全景分割的准确性,为自动驾驶的场景理解提供了更可靠的解决方案。

[61] Adaptive Part Learning for Fine-Grained Generalized Category Discovery: A Plug-and-Play Enhancement

Qiyuan Dai,Hanzhuo Huang,Yu Wu,Sibei Yang

Main category: cs.CV

TL;DR: 论文提出了一种自适应部分发现和学习方法(APL),通过共享可学习部分查询和DINO部分先验,生成一致的对象部分及其对应关系,无需额外标注。

  • Motivation: 现有GCD方法仅依赖DINO CLS token的全局表示,导致判别性和泛化性之间的权衡问题。
  • Method: APL方法利用共享部分查询和DINO先验生成对象部分,提出全最小对比损失学习判别性且泛化的部分表示。
  • Result: APL显著提升了细粒度数据集的性能,并易于集成到不同GCD框架中。
  • Conclusion: APL通过自适应部分学习和对比损失,有效解决了GCD中判别性与泛化性的权衡问题。

[62] MCCD: A Multi-Attribute Chinese Calligraphy Character Dataset Annotated with Script Styles, Dynasties, and Calligraphers

Yixin Zhao,Yuyi Zhang,Lianwen Jin

Main category: cs.CV

TL;DR: 论文提出了一个多属性中国书法字符数据集(MCCD),填补了现有书法数据集稀缺且缺乏属性信息的空白,为书法研究提供了丰富资源。

  • Motivation: 研究书法字符的属性信息(如风格、朝代、书法家)具有重要文化价值,但现有数据集稀缺且缺乏多属性标注,阻碍了深入研究。
  • Method: 构建了包含7,765类共329,715个书法字符图像的MCCD数据集,并基于脚本风格、朝代和书法家属性提取了三个子集。
  • Result: 实验表明,书法字符的复杂笔画结构和多属性交互显著增加了识别难度。
  • Conclusion: MCCD填补了详细书法数据集的空白,为书法研究及多领域进展提供了宝贵资源。

[63] Pre-Columbian Settlements Shaped Palm Clusters in the Sierra Nevada de Santa Marta, Colombia

Sebastian Fajardo,Sina Mohammadi,Jonas Gregorio de Souza,César Ardila,Alan Tapscott Baltar,Shaddai Heidgen,Maria Isabel Mayorga Hernández,Sylvia Mota de Oliveira,Fernando Montejo,Marco Moderato,Vinicius Peripato,Katy Puche,Carlos Reina,Juan Carlos Vargas,Frank W. Takes,Marco Madella

Main category: cs.CV

TL;DR: 利用深度学习模型和聚类算法,通过卫星图像识别棕榈树分布,揭示古代人类管理对植被的影响,发现考古遗址附近棕榈树更密集,管理区域可能比考古证据显示的大两个数量级。

  • Motivation: 研究古代人类对尼奥特罗皮克森林的长期影响,特别是在高分辨率尺度上,理解人类管理对植被的遗留生态足迹。
  • Method: 结合深度学习模型(识别棕榈树)和聚类算法(识别棕榈树集群),利用高分辨率卫星图像分析棕榈树分布与考古遗址的关系。
  • Result: 考古遗址附近的棕榈树显著更多,人类管理区域可能比考古证据显示的大两个数量级,表明古代人类通过植被管理降低了基础设施建设的成本。
  • Conclusion: 通过人工智能与生态考古数据结合,揭示了古代人类通过植被管理对环境的长远影响,为识别考古兴趣区域提供了新方法。

[64] CheXPO: Preference Optimization for Chest X-ray VLMs with Counterfactual Rationale

Xiao Liang,Jiawei Hu,Di Wang,Zhi Ma,Lin Zhao,Ronghan Li,Bo Wan,Quan Wang

Main category: cs.CV

TL;DR: CheXPO通过结合置信度-相似性联合挖掘和反事实推理,优化医学视觉语言模型的幻觉问题,显著提升性能。

  • Motivation: 医学视觉语言模型(VLMs)存在幻觉问题,影响可靠性。传统偏好优化方法面临样本无关、数据分布不平衡和专家标注成本高等挑战。
  • Method: 提出CheXPO策略:1)合成多任务胸部X光视觉指令数据集进行监督微调(SFT);2)通过置信度分析识别困难样本,相似性检索扩展样本;3)利用合成反事实推理提供细粒度偏好,无需额外专家输入。
  • Result: 实验显示,CheXPO仅用5%的SFT样本即实现8.93%的相对性能提升,达到最先进水平。
  • Conclusion: CheXPO为放射学应用提供了一种可扩展、可解释的解决方案。

[65] Segmentation Regularized Training for Multi-Domain Deep Learning Registration applied to MR-Guided Prostate Cancer Radiotherapy

Sudharsan Madhavan,Chengcheng Gui,Lando Bosma,Josiah Simeth,Jue Jiang,Nicolas Cote,Nima Hassan Rezaeian,Himanshu Nagar,Victoria Brennan,Neelam Tyagi,Harini Veeraraghavan

Main category: cs.CV

TL;DR: 该研究提出了一种深度学习的可变形图像配准方法(ProRSeg),用于多领域MR-MR配准,并在前列腺癌患者的MR引导自适应放疗中验证了其性能。

  • Motivation: 在MR引导自适应放疗中,准确的图像配准对于轮廓传播和剂量累积至关重要。研究旨在开发一种能够适应不同领域(如3T和1.5T MR)的配准方法。
  • Method: 采用逐步优化的配准和分割方法(ProRSeg),使用加权分割一致性损失进行训练,并在相同领域、跨领域和混合领域的数据集上测试性能。
  • Result: ProRSeg在膀胱配准中表现出跨领域的泛化能力(DSC 0.86-0.88),而在直肠和CTV上性能依赖于领域。剂量累积结果显示83.3%的患者满足临床约束条件。
  • Conclusion: ProRSeg在多领域MR-MR配准中表现合理,初步验证了其在评估治疗合规性中的可行性。

[66] Hallucinating 360°: Panoramic Street-View Generation via Local Scenes Diffusion and Probabilistic Prompting

Fei Teng,Kai Luo,Sheng Wu,Siyu Li,Pujun Guo,Jiale Wei,Kunyu Peng,Jiaming Zhang,Kailun Yang

Main category: cs.CV

TL;DR: Percep360是首个用于自动驾驶的全景生成方法,通过局部场景扩散方法和概率提示方法实现高质量、可控的全景数据生成。

  • Motivation: 自动驾驶需要全景感知,但数据采集复杂且耗时。现有方法无法实现高质量、可控的全景生成。
  • Method: 提出局部场景扩散方法(LSDM)解决信息丢失问题,概率提示方法(PPM)实现可控生成。
  • Result: 生成图像在质量、可控性和下游任务(如BEV分割)中表现优于原始拼接图像。
  • Conclusion: Percep360为自动驾驶提供了高效、可控的全景数据生成方案。

[67] A multi-modal dataset for insect biodiversity with imagery and DNA at the trap and individual level

Johanna Orsholm,John Quinto,Hannu Autto,Gaia Banelyte,Nicolas Chazot,Jeremy deWaard,Stephanie deWaard,Arielle Farrell,Brendan Furneaux,Bess Hardwick,Nao Ito,Amlan Kar,Oula Kalttopää,Deirdre Kerdraon,Erik Kristensen,Jaclyn McKeown,Tommi Mononen,Ellen Nein,Hanna Rogers,Tomas Roslin,Paula Schmitz,Jayme Sones,Maija Sujala,Amy Thompson,Evgeny V. Zakharov,Iuliia Zarubiieva,Akshita Gupta,Scott C. Lowe,Graham W. Taylor

Main category: cs.CV

TL;DR: MassID45数据集结合分子和成像数据,用于训练批量昆虫样本的自动分类器,推动生态和机器学习研究。

  • Motivation: 昆虫多样性研究面临种群下降和分类效率低的挑战,需要高效方法支持大规模生态调查。
  • Method: 结合DNA条形码和高分辨率成像数据,利用AI辅助工具对批量样本进行分割和分类标注。
  • Result: 标注了超过17,000个样本,实现了批量样本的高精度分类和丰度估计。
  • Conclusion: MassID45数据集为昆虫群落快速大规模表征提供了新工具,推动了小物体检测和实例分割技术的发展。

[68] Free on the Fly: Enhancing Flexibility in Test-Time Adaptation with Online EM

Qiyuan Dai,Sibei Yang

Main category: cs.CV

TL;DR: FreeTTA是一种无需训练、通用的测试时适应方法,通过在线EM算法利用视觉语言模型的零样本预测作为先验,显著提升跨域和分布外数据集的性能。

  • Motivation: 视觉语言模型在开放世界图像识别中表现优异,但在实际应用中因域偏移和分布变化而受限,传统测试时适应方法依赖昂贵训练或不现实假设。
  • Method: 提出FreeTTA,通过在线EM算法利用零样本预测作为先验,迭代更新测试样本的后验概率和参数,无需训练或历史数据。
  • Result: 在15个跨域和分布外数据集上,FreeTTA相比现有方法表现稳定且显著提升。
  • Conclusion: FreeTTA首次显式建模测试数据分布,利用样本间内在关系提升预测,为测试时适应提供了灵活且高效的解决方案。

[69] DenoiseCP-Net: Efficient Collective Perception in Adverse Weather via Joint LiDAR-Based 3D Object Detection and Denoising

Sven Teufel,Dominique Mayer,Jörg Gamerdinger,Oliver Bringmann

Main category: cs.CV

TL;DR: 论文提出了一种名为DenoiseCP-Net的多任务架构,用于恶劣天气下的LiDAR集体感知,通过噪声过滤和对象检测减少带宽需求和延迟。

  • Motivation: 自动驾驶车辆的感知系统在恶劣天气下易受传感器退化影响,集体感知虽能解决这一问题,但相关研究不足。
  • Method: 提出DenoiseCP-Net,结合体素级噪声过滤和对象检测,减少冗余计算和通信开销。
  • Result: 在模拟恶劣天气的OPV2V数据集上,DenoiseCP-Net实现了高精度去噪,带宽需求降低23.6%,检测精度不变。
  • Conclusion: DenoiseCP-Net在恶劣天气下显著提升了集体感知的效率和性能。

[70] MCA-RG: Enhancing LLMs with Medical Concept Alignment for Radiology Report Generation

Qilong Xing,Zikai Song,Youjia Zhang,Na Feng,Junqing Yu,Wei Yang

Main category: cs.CV

TL;DR: 论文提出了一种知识驱动的框架MCA-RG,通过将视觉特征与医学概念对齐,提升放射学报告生成的准确性。

  • Motivation: 现有大型语言模型在放射学报告生成中存在病理和解剖特征与文本描述映射不准确的问题,且语义无关的特征提取影响了报告的准确性。
  • Method: MCA-RG利用病理和解剖知识库对齐视觉特征,提出基于解剖的对比学习和匹配损失优化特征,并采用特征门控机制过滤低质量概念特征。
  • Result: 在MIMIC-CXR和CheXpert Plus两个公开基准测试中,MCA-RG表现出色。
  • Conclusion: MCA-RG通过知识驱动的方法显著提升了放射学报告生成的准确性和临床适用性。

[71] Cross-Modality Masked Learning for Survival Prediction in ICI Treated NSCLC Patients

Qilong Xing,Zikai Song,Bingxin Gong,Lian Yang,Junqing Yu,Wei Yang

Main category: cs.CV

TL;DR: 提出了一种用于非小细胞肺癌(NSCLC)免疫治疗患者生存预测的多模态特征融合框架,包括3D CT图像和临床数据,通过跨模态掩码学习策略提升预测准确性。

  • Motivation: NSCLC患者免疫治疗的预后预测对个性化治疗至关重要,但缺乏大规模数据集和有效的多模态特征融合方法。
  • Method: 构建了包含3D CT图像和临床记录的大规模数据集,提出跨模态掩码学习框架,结合Slice-Depth Transformer和基于图的Transformer进行特征提取与融合。
  • Result: 该方法在多模态整合中表现优异,超越现有方法,为NSCLC预后模型设定了新基准。
  • Conclusion: 该框架显著提升了NSCLC生存预测的准确性,为个性化治疗提供了有力工具。

[72] Learning Deliberately, Acting Intuitively: Unlocking Test-Time Reasoning in Multimodal LLMs

Yahan Yu,Yuyang Dong,Masafumi Oyamada

Main category: cs.CV

TL;DR: D2I框架通过规则奖励提升多模态LLMs的推理能力,无需额外标注,显著降低训练成本。

  • Motivation: 解决多模态推理研究中模态对齐和训练成本高的问题。
  • Method: 提出D2I框架,训练时采用规则奖励增强模态对齐,评估时转为直觉推理。
  • Result: D2I在领域内外基准测试中优于基线方法。
  • Conclusion: 格式奖励有助于提升MLLMs的可迁移推理能力,并探索训练与测试推理深度的解耦。

[73] GNN-ViTCap: GNN-Enhanced Multiple Instance Learning with Vision Transformers for Whole Slide Image Classification and Captioning

S M Taslim Uddin Raju,Md. Milon Islam,Md Rezwanul Haque,Hamdi Altaheri,Fakhri Karray

Main category: cs.CV

TL;DR: GNN-ViTCap框架通过动态聚类和注意力机制处理冗余病理图像,结合图神经网络和语言模型,显著提升分类和描述生成性能。

  • Motivation: 解决病理图像中冗余补丁和未知位置问题,以及自动生成病理描述的挑战。
  • Method: 使用视觉特征提取器生成补丁嵌入,动态聚类去除冗余,图神经网络捕捉上下文,结合语言模型生成描述。
  • Result: 在BreakHis和PatchGastric数据集上,分类F1得分0.934,AUC 0.963;描述BLEU-4 0.811,METEOR 0.569。
  • Conclusion: GNN-ViTCap优于现有方法,为病理诊断提供高效可靠解决方案。

[74] Integrating Pathology Foundation Models and Spatial Transcriptomics for Cellular Decomposition from Histology Images

Yutong Sun,Sichen Zhu,Peng Qiu

Main category: cs.CV

TL;DR: 提出了一种轻量级且训练高效的方法,利用预训练的病理学基础模型的特征嵌入,直接从H&E染色组织学图像预测细胞组成,避免了昂贵的空间转录组学实验。

  • Motivation: 数字病理学和深度学习的快速发展为病理学基础模型的出现提供了条件,这些模型有望解决多种疾病条件下的通用病理学问题。同时,空间转录组学技术的出现为从H&E染色图像中获取更精细的细胞水平信息提供了机会。
  • Method: 通过从预训练的病理学基础模型中提取信息丰富的特征嵌入,训练一个轻量级多层感知机(MLP)回归器,预测细胞类型丰度。
  • Result: 该方法在预测细胞组成方面表现出色,与现有方法(如Hist2Cell)相比具有竞争力,同时显著降低了计算复杂度。
  • Conclusion: 该方法展示了从H&E图像中高效预测细胞组成的潜力,为病理学研究提供了一种低成本、高效的替代方案。

[75] MST-Distill: Mixture of Specialized Teachers for Cross-Modal Knowledge Distillation

Hui Li,Pengfei Yang,Juanyang Chen,Le Dong,Yanxin Chen,Quan Wang

Main category: cs.CV

TL;DR: 提出了一种名为MST-Distill的新型跨模态知识蒸馏框架,通过混合专家教师模型和动态路由网络解决现有方法的局限性,显著提升了跨模态知识蒸馏的效果。

  • Motivation: 传统知识蒸馏方法在跨模态场景中因数据和统计异质性而表现不佳,无法充分利用跨模态教师模型的互补知识。
  • Method: MST-Distill采用混合专家教师模型和动态路由网络,结合插件式掩码模块抑制模态差异并重构教师表示。
  • Result: 在五个多模态数据集上的实验表明,该方法显著优于现有最先进的知识蒸馏方法。
  • Conclusion: MST-Distill有效解决了跨模态知识蒸馏中的路径选择和知识漂移问题,提升了知识转移效果。

[76] Design and Implementation of an OCR-Powered Pipeline for Table Extraction from Invoices

Parshva Dhilankumar Patel

Main category: cs.CV

TL;DR: 提出一种基于OCR的发票表格提取流程,结合Tesseract OCR和自定义后处理逻辑,显著提升数据提取的准确性和一致性。

  • Motivation: 解决扫描发票文档中非标准格式和噪声问题,支持自动化财务流程和数字存档等实际应用。
  • Method: 采用动态预处理、表格边界检测和行列映射技术,结合Tesseract OCR进行文本识别。
  • Result: 显著提高了数据提取的准确性和一致性。
  • Conclusion: 该流程为发票表格提取提供了一种高效且可靠的解决方案。

[77] Evaluating Large Multimodal Models for Nutrition Analysis: A Benchmark Enriched with Contextual Metadata

Bruce Coburn,Jiangpeng He,Megan E. Rollo,Satvinder S. Dhaliwal,Deborah A. Kerr,Fengqing Zhu

Main category: cs.CV

TL;DR: 本文研究了如何通过整合上下文元数据(如GPS坐标、时间戳和食物项目)来提升大型多模态模型(LMMs)在营养分析中的性能,并提出了新的公开数据集ACETADA。

  • Motivation: 现有研究主要评估专有模型(如GPT-4),而忽略了其他LMMs的潜力,且上下文元数据与推理修饰符的交互影响尚未充分探索。
  • Method: 通过整合GPS坐标、时间戳和食物项目等元数据,结合多种推理修饰符(如Chain-of-Thought、Few-Shot等),评估了八种LMMs的性能。
  • Result: 实验表明,整合元数据能显著降低营养值预测的平均绝对误差(MAE)和平均绝对百分比误差(MAPE)。
  • Conclusion: 上下文感知的LMMs在营养分析中具有显著潜力,未来可进一步优化。

[78] An AI Approach for Learning the Spectrum of the Laplace-Beltrami Operator

Yulin An,Enrique del Castillo

Main category: cs.CV

TL;DR: 提出了一种基于几何深度学习的框架,用于高效预测CAD网格的Laplace-Beltrami(LB)谱,显著节省计算时间且保持准确性。

  • Motivation: 传统有限元方法(FEM)计算LB谱复杂度高,不适用于频繁处理大型CAD网格的场景。
  • Method: 采用图神经网络架构,结合高斯曲率、平均曲率等丰富网格特征进行预测。
  • Result: 实验表明,该方法比线性FEM快约5倍,同时保持竞争力准确性。
  • Conclusion: LB谱是可学习的,提出的方法为高效处理CAD网格提供了可行方案。

[79] Reading a Ruler in the Wild

Yimu Pan,Manas Mehta,Gwen Sincerbeaux,Jeffery A. Goldstein,Alison D. Gernand,James Z. Wang

Main category: cs.CV

TL;DR: RulerNet是一个深度学习框架,通过将尺子刻度检测统一为关键点检测问题,并利用几何级数参数表示尺子,解决了像素测量转换为实际尺寸的挑战。

  • Motivation: 计算机视觉中像素测量转换为实际尺寸的挑战限制了生物医学、法医学、营养分析和电子商务等关键应用的发展。
  • Method: RulerNet通过关键点检测和几何级数参数表示尺子,结合合成数据增强训练多样性,并引入轻量级网络DeepGP实现实时估计。
  • Result: 实验表明,RulerNet在复杂现实条件下能提供准确、一致且高效的尺寸估计。
  • Conclusion: RulerNet作为一种通用测量工具,具有与其他视觉组件集成的潜力,可用于高影响力领域的自动化分析。

[80] Evaluating Attribute Confusion in Fashion Text-to-Image Generation

Ziyue Liu,Federico Girella,Yiming Wang,Davide Talon

Main category: cs.CV

TL;DR: 论文提出了一种新的自动评估方法L-VQAScore,用于解决文本到图像生成模型在复杂组合生成(如时尚领域)中的评估挑战,通过结合视觉定位和VQA探测,显著提升了与人类判断的相关性。

  • Motivation: 现有基于预训练视觉语言模型的T2I评估方法在评估实体-属性语义时存在局限性,尤其是属性混淆问题(属性正确但关联到错误实体)。
  • Method: 提出了一种基于VQA定位策略的方法,针对单一实体进行视觉和文本模态的评估,并设计了L-VQAScore指标,结合视觉定位和VQA探测。
  • Result: 在新构建的数据集上,L-VQAScore在捕捉细粒度实体-属性关联方面优于现有方法,与人类判断的相关性更高。
  • Conclusion: L-VQAScore是一种可靠且可扩展的评估方法,可作为主观评估的替代方案。

[81] Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data

Ke Fan,Shunlin Lu,Minyue Dai,Runyi Yu,Lixing Xiao,Zhiyang Dou,Junting Dong,Lizhuang Ma,Jingbo Wang

Main category: cs.CV

TL;DR: 论文提出了一种基于文本描述生成多样化自然人体运动序列的方法,并引入了MotionMillion数据集和MotionMillion-Eval评估框架,旨在实现零样本泛化能力。

  • Motivation: 当前方法在零样本泛化能力上存在不足,主要由于训练数据集的规模有限,且缺乏全面的评估框架。
  • Method: 开发了高效的标注流程,构建了最大的MotionMillion数据集,并提出了MotionMillion-Eval评估框架。通过可扩展的架构,将模型参数扩展到7B。
  • Result: 模型在MotionMillion-Eval上表现出色,能够泛化到域外和复杂组合运动。
  • Conclusion: 该工作为零样本人体运动生成迈出了重要一步,代码已开源。

[82] Vision-Language-Vision Auto-Encoder: Scalable Knowledge Distillation from Diffusion Models

Tiezheng Zhang,Yitong Li,Yu-cheng Chou,Jieneng Chen,Alan Yuille,Chen Wei,Junfei Xiao

Main category: cs.CV

TL;DR: 提出了一种名为VLV的自动编码器框架,通过利用预训练组件(视觉编码器、T2I扩散模型解码器和LLM)显著降低训练成本,同时实现高性能图像描述生成。

  • Motivation: 传统视觉语言模型需要大量高质量图像-文本对和GPU资源,成本高昂。本文旨在通过预训练组件和知识蒸馏减少数据需求和计算开销。
  • Method: 采用VLV框架,通过冻结T2I扩散解码器建立信息瓶颈,利用连续嵌入从扩散模型中提取知识,并微调LLM生成详细描述。
  • Result: 构建了一个性能媲美GPT-4o和Gemini 2.0 Flash的图像描述生成器,训练成本低于1000美元。
  • Conclusion: VLV框架以低成本实现了高性能,为视觉语言模型的发展提供了高效路径。

[83] 4KAgent: Agentic Any Image to 4K Super-Resolution

Yushen Zuo,Qi Zheng,Mingyang Wu,Xinrui Jiang,Renjie Li,Jian Wang,Yide Zhang,Gengchen Mai,Lihong V. Wang,James Zou,Xiaoyu Wang,Ming-Hsuan Yang,Zhengzhong Tu

Main category: cs.CV

TL;DR: 4KAgent是一个统一的超分辨率通用系统,能将任何图像提升至4K分辨率,甚至更高。它通过三个核心组件实现:分析输入图像的感知代理、执行修复的修复代理,以及针对人脸的专门修复流程。

  • Motivation: 解决低分辨率图像修复问题,尤其是严重退化的图像,并推动视觉中心自主代理的研究创新。
  • Method: 系统包含三个模块:Profiling定制流程、Perception Agent分析输入并制定修复计划、Restoration Agent执行修复。采用递归执行-反思范式和质量驱动的专家混合策略。
  • Result: 在11个任务类别和26个基准测试中表现优异,覆盖多种图像领域,并在感知和保真度指标上达到新水平。
  • Conclusion: 4KAgent为低层次视觉任务建立了新的代理范式,有望推动视觉代理领域的广泛研究和创新。

[84] Towards Multimodal Understanding via Stable Diffusion as a Task-Aware Feature Extractor

Vatsal Agarwal,Matthew Gwilliam,Gefen Kohavi,Eshan Verma,Daniel Ulbricht,Abhinav Shrivastava

Main category: cs.CV

TL;DR: 该论文研究了预训练的文本到图像扩散模型是否可以作为指令感知的视觉编码器,以弥补CLIP在捕捉细粒度细节上的不足,并提出了一种融合策略来提升视觉问答性能。

  • Motivation: CLIP作为视觉编码器在捕捉全局信息时可能忽略细粒度细节,限制了多模态大语言模型(MLLMs)的性能。
  • Method: 通过分析扩散模型的内部表示,利用其语义丰富和图像-文本对齐特性,并结合文本条件聚焦输入问题相关区域,提出了一种融合CLIP和扩散特征的策略。
  • Result: 在通用VQA和专用MLLM基准测试中,该方法表现出色,尤其在需要空间和组合推理的视觉中心任务中。
  • Conclusion: 扩散模型在视觉理解中具有潜力,特别是在需要细粒度细节的任务中,融合策略有效提升了性能。

eess.IV

[85] X-ray transferable polyrepresentation learning

Weronika Hryniewska-Guzik,Przemyslaw Biecek

Main category: eess.IV

TL;DR: 论文提出了一种名为“多表征”(polyrepresentation)的新概念,通过整合来自不同来源的同一模态的多种表征(如Siamese Network的向量嵌入、自监督模型和可解释的放射组学特征),显著提升了机器学习算法的性能。

  • Motivation: 机器学习算法的成功依赖于有意义的特征提取,而数据表示的质量和从未见过的数据集中有效提取特征的能力是关键挑战。
  • Method: 提出多表征方法,整合同一模态的多种表征(如Siamese Network、自监督模型和放射组学特征)。
  • Result: 多表征方法在性能指标上优于单一表征,并在X射线图像中展示了其在小数据集上的可迁移性。
  • Conclusion: 多表征方法具有实用性和资源效率,适用于医学数据及其他领域,展现了广泛的潜在影响。

[86] Mamba Goes HoME: Hierarchical Soft Mixture-of-Experts for 3D Medical Image Segmentation

Szymon Płotka,Maciej Chrabaszcz,Gizem Mert,Ewa Szczurek,Arkadiusz Sitek

Main category: eess.IV

TL;DR: 提出了一种名为HoME的分层软专家混合方法,用于高效处理3D医学图像分割,通过局部和全局专家路由提升性能。

  • Motivation: 解决3D医学图像处理中的模态多样性和数据变异性问题,提升分割效率和准确性。
  • Method: 基于Mamba状态空间模型,采用两阶段的分层软专家混合(HoME)设计,局部专家提取特征,全局专家融合信息。
  • Result: 在多种3D医学影像模态和数据质量上超越现有最优方法。
  • Conclusion: HoME通过分层设计显著提升了医学图像分割的泛化能力和性能。

[87] Mitigating Multi-Sequence 3D Prostate MRI Data Scarcity through Domain Adaptation using Locally-Trained Latent Diffusion Models for Prostate Cancer Detection

Emerson P. Grabke,Babak Taati,Masoom A. Haider

Main category: eess.IV

TL;DR: CCELLA++扩展了CCELLA,生成多参数前列腺MRI,提升分类器性能,尤其在域适应场景中表现优于真实数据。

  • Motivation: 解决CCELLA仅支持AxT2序列、未研究域偏移及未关注病理结果的限制,提升临床实用性。
  • Method: 扩展CCELLA以生成多参数MRI,研究域适应策略,通过合成数据预训练分类器。
  • Result: CCELLA++在HighB和ADC序列上表现更优,预训练分类器在域适应中优于真实数据。
  • Conclusion: 合成MRI可提升分类器性能,未来需优化图像质量与多序列训练。

[88] Attention-Enhanced Deep Learning Ensemble for Breast Density Classification in Mammography

Peyman Sharifian,Xiaotong Hong,Alireza Karimian,Mehdi Amini,Hossein Arabi

Main category: eess.IV

TL;DR: 提出了一种基于深度学习的自动化系统,用于乳腺密度的二元分类(低密度A/B vs. 高密度C/D),通过集成多个改进的卷积神经网络和新型损失函数,显著提升了分类性能。

  • Motivation: 乳腺密度评估对乳腺癌筛查至关重要,高密度不仅增加患癌风险,还影响肿瘤检测。现有方法存在分类不一致和性能不足的问题。
  • Method: 使用四种改进的卷积神经网络(ResNet18、ResNet50、EfficientNet-B0、DenseNet121),结合通道注意力机制和新型损失函数(Combined Focal Label Smoothing Loss),并通过CLAHE和数据增强进行预处理,最后采用集成投票方法。
  • Result: 系统性能优异(AUC: 0.963, F1-score: 0.952),优于单一模型,有望标准化临床评估。
  • Conclusion: 该系统在乳腺密度分类中表现出色,有望提升筛查效率和早期癌症检测率,减少放射科医生间的差异。

[89] Capsule-ConvKAN: A Hybrid Neural Approach to Medical Image Classification

Laura Pituková,Peter Sinčák,László József Kovács

Main category: eess.IV

TL;DR: 比较四种神经网络架构,提出新的Capsule-ConvKAN模型,在生物医学图像分类中表现最佳。

  • Motivation: 改进特征表示和分类准确性,特别是在具有挑战性的生物医学图像数据中。
  • Method: 结合Capsule Network的动态路由和空间层次能力与Convolutional Kolmogorov-Arnold Networks的灵活可解释函数逼近。
  • Result: 在组织病理学图像数据集上,Capsule-ConvKAN达到91.21%的分类准确率。
  • Conclusion: 新提出的Capsule-ConvKAN在捕捉空间模式和管理复杂特征方面具有潜力,优于传统卷积模型。

[90] Airway Segmentation Network for Enhanced Tubular Feature Extraction

Qibiao Wu,Yagang Wang,Qian Zhang

Main category: eess.IV

TL;DR: 提出了一种名为TfeNet的新型管状特征提取网络,用于解决传统卷积神经网络在气道分割中的局限性,显著提升了分割精度和连续性。

  • Motivation: 气道区域的手动标注耗时且依赖专业知识,自动分割是支气管镜导航和机器人系统临床部署的前提。传统卷积方法难以捕捉气道的树状结构,导致分割不完整。
  • Method: TfeNet引入了方向感知卷积操作,通过空间旋转调整卷积核采样位置,并结合管状特征融合模块(TFFM)增强对细微气道结构的关注。
  • Result: 在多个数据集上的实验表明,TfeNet在分割精度和连续性上优于现有方法,在ATM22数据集上达到94.95%的最高分。
  • Conclusion: TfeNet通过创新的卷积设计和特征融合策略,显著提升了气道分割的性能,为临床应用提供了可靠工具。

[91] Fast Equivariant Imaging: Acceleration for Unsupervised Learning via Augmented Lagrangian and Auxiliary PnP Denoisers

Guixian Xu,Jinglai Li,Junqi Tang

Main category: eess.IV

TL;DR: 提出Fast Equivariant Imaging (FEI),一种无需真实数据的无监督学习框架,通过拉格朗日乘数法和即插即用去噪器优化问题,显著提升效率和性能。

  • Motivation: 解决传统Equivariant Imaging (EI)在训练深度成像网络时效率低下的问题,提出更高效的替代方案。
  • Method: 利用拉格朗日乘数法重新构建EI优化问题,并结合即插即用去噪器,提出PnP-FEI方案。
  • Result: 在CT100数据集上训练U-Net进行X射线CT重建时,PnP-FEI比标准EI快10倍,且泛化性能更优。
  • Conclusion: FEI框架在无监督学习场景下显著提升了训练效率和性能,适用于医学成像等领域。

[92] Speckle2Self: Self-Supervised Ultrasound Speckle Reduction Without Clean Data

Xuesong Li,Nassir Navab,Zhongliang Jiang

Main category: eess.IV

TL;DR: Speckle2Self是一种新型自监督算法,用于仅使用单次噪声观测减少超声图像中的斑点噪声。

  • Motivation: 超声斑点噪声不是纯随机噪声,而是与组织相关的复杂波干扰结果,传统方法(如Noise2Noise和盲点网络)无法处理。
  • Method: 通过多尺度扰动(MSP)操作引入组织依赖的斑点模式变化,同时保留共享的解剖结构,将干净图像建模为低秩信号并分离稀疏噪声。
  • Result: Speckle2Self在模拟和真实超声图像上表现优于传统滤波器和最先进的学习方法,并展示了跨域适应性。
  • Conclusion: Speckle2Self为超声斑点噪声提供了一种有效的自监督解决方案,适用于不同设备和场景。

[93] SimCortex: Collision-free Simultaneous Cortical Surfaces Reconstruction

Kaveh Moradkhani,R Jarrett Rushmore,Sylvain Bouix

Main category: eess.IV

TL;DR: SimCortex是一种深度学习框架,用于从T1加权MRI数据中重建大脑皮层表面,解决了现有方法中的拓扑缺陷和表面重叠问题。

  • Motivation: 现有方法在重建大脑皮层表面时面临复杂几何结构、严格拓扑要求和表面重叠等问题,SimCortex旨在克服这些不足。
  • Method: SimCortex首先将T1w图像分割为九类组织标签图,生成无碰撞的初始表面网格,然后通过多尺度微分同胚变形和SVF技术进行平滑、拓扑保持的变换。
  • Result: 在标准数据集上的评估表明,SimCortex显著减少了表面重叠和自交,同时保持了最先进的几何精度。
  • Conclusion: SimCortex提供了一种高效、拓扑保持的大脑皮层表面重建方法,优于现有技术。

[94] Deep Brain Net: An Optimized Deep Learning Model for Brain tumor Detection in MRI Images Using EfficientNetB0 and ResNet50 with Transfer Learning

Daniel Onah,Ravish Desai

Main category: eess.IV

TL;DR: 提出了一种名为Deep Brain Net的新型深度学习系统,结合EfficientNetB0和ResNet50架构,通过迁移学习提升脑肿瘤检测的性能和效率。

  • Motivation: 尽管深度学习在脑肿瘤检测中表现出潜力,但高精度和计算效率仍是挑战。
  • Method: 结合EfficientNetB0的高效性和ResNet50的深度网络优势,利用迁移学习优化模型。
  • Result: 在公开MRI数据集上,Deep Brain Net在分类准确率、F1分数和AUC ROC等方面优于现有方法,准确率达88%。
  • Conclusion: Deep Brain Net展示了在脑肿瘤诊断中的临床潜力,兼具高效性和高精度。

cs.LG

[95] Secure and Storage-Efficient Deep Learning Models for Edge AI Using Automatic Weight Generation

Habibur Rahaman,Atri Chatterjee,Swarup Bhunia

Main category: cs.LG

TL;DR: WINGs框架通过动态生成全连接层权重和压缩卷积层权重,显著减少内存需求,同时保持准确性。

  • Motivation: 解决复杂神经网络存储大量突触权重的高内存需求问题。
  • Method: 使用PCA降维和轻量级SVR模型预测权重,结合敏感性分析优先压缩低敏感性层。
  • Result: 实现全连接层53倍压缩,AlexNet在MNIST和CIFAR-10上分别28倍和18倍压缩,精度损失1-2%。
  • Conclusion: WINGs显著降低内存需求,提高能效,适用于资源受限的边缘应用。

[96] Denoising Multi-Beta VAE: Representation Learning for Disentanglement and Generation

Anshuk Uppal,Yuhta Takida,Chieh-Hsin Lai,Yuki Mitsufuji

Main category: cs.LG

TL;DR: 论文提出了一种新的生成模型框架,通过使用不同β值的变分自编码器(VAE)和扩散模型,平衡解耦与生成质量,实现高质量重构。

  • Motivation: 解决传统β-VAE框架中解耦与重构质量之间的权衡问题。
  • Method: 训练单一VAE,使用新损失函数控制潜在表示的信息保留,结合非线性扩散模型平滑过渡不同β值的表示。
  • Result: 模型在解耦和生成质量上表现优异,支持无输入图像的样本生成,并实现潜在空间的平滑过渡。
  • Conclusion: 提出的框架有效平衡了解耦与生成质量,为生成模型提供了新的解决方案。

[97] A Principled Framework for Multi-View Contrastive Learning

Panagiotis Koromilas,Efthymios Georgiou,Giorgos Bouritsas,Theodoros Giannakopoulos,Mihalis A. Nicolaou,Yannis Panagakis

Main category: cs.LG

TL;DR: 论文提出两种新的损失函数(MV-InfoNCE和MV-DHEL),解决了多视图对比学习中存在的四个关键问题,并在实验中验证了其优于现有方法且能有效利用多视图优势。

  • Motivation: 当前对比学习方法在处理多视图时存在四个关键限制(如目标冲突、视图交互建模不足等),无法充分利用多视图的潜力。
  • Method: 提出MV-InfoNCE(扩展InfoNCE以同时建模所有视图交互)和MV-DHEL(解耦对齐与均匀性并扩展交互复杂性)。
  • Result: 在ImageNet1K等数据集上,新方法优于现有多视图方法,并能扩展到多模态数据。MV-DHEL在五视图以上能有效缓解维度崩溃。
  • Conclusion: 新方法为多视图对比学习提供了理论支持,并通过实验验证了其有效性和扩展性。

[98] Addressing Imbalanced Domain-Incremental Learning through Dual-Balance Collaborative Experts

Lan Li,Da-Wei Zhou,Han-Jia Ye,De-Chuan Zhan

Main category: cs.LG

TL;DR: DCE框架通过频率感知专家组和动态专家选择器,解决了域增量学习中的类不平衡和跨域分布偏移问题,实现了卓越性能。

  • Motivation: 解决域增量学习中的类内不平衡和跨域分布偏移问题,提升模型在非平稳环境中的适应性和知识保留能力。
  • Method: 提出DCE框架,包括频率感知专家组和动态专家选择器,分别处理类内不平衡和跨域知识迁移。
  • Result: 在四个基准数据集上,DCE表现出最先进的性能。
  • Conclusion: DCE有效解决了域增量学习中的关键挑战,为类不平衡和跨域学习提供了新思路。

cs.AI

[99] The User-Centric Geo-Experience: An LLM-Powered Framework for Enhanced Planning, Navigation, and Dynamic Adaptation

Jieren Deng,Aleksandar Cvetkovic,Pak Kiu Chung,Dragomir Yankov,Chiqun Zhang

Main category: cs.AI

TL;DR: 论文提出了一种动态旅行规划系统,通过三个协作代理解决传统系统的不足,显著提升了查询解释、导航准确性和抗干扰能力。

  • Motivation: 传统旅行规划系统静态且碎片化,无法应对现实世界的复杂性和突发变化,导致用户体验不佳。
  • Method: 提出三个协作代理:旅行规划代理(基于网格空间和地图分析)、目的地助手代理(精细化导航)和本地发现代理(利用图像嵌入和RAG技术)。
  • Result: 系统在查询解释、导航准确性和抗干扰能力方面表现出显著改进。
  • Conclusion: 该系统在从城市探索到应急响应等多种应用中具有广阔前景。

q-bio.QM

[100] PAST: A multimodal single-cell foundation model for histopathology and spatial transcriptomics in cancer

Changchun Yang,Haoyang Li,Yushuai Wu,Yilan Zhang,Yifeng Jiao,Yu Zhang,Rihan Huang,Yuan Cheng,Yuan Qi,Xin Guo,Xin Gao

Main category: q-bio.QM

TL;DR: PAST是一种跨模态的癌症单细胞基础模型,整合了组织病理学图像和单细胞转录组数据,提升了精准肿瘤学的实用性。

  • Motivation: 现有病理基础模型缺乏与单细胞分子数据的整合,限制了其在精准肿瘤学中的应用。
  • Method: PAST通过联合编码细胞形态和基因表达,学习统一的跨模态表征,支持单细胞水平的空间和分子异质性分析。
  • Result: PAST在单细胞基因表达预测、虚拟分子染色和多模态生存分析中表现优异,优于现有方法。
  • Conclusion: PAST为病理基础模型提供了新范式,支持高分辨率空间组学、机制发现和精准癌症研究。

stat.ML

[101] Conformal Prediction for Long-Tailed Classification

Tiffany Ding,Jean-Baptiste Fermanian,Joseph Salmon

Main category: stat.ML

TL;DR: 论文提出两种方法,用于解决长尾分布分类问题中预测集的覆盖率和大小之间的权衡问题。

  • Motivation: 现实中的分类问题(如植物识别)通常具有长尾分布,现有方法无法同时保证预测集的小规模和良好的类别条件覆盖率。
  • Method: 1. 提出一种名为“prevalence-adjusted softmax”的conformal score函数,针对宏观覆盖率;2. 提出一种标签加权的conformal预测方法,可在边际和类别条件预测之间插值。
  • Result: 在Pl@ntNet和iNaturalist两个长尾图像数据集(分别有1,081和8,142类)上验证了方法的有效性。
  • Conclusion: 新方法能够平滑权衡预测集大小和类别条件覆盖率,优于现有方法。

cs.GR

[102] 3D-Generalist: Self-Improving Vision-Language-Action Models for Crafting 3D Worlds

Fan-Yun Sun,Shengguang Wu,Christian Jacobsen,Thomas Yim,Haoming Zou,Alex Zook,Shangru Li,Yu-Hsin Chou,Ethem Can,Xunlei Wu,Clemens Eppner,Valts Blukis,Jonathan Tremblay,Jiajun Wu,Stan Birchfield,Nick Haber

Main category: cs.GR

TL;DR: 提出了一种可扩展的方法3D-Generalist,利用视觉语言模型(VLMs)生成高质量的3D环境作为训练数据,提升基础模型的空间推理能力。

  • Motivation: 大规模预训练模型在语言和视觉推理方面表现优异,但空间推理能力因缺乏3D数据而受限。手动创建3D环境成本高,亟需自动化解决方案。
  • Method: 将3D环境构建视为序列决策问题,使用VLMs作为策略生成布局、材质、光照和资产,并通过自改进微调优化生成质量。
  • Result: 3D-Generalist能生成仿真就绪的3D环境,其生成的数据预训练视觉基础模型后,在下游任务中表现优于人工合成数据,接近真实数据效果。
  • Conclusion: 该方法为3D数据生成提供了高效、可扩展的解决方案,显著提升了模型的空间推理能力。

[103] Enhancing non-Rigid 3D Model Deformations Using Mesh-based Gaussian Splatting

Wijayathunga W. M. R. D. B

Main category: cs.GR

TL;DR: 提出了一种新框架,通过将网格表示与3D高斯泼溅结合,增强非刚性3D模型变形能力。

  • Motivation: 传统高斯泼溅虽能实现快速实时辐射场渲染,但其后编辑功能和对大规模非刚性变形的支持有限。
  • Method: 将高斯核直接嵌入到显式网格表面,利用网格的拓扑和几何先验指导直观编辑操作。
  • Result: 支持复杂变形(如弯曲和拉伸),并实现更灵活的3D内容创建工作流。
  • Conclusion: 为虚拟现实、角色动画和交互设计等应用提供了更灵活的3D内容创作工具。

cs.RO

[104] Learning to Evaluate Autonomous Behaviour in Human-Robot Interaction

Matteo Tiezzi,Tommaso Apicella,Carlos Cardenas-Perez,Giovanni Fregonese,Stefano Dafarra,Pietro Morerio,Daniele Pucci,Alessio Del Bue

Main category: cs.RO

TL;DR: 提出了一种基于轨迹性能的模仿学习方法评估框架NeME,用于比较机器人控制策略,无需人类参与。

  • Motivation: 评估人形机器人性能具有挑战性,传统成功率指标难以复现且无法捕捉运动轨迹的复杂性。
  • Method: 设计了NeME(神经元评估器),通过深度学习模型从关节轨迹中分类动作,作为元评估器比较策略性能。
  • Result: 在ergoCub人形机器人上验证,结果表明该方法比基线更符合实际成功率。
  • Conclusion: NeME提供了一种可复现、系统且深入的评估手段,适用于复杂HRI任务中的多模态模仿学习方法比较。

[105] LOVON: Legged Open-Vocabulary Object Navigator

Daojie Peng,Jiahang Cao,Qiang Zhang,Jun Ma

Main category: cs.RO

TL;DR: LOVON是一个结合大型语言模型(LLMs)和开放词汇视觉检测模型的新框架,用于动态非结构化环境中的长距离目标导航。

  • Motivation: 解决传统方法在复杂长距离导航任务中难以整合开放世界目标检测和高级任务规划的问题。
  • Method: 结合LLMs进行分层任务规划,采用开放词汇视觉检测模型,并设计视觉稳定化(如Laplacian方差滤波)和功能执行逻辑。
  • Result: 成功完成涉及实时检测、搜索和导航的长序列任务,并在多种机器人平台上验证了兼容性和即插即用特性。
  • Conclusion: LOVON在动态环境中表现出高效的长距离目标导航能力,具有广泛的应用潜力。