Skip to content
每日arXiv - 2025年7月9日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Structured Captions Improve Prompt Adherence in Text-to-Image Models (Re-LAION-Caption 19M)

Nicholas Merchant,Haitz Sáez de Ocáriz Borde,Andrei Cristian Popescu,Carlos Garcia Jurado Suarez

Main category: cs.CV

TL;DR: 提出通过结构化标注提升文本到图像生成模型的提示遵循能力,并发布了一个高质量数据集Re-LAION-Caption 19M。

  • Motivation: 生成模型在大型数据集(如LAION-5B)上因标注噪声和无结构导致提示遵循困难,用户需依赖提示工程。
  • Method: 使用四部分模板(主题、场景、美学、相机细节)生成结构化标注,并基于此微调PixArt-Σ和Stable Diffusion 2。
  • Result: 结构化标注版本在视觉问答(VQA)模型中表现出更高的文本-图像对齐分数。
  • Conclusion: 结构化标注能显著提升模型的可控性和对齐效果,数据集已公开。

[2] CorrDetail: Visual Detail Enhanced Self-Correction for Face Forgery Detection

Binjia Zhou,Hengrui Lou,Lizhe Chen,Haoyuan Li,Dawei Luo,Shuai Chen,Jie Lei,Zunlei Feng,Yijun Bei

Main category: cs.CV

TL;DR: 提出了一种名为CorrDetail的视觉细节增强自校正框架,用于可解释的人脸伪造检测,解决了现有方法的不足。

  • Motivation: 随着图像生成技术的快速发展,人脸深度伪造对安全领域构成重大挑战,亟需有效的检测方法。现有方法存在解释性不足或易产生幻觉的问题。
  • Method: 设计了CorrDetail框架,通过错误引导提问校正真实伪造细节,并引入视觉细粒度细节增强模块提供更精确的伪造细节。采用融合决策策略增强模型对极端样本的判别能力。
  • Result: 实验表明,CorrDetail在性能上优于最新方法,能准确识别伪造细节,并具有强大的泛化能力。
  • Conclusion: CorrDetail为可解释的人脸伪造检测提供了有效解决方案,显著提升了检测性能和可靠性。

[3] YOLO-APD: Enhancing YOLOv8 for Robust Pedestrian Detection on Complex Road Geometries

Aquino Joctum,John Kandiri

Main category: cs.CV

TL;DR: YOLO-APD是一种基于YOLOv8改进的深度学习架构,专为复杂道路上的行人检测设计,通过多种模块优化,实现了高精度和实时性能。

  • Motivation: 解决在几何复杂道路(如Type-S曲面)上RGB摄像头行人检测的局限性,提升自动驾驶感知系统的鲁棒性。
  • Method: 集成SimAM注意力机制、C3Ghost模块、SimSPPF模块、Mish激活函数和IGD模块,并结合车辆转向动态进行自适应感兴趣区域处理。
  • Result: 在CARLA数据集上达到77.7% mAP@0.5:0.95和96%以上的行人召回率,实时处理速度为100 FPS。
  • Conclusion: YOLO-APD在精度和效率上优于基线模型,为复杂驾驶环境下的自动驾驶感知系统提供了高效、适应性强的解决方案。

[4] Foreground-aware Virtual Staining for Accurate 3D Cell Morphological Profiling

Alexandr A. Kalinin,Paula Llanos,Theresa Maria Sommer,Giovanni Sestini,Xinhai Hou,Jonathan Z. Sexton,Xiang Wan,Ivo D. Dinov,Brian D. Athey,Nicolas Rivron,Anne E. Carpenter,Beth Cimini,Shantanu Singh,Matthew J. O'Meara

Main category: cs.CV

TL;DR: Spotlight是一种虚拟染色方法,通过引导模型关注相关细胞结构,改进了形态学表示。

  • Motivation: 现有虚拟染色方法在训练时对所有像素平等处理,导致背景噪声和伪影被复制,而非关注生物学意义信号。
  • Method: Spotlight使用基于直方图的前景估计来掩蔽像素级损失,并在软阈值预测上计算Dice损失以实现形状感知学习。
  • Result: 在3D基准数据集上,Spotlight改进了形态学表示,同时保持像素级精度,生成的虚拟染色更适合下游任务。
  • Conclusion: Spotlight通过聚焦生物相关信号,提升了虚拟染色的实用性和下游任务表现。

[5] From General to Specialized: The Need for Foundational Models in Agriculture

Vishal Nedungadi,Xingguo Xiong,Aike Potze,Ron Van Bree,Tao Lin,Marc Rußwurm,Ioannis N. Athanasiadis

Main category: cs.CV

TL;DR: 论文探讨了基础模型在农业监测中的应用潜力,提出了农业专用基础模型(CropFM)的需求框架,并评估了现有通用基础模型在农业任务中的表现。

  • Motivation: 随着人口增长和气候变化加剧,粮食安全成为全球关注问题,需要创新解决方案提升农业可持续生产力。基础模型在遥感和气候科学中的成功应用为农业监测提供了新机会。
  • Method: 论文定量评估现有基础模型在农业任务中的有效性,提出农业专用基础模型的需求框架,并比较和评估两种通用基础模型在三个代表性农业任务中的表现。
  • Result: 研究发现现有通用基础模型在农业任务中表现有限,强调了开发农业专用基础模型的必要性。
  • Conclusion: 论文呼吁开发专门针对农业的基础模型(CropFM),以更好地满足农业监测的需求。

[6] Enhancing Underwater Images Using Deep Learning with Subjective Image Quality Integration

Jose M. Montero,Jose-Luis Lisani

Main category: cs.CV

TL;DR: 本文提出了一种结合深度学习与人类主观评估的水下图像增强方法,通过分类器和GAN提升图像质量。

  • Motivation: 利用深度学习改进水下图像质量,并整合人类主观评估以优化训练过程。
  • Method: 1. 训练分类器区分高低质量图像;2. 使用GAN基于多种增强标准优化低质量图像。
  • Result: 模型在颜色保真度和清晰度等标准下显著提升了图像质量,定量和定性分析均验证了其有效性。
  • Conclusion: 结合人类主观评估的深度学习方法在水下图像增强中表现出色。

[7] pFedMMA: Personalized Federated Fine-Tuning with Multi-Modal Adapter for Vision-Language Models

Sajjad Ghiasvand,Mahnoosh Alizadeh,Ramtin Pedarsani

Main category: cs.CV

TL;DR: pFedMMA是一种个性化联邦学习框架,利用多模态适配器优化视觉语言任务,平衡个性化和泛化性能。

  • Motivation: 现有方法在个性化和泛化之间存在权衡,尤其是在未见类别或领域上表现不佳。
  • Method: 提出pFedMMA框架,结合多模态适配器和全局共享投影层,采用非对称优化策略。
  • Result: 在11个数据集上验证,pFedMMA在个性化和泛化之间取得最佳平衡,优于现有方法。
  • Conclusion: pFedMMA为视觉语言任务提供了一种高效、通信友好的个性化联邦学习解决方案。

[8] Neural-Driven Image Editing

Pengfei Zhou,Jie Xia,Xiaopeng Peng,Wangbo Zhao,Zilong Ye,Zekai Li,Suorong Yang,Jiadong Pan,Yuanxiang Chen,Ziqiao Wang,Kai Wang,Qian Zheng,Xiaojun Chang,Gang Pan,Shurong Dong,Kaipeng Zhang,Yang You

Main category: cs.CV

TL;DR: LoongX提出了一种基于多模态神经生理信号的无手图像编辑方法,结合扩散模型和脑机接口技术,性能接近文本驱动方法。

  • Motivation: 传统图像编辑依赖手动操作,对运动或语言能力有限的人群不友好,因此需要一种更直观、无障碍的编辑方式。
  • Method: 利用EEG、fNIRS、PPG和头部运动信号捕捉用户意图,通过CS3模块和DGF模块处理信号,结合扩散模型实现编辑。
  • Result: LoongX在性能上接近文本驱动方法(如CLIP-I和DINO),并在结合神经信号与语音时表现更优。
  • Conclusion: 神经驱动的生成模型为无障碍图像编辑提供了新方向,推动了认知驱动创意技术的发展。

[9] Motion Generation: A Survey of Generative Approaches and Benchmarks

Aliasghar Khani,Arianna Rampini,Bruno Roy,Larasika Nadela,Noa Kaplan,Evan Atherton,Derek Cheung,Jacky Bibliowicz

Main category: cs.CV

TL;DR: 本文综述了运动生成领域的最新进展,重点分析了基于不同生成策略的方法分类,并总结了评估指标和数据集。

  • Motivation: 运动生成在计算机视觉、图形学和机器人学中具有广泛应用,但多样化的建模方法需要系统性的综述以比较和识别挑战。
  • Method: 通过分类生成策略(如GANs、自编码器、自回归模型和扩散技术),分析架构、条件机制和生成设置,并总结评估指标和数据集。
  • Result: 提供了对2023年以来顶级会议论文的系统综述,明确了当前方法的优势和局限性。
  • Conclusion: 本文为研究人员和实践者提供了清晰的比较和未来研究方向,推动了运动生成领域的发展。

[10] Mastering Regional 3DGS: Locating, Initializing, and Editing with Diverse 2D Priors

Lanqing Guo,Yufei Wang,Hezhen Hu,Yan Zheng,Yeying Jin,Siyu Huang,Zhangyang Wang

Main category: cs.CV

TL;DR: 论文提出了一种基于2D扩散编辑和逆渲染的3D场景局部编辑方法,解决了3D语义解析性能不足的问题,实现了高效且精确的区域编辑。

  • Motivation: 3D场景编辑通常需要修改局部区域,但3D语义解析性能较差,限制了编辑的精度和效率。
  • Method: 利用2D扩散编辑识别修改区域,结合逆渲染进行3D定位,并通过迭代优化逐步提升结构和纹理的一致性。
  • Result: 实验表明,该方法在性能上达到最优,且速度提升了4倍。
  • Conclusion: 该方法为3D场景局部编辑提供了一种高效且精确的解决方案。

[11] OpenWorldSAM: Extending SAM2 for Universal Image Segmentation with Language Prompts

Shiting Xiao,Rishabh Kabra,Yuhang Li,Donghyun Lee,Joao Carreira,Priyadarshini Panda

Main category: cs.CV

TL;DR: OpenWorldSAM扩展了SAM2模型,通过集成轻量级视觉语言模型的多模态嵌入,实现了开放词汇场景下的对象分割。

  • Motivation: 解决基于开放语言提示的对象分割问题,将文本语义精确映射到空间掩码,并处理多样化和未见过的类别。
  • Method: 结合SAM2和VLM,冻结预训练组件,仅训练少量参数,引入位置嵌入和交叉注意力层增强空间理解。
  • Result: 在多个基准测试中(如ADE20k、PASCAL等),实现了开放词汇语义、实例和全景分割的最先进性能。
  • Conclusion: OpenWorldSAM在高效性和泛化能力上表现优异,适用于开放词汇场景下的多种分割任务。

[12] Robotic System with AI for Real Time Weed Detection, Canopy Aware Spraying, and Droplet Pattern Evaluation

Inayat Rasool,Pappu Kumar Yadav,Amee Parmar,Hasan Mirzakhaninafchi,Rikesh Budhathoki,Zain Ul Abideen Usmani,Supriya Paudel,Ivan Perez Olivera,Eric Jone

Main category: cs.CV

TL;DR: 开发了一种基于AI的智能除草喷雾系统,通过实时检测杂草并动态调整喷雾量,以减少农药使用和环境问题。

  • Motivation: 解决传统农业中除草剂过量使用导致的成本增加、环境污染和杂草抗药性问题。
  • Method: 集成轻量级YOLO11n和YOLO11n-seg深度学习模型,结合NVIDIA Jetson Orin Nano和Arduino Uno硬件,实时检测杂草并调整喷雾。
  • Result: YOLO11n模型mAP@50达0.98,喷雾覆盖率随杂草冠层大小动态调整(小冠层16.22%,大冠层21.65%)。
  • Conclusion: 该系统展示了实时深度学习与低成本硬件结合在选择性除草中的潜力,未来将扩展检测能力并进一步验证。

[13] Driving as a Diagnostic Tool: Scenario-based Cognitive Assessment in Older Drivers From Driving Video

Md Zahid Hasan,Guillermo Basulto-Elias,Jun Ha Chang,Sahuna Hallmark,Matthew Rizzo,Anuj Sharma,Soumik Sarkar

Main category: cs.CV

TL;DR: 利用自然驾驶视频和大视觉模型,通过分析老年驾驶员的驾驶行为,早期识别认知衰退(如阿尔茨海默病和轻度认知障碍)。

  • Motivation: 当前诊断认知衰退的方法耗时且昂贵,导致许多病例未被及时发现。通过驾驶行为的数字指纹,可以低成本、非侵入性地早期检测认知问题。
  • Method: 提出一个框架,结合大视觉模型和自然驾驶视频,分析驾驶行为并分类认知状态,预测疾病进展。
  • Result: 方法能够识别功能衰退的早期预警信号,支持主动干预策略的开发。
  • Conclusion: 该研究为早期检测认知衰退提供了可扩展、非侵入性的监测系统,有助于减轻老龄化社会中认知衰退带来的负担。

[14] Cloud Diffusion Part 1: Theory and Motivation

Andrew Randono

Main category: cs.CV

TL;DR: 论文提出了一种基于尺度不变噪声的扩散模型(Cloud Diffusion Model),用于改进图像生成的速度、高频细节和可控性。

  • Motivation: 传统扩散模型使用白噪声,而自然图像具有尺度不变的统计特性,因此提出使用尺度不变噪声以更贴近自然图像的特性。
  • Method: 在扩散模型中引入尺度不变噪声(而非白噪声),构建Cloud Diffusion Model。
  • Result: 预计该模型能实现更快的推理速度、更好的高频细节和更高的可控性。
  • Conclusion: Cloud Diffusion Model有望在图像生成任务中优于传统白噪声扩散模型,后续将进行实验验证。

[15] LoomNet: Enhancing Multi-View Image Generation via Latent Space Weaving

Giulio Federico,Fabio Carrara,Claudio Gennaro,Giuseppe Amato,Marco Di Benedetto

Main category: cs.CV

TL;DR: LoomNet是一种新型多视图扩散架构,通过并行应用扩散模型生成一致的多视图图像,显著提升了3D重建质量。

  • Motivation: 解决单图像生成多视图图像时空间一致性不足导致的3D网格质量下降问题。
  • Method: 使用多视图扩散架构,通过共享潜在空间实现视图一致性,将各视图编码投影到正交平面并融合处理。
  • Result: LoomNet在15秒内生成16个高质量一致视图,在图像质量和重建指标上优于现有方法。
  • Conclusion: LoomNet在多视图生成和3D重建中表现出色,兼具一致性和多样性。

[16] Llama Nemoretriever Colembed: Top-Performing Text-Image Retrieval Model

Mengyao Xu,Gabriel Moreira,Ronay Ak,Radek Osmulski,Yauhen Babakhin,Zhiding Yu,Benedikt Schifferer,Even Oldridge

Main category: cs.CV

TL;DR: 介绍了llama-nemoretriever-colembed,一种统一的文本-图像检索模型,性能领先,提供1B和3B两种变体。

  • Motivation: 满足跨模态检索系统的需求。
  • Method: 基于NVIDIA Eagle2 VLM,改进架构(双向注意力),集成ColBERT式交互机制,采用两阶段训练策略。
  • Result: 3B模型在ViDoRe V1和V2上表现最佳(NDCG@5分别为91.0和63.5)。
  • Conclusion: 模型性能优越,但存储和效率存在权衡。

[17] Simulating Refractive Distortions and Weather-Induced Artifacts for Resource-Constrained Autonomous Perception

Moseli Mots'oehli,Feimei Chen,Hok Wai Chan,Itumeleng Tlali,Thulani Babeli,Kyungim Baek,Huaijin Chen

Main category: cs.CV

TL;DR: 该论文提出了一种增强低成本单目行车记录仪数据的流程,模拟非洲驾驶场景中的光学失真和天气影响,并发布了工具包和基准测试结果。

  • Motivation: 解决发展中国家(尤其是非洲)缺乏自动驾驶数据集的问题,以提升低资源环境下的感知能力。
  • Method: 通过折射模块模拟低质量镜头和空气湍流的光学效应,天气模块添加雾和镜头光晕,并提供了三种图像恢复模型的基准性能。
  • Result: 发布了失真工具包、增强数据集和基准测试结果,支持非洲背景下的感知研究。
  • Conclusion: 该方法为低成本数据增强提供了解决方案,支持在资源有限的环境中进行自动驾驶研究。

[18] ReLayout: Integrating Relation Reasoning for Content-aware Layout Generation with Multi-modal Large Language Models

Jiaxu Tian,Xuehui Yu,Yaoxing Wang,Pan Wang,Guangqian Guo,Shan Gao

Main category: cs.CV

TL;DR: ReLayout是一种基于关系链式思维(relation-CoT)的新方法,通过引入明确的关系定义和布局原型重平衡采样器,解决了现有LLM方法在布局生成中的结构和多样性问题。

  • Motivation: 现有基于LLM的布局生成方法未能充分解释视觉主题和设计元素之间的空间关系,导致生成布局的结构和多样性不足。
  • Method: ReLayout通过引入区域、显著性和边距等明确关系定义,将布局分解为更小、结构化且递归的子布局,并结合布局原型重平衡采样器量化不同布局风格。
  • Result: 实验证明,ReLayout在生成结构化和多样化的布局方面优于基线方法,更符合人类审美且更具解释性。
  • Conclusion: ReLayout通过关系定义和原型重平衡,显著提升了布局生成的质量和多样性。

[19] Multi-Modal Face Anti-Spoofing via Cross-Modal Feature Transitions

Jun-Xiong Chong,Fang-Yu Hsu,Ming-Tsung Hsu,Yi-Ting Lin,Kai-Heng Chien,Chiou-Ting Hsu,Pei-Kai Huang

Main category: cs.CV

TL;DR: 提出了一种跨模态转换引导网络(CTNet),用于解决多模态人脸反欺诈(FAS)中的分布差异和模态缺失问题。

  • Motivation: 在多模态FAS中,真实人脸的特征变化较小,而跨模态特征转换在真实类中更一致,这为构建通用特征空间提供了基础。
  • Method: 通过学习真实样本间一致的跨模态特征转换构建通用特征空间,并学习真实与欺诈样本间不一致的转换以检测OOD攻击。同时,从RGB模态学习补充IR和深度特征以应对模态缺失。
  • Result: 实验表明,CTNet在大多数协议中优于现有的两类多模态FAS方法。
  • Conclusion: CTNet有效解决了多模态FAS中的分布差异和模态缺失问题,提升了检测性能。

[20] Semi-Supervised Defect Detection via Conditional Diffusion and CLIP-Guided Noise Filtering

Shuai Li,Shihan Chen,Wanru Geng,Zhaohua Xu,Xiaolu Liu,Can Dong,Zhen Tian,Changlin Chen

Main category: cs.CV

TL;DR: 本文提出了一种基于条件扩散的半监督缺陷检测框架(DSYM),通过两阶段协作训练和联合优化策略,显著提高了数据效率和检测精度。

  • Motivation: 传统工业缺陷检测方法效率低、成本高且鲁棒性差,需要一种更高效、低依赖标注数据的解决方案。
  • Method: 采用两阶段协作训练机制和条件扩散模型生成多尺度伪缺陷样本,结合CLIP跨模态特征过滤噪声。
  • Result: 在NEU-DET数据集上,mAP@0.5达到78.4%(与传统监督方法相同标注数据)和75.1%(仅需40%标注数据)。
  • Conclusion: DSYM框架为工业质检提供了一种高精度、低标注依赖的缺陷检测方案,已开源。

[21] GSVR: 2D Gaussian-based Video Representation for 800+ FPS with Hybrid Deformation Field

Zhizhuo Pang,Zhihui Ke,Xiaobo Zhou,Tie Qiu

Main category: cs.CV

TL;DR: GSVR是一种基于2D高斯的新型视频表示方法,显著提高了解码速度和训练效率,同时保持了高质量的视频重建。

  • Motivation: 现有基于卷积网络的视频表示方法解码速度慢、训练时间长,GSVR旨在解决这些问题。
  • Method: 提出混合变形场建模视频动态,动态感知时间切片策略自适应划分视频,量化感知微调避免性能下降。
  • Result: 在Bunny和UVG数据集上,GSVR解码速度提升10倍,训练时间大幅缩短,视频压缩性能优于NeRV。
  • Conclusion: GSVR在视频表示中实现了高效解码和快速训练,同时保持了高质量重建和压缩性能。

[22] PaddleOCR 3.0 Technical Report

Cheng Cui,Ting Sun,Manhui Lin,Tingquan Gao,Yubo Zhang,Jiaxuan Liu,Xueqing Wang,Zelun Zhang,Changda Zhou,Hongen Liu,Yue Zhang,Wenyu Lv,Kui Huang,Yichao Zhang,Jing Zhang,Jun Zhang,Yi Liu,Dianhai Yu,Yanjun Ma

Main category: cs.CV

TL;DR: PaddleOCR 3.0是一个开源的OCR和文档解析工具包,提供多语言文本识别、分层文档解析和关键信息提取功能,参数少但性能媲美主流视觉语言模型。

  • Motivation: 满足大语言模型时代对文档理解的日益增长需求。
  • Method: 提出PP-OCRv5、PP-StructureV3和PP-ChatOCRv4三种解决方案,分别用于多语言文本识别、分层文档解析和关键信息提取。
  • Result: 参数少于1亿的模型在准确性和效率上媲美数十亿参数的视觉语言模型。
  • Conclusion: PaddleOCR 3.0不仅提供高质量OCR模型库,还支持高效训练、推理和部署,助力开发者构建智能文档应用。

[23] Rethinking Layered Graphic Design Generation with a Top-Down Approach

Jingye Chen,Zhaowen Wang,Nanxuan Zhao,Li Zhang,Difan Liu,Jimei Yang,Qifeng Chen

Main category: cs.CV

TL;DR: Accordion是一个图形设计生成框架,首次尝试将AI生成的设计转换为可编辑的分层设计,并通过用户提示优化无意义的AI生成文本。

  • Motivation: AI生成的设计缺乏可编辑性,但能启发设计师。Accordion旨在解决这一问题,将非分层设计转化为可编辑的分层设计。
  • Method: 基于视觉语言模型(VLM),分三个阶段执行任务,利用参考图像全局指导分层分解,并结合SAM等视觉专家工具。
  • Result: 在DesignIntention基准测试中表现优异,支持文本到模板、背景添加文本等任务,并能生成设计变体。
  • Conclusion: Accordion成功将AI生成设计转化为可编辑分层设计,并通过用户反馈优化文本,为设计师提供了高效工具。

[24] Kernel Density Steering: Inference-Time Scaling via Mode Seeking for Image Restoration

Yuyang Hu,Kangfu Mei,Mojtaba Sahraee-Ardakan,Ulugbek S. Kamilov,Peyman Milanfar,Mauricio Delbracio

Main category: cs.CV

TL;DR: 提出了一种名为Kernel Density Steering(KDS)的新推理框架,通过显式局部模式搜索提升扩散模型在图像修复中的鲁棒性和高保真输出。

  • Motivation: 现有扩散模型在图像修复中存在保真度不一致和伪影问题,需要一种无需重新训练或外部验证的方法来改善输出质量。
  • Method: KDS使用N粒子扩散样本集合,通过计算其输出的局部核密度估计梯度,引导样本向更高密度区域移动,避免伪影。
  • Result: KDS显著提升了超分辨率和图像修复任务的定量和定性性能。
  • Conclusion: KDS是一种即插即用的框架,能够在不增加训练负担的情况下,显著提升扩散模型的图像修复效果。

[25] Generative Head-Mounted Camera Captures for Photorealistic Avatars

Shaojie Bai,Seunghyeon Seo,Yida Wang,Chenghui Li,Owen Wang,Te-Li Wang,Tianyang Ma,Jason Saragih,Shih-En Wei,Nojun Kwak,Hyung Jun Kim

Main category: cs.CV

TL;DR: 提出了一种名为GenHMC的生成方法,利用未配对的HMC数据生成高质量的合成HMC图像,解决了VR/AR中真实感虚拟角色动画的难题。

  • Motivation: 在VR/AR中,由于难以获取面部状态的真实数据,且现有方法依赖于昂贵的配对数据收集,导致真实感虚拟角色动画的实现受限。
  • Method: 提出GenHMC方法,利用大量未配对的HMC数据,直接从圆顶捕捉的条件化虚拟角色状态生成合成HMC图像。
  • Result: 该方法成功分离了面部表情和外观,生成更准确的真实数据,并能泛化到未见过的身份。
  • Conclusion: GenHMC提高了数据效率,并实现了最先进的准确性,为虚拟角色动画提供了更高效的解决方案。

[26] AdaptaGen: Domain-Specific Image Generation through Hierarchical Semantic Optimization Framework

Suoxiang Zhang,Xiaxi Li,Hongrui Chang,Zhuoyan Hou,Guoxin Wu,Ronghua Ji

Main category: cs.CV

TL;DR: 论文提出AdaptaGen框架,通过层次化语义优化解决领域特定图像生成的语义偏差和幻觉问题,结合提示优化和多视角理解,显著提升图像质量、多样性和语义一致性。

  • Motivation: 现有方法在领域特定图像生成中存在语义理解与视觉表示分离、语义约束不足的问题,导致生成结果出现幻觉和语义偏差。
  • Method: 提出AdaptaGen框架,整合矩阵提示优化和多视角理解,设计跨模态适应机制和两阶段标题语义转换,确保语义一致性和视觉多样性。
  • Result: 实验表明,AdaptaGen在40个类别中仅需每类16张图像即可显著提升图像质量、多样性和语义一致性。
  • Conclusion: AdaptaGen通过层次化语义优化和跨模态适应,有效解决了领域特定图像生成的语义偏差问题,为高质量图像生成提供了新思路。

[27] OFFSET: Segmentation-based Focus Shift Revision for Composed Image Retrieval

Zhiwei Chen,Yupeng Hu,Zixu Li,Zhiheng Fu,Xuemeng Song,Liqiang Nie

Main category: cs.CV

TL;DR: 该论文提出了一种基于焦点映射的特征提取器(OFFSET),用于解决组合图像检索(CIR)中的视觉数据噪声干扰和文本数据优先级问题。

  • Motivation: 现有CIR方法忽视了视觉数据中主导部分与噪声部分的不均匀性,以及文本数据在图像修改过程中的优先级,导致查询特征退化和视觉焦点偏差。
  • Method: 提出了一种包含主导部分分割和双重焦点映射的特征提取器,以及文本引导的焦点修正模块,共同构成OFFSET网络。
  • Result: 在四个基准数据集上的实验验证了该方法的优越性。
  • Conclusion: OFFSET通过减少噪声干扰和增强文本引导的焦点修正,显著提升了CIR的性能。

[28] Knowledge-guided Complex Diffusion Model for PolSAR Image Classification in Contourlet Domain

Junfei Shi,Yu Cheng,Haiyan Jin,Junhuai Li,Zhaolin Xiao,Maoguo Gong,Weisi Lin

Main category: cs.CV

TL;DR: 提出了一种基于Contourlet变换的结构知识引导复杂扩散模型,用于PolSAR图像分类,解决了传统扩散模型在捕捉复数值相位信息和保留细节结构上的不足。

  • Motivation: 传统实值扩散模型在处理PolSAR数据时难以捕捉复数值相位信息且细节结构保留不足。
  • Method: 结合Contourlet变换的多尺度多方向表示能力,设计知识引导的复杂扩散网络,利用高低频子带特征提升分类精度。
  • Result: 在三个真实PolSAR数据集上表现优于现有方法,尤其在边缘细节保留和区域同质性维持方面。
  • Conclusion: 该方法有效提升了PolSAR图像分类性能,尤其在复杂地形中表现突出。

[29] Dynamic Rank Adaptation for Vision-Language Models

Jiahui Wang,Qin Xu,Bo Jiang,Bin Luo

Main category: cs.CV

TL;DR: 提出动态秩适应(DRA)方法,通过动态分配特征重要性提升预训练视觉语言模型在新类别上的泛化能力。

  • Motivation: 现有方法在微调视觉语言模型时对所有特征平等处理,导致过拟合和泛化能力下降。
  • Method: DRA通过令牌重要性分组和动态秩分配,结合通道响应机制和L1正则化,优化特征适应。
  • Result: 实验证明DRA在多个基准测试中优于现有方法,显著提升新类别的识别性能。
  • Conclusion: DRA有效解决了视觉语言模型在新类别泛化中的挑战,具有广泛的应用潜力。

[30] Modeling and Reversing Brain Lesions Using Diffusion Models

Omar Zamzam,Haleh Akrami,Anand Joshi,Richard Leahy

Main category: cs.CV

TL;DR: 提出了一种基于扩散模型的框架,用于分析和逆转脑损伤过程,区分受损与变形组织,并通过模拟验证方法。

  • Motivation: 现有脑损伤分割方法未能区分受损与变形组织,限制了临床和研究应用。
  • Method: 使用扩散模型框架,先分割异常区域,再估计并逆转组织变形,最后修复核心损伤区域。
  • Result: 与传统方法相比,提高了损伤分割、表征和脑标记的准确性。
  • Conclusion: 该框架为脑损伤分析提供了更精确的工具,适用于临床和研究。

[31] R-VLM: Region-Aware Vision Language Model for Precise GUI Grounding

Joonhyung Park,Peng Tang,Sagnik Das,Srikar Appalaraju,Kunwar Yashraj Singh,R. Manmatha,Shabnam Ghadar

Main category: cs.CV

TL;DR: R-VLM是一种新的GUI元素定位方法,通过放大区域提案和IoU感知目标函数,提高了定位精度,在多个基准测试中表现优异。

  • Motivation: 现有视觉GUI代理在处理杂乱屏幕截图时效率低且准确性不足,需要改进元素定位方法。
  • Method: 提出R-VLM方法,利用放大区域提案和IoU感知目标函数进行精确元素定位。
  • Result: 在ScreenSpot和AgentStudio基准测试中,定位准确率提升13%;在AITW和Mind2Web任务中,准确率提升3.2-9.7%。
  • Conclusion: R-VLM通过结合视觉语言模型与传统目标检测技术,显著提升了GUI元素定位的准确性。

[32] MedGen: Unlocking Medical Video Generation by Scaling Granularly-annotated Medical Videos

Rongsheng Wang,Junying Chen,Ke Ji,Zhenyang Cai,Shunian Chen,Yunjin Yang,Benyou Wang

Main category: cs.CV

TL;DR: 论文介绍了MedVideoCap-55K数据集和MedGen模型,填补了医学视频生成领域的空白,提升了视觉质量和医学准确性。

  • Motivation: 医学视频生成在临床培训和教育中至关重要,但现有模型因缺乏高质量数据集而表现不佳。
  • Method: 构建了MedVideoCap-55K数据集,并基于此开发了MedGen模型。
  • Result: MedGen在视觉质量和医学准确性上表现优异,媲美商业系统。
  • Conclusion: 数据集和模型为医学视频生成研究提供了宝贵资源。

[33] Integrated Structural Prompt Learning for Vision-Language Models

Jiahui Wang,Qin Xu,Bo Jiang,Bin Luo

Main category: cs.CV

TL;DR: 提出了一种集成结构提示(ISP)方法,通过自结构和跨结构提示模块增强视觉语言模型(VLM)中文本和图像分支的信息交互,同时引入样本探测模块动态调整损失系数,提升新类别的泛化能力。

  • Motivation: 现有方法忽视了可学习提示与模态内及模态间令牌的结构关系,且难以平衡基类和新类的性能。
  • Method: 提出ISP方法,包含自结构和跨结构提示模块,以及动态调整损失系数的样本探测模块。
  • Result: 在基类到新类泛化、跨数据集评估和领域泛化三个广泛使用的设置中,ISP表现优于现有方法。
  • Conclusion: ISP通过结构关系和动态损失调整,显著提升了VLM的性能和泛化能力。

[34] LiON-LoRA: Rethinking LoRA Fusion to Unify Controllable Spatial and Temporal Generation for Video Diffusion

Yisu Zhang,Chenjie Cao,Chaohui Yu,Jianke Zhu

Main category: cs.CV

TL;DR: LiON-LoRA通过线性可扩展性、正交性和范数一致性改进LoRA融合,实现对视频扩散模型中相机轨迹和物体运动的精确控制。

  • Motivation: 解决传统LoRA在视频扩散模型中融合不稳定和非线性扩展的问题,以实现对相机轨迹和物体运动的精确控制。
  • Method: 提出LiON-LoRA框架,分析LoRA特征的正交性,强制范数一致性,并引入可控令牌到扩散变换器中。
  • Result: 实验显示LiON-LoRA在轨迹控制精度和运动强度调整上优于现有方法,且泛化能力强。
  • Conclusion: LiON-LoRA为视频扩散模型提供了更稳定和精确的控制方法,适用于复杂场景。

[35] Event-RGB Fusion for Spacecraft Pose Estimation Under Harsh Lighting

Mohsi Jawaid,Marcus Märtens,Tat-Jun Chin

Main category: cs.CV

TL;DR: 论文提出了一种结合RGB和事件传感器的融合方法,用于解决航天器姿态估计中极端光照条件下的挑战。

  • Motivation: 航天器姿态估计对自主在轨操作至关重要,但传统RGB传感器在极端光照条件下表现不佳,而事件传感器虽动态范围高,但空间分辨率低且低运动时信噪比低。
  • Method: 采用分束棱镜实现光学和时间对齐,开发基于RANSAC的融合技术,结合RGB和事件传感器的优势,并通过dropout不确定性估计检测极端条件。
  • Result: 在实验室收集的多样化光照条件下数据集上测试,结果表明融合方法有效,支持事件传感器在姿态估计中的应用。
  • Conclusion: 事件-RGB融合方法在极端光照条件下表现优异,数据集将公开以推动社区研究。

[36] Hyperspectral Anomaly Detection Methods: A Survey and Comparative Study

Aayushma Pant,Arbind Agrahari Baniya,Tsz-Kwan Lee,Sunil Aryal

Main category: cs.CV

TL;DR: 该论文对高光谱异常检测(HAD)技术进行了全面比较,分为统计模型、表示方法、经典机器学习和深度学习模型,评估了17个基准数据集,发现深度学习模型检测精度最高,统计模型速度最快。

  • Motivation: 高光谱异常检测技术虽快速发展,但仍面临计算复杂度高、噪声敏感和泛化能力有限等问题,需系统比较现有方法以指导未来研究。
  • Method: 分类比较统计模型、表示方法、经典机器学习和深度学习模型,使用ROC、AUC等指标在17个数据集上评估性能。
  • Result: 深度学习模型检测精度最高,统计模型速度最快。
  • Conclusion: 研究为高光谱异常检测领域的未来研究提供了有价值的见解,建议结合深度学习的精度和统计模型的速度。

[37] SenseShift6D: Multimodal RGB-D Benchmarking for Robust 6D Pose Estimation across Environment and Sensor Variations

Yegyu Han,Taegyoon Yoon,Dayeon Woo,Sojeong Kim,Hyung-Sin Kim

Main category: cs.CV

TL;DR: SenseShift6D是一个新的RGB-D数据集,用于研究6D物体姿态估计在真实世界光照和传感器变化下的性能,并探索测试时传感器控制的潜力。

  • Motivation: 现有6D姿态估计数据集在固定光照和相机设置下采集,缺乏对真实世界变化的探索。SenseShift6D旨在填补这一空白。
  • Method: 通过物理调整13种RGB曝光、9种RGB增益、自动曝光、4种深度模式和5种光照水平,采集101.9k RGB和10k深度图像。
  • Result: 实验表明,测试时传感器控制比数字数据增强更有效,性能接近或优于增加真实训练数据。多模态RGB-D配置联合调整效果最佳。
  • Conclusion: SenseShift6D为自适应感知系统奠定了基础,扩展了6D姿态评估范式,使其更具传感器感知鲁棒性。

[38] Normal Patch Retinex Robust Alghoritm for White Balancing in Digital Microscopy

Radoslaw Roszczyk,Artur Krupa,Izabella Antoniuk

Main category: cs.CV

TL;DR: 本文提出了一种全自动的白平衡校正机制,用于显微镜图像的色彩平衡,实验证明其效果优于传统算法。

  • Motivation: 显微镜操作中获取色彩准确的平衡图像具有挑战性,需要一种自动化的解决方案。
  • Method: 开发了一种全自动白平衡校正算法,并在200张显微镜图像上进行了实验验证。
  • Result: 该算法在病理形态学常用的染色图像上表现优于传统数字摄影中的白平衡算法。
  • Conclusion: 该自动白平衡机制在显微镜图像处理中具有更高的有效性。

[39] DreamArt: Generating Interactable Articulated Objects from a Single Image

Ruijie Lu,Yu Liu,Jiaxiang Tang,Junfeng Ni,Yuxiang Wang,Diwen Wan,Gang Zeng,Yixin Chen,Siyuan Huang

Main category: cs.CV

TL;DR: DreamArt是一个从单视角图像生成高质量、可交互的铰接物体的框架,通过三阶段流程实现:3D重建、部分级铰接先验学习和全局优化。

  • Motivation: 现有方法主要关注表面几何和纹理,忽略了部分分解和铰接建模,且依赖密集多视角或交互数据,限制了可扩展性。
  • Method: 采用三阶段流程:1) 3D网格重建与部分分割;2) 基于视频扩散模型学习铰接先验;3) 铰接运动优化与全局纹理细化。
  • Result: 实验表明,DreamArt能生成高质量铰接物体,具有准确的部分形状、高保真外观和合理的铰接效果。
  • Conclusion: DreamArt为铰接物体生成提供了可扩展的解决方案,适用于Embodied AI和AR/VR应用。

[40] TalkFashion: Intelligent Virtual Try-On Assistant Based on Multimodal Large Language Model

Yujie Hu,Xuanyu Zhang,Weiqi Li,Jian Zhang

Main category: cs.CV

TL;DR: 本文提出TalkFashion,通过文本指令实现多功能虚拟试穿,包括全身换装和局部编辑,利用大语言模型分析指令并激活不同处理流程,同时引入无需手动掩码的局部重绘模型。

  • Motivation: 解决现有虚拟试穿方法功能单一、缺乏灵活性的问题,实现基于文本指令的多功能试穿。
  • Method: 结合大语言模型分析用户指令,激活不同处理流程;引入指令驱动的局部重绘模型,无需手动掩码。
  • Result: 实验结果显示,该方法在语义一致性和视觉质量上优于现有方法。
  • Conclusion: TalkFashion通过文本指令实现了多功能虚拟试穿,提升了灵活性和自动化程度。

[41] SPADE: Spatial-Aware Denoising Network for Open-vocabulary Panoptic Scene Graph Generation with Long- and Local-range Context Reasoning

Xin Hu,Ke Qin,Guiduo Duan,Ming Li,Yuan-Fang Li,Tao He

Main category: cs.CV

TL;DR: SPADE框架通过空间感知去噪网络改进开放词汇全景场景图生成,解决了预训练视觉语言模型在空间关系推理中的局限性。

  • Motivation: 现有方法依赖预训练视觉语言模型,但忽略了其在空间关系推理中的不足,导致关系预测不理想。
  • Method: SPADE框架包含两步:(1) 基于反转引导的UNet校准,(2) 空间感知上下文推理。
  • Result: 在PSG和Visual Genome数据集上,SPADE在封闭和开放场景中均优于现有方法,尤其在空间关系预测上表现突出。
  • Conclusion: SPADE通过空间感知设计显著提升了全景场景图生成的性能。

[42] DREAM: Document Reconstruction via End-to-end Autoregressive Model

Xin Li,Mingming Gong,Yunfei Wu,Jianxin Dai,Antai Guo,Xinghua Jiang,Haoyu Cao,Yinsong Liu,Deqiang Jiang,Xing Sun

Main category: cs.CV

TL;DR: 本文提出了一种名为DREAM的自回归模型,用于端到端的文档重建,解决了现有方法中的错误传播和布局信息缺失问题,并通过实验验证了其优越性能。

  • Motivation: 现有文档重建方法存在错误传播和布局信息缺失的问题,限制了性能。
  • Method: 提出DREAM模型,通过端到端自回归方式将文本图像转换为文档重建序列,并引入DSM指标和DocRec1K数据集进行评估。
  • Result: 实验证明DREAM在文档重建任务中表现优异,同时在多个子任务(如布局分析、文本识别等)中也具有竞争力。
  • Conclusion: DREAM为文档重建任务提供了一种高效且全面的解决方案,具有广泛的应用潜力。

[43] Towards Solar Altitude Guided Scene Illumination

Samed Doğan,Maximilian Hoh,Nico Leuze,Nicolas R. -Peña,Alfred Schöttl

Main category: cs.CV

TL;DR: 论文提出了一种基于太阳高度角的合成相机传感器数据生成方法,解决了白天光照变化研究的不足,并展示了其在扩散模型中的有效性。

  • Motivation: 真实世界数据采集成本高且受限,合成数据生成成为研究重点,但白天光照变化研究存在空白。
  • Method: 使用太阳高度角作为全局条件变量,结合定制归一化方法,生成合成数据。
  • Result: 该方法能准确捕捉光照特性和图像噪声,适用于扩散模型。
  • Conclusion: 太阳高度角是一种无需大量标注的有效条件变量,为合成数据生成提供了新思路。

[44] Empowering Bridge Digital Twins by Bridging the Data Gap with a Unified Synthesis Framework

Wang Wang,Mingyu Shi,Jun Jiang,Wenqian Ma,Chong Liu,Yasutaka Narazaki,Xuguang Wang

Main category: cs.CV

TL;DR: 本文提出了一种系统性框架,用于生成3D桥梁数据,以解决传统手动检测效率低和真实数据不完整的问题。该框架能自动生成完整的点云数据,并支持训练分割和补全网络。实验表明,使用合成数据训练的模型在真实桥梁语义分割任务中表现优异。

  • Motivation: 桥梁作为关键交通基础设施,面临老化和损坏的挑战,传统手动检测效率低下。3D点云技术虽提供新范式,但真实数据的不完整性限制了其应用潜力。
  • Method: 提出一个系统性框架,自动生成具有组件级实例标注、高保真颜色和精确法向量的完整点云数据,并可扩展为模拟多样且物理真实的非完整点云。
  • Result: 使用合成数据训练的PointNet++模型在真实桥梁语义分割任务中达到84.2%的mIoU,KT-Net在组件补全任务中表现优异。
  • Conclusion: 本研究为桥梁结构的3D视觉分析提供了创新方法和基础数据集,对推进基础设施的自动化管理和维护具有重要意义。

[45] 2D Instance Editing in 3D Space

Yuhuan Xie,Aoxuan Pan,Ming-Xian Lin,Wei Huang,Yi-Hua Huang,Xiaojuan Qi

Main category: cs.CV

TL;DR: 提出了一种新颖的“2D-3D-2D”框架,通过将2D对象提升为3D表示进行编辑,解决了现有生成模型在一致性和对象身份保持上的不足。

  • Motivation: 现有生成模型在2D图像编辑中虽表现精准和真实,但在一致性和对象身份保持上存在局限性。
  • Method: 采用“2D-3D-2D”框架,先将2D对象转换为3D表示进行编辑,再将其无缝投影回2D图像。
  • Result: 实验表明,该方法在一致性和对象身份保持上优于现有方法(如DragGAN和DragDiffusion)。
  • Conclusion: 该框架为2D图像编辑提供了一种更一致且物理合理的方法。

[46] Video Event Reasoning and Prediction by Fusing World Knowledge from LLMs with Vision Foundation Models

L'ea Dubois,Klaus Schmidt,Chengyu Wang,Ji-Hoon Park,Lin Wang,Santiago Munoz

Main category: cs.CV

TL;DR: 提出了一种结合视觉基础模型(VFM)和大型语言模型(LLM)的新框架,用于视频理解中的高级认知任务,如因果推理和未来预测。

  • Motivation: 现有视频理解模型缺乏常识性世界知识,难以完成高级认知任务。
  • Method: 采用两阶段训练策略:大规模视频-文本对齐预训练和针对推理与预测的指令微调。
  • Result: 模型在多个挑战性基准测试中达到最优性能,并展现出零样本泛化能力。
  • Conclusion: 该工作将机器感知从简单识别推向真正的认知理解,为更智能的AI系统铺平道路。

[47] I2R: Inter and Intra-image Refinement in Few Shot Segmentation

Ourui Fu,Hangzhou He,Xinliang Zhang,Lei Zhu,Shuang Zeng,ZhaoHeng Xie,Yanye Lu

Main category: cs.CV

TL;DR: 论文提出了一种名为I²R的新方法,通过全局语义聚合和方向性掩码策略,解决了小样本语义分割中的支持-查询图像语义差距和区域内视觉相似但语义不同的问题,显著提升了性能。

  • Motivation: 解决小样本语义分割中因支持-查询图像语义差距和区域内视觉相似但语义不同导致的性能下降问题。
  • Method: 1) 使用类别特定的高层表示聚合全局语义线索;2) 采用方向性掩码策略抑制不一致的支持-查询像素对。
  • Result: 在PASCAL-5ⁱ和COCO-20ⁱ基准测试中,1-shot设置下mIoU分别提升了1.9%和2.1%。
  • Conclusion: I²R方法通过改进特征匹配和抑制不一致像素对,显著提升了小样本语义分割的性能。

[48] USIGAN: Unbalanced Self-Information Feature Transport for Weakly Paired Image IHC Virtual Staining

Yue Peng,Bing Xiong,Fuqiang Chen,De Eybo,RanRan Zhang,Wanming Hu,Jing Cai,Wenjian Qin

Main category: cs.CV

TL;DR: 提出了一种名为USIGAN的新方法,用于解决弱配对条件下IHC虚拟染色中的空间异质性问题,通过提取全局形态语义并改进生成结果的一致性。

  • Motivation: 解决弱配对条件下IHC虚拟染色中因空间异质性导致的一对多映射不准确和病理语义不一致的问题。
  • Method: 提出USIGAN方法,包括Unbalanced Optimal Transport Consistency (UOT-CTM)和Pathology Self-Correspondence (PC-SCM)机制,以改进生成结果的一致性。
  • Result: 在两个公开数据集上的实验表明,该方法在IoD和Pearson-R等临床指标上表现优异。
  • Conclusion: USIGAN方法显著提高了生成结果的病理语义一致性,具有更好的临床相关性。

[49] DFYP: A Dynamic Fusion Framework with Spectral Channel Attention and Adaptive Operator learning for Crop Yield Prediction

Juli Zhang,Zeyu Yan,Jing Zhang,Qiguang Miao,Quan Wang

Main category: cs.CV

TL;DR: DFYP是一种动态融合框架,通过光谱通道注意力、边缘自适应空间建模和学习融合机制,提高了作物产量预测的鲁棒性。

  • Motivation: 现有方法在空间建模能力和跨作物类型及年份的泛化能力上存在不足,DFYP旨在解决这些问题。
  • Method: DFYP包含三个关键组件:分辨率感知通道注意力模块(RCA)、自适应算子学习网络(AOL-Net)和双分支架构,结合学习融合机制。
  • Result: 在MODIS和Sentinel-2数据集上的实验表明,DFYP在RMSE、MAE和R2指标上均优于现有方法。
  • Conclusion: DFYP在多种农业场景下表现出高效性和鲁棒性,适用于实际农业监测。

[50] D-FCGS: Feedforward Compression of Dynamic Gaussian Splatting for Free-Viewpoint Videos

Wenkang Zhang,Yan Zhao,Qiang Wang,Li Song,Zhengxue Cheng

Main category: cs.CV

TL;DR: 提出了一种名为D-FCGS的框架,用于高效压缩动态3D高斯点云序列,采用前馈方式,结合I-P帧编码和双先验熵模型,实现了高压缩率和视觉质量。

  • Motivation: 自由视点视频(FVV)需要高效的动态3D表示压缩方法,现有方法通常依赖场景重建与优化编码的耦合,限制了泛化能力。
  • Method: 采用Group-of-Frames(GoF)结构和I-P帧编码,通过稀疏控制点提取帧间运动,使用双先验熵模型压缩运动张量,并利用控制点引导的运动补偿和细化网络提升重建质量。
  • Result: 实验表明,D-FCGS在40倍压缩率下,2秒内完成压缩,视觉质量与优化方法相当。
  • Conclusion: D-FCGS为动态3D高斯点云的前馈压缩提供了新思路,推动了FVV在沉浸式应用中的可扩展传输与存储。

[51] GeoMag: A Vision-Language Model for Pixel-level Fine-Grained Remote Sensing Image Parsing

Xianzhi Ma,Jianhui Li,Changhua Pei,Hao Liu

Main category: cs.CV

TL;DR: GeoMag是一个用于遥感图像理解的端到端通用大模型框架,通过动态调整注意力范围和分辨率,显著提升了像素级任务和小目标识别的能力,同时降低了计算成本。

  • Motivation: 现有遥感视觉语言模型(RS-VLMs)在像素级任务和小目标识别上表现不佳,且处理高分辨率图像时计算资源消耗大,限制了实际应用。
  • Method: 提出GeoMag框架,引入任务驱动的多粒度分辨率调整(TMRA)和提示引导的语义感知裁剪(PSC),动态优化任务相关区域的视觉表示。
  • Result: 在10个基准测试中,GeoMag在像素级任务上表现优异,同时在其他粒度的任务上保持竞争力。
  • Conclusion: GeoMag通过动态注意力机制和分辨率优化,显著提升了遥感图像解析的效率和性能,具有广泛的应用潜力。

[52] What You Have is What You Track: Adaptive and Robust Multimodal Tracking

Yuedong Tan,Jiawei Shao,Eduard Zamfir,Ruanjun Li,Zhaochong An,Chao Ma,Danda Paudel,Luc Van Gool,Radu Timofte,Zongwei Wu

Main category: cs.CV

TL;DR: 本文研究了多模态数据在视觉跟踪中的性能问题,提出了一种灵活框架以应对数据缺失,并通过实验验证了其优越性。

  • Motivation: 多模态数据在视觉跟踪中能提升鲁棒性,但传感器同步问题导致数据缺失,现有跟踪器性能下降,缺乏适应性。
  • Method: 提出了一种基于动态激活计算单元的灵活框架,采用异构混合专家融合机制和视频级掩码策略。
  • Result: 模型在9个基准测试中达到SOTA性能,适应不同缺失率和场景复杂度。
  • Conclusion: 该框架在多模态数据缺失情况下表现出色,为视觉跟踪提供了新思路。

[53] On the Effectiveness of Methods and Metrics for Explainable AI in Remote Sensing Image Scene Classification

Jonas Klotz,Tom Burgert,Begüm Demir

Main category: cs.CV

TL;DR: 论文研究了遥感图像场景分类中解释方法和评估指标的有效性,发现现有方法和指标存在局限性,并提出了选择方法和指标的建议。

  • Motivation: 现有解释方法和评估指标大多针对自然图像设计,直接用于遥感图像可能不适用,因此需要研究其在遥感场景分类中的有效性。
  • Method: 分析了十种解释指标(涵盖五类)和五种特征归因方法,在三个遥感数据集上进行实验。
  • Result: 发现扰动和梯度方法存在局限性,而鲁棒性和随机化指标表现更稳定。
  • Conclusion: 提供了遥感图像场景分类中选择解释方法、指标和超参数的指南。

[54] High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning

Xinyu Huang,Yuhao Dong,Weiwei Tian,Bo Li,Rui Feng,Ziwei Liu

Main category: cs.CV

TL;DR: MGPO是一种基于强化学习的框架,通过多轮对话自动裁剪关键视觉区域,提升大模型在高分辨率图像上的表现。

  • Motivation: 解决大模型处理高分辨率图像时视觉标记过多且无关的问题。
  • Method: 使用多轮对话框架和强化学习,通过自动裁剪子图像聚焦关键区域,仅需二元奖励函数。
  • Result: 在无标注数据下,MGPO比GRPO提升5.4%(MME-Realworld)和5.2%(V* Bench),并在OOD任务上超越GPT-4o。
  • Conclusion: MGPO通过强化学习有效激发模型的视觉定位能力,无需额外标注,性能显著提升。

[55] Beyond Appearance: Geometric Cues for Robust Video Instance Segmentation

Quanzhu Niu,Yikang Zhou,Shihao Chen,Tao Zhang,Shunping Ji

Main category: cs.CV

TL;DR: 本文通过引入几何感知(深度估计)来增强视频实例分割(VIS)的鲁棒性,提出了三种集成方法(EDC、SV、DS),其中EDC和SV显著提升了性能,EDC方法在OVIS基准上达到56.2 AP,创下新纪录。

  • Motivation: 视频实例分割面临遮挡、运动模糊和外观变化等挑战,作者希望通过深度估计提升其鲁棒性。
  • Method: 提出了三种深度集成方法:EDC(扩展深度通道)、SV(共享ViT)和DS(深度监督),并系统评估了它们的有效性。
  • Result: EDC和SV显著提升了VIS的鲁棒性,EDC方法在OVIS基准上达到56.2 AP,创下新纪录。
  • Conclusion: 深度信息是提升视频理解鲁棒性的关键因素。

[56] High-Fidelity and Generalizable Neural Surface Reconstruction with Sparse Feature Volumes

Aoxiang Fan,Corentin Dumery,Nicolas Talabot,Hieu Le,Pascal Fua

Main category: cs.CV

TL;DR: 提出了一种稀疏表示方法,通过两阶段策略实现高效内存使用和高分辨率重建,显著优于现有方法。

  • Motivation: 密集3D特征体积在泛化神经表面重建中效果显著,但高分辨率下内存效率低,限制了重建质量。
  • Method: 采用两阶段方法:先预测体素占用率,再在占用率高的体素中计算特征和体积渲染,并开发了高效采样和查询算法。
  • Result: 存储需求减少50倍以上,支持512^3分辨率重建,性能优于现有方法。
  • Conclusion: 稀疏表示方法显著提升了重建质量和效率,适用于高分辨率场景。

[57] Tora2: Motion and Appearance Customized Diffusion Transformer for Multi-Entity Video Generation

Zhenghao Zhang,Junchao Liao,Xiangyu Meng,Long Qin,Weizhi Wang

Main category: cs.CV

TL;DR: Tora2是Tora的增强版,通过解耦个性化提取器和门控自注意力机制,实现了多实体外观和运动的定制化视频生成,显著减少了训练中的多模态条件对齐问题。

  • Motivation: 改进现有扩散变换器模型在视频生成中的局限性,特别是在多实体外观和运动定制化方面的能力。
  • Method: 引入解耦个性化提取器生成个性化嵌入,设计门控自注意力机制整合轨迹、文本和视觉信息,并使用对比损失优化运动与个性化嵌入的映射。
  • Result: Tora2在多实体定制化视频生成中表现优异,提供了先进的运动控制能力,性能与现有最佳定制化方法相当。
  • Conclusion: Tora2在多条件视频生成领域取得了重要进展,首次实现了多实体外观和运动的同步定制化。

[58] T-LoRA: Single Image Diffusion Model Customization Without Overfitting

Vera Soboleva,Aibek Alanov,Andrey Kuznetsov,Konstantin Sobolev

Main category: cs.CV

TL;DR: T-LoRA是一种针对扩散模型个性化设计的时序依赖低秩适应框架,通过动态调整微调策略和权重参数化技术,解决了单图像定制中的过拟合问题。

  • Motivation: 扩散模型在单图像定制时容易过拟合,影响泛化能力和输出多样性,因此需要一种更有效的微调方法。
  • Method: 提出T-LoRA框架,包括动态微调策略(基于扩散时间步调整低秩更新)和权重参数化技术(正交初始化确保适配器独立性)。
  • Result: T-LoRA及其组件在概念保真度和文本对齐方面优于标准LoRA和其他扩散模型个性化技术。
  • Conclusion: T-LoRA在数据有限和资源受限的场景中表现出色,平衡了概念保真度和文本对齐。

[59] Automatic Synthesis of High-Quality Triplet Data for Composed Image Retrieval

Haiwen Li,Delong Liu,Zhaohui Hou,Zhicheng Zhao,Fei Su

Main category: cs.CV

TL;DR: 论文提出了一种自动生成三元组的流程和合成数据集CIRHS,结合新型框架CoAlign,显著提升了零样本和全监督下的图像检索性能。

  • Motivation: 解决现有CIR方法依赖昂贵人工标注三元组的问题,提升可扩展性和零样本能力。
  • Method: 利用LLM生成多样化提示,控制文本到图像生成模型生成图像对,构建CIRHS数据集;提出CoAlign框架,实现全局对齐和局部推理。
  • Result: 在三个基准测试中实现出色的零样本性能,并在全监督训练下超越现有方法。
  • Conclusion: 证明了完全合成数据集训练CIR模型的可行性,并验证了CoAlign框架的有效性。

[60] Exploring Partial Multi-Label Learning via Integrating Semantic Co-occurrence Knowledge

Xin Wu,Fei Teng,Yue Feng,Kaibo Shi,Zhuosheng Lin,Ji Zhang,James Wang

Main category: cs.CV

TL;DR: SCINet提出了一种新的部分多标签学习框架,通过捕捉标签与实例的共现模式,结合多模态模型和跨模态融合模块,显著提升了性能。

  • Motivation: 部分多标签学习的核心挑战在于准确识别标签与实例之间的模糊关系,现有方法难以有效处理不完全标注的数据。
  • Method: SCINet引入双向主导提示模块和跨模态融合模块,结合多模态模型和语义增强策略,优化标签与实例的关联。
  • Result: 在四个基准数据集上的实验表明,SCINet优于现有最先进方法。
  • Conclusion: SCINet通过语义共现和跨模态融合,为部分多标签学习提供了有效的解决方案。

[61] Ensemble-Based Deepfake Detection using State-of-the-Art Models with Robust Cross-Dataset Generalisation

Haroon Wahab,Hassan Ugail,Lujain Jaleel

Main category: cs.CV

TL;DR: 通过集成多个先进模型提升Deepfake检测的泛化能力。

  • Motivation: 现有Deepfake检测模型在基准数据集上表现优异,但在分布外数据上性能显著下降。
  • Method: 采用集成学习方法,结合多个不对称模型的预测概率。
  • Result: 实验表明,集成方法在多种场景下表现更稳定可靠。
  • Conclusion: 不对称集成是一种适用于实际场景的稳健且可扩展的解决方案。

[62] Geo-Registration of Terrestrial LiDAR Point Clouds with Satellite Images without GNSS

Xinyu Wang,Muhammad Ibrahim,Atif Mansoor,Ajmal Mian

Main category: cs.CV

TL;DR: 提出了一种基于点云与卫星图像对齐的结构化地理配准方法,解决了GNSS信号缺失区域的定位问题,显著提升了精度。

  • Motivation: 在GNSS信号缺失的密集城市区域,现有依赖GNSS和IMU的方法因假设失效导致定位误差,需一种不依赖先验定位的解决方案。
  • Method: 使用预训练点Transformer分割道路点,提取道路骨架和交叉点进行全局刚性对齐,再通过RBF插值局部细化,并结合SRTM地形数据进行高程校正。
  • Result: 在KITTI和Perth数据集上,平面配准精度分别提升55.3%和77.4%,高程相关性分别提升30.5%和50.4%。
  • Conclusion: 该方法有效解决了GNSS缺失区域的点云配准问题,显著提升了地理配准精度,适用于城市规模3D地图重建。

[63] TextPixs: Glyph-Conditioned Diffusion with Character-Aware Attention and OCR-Guided Supervision

Syeda Anshrah Gillani,Mirza Samad Ahmed Baig,Osama Ahmed Khan,Shahid Munir Shah,Umema Mujeeb,Maheen Ali

Main category: cs.CV

TL;DR: 本文提出了一种新框架GCDA,解决了现有文本到图像扩散模型无法生成可读文本的问题,通过字符感知注意力和OCR优化,显著提升了文本渲染质量。

  • Motivation: 现有文本到图像扩散模型生成的图像中文本可读性差,限制了其在广告、教育和创意设计等领域的应用。
  • Method: GCDA框架包含双流文本编码器、字符感知注意力机制和OCR优化阶段,通过字符感知表示和注意力隔离损失提升文本生成质量。
  • Result: 实验表明GCDA在文本渲染(字符错误率0.08 vs 0.21)、人类感知和图像合成质量(FID 14.3)上均达到新SOTA。
  • Conclusion: GCDA显著提升了文本到图像生成中文本的可读性和准确性,为实际应用提供了更强大的工具。

[64] VisualSpeaker: Visually-Guided 3D Avatar Lip Synthesis

Alexandre Symeonidis-Herzig,Özge Mercanoğlu Sincan,Richard Bowden

Main category: cs.CV

TL;DR: VisualSpeaker提出了一种基于光真实感可微分渲染的新方法,通过视觉语音识别监督,显著提升了3D面部动画的质量和感知效果。

  • Motivation: 现有方法依赖网格域,难以充分利用2D计算机视觉和图形学的快速视觉创新,因此需要一种新方法来提升3D面部动画的真实性和表现力。
  • Method: 使用光真实感可微分渲染,结合视觉语音识别监督,提出了一种感知唇读损失函数,通过预训练的视觉自动语音识别模型优化3D高斯泼溅头像渲染。
  • Result: 在MEAD数据集上,VisualSpeaker将Lip Vertex Error指标提升了56.1%,同时保持了网格驱动动画的可控性。
  • Conclusion: VisualSpeaker通过感知优化显著提升了3D面部动画的质量,尤其适用于需要精确口型的应用场景(如手语头像)。

[65] MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding

Chang Liu,Ye Pan,Chenyang Ding,Susanto Rahardja,Xiaokang Yang

Main category: cs.CV

TL;DR: MEDTalk提出了一种细粒度和动态的情感3D面部动画生成框架,通过解耦内容和情感嵌入空间,结合音频和文本输入,生成更自然和多样化的面部表情。

  • Motivation: 现有方法通常局限于静态和预定义的情感标签,缺乏多样性和自然性。MEDTalk旨在解决这一问题。
  • Method: 通过跨重建过程解耦内容和情感嵌入空间,结合音频和文本输入动态调整情感特征,并支持多模态输入(如文本描述和参考图像)以增强控制。
  • Result: 生成的3D面部动画具有更高的自然性和多样性,并可无缝集成到工业生产线中。
  • Conclusion: MEDTalk为情感3D面部动画提供了一种更灵活和可控的解决方案,适用于实际应用。

[66] MCAM: Multimodal Causal Analysis Model for Ego-Vehicle-Level Driving Video Understanding

Tongtong Cheng,Rongzhen Li,Yixin Xiong,Tao Zhang,Jing Wang,Kai Liu

Main category: cs.CV

TL;DR: 提出了一种多模态因果分析模型(MCAM),用于解决自动驾驶视频理解中的浅层因果和虚假相关性问题,通过多级特征提取和因果分析模块实现SOTA性能。

  • Motivation: 现有方法在自动驾驶视频理解中往往只能挖掘浅层因果关系,且忽略了跨模态的虚假相关性和车辆层面的因果建模。
  • Method: 设计了多级特征提取器捕捉长程依赖,动态建模驾驶场景的因果分析模块(DAG),以及视觉-语言Transformer对齐关键特征与语言表达。
  • Result: 在BDD-X和CoVLA数据集上实现了SOTA性能,展示了在视频序列中捕捉因果特征的有效性。
  • Conclusion: MCAM在自动驾驶应用中表现出色,能够有效建模视觉与语言模态间的因果关系。

[67] Discontinuity-aware Normal Integration for Generic Central Camera Models

Francesco Milano,Manuel López-Antequera,Naina Dhingra,Roland Siegwart,Robert Thiel

Main category: cs.CV

TL;DR: 提出了一种新的方法,通过局部平面性假设显式建模深度不连续性,并处理通用中心相机模型,显著提升了法线积分精度。

  • Motivation: 现有法线积分方法通常隐式处理深度不连续性,且仅限于正交或理想针孔相机,限制了其应用范围。
  • Method: 基于局部平面性假设,通过约束表面法线与射线方向的关系,显式建模不连续性,并支持通用中心相机模型。
  • Result: 在标准法线积分基准测试中达到最优性能,首次直接支持通用中心相机模型。
  • Conclusion: 该方法显著提升了法线积分的精度和适用性,为光度形状重建技术提供了更通用的解决方案。

[68] ScoreAdv: Score-based Targeted Generation of Natural Adversarial Examples via Diffusion Models

Chihan Huang,Hao Tang

Main category: cs.CV

TL;DR: Error

  • Motivation: Error
  • Method: Error
  • Result: Error
  • Conclusion: Error

[69] CAST-Phys: Contactless Affective States Through Physiological signals Database

Joaquim Comas,Alexander Joel Vera,Xavier Vives,Eleonora De Filippi,Alexandre Pereda,Federico Sukno

Main category: cs.CV

TL;DR: 论文提出了一个名为CAST-Phys的新型高质量数据集,用于多模态远程生理情绪识别,解决了现有数据集的不足和接触式设备对情绪体验的影响。

  • Motivation: 当前情感计算研究中,缺乏高质量的多模态数据集,且接触式设备可能干扰真实情绪反应,因此需要非接触式方法提取情感线索。
  • Method: 通过收集包括PPG、EDA、RR等生理信号和高分辨率面部视频,构建CAST-Phys数据集,并评估单模态和融合模态的效果。
  • Result: 生理信号在真实场景中对情绪识别至关重要,多模态融合显著提升了远程情绪识别的准确性。
  • Conclusion: CAST-Phys数据集为远程多模态情绪识别提供了重要资源,推动了非接触式情感识别技术的发展。

[70] Tile-Based ViT Inference with Visual-Cluster Priors for Zero-Shot Multi-Species Plant Identification

Murilo Gustineli,Anthony Miyaguchi,Adrian Cheung,Divyansh Khattak

Main category: cs.CV

TL;DR: DS@GT团队在PlantCLEF 2025挑战赛中提出的多物种植物识别解决方案,结合ViT模型、分块策略和领域先验优化,获得第二名。

  • Motivation: 解决植被样方图像中多物种植物识别的挑战,提升识别准确率。
  • Method: 使用ViTD2PC24All模型进行分块推断,结合4x4分块策略和PaCMAP + K-Means聚类及地理过滤优化。
  • Result: 在私有排行榜上获得宏平均F1分数0.348,无需额外训练。
  • Conclusion: 该方法通过分块和领域先验优化,有效提升了植物识别性能,代码已开源。

[71] Reflections Unlock: Geometry-Aware Reflection Disentanglement in 3D Gaussian Splatting for Photorealistic Scenes Rendering

Jiayi Song,Zihan Ye,Qingyuan Zhou,Weidong Yang,Ben Fei,Jingyi Xu,Ying He,Wanli Ouyang

Main category: cs.CV

TL;DR: Ref-Unlock是一种基于3D高斯泼溅的几何感知反射建模框架,通过显式分离透射和反射分量,提升复杂反射场景的渲染质量。

  • Motivation: 现有方法(如NeRF和3DGS)在处理反射表面时,常将反射误认为物理几何,导致重建质量下降。
  • Method: 采用双分支表示和高阶球谐函数捕捉高频反射细节,结合反射去除模块和几何感知的双边平滑约束。
  • Result: Ref-Unlock显著优于传统GS方法,与NeRF模型竞争,并支持灵活的反射编辑。
  • Conclusion: 该方法为反射场景的真实渲染提供了高效且通用的解决方案。

[72] Omni-Video: Democratizing Unified Video Understanding and Generation

Zhiyu Tan,Hao Yang,Luozheng Qin,Jia Gong,Mengping Yang,Hao Li

Main category: cs.CV

TL;DR: Omni-Video是一个统一的视频理解、生成和编辑框架,通过多模态大语言模型(MLLMs)生成视觉线索,并结合扩散解码器实现高质量视频生成。

  • Motivation: 当前基础模型主要关注图像处理,缺乏统一的视频理解与生成模型,因此开发了Omni-Video以填补这一空白。
  • Method: 1)轻量级架构设计,在MLLMs顶部添加视觉头,并在扩散解码器输入前加入适配器;2)高效的多阶段训练方案,快速连接MLLMs和扩散解码器。
  • Result: 模型在视频生成、编辑和理解任务中表现出良好的泛化能力。
  • Conclusion: Omni-Video为视频建模提供了一个高效且统一的解决方案。

[73] Prompt-Free Conditional Diffusion for Multi-object Image Augmentation

Haoyu Wang,Lei Zhang,Wei Wei,Chen Ding,Yanning Zhang

Main category: cs.CV

TL;DR: 提出了一种无需提示的条件扩散框架,用于多目标图像增强,通过局部-全局语义融合策略和LoRA注入知识,解决了现有方法在多样性和类别偏差上的问题。

  • Motivation: 现有方法在生成多目标图像时,要么依赖文本条件导致类别偏差,要么依赖原始图像导致多样性不足,限制了数据增强的效果。
  • Method: 采用局部-全局语义融合策略提取图像语义替代文本,通过LoRA注入知识,并设计基于奖励模型的计数损失辅助训练。
  • Result: 实验表明,该方法在多样性和类别一致性上优于现有基线,并展示了强大的下游任务增益和域外泛化能力。
  • Conclusion: 提出的方法有效解决了多目标图像增强中的多样性和类别偏差问题,具有实际应用潜力。

[74] SoftReMish: A Novel Activation Function for Enhanced Convolutional Neural Networks for Visual Recognition Performance

Mustafa Bayram Gücen

Main category: cs.CV

TL;DR: 提出了一种新的激活函数SoftReMish,用于提升CNN在图像分类任务中的性能,实验表明其优于ReLU、Tanh和Mish。

  • Motivation: 改进CNN在图像分类任务中的性能,探索更优的激活函数。
  • Method: 在标准CNN架构中使用SoftReMish替换其他激活函数,并在MNIST数据集上评估性能。
  • Result: SoftReMish实现了最低训练损失(3.14e-8)和最高验证准确率(99.41%)。
  • Conclusion: SoftReMish具有更好的收敛性和泛化能力,适用于视觉识别任务。

[75] Normalizing Diffusion Kernels with Optimal Transport

Nathan Kessler,Robin Magnet,Jean Feydy

Main category: cs.CV

TL;DR: 论文提出了一种基于相似性或邻接矩阵的平滑算子,通过对称Sinkhorn算法归一化,实现了对不规则数据的Laplacian-like平滑处理。

  • Motivation: 传统Laplacian平滑需要严格的结构化域,而简单卷积核和消息传递层对边界有偏置。本文旨在填补这一空白。
  • Method: 引入一类基于相似性或邻接矩阵的平滑算子,通过对称Sinkhorn算法归一化为扩散类算子。
  • Result: 生成的算子不仅近似热扩散,还保留了Laplacian的谱信息,适用于点云等不规则数据。
  • Conclusion: 该方法为不规则数据提供了Laplacian-like平滑,扩展了形状分析和匹配的应用。

[76] OmniPart: Part-Aware 3D Generation with Semantic Decoupling and Structural Cohesion

Yunhan Yang,Yufan Zhou,Yuan-Chen Guo,Zi-Xin Zou,Yukun Huang,Ying-Tian Liu,Hao Xu,Ding Liang,Yan-Pei Cao,Xihui Liu

Main category: cs.CV

TL;DR: OmniPart是一个用于生成具有可编辑部分结构的3D对象的新框架,通过两阶段方法实现高语义解耦和结构一致性。

  • Motivation: 当前大多数生成方法只能生成整体形状,限制了交互应用的实用性,因此需要一种能够生成具有明确部分结构的3D资产的方法。
  • Method: OmniPart分为两阶段:1)自回归结构规划模块生成可控的3D部分边界框;2)空间条件修正流模型同时合成所有3D部分。
  • Result: OmniPart在实验中表现出色,支持用户定义的部分粒度、精确定位和多样化下游应用。
  • Conclusion: OmniPart为更可解释、可编辑和通用的3D内容铺平了道路。

[77] Enhancing Scientific Visual Question Answering through Multimodal Reasoning and Ensemble Modeling

Prahitha Movva,Naga Harshita Marupaka

Main category: cs.CV

TL;DR: 论文提出了一种用于科学视觉问答(SciVQA)的方法,通过优化提示、链式推理和集成模型,提升了模型在科学图表问答中的表现。

  • Motivation: 科学报告中的半结构化数据(如图表)对下游任务(如问答)至关重要,但现有视觉问答方法在数值处理、多步推理和视觉与文本一致性方面存在不足。
  • Method: 使用5B至8B参数的模型进行实验,包括InternVL3和集成多个视觉语言模型(VLMs)。
  • Result: InternVL3在SciVQA测试集上ROUGE-1和ROUGE-L F1得分为0.740,BERTScore为0.983;集成模型进一步提升了性能。
  • Conclusion: 优化提示、链式推理和集成建模能有效提升科学视觉问答的能力。

[78] CultureCLIP: Empowering CLIP with Cultural Awareness through Synthetic Images and Contextualized Captions

Yuchen Huang,Zhiyuan Fan,Zhitao He,Sandeep Polisetty,Wenyan Li,Yi R. Fung

Main category: cs.CV

TL;DR: 论文提出了一种名为CultureCLIP的方法,通过合成文化数据集CulTwin和改进的对比学习,提升了CLIP模型在细粒度文化概念识别上的性能。

  • Motivation: 预训练的视觉语言模型(如CLIP)在多模态理解中表现优异,但在区分视觉相似但文化背景不同的概念时存在困难,主要原因是缺乏高质量的文化特定数据集和上下文知识。
  • Method: 设计了数据合成流程CulTwin,生成概念-标题-图像三元组,并通过定制化对比学习微调CLIP,形成CultureCLIP。
  • Result: 实验表明,CultureCLIP在文化相关任务中表现优于基础CLIP,某些任务中细粒度概念识别提高了5.49%,同时保持了模型的泛化能力。
  • Conclusion: CultureCLIP通过数据合成和模型训练范式,有效捕捉了文化间的细微差异,验证了方法的有效性。

[79] Feed-Forward SceneDINO for Unsupervised Semantic Scene Completion

Aleksandar Jevtić,Christoph Reich,Felix Wimbauer,Oliver Hahn,Christian Rupprecht,Stefan Roth,Daniel Cremers

Main category: cs.CV

TL;DR: SceneDINO提出了一种无监督的语义场景补全方法,通过自监督学习和多视角一致性实现3D几何和语义推断,无需标注数据。

  • Motivation: 解决传统语义场景补全依赖昂贵标注数据的问题,探索无监督学习方法。
  • Method: 结合自监督表示学习和2D无监督场景理解技术,利用多视角一致性自监督训练,提出3D特征蒸馏方法。
  • Result: 在3D和2D无监督场景理解中达到最先进的分割精度,线性探测3D特征与监督方法相当。
  • Conclusion: SceneDINO为单图像3D场景理解提供了强大的无监督基础,展示了领域泛化和多视角一致性。

[80] RSRefSeg 2: Decoupling Referring Remote Sensing Image Segmentation with Foundation Models

Keyan Chen,Chenyang Liu,Bowen Chen,Jiafan Zhang,Zhengxia Zou,Zhenwei Shi

Main category: cs.CV

TL;DR: RSRefSeg 2提出了一种解耦的双阶段框架,通过粗定位和精细分割改进遥感图像分割的精度和语义理解。

  • Motivation: 现有方法在处理复杂语义关系和跨模态对齐时存在局限性,主要由于目标定位与边界划分的耦合处理机制。
  • Method: 采用CLIP和SAM的基础模型协作,通过双阶段框架(粗定位和精细分割)和级联二阶提示器优化语义提示。
  • Result: 在多个数据集上表现优于现有方法,分割精度提升约3% gIoU。
  • Conclusion: RSRefSeg 2通过解耦设计和基础模型协作,显著提升了遥感图像分割的性能和可解释性。

[81] Learning to Track Any Points from Human Motion

Inès Hyeonsu Kim,Seokju Cho,Jahyeok Koo,Junghyun Park,Jiahui Huang,Joon-Young Lee,Seungryong Kim

Main category: cs.CV

TL;DR: AnthroTAP提出了一种自动化生成伪标签训练数据的流程,利用SMPL模型解决人工标注困难的问题,显著提升了点跟踪模型的性能。

  • Motivation: 人类运动数据复杂且标注困难,需要一种自动化方法生成训练数据以提升点跟踪模型的鲁棒性。
  • Method: 通过SMPL模型拟合视频中的人体,生成3D网格顶点并投影到2D图像平面,结合光线投射处理遮挡,基于光流一致性过滤不可靠轨迹。
  • Result: 在TAP-Vid基准测试中达到最优性能,仅需少量数据和计算资源。
  • Conclusion: AnthroTAP为点跟踪任务提供了一种高效的数据生成方法,显著降低了训练成本。

cs.SE

[82] TigAug: Data Augmentation for Testing Traffic Light Detection in Autonomous Driving Systems

You Lu,Dingji Wang,Kaifeng Huang,Bihuan Chen,Xin Peng

Main category: cs.SE

TL;DR: 论文提出TigAug方法,用于自动增强交通灯图像以测试自动驾驶系统中的交通灯检测模型,解决了手动数据收集的不足。

  • Motivation: 自动驾驶系统需要可靠的交通灯检测模型,但手动收集和标注数据效率低且难以覆盖多样环境。
  • Method: 构建基于天气、相机和交通灯特性的变形关系和变换方法,通过增强图像测试和改进模型。
  • Result: 实验证明TigAug能有效测试模型、高效合成图像,且生成图像自然度可接受。
  • Conclusion: TigAug为交通灯检测模型的自动化测试提供了高效解决方案。

q-bio.NC

[83] Cross-Subject DD: A Cross-Subject Brain-Computer Interface Algorithm

Xiaoyuan Li,Xinru Xue,Bohan Zhang,Ye Sun,Shoushuo Xi,Gang Liu

Main category: q-bio.NC

TL;DR: 本文提出了一种跨被试脑机接口算法CSDD,通过提取被试间的共同特征构建通用模型,性能提升3.28%。

  • Motivation: 解决现有脑机接口模型因个体间脑活动差异导致的适应性差和泛化能力不足问题。
  • Method: 1) 为每个被试训练个性化模型;2) 将模型转化为关系谱;3) 通过统计分析识别共同特征;4) 基于共同特征构建跨被试通用模型。
  • Result: 在BCIC IV 2a数据集上验证,性能提升3.28%。
  • Conclusion: 首次提出提取纯共同特征并构建跨被试通用模型的方法,推动脑机接口技术的广泛应用。

eess.IV

[84] Dual-Attention U-Net++ with Class-Specific Ensembles and Bayesian Hyperparameter Optimization for Precise Wound and Scale Marker Segmentation

Daniel Cieślak,Miriam Reca,Olena Onyshchenko,Jacek Rumiński

Main category: eess.IV

TL;DR: 提出了一种双注意力U-Net++架构,用于临床图像中伤口和比例标记的精确分割,通过集成通道和空间注意力机制解决类别不平衡问题,最终在基准数据集上取得了0.8640的F1分数。

  • Motivation: 临床图像中伤口和比例标记的精确分割对伤口管理和自动化评估至关重要,但现有方法面临类别不平衡和图像变异性问题。
  • Method: 采用双注意力U-Net++架构,结合SCSE和空间注意力机制,通过5折交叉验证选择EfficientNet-B7作为编码器,使用数据增强和贝叶斯超参数调优训练两个类特定模型,并通过测试时间增强集成。
  • Result: 在NBC 2025 & PCBBE 2025竞赛的基准数据集上,加权F1分数达到0.8640。
  • Conclusion: 提出的方法在复杂医学分割任务中表现出色,验证了双注意力机制的有效性。

[85] PWD: Prior-Guided and Wavelet-Enhanced Diffusion Model for Limited-Angle CT

Yi Liu,Yiyang Wen,Zekun Zhou,Junqi Ma,Linghang Wang,Yucheng Yao,Liu Shi,Qiegen Liu

Main category: eess.IV

TL;DR: 提出了一种基于先验信息嵌入和小波特征融合的快速采样扩散模型(PWD),用于有限角度CT重建,显著减少采样步骤并保持重建质量。

  • Motivation: 标准扩散模型在有限角度CT重建中需要大量采样步骤,计算开销大;现有跳过采样策略虽提高效率但丢失细节。
  • Method: PWD在训练阶段学习LACT与目标图像的分布映射,推理阶段利用LACT图像作为先验指导采样,结合小波域多尺度特征融合增强细节重建。
  • Result: 在临床数据集上,PWD仅需50步采样,PSNR提升至少1.7 dB,SSIM提升10%,优于现有方法。
  • Conclusion: PWD在有限角度CT重建中高效且高质量,解决了跳过采样导致的细节丢失问题。

[86] Self-supervised Deep Learning for Denoising in Ultrasound Microvascular Imaging

Lijie Huang,Jingyi Yin,Jingke Zhang,U-Wai Lok,Ryan M. DeRuiter,Jieyang Jin,Kate M. Knoll,Kendra E. Petersen,James D. Krier,Xiang-yang Zhu,Gina K. Hesley,Kathryn A. Robinson,Andrew J. Bentall,Thomas D. Atwell,Andrew D. Rule,Lilach O. Lerman,Shigao Chen,Chengwu Huang

Main category: eess.IV

TL;DR: HA2HA是一种自监督去噪框架,专为超声微血管成像(UMI)设计,通过互补角度子集构建训练对,显著提升图像质量。

  • Motivation: UMI在无对比剂或深部组织场景中常因低信噪比(SNR)受限,影响血管定量和疾病诊断。
  • Method: HA2HA利用互补角度的射频血流数据构建训练对,血管信号一致而噪声变化,实现自监督去噪。
  • Result: 在猪肾脏和人类肝脏数据中,CNR和SNR提升超过15 dB,微血管血流可视化效果改善。
  • Conclusion: HA2HA为无对比剂和增强UMI提供了一种无需标记、通用且临床适用的解决方案。

[87] Learning Segmentation from Radiology Reports

Pedro R. A. S. Bassi,Wenxuan Li,Jieneng Chen,Zheren Zhu,Tianyu Lin,Sergio Decherchi,Andrea Cavalli,Kang Wang,Yang Yang,Alan L. Yuille,Zongwei Zhou

Main category: eess.IV

TL;DR: 提出了一种利用放射学报告增强肿瘤分割AI性能的方法(R-Super),通过将报告转化为体素级监督信号,显著提升了分割效果。

  • Motivation: 肿瘤分割在CT扫描中至关重要,但分割掩码稀缺且制作耗时。放射学报告数量庞大,可用于弥补掩码不足。
  • Method: 提出R-Super损失函数,将放射学报告转化为体素级监督信号,结合公开和自建数据集进行训练。
  • Result: 在内部和外部验证中,F1分数最高提升16%,尤其在掩码稀缺时效果显著。
  • Conclusion: R-Super通过利用放射学报告,显著提升了肿瘤分割AI的性能,适用于掩码稀缺或充足的情况。

[88] Diffusion-Based Limited-Angle CT Reconstruction under Noisy Conditions

Jiaqi Guo,Santiago López-Tapia

Main category: eess.IV

TL;DR: 论文提出了一种基于扩散模型的框架,用于解决有限角度计算机断层扫描(LACT)中的噪声问题,通过MR-SDE和RNSD+机制提升重建的鲁棒性和质量。

  • Motivation: LACT因缺失角度投影导致重建图像存在严重伪影,现有方法多假设理想无噪声测量,未解决实际噪声影响。
  • Method: 将LACT视为正弦图修复任务,采用扩散模型和MR-SDE框架,并提出RNSD+噪声感知校正机制。
  • Result: 实验表明,该方法在数据一致性和感知质量上优于基线模型,且对噪声强度和采集场景具有良好泛化性。
  • Conclusion: 提出的扩散框架和噪声感知机制有效提升了LACT重建的鲁棒性和质量。

[89] ADPv2: A Hierarchical Histological Tissue Type-Annotated Dataset for Potential Biomarker Discovery of Colorectal Disease

Zhiyuan Yang,Kai Li,Sophia Ghamoshi Ramandi,Patricia Brassard,Hakim Khellaf,Vincent Quoc-Huy Trinh,Jennifer Zhang,Lina Chen,Corwyn Rowsell,Sonal Varma,Kostas Plataniotis,Mahdi S. Hosseini

Main category: eess.IV

TL;DR: ADPv2是一个专注于胃肠道组织病理学的新数据集,包含20,004个图像块,标注了32种组织类型。基于此数据集训练的多标签分类模型表现优异,并揭示了结肠癌发展的两种病理途径。

  • Motivation: 解决计算病理学中公开数据集稀缺的问题,特别是针对特定器官疾病的深入研究。
  • Method: 构建ADPv2数据集,标注32种组织类型,并采用两阶段训练的多标签表示学习模型(VMamba架构)。
  • Result: 模型在结肠组织分类中达到0.88的平均精度(mAP),并揭示了结肠癌发展的两种病理途径。
  • Conclusion: ADPv2数据集为胃肠道病理学研究提供了有力工具,支持潜在的生物标志物发现。

[90] Tissue Concepts v2: a Supervised Foundation Model for whole slide images

Till Nicke,Daniela Scharcherer,Jan Raphael Schäfer,Natalia Artysh,Antje Prasse,André Homeyer,Andrea Schenk,Henning Höfener,Johannes Lotz

Main category: eess.IV

TL;DR: TCv2是一种监督式基础模型,用于全切片图像分析,资源消耗低且性能优于自监督模型。

  • Motivation: 解决传统基础模型训练资源消耗高的问题,并提供更高效的病理图像分析方法。
  • Method: 采用监督式端到端多任务学习,利用切片级标签进行训练。
  • Result: 在癌症亚型分类任务中表现优于自监督模型,且训练数据完全公开。
  • Conclusion: TCv2为计算病理学提供了一种高效、可解释的基础模型解决方案。

[91] A novel framework for fully-automated co-registration of intravascular ultrasound and optical coherence tomography imaging data

Xingwei He,Kit Mills Bransby,Ahmet Emir Ulutas,Thamil Kumaran,Nathan Angelo Lecaros Yap,Gonul Zeren,Hesong Zeng,Yaojun Zhang,Andreas Baumbach,James Moon,Anthony Mathur,Jouke Dijkstra,Qianni Zhang,Lorenz Raber,Christos V Bourantas

Main category: eess.IV

TL;DR: 开发了一种基于深度学习的框架,用于自动化纵向和圆周配准IVUS和OCT图像,性能接近专家分析,速度快。

  • Motivation: 解决IVUS和OCT图像配准的自动化需求,提高大规模多模态成像数据分析的效率。
  • Method: 使用61,655 NIRS-IVUS和62,334 OCT帧数据训练深度学习模型,结合动态时间规整和动态编程算法实现配准。
  • Result: 测试集显示纵向配准一致性>0.99,圆周配准>0.90,处理时间<90秒。
  • Conclusion: 该框架快速、准确,适用于大规模多模态成像研究。

[92] Enhancing Synthetic CT from CBCT via Multimodal Fusion and End-To-End Registration

Maximilian Tschuchnig,Lukas Lamminger,Philipp Steininger,Michael Gadermayr

Main category: eess.IV

TL;DR: 通过多模态学习结合CBCT和CT数据,提出一种端到端可学习的配准模块,提升合成CT生成质量。

  • Motivation: CBCT图像存在伪影和视觉质量低的问题,合成CT生成是一种解决方案,但多模态数据间的配准问题尚未解决。
  • Method: 在多模态合成CT生成流程中引入端到端可学习的配准模块,并在合成和真实临床数据集上验证。
  • Result: 在90个评估场景中,79个优于基线方法,尤其在CBCT质量低且CT配准中度偏差时效果显著。
  • Conclusion: 集成配准模块的多模态方法显著提升了合成CT生成质量,尤其在复杂场景下表现优异。

[93] LangMamba: A Language-driven Mamba Framework for Low-dose CT Denoising with Vision-language Models

Zhihao Chen,Tao Chen,Chenhui Wang,Qi Gao,Huidong Xie,Chuang Niu,Ge Wang,Hongming Shan

Main category: eess.IV

TL;DR: LangMamba是一种基于语言驱动的Mamba框架,用于低剂量CT(LDCT)去噪,通过结合视觉语言模型(VLM)的语义信息,显著提升了图像质量和细节保留。

  • Motivation: 低剂量CT(LDCT)虽然减少了辐射暴露,但图像质量下降可能影响诊断准确性。现有深度学习方法主要关注像素级映射,忽略了高级语义信息的潜在优势。
  • Method: LangMamba采用两阶段学习策略:1)预训练语言引导的自动编码器(LangAE),利用VLM将正常剂量CT(NDCT)映射到语义空间;2)结合SEED模块和LangDA损失,增强语义和全局特征对齐。
  • Result: 在公开数据集上的实验表明,LangMamba优于现有方法,显著提升了细节保留和视觉保真度,且LangAE具有强泛化能力。
  • Conclusion: 语言作为监督信号在LDCT去噪中具有潜力,LangMamba为图像重建提供了新的思路和可解释性。

cs.GR

[94] Self-Attention Based Multi-Scale Graph Auto-Encoder Network of 3D Meshes

Saqib Nazir,Olivier Lézoray,Sébastien Bougleux

Main category: cs.GR

TL;DR: 3DGeoMeshNet是一种基于GCN的新框架,通过各向异性卷积层直接在空间域中学习全局和局部特征,避免了传统方法对中间表示的依赖,提高了3D网格重建的准确性。

  • Motivation: 由于3D网格的非欧几里得特性,传统CNN难以直接处理。现有GCN方法多依赖各向同性滤波器或谱分解,限制了其对全局和局部特征的捕捉能力。
  • Method: 提出3DGeoMeshNet,采用各向异性卷积层和多尺度编码器-解码器结构,直接在原始多边形网格格式上进行处理。
  • Result: 在COMA人脸数据集上的实验表明,3DGeoMeshNet在重建精度上表现优异。
  • Conclusion: 3DGeoMeshNet通过直接在空间域中学习特征,显著提高了3D网格重建的准确性,为复杂几何形状的处理提供了新思路。

[95] LighthouseGS: Indoor Structure-aware 3D Gaussian Splatting for Panorama-Style Mobile Captures

Seungoh Han,Jaehoon Jang,Hyunsu Kim,Jaeheung Surh,Junhyung Kwak,Hyowon Ha,Kyungdon Joo

Main category: cs.GR

TL;DR: LighthouseGS提出了一种基于3D高斯泼溅的实时新视角合成框架,适用于手持设备拍摄的室内场景,解决了窄基线和纹理缺失的挑战。

  • Motivation: 当前3DGS需要高质量图像覆盖整个场景,限制了普通用户的可用性。本文旨在通过简单的全景式运动实现高保真渲染。
  • Method: 利用粗略几何先验(如相机位姿和单目深度估计)和室内平面结构,提出平面支架组装初始化方法和稳定剪枝策略,并进行几何和光度校正。
  • Result: 在真实和合成室内场景测试中,LighthouseGS实现了超越现有方法的逼真渲染效果。
  • Conclusion: LighthouseGS展示了全景视图合成和物体放置的潜力,为手持设备提供了实用的3DGS解决方案。

cs.CL

[96] NeoBabel: A Multilingual Open Tower for Visual Generation

Mohammad Mahdi Derakhshani,Dheeraj Varghese,Marzieh Fadaee,Cees G. M. Snoek

Main category: cs.CL

TL;DR: NeoBabel是一种多语言图像生成框架,支持六种语言,性能高效且包容性强,超越了现有模型。

  • Motivation: 解决现有文本到图像生成系统以英语为中心的问题,减少翻译带来的语义漂移和文化偏差。
  • Method: 结合大规模多语言预训练和高分辨率指令调优,训练NeoBabel模型。
  • Result: 在m-GenEval和m-DPG基准测试中表现优异,多语言性能领先,同时保持强大的英语能力。
  • Conclusion: 多语言能力不是妥协,而是提升生成AI鲁棒性、效率和文化保真度的催化剂。

[97] Skywork-R1V3 Technical Report

Wei Shen,Jiangbo Pei,Yi Peng,Xuchen Song,Yang Liu,Jian Peng,Haofeng Sun,Yunzhuo Hao,Peiyu Wang,Yahui Zhou

Main category: cs.CL

TL;DR: Skywork-R1V3是一种先进的视觉语言模型,通过强化学习后训练框架提升推理能力,无需额外预训练,在MMMU任务上表现优异。

  • Motivation: 探索如何将纯文本大语言模型的推理能力迁移到视觉任务中,以提升多模态推理模型的性能。
  • Method: 采用强化学习后训练框架,激活和增强模型的推理能力,并引入关键推理标记的熵作为能力指标。
  • Result: Skywork-R1V3在MMMU任务上从64.3%提升到76.0%,达到人类入门水平,且38B参数模型可媲美闭源VLM。
  • Conclusion: Skywork-R1V3展示了强化学习在提升开源视觉语言模型能力方面的潜力,为多模态推理开辟了新方向。

cs.AI

[98] Fine-Grained Vision-Language Modeling for Multimodal Training Assistants in Augmented Reality

Haochen Huang,Jiahuan Pei,Mohammad Aliannejadi,Xin Sun,Moonisa Ahsan,Pablo Cesar,Chuang Yu,Zhaochun Ren,Junxiao Wang

Main category: cs.AI

TL;DR: 该论文提出了一个针对AR训练的视觉-语言数据集,并评估了九种先进VLM模型,发现它们在细粒度任务上表现不佳,呼吁改进数据集和基准。

  • Motivation: 探索视觉-语言模型(VLMs)在AR训练中的应用,填补研究空白,并为盲人和视障用户提供平等的AI学习机会。
  • Method: 构建了一个系统化的视觉-语言任务数据集,并评估了九种先进VLM模型(包括GPT-4o)的性能。
  • Result: 即使是先进模型在细粒度任务(如状态检测)上表现不佳,最高F1分数仅为40.54%。
  • Conclusion: 研究揭示了改进视觉-语言对齐的需求,并提供了数据集和资源以支持未来研究,同时具有社会意义。

cs.LG

[99] Conditional Graph Neural Network for Predicting Soft Tissue Deformation and Forces

Madina Kojanazarova,Florentin Bieder,Robin Sandkühler,Philippe C. Cattin

Main category: cs.LG

TL;DR: 提出了一种基于条件图神经网络(cGNN)的数据驱动模型,用于预测软组织的变形和交互力,解决了现有方法依赖分割、网格化和刚度估计的挑战。

  • Motivation: 虚拟环境中的软组织模拟在医学应用中日益重要,但其高变形性带来显著挑战。现有方法依赖复杂的前处理步骤,且需要精确的力反馈。
  • Method: 使用条件图神经网络(cGNN),输入表面点和施加力的位置,预测变形和力。通过迁移学习(先训练质量-弹簧模拟,再微调实验数据)解决数据稀缺问题。
  • Result: 模型预测变形误差为0.35±0.03 mm(变形≤30 mm),力误差为0.37±0.05 N(力≤7.5 N),表现优异。
  • Conclusion: 该数据驱动方法为虚拟环境中的软组织模拟提供了有效解决方案,并有望应用于其他需要真实软组织模拟的领域。

[100] Concept-Based Mechanistic Interpretability Using Structured Knowledge Graphs

Sofiia Chorna,Kateryna Tarelkina,Eloïse Berthier,Gianni Franchi

Main category: cs.LG

TL;DR: 提出了一种名为BAGEL的全局解释框架,通过分析语义概念在模型内部的传播,揭示模型决策的潜在机制。

  • Motivation: 传统基于概念的解释方法局限于局部解释,无法全面理解模型行为。本文旨在扩展这些方法,实现全局的机制解释。
  • Method: 提出了一种模型无关的框架,通过分析高层语义概念在模型各层的表现和传播,揭示潜在的信息流和电路。
  • Result: 开发了交互式可视化工具BAGEL,以知识图谱形式展示概念间关系,帮助识别虚假相关性并增强模型可信度。
  • Conclusion: 该框架为深度学习模型的泛化行为提供了更深入的理解,尤其在数据集偏差存在时,有助于提升模型的可解释性和可信度。

[101] Fair Domain Generalization: An Information-Theoretic View

Tangzheng Lian,Guanyu Hu,Dimitrios Kollias,Xinyu Yang,Oya Celiktutan

Main category: cs.LG

TL;DR: 论文提出FairDG问题,结合领域泛化与算法公平性,通过信息论上界设计PAFDG框架,实现未见目标域中的风险与公平性平衡。

  • Motivation: 领域泛化(DG)和算法公平性在机器学习中至关重要,但现有方法未同时解决两者。FairDG旨在填补这一空白。
  • Method: 提出基于互信息的上界理论,设计PAFDG框架,通过帕累托优化平衡效用与公平性。
  • Result: 在真实视觉和语言数据集上,PAFDG在效用-公平性权衡上优于现有方法。
  • Conclusion: PAFDG为领域泛化与公平性结合提供了有效解决方案,并通过实验验证其优越性。

cs.HC

[102] NRXR-ID: Two-Factor Authentication (2FA) in VR Using Near-Range Extended Reality and Smartphones

Aiur Nanzatov,Lourdes Peña-Castillo,Oscar Meruvia-Pastor

Main category: cs.HC

TL;DR: NRXR-ID是一种在虚拟现实(VR)中实现双因素认证(2FA)的技术,通过智能手机完成认证挑战,无需摘下头显。用户研究表明,棋盘式视觉匹配挑战是最优选择。

  • Motivation: VR环境中用户佩戴头显难以进行传统2FA,需要一种无需摘下头显的认证方法。
  • Method: 提出NRXR-ID技术,利用智能手机完成四种认证挑战(包括棋盘式挑战),在三种配置下测试,采用4X3被试内设计。
  • Result: 棋盘式视觉匹配挑战表现最佳,其次是智能手机输入PIN码。
  • Conclusion: NRXR-ID在VR环境中有效实现了2FA,棋盘式挑战是最优方案。

cs.RO

[103] DreamGrasp: Zero-Shot 3D Multi-Object Reconstruction from Partial-View Images for Robotic Manipulation

Young Hun Kim,Seungyeon Kim,Yonghyeon Lee,Frank Chongwoo Park

Main category: cs.RO

TL;DR: DreamGrasp利用预训练图像生成模型的想象力推断场景未观察部分,结合3D重建和对比学习,实现复杂环境下的鲁棒3D重建。

  • Motivation: 解决稀疏RGB图像下3D几何重建和物体识别在遮挡、杂乱场景中的挑战,现有方法难以泛化。
  • Method: 结合粗粒度3D重建、对比学习的实例分割和文本引导的实例级细化。
  • Result: DreamGrasp能准确恢复物体几何,支持下游任务如顺序清理和目标检索。
  • Conclusion: DreamGrasp在复杂多物体环境中表现优异,克服了现有方法的局限性。

[104] 3DGS_LSR:Large_Scale Relocation for Autonomous Driving Based on 3D Gaussian Splatting

Haitao Lu,Haijier Chen,Haoze Liu,Shoujian Zhang,Bo Xu,Ziao Liu

Main category: cs.RO

TL;DR: 提出了一种基于3D高斯泼溅的大规模重定位框架3DGS-LSR,仅需单目RGB图像即可实现厘米级定位,适用于复杂城市环境。

  • Motivation: 解决复杂城市环境中GNSS定位不可靠及传统地图方法存储和计算效率低的问题。
  • Method: 结合多传感器数据构建高精度3DGS地图,利用SuperPoint和SuperGlue进行特征提取与匹配,采用迭代优化策略逐步优化定位结果。
  • Result: 在KITTI数据集上,平均定位精度在城镇道路、林荫道和交通密集高速公路上分别为0.026m、0.029m和0.081m,显著优于其他方法。
  • Conclusion: 3DGS-LSR为自主机器人在GNSS失效的复杂城市环境中提供了可靠的定位能力。

cs.DC

[105] ECORE: Energy-Conscious Optimized Routing for Deep Learning Models at the Edge

Daghash K. Alqahtani,Maria A. Rodriguez,Muhammad Aamir Cheema,Hamid Rezatofighi,Adel N. Toosi

Main category: cs.DC

TL;DR: ECORE框架通过动态路由策略优化边缘设备上的能耗与检测精度,显著降低能耗和延迟。

  • Motivation: 边缘计算中实时视觉分析任务对资源受限设备的高需求,需平衡能耗与检测精度。
  • Method: 提出ECORE框架,整合动态路由策略(估计技术和贪婪算法),根据对象特征动态分配任务。
  • Result: 实验显示,ECORE比基准方法降低45%能耗和49%延迟,仅损失2%检测精度。
  • Conclusion: ECORE有效平衡了边缘设备上的能耗与性能,适用于实时视觉分析场景。