Skip to content
每日arXiv - 2025年12月26日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] VL4Gaze: Unleashing Vision-Language Models for Gaze Following

Shijing Wang,Chaoqun Cui,Yaping Huang,Hyung Jin Chang,Yihua Cheng

Main category: cs.CV

TL;DR: VL4Gaze:首个大规模视觉语言模型注视理解基准,包含48.9万问答对,通过四个互补任务评估和训练VLM的注视理解能力,发现现有VLM在注视理解上表现不佳,需要针对性监督训练。

  • Motivation: 人类注视提供了理解视觉场景中注意力、意图和社交互动的重要线索,但当前视觉语言模型(VLM)在注视理解方面尚未得到充分探索。虽然最近的VLM在各种视觉任务上表现出强大的场景级推理能力,但缺乏系统评估或训练注视理解的基准,不清楚注视理解能力是否能从通用视觉语言预训练中自然涌现。
  • Method: 提出VL4Gaze基准,包含48.9万个自动生成的问答对,覆盖12.4万张图像,将注视理解统一为视觉问答问题,通过四个互补任务:注视对象描述、注视方向描述、注视点定位、模糊问题识别。在上下文学习和微调设置下全面评估商业和开源VLM。
  • Result: 结果显示,即使是大规模VLM也难以在没有任务特定监督的情况下可靠推断注视语义和空间定位。相反,在VL4Gaze上进行训练能带来所有任务的显著且一致的改进,突显了针对性多任务监督对于开发VLM注视理解能力的重要性。
  • Conclusion: 注视理解不能从通用视觉语言预训练中自然涌现,需要专门的数据集和训练。VL4Gaze基准填补了这一空白,为未来研究和开发提供了重要基础,将发布数据集和代码支持该方向进一步发展。

[2] TrashDet: Iterative Neural Architecture Search for Efficient Waste Detection

Tony Tran,Bin Hu

Main category: cs.CV

TL;DR: 提出针对TACO数据集垃圾检测的TinyML框架,通过硬件感知神经架构搜索生成TrashDet系列检测器,在资源受限设备上实现高效能检测。

  • Motivation: 解决在严格TinyML约束下(边缘和物联网设备)进行垃圾检测的挑战,需要高效、低功耗的检测器以适应资源受限的硬件环境。
  • Method: 采用迭代硬件感知神经架构搜索框架,构建Once-for-All风格的ResDets超网络,通过交替优化主干网络和颈部/头部结构的迭代进化搜索,结合种群传递机制和精度预测器降低搜索成本。
  • Result: 生成的TrashDet系列检测器在TACO五类子集上,最强变体TrashDet-l达到19.5 mAP50(30.5M参数),比先前检测器提升3.6 mAP50。在MAX78002微控制器上,TrashDet-ResNet实现7525μJ能耗/26.7ms延迟,TrashDet-MBNet提升mAP50 10.2%,相比现有TinyML检测器能耗降低88%、延迟降低78%、平均功耗降低53%。
  • Conclusion: 提出的硬件感知神经架构搜索框架成功生成了可部署的TrashDet系列检测器,为不同TinyML部署预算提供了可扩展的解决方案,在资源受限硬件上实现了显著的性能提升和能耗降低。

[3] OccuFly: A 3D Vision Benchmark for Semantic Scene Completion from the Aerial Perspective

Markus Gross,Sai B. Matha,Aya Fahmy,Rui Song,Daniel Cremers,Henri Meess

Main category: cs.CV

TL;DR: 首个基于相机的真实世界空中语义场景补全基准OccuFly,包含不同高度、季节和场景的数据,提出无LiDAR的数据生成框架,并评估现有方法在空中的表现。

  • Motivation: 语义场景补全在移动机器人3D感知中很重要,但现有研究主要集中在自动驾驶等地面场景,空中场景(如自主飞行)尚未充分探索。LiDAR作为主要数据采集方式对无人机存在法规、重量、能耗限制,且从高空视角采集的点云稀疏,需要相机替代方案。
  • Method: 提出OccuFly基准:在50m、40m、30m高度,春、夏、秋、冬四季采集真实世界数据,覆盖城市、工业、农村场景,提供22个语义类别。提出基于相机的无LiDAR数据生成框架:利用传统3D重建技术,将标注的2D掩码提升到重建点云中,自动化标签转移,大幅减少手动3D标注工作量。
  • Result: 建立了首个真实世界相机空中SSC基准,数据格式遵循现有标准便于集成。在OccuFly上评估了现有最先进方法,突出了高空视角特有的挑战,为全面空中3D场景理解提供了视觉基准。
  • Conclusion: OccuFly填补了空中语义场景补全研究的空白,通过相机模态解决了无人机LiDAR使用的限制,提出的数据生成框架降低了标注成本,为空中3D感知研究提供了重要基础设施。

[4] NULLBUS: Multimodal Mixed-Supervision for Breast Ultrasound Segmentation via Nullable Global-Local Prompts

Raja Mallina,Bryar Shareef

Main category: cs.CV

TL;DR: NullBUS:一种多模态混合监督框架,通过可学习的空嵌入和存在掩码处理缺失的文本提示,在有无提示的情况下都能进行乳腺超声分割,在混合提示可用性下达到SOTA性能。

  • Motivation: 乳腺超声分割对计算机辅助诊断和治疗规划至关重要。虽然可提示方法在有文本或空间提示时能提升分割性能,但许多公共BUS数据集缺乏可靠的元数据或报告,限制了训练只能在小规模多模态子集上进行,降低了鲁棒性。
  • Method: 提出NullBUS多模态混合监督框架,学习有提示和无提示的图像。引入可空提示,通过可学习的空嵌入和存在掩码实现,当元数据缺失时回退到仅图像证据,当文本存在时使用文本信息。
  • Result: 在三个公共BUS数据集的统一池上评估,NullBUS达到平均IoU 0.8568和平均Dice 0.9103,在混合提示可用性下展示了最先进的性能。
  • Conclusion: NullBUS通过可空提示有效处理缺失的文本元数据,在混合监督设置下实现了鲁棒的乳腺超声分割,为缺乏可靠元数据的实际应用场景提供了实用解决方案。

[5] Learning to Sense for Driving: Joint Optics-Sensor-Model Co-Design for Semantic Segmentation

Reeshad Khan amd John Gauch

Main category: cs.CV

TL;DR: 提出任务驱动的协同设计框架,将光学、传感器建模和轻量级语义分割网络统一为端到端RAW-to-task流水线,优化分割性能而非人类可视图像。

  • Motivation: 传统自动驾驶流水线将相机设计与下游感知解耦,使用固定光学和手工ISP,优先考虑人类可视图像而非机器语义,导致信息丢失并迫使模型适应传感器伪影。
  • Method: 基于DeepLens构建端到端协同设计框架,集成真实手机级镜头模型、可学习颜色滤波阵列、泊松-高斯噪声过程和量化,直接针对分割目标进行优化。
  • Result: 在KITTI-360上相比固定流水线获得一致的mIoU提升,光学建模和CFA学习带来最大增益,特别是对薄或低光敏感类别;紧凑的~1M参数模型能以~28 FPS运行。
  • Conclusion: 光学、传感器和网络的全栈协同优化是构建高效、可靠、可部署自动驾驶感知系统的原则性路径。

[6] CHAMMI-75: pre-training multi-channel models with heterogeneous microscopy images

Vidit Agrawal,John Peters,Tyler N. Thompson,Mohammad Vali Sanian,Chau Pham,Nikita Moshkov,Arshad Kazi,Aditya Pillai,Jack Freeman,Byunguk Kang,Samouil L. Farhi,Ernest Fraenkel,Ron Stewart,Lassi Paavolainen,Bryan A. Plummer,Juan C. Caicedo

Main category: cs.CV

TL;DR: CHAMMI-75是一个包含75个不同生物学研究的多通道显微镜图像数据集,用于训练能够适应不同通道配置和处理各种显微镜图像类型的细胞形态模型。

  • Motivation: 当前细胞形态量化模型通常针对单一显微镜成像类型训练,导致模型无法跨研究重用,因为技术规格不匹配(如通道数不同)或目标实验条件超出分布范围。
  • Method: 从公开来源收集并整理了一个包含75个不同生物学研究的异质多通道显微镜图像数据集CHAMMI-75,用于研究通道自适应且能处理任何显微镜图像类型的细胞形态模型。
  • Result: 实验表明,使用CHAMMI-75训练可以提升多通道生物成像任务的性能,主要得益于其显微镜模态的高度多样性。
  • Conclusion: 这项工作为创建下一代用于生物学研究的细胞形态模型铺平了道路。

[7] Input-Adaptive Visual Preprocessing for Efficient Fast Vision-Language Model Inference

Putu Indah Githa Cahyani,Komang David Dananjaya Suartana,Novanto Yudistira

Main category: cs.CV

TL;DR: 提出自适应视觉预处理方法,动态调整输入分辨率和空间覆盖范围,减少视觉冗余,将FastVLM推理时间降低50%以上

  • Motivation: 现有VLM部署面临高推理延迟和计算成本问题,特别是处理高分辨率视觉输入时。虽然FastVLM等架构通过优化视觉编码器提高效率,但现有流水线仍依赖静态视觉预处理,导致对视觉简单输入产生冗余计算。
  • Method: 提出自适应视觉预处理方法,结合内容感知图像分析、自适应分辨率选择和内容感知裁剪,在视觉编码前减少视觉冗余。该方法与FastVLM集成,无需修改架构或重新训练。
  • Result: 在DocVQA数据集子集上评估,自适应预处理使每图像推理时间减少超过50%,降低平均完整生成时间,视觉标记数相比基线流水线持续减少超过55%。
  • Conclusion: 输入感知预处理是提高视觉语言模型部署效率的有效轻量级策略,可显著减少计算开销而不影响模型架构。

[8] ALIVE: An Avatar-Lecture Interactive Video Engine with Content-Aware Retrieval for Real-Time Interaction

Md Zabirul Islam,Md Motaleb Hossen Manik,Ge Wang

Main category: cs.CV

TL;DR: ALIVE是一个本地部署的交互式视频引擎,将传统讲座视频转化为实时互动学习体验,通过神经虚拟化身、内容感知检索和多模态交互实现隐私保护的实时答疑。

  • Motivation: 传统讲座视频缺乏实时澄清机制,学习者遇到困惑时需要外部搜索。现有交互系统通常缺乏讲座内容感知、依赖云服务或未能整合检索与虚拟化身解释,且隐私保护不足。
  • Method: ALIVE在本地硬件上运行,整合三个核心组件:1) 通过ASR转录、LLM精炼和神经说话头合成的虚拟化身讲座;2) 结合语义相似度和时间戳对齐的内容感知检索机制;3) 实时多模态交互,支持暂停、文本/语音提问,并以文本或虚拟化身形式获得解释。
  • Result: 在完整医学影像课程上演示,评估显示ALIVE提供准确、内容感知且吸引人的实时支持,检索准确率高,延迟特性良好,用户体验优秀。
  • Conclusion: ALIVE展示了多模态AI结合内容感知检索和本地部署如何显著提升录制讲座的教学价值,为下一代交互式学习环境提供了可扩展路径。

[9] Lightweight framework for underground pipeline recognition and spatial localization based on multi-view 2D GPR images

Haotian Lv,Chao Li,Jiangbo Dai,Yuhui Zhang,Zepeng Fan,Yiqiu Tan,Dawei Wang,Binglei Xie

Main category: cs.CV

TL;DR: 提出3D GPR地下管线智能检测框架,通过三视图联合分析、DCO-YOLO改进算法和3D-DIoU空间特征匹配,解决多视图特征弱相关、小目标识别精度低、复杂场景鲁棒性不足等问题。

  • Motivation: 针对3D GPR地下管线检测中存在的多视图特征相关性弱、小尺度目标识别精度低、复杂场景鲁棒性不足等问题,需要开发更有效的智能检测框架。
  • Method: 1) 基于B/C/D-Scan三视图联合分析策略,建立三维管线三视图特征评估方法;2) 提出DCO-YOLO框架,集成DySample、CGLU和OutlookAttention跨维度相关机制;3) 提出3D-DIoU空间特征匹配算法,集成三维几何约束和中心距离惩罚项。
  • Result: 在复杂多管线场景中,准确率、召回率和平均精度分别达到96.2%、93.3%和96.7%,比基线模型分别提高2.0%、2.1%和0.9%。消融实验验证了动态特征增强模块的协同优化效果。
  • Conclusion: 该研究将深度学习优化策略与3D GPR物理特性相结合,为地下管线智能识别与定位提供了高效可靠的新型技术框架。

[10] NeRV360: Neural Representation for 360-Degree Videos with a Viewport Decoder

Daichi Arai,Kyohei Unno,Yasuko Sugito,Yuichi Kusakabe

Main category: cs.CV

TL;DR: NeRV360:针对360度视频的神经表示压缩框架,通过选择性视口解码实现7倍内存降低和2.5倍解码加速

  • Motivation: 现有NeRV方法应用于高分辨率360度视频时存在内存占用高、解码速度慢的问题,难以满足实时应用需求
  • Method: 提出端到端框架,仅解码用户选择的视口而非整个全景帧;集成视口提取到解码过程;引入时空仿射变换模块进行基于视点和时间的条件解码
  • Result: 在6K分辨率视频上,相比HNeRV实现了7倍内存消耗降低和2.5倍解码速度提升,同时获得更好的客观图像质量指标
  • Conclusion: NeRV360通过选择性视口解码有效解决了360度视频神经表示的内存和速度瓶颈,为实时应用提供了可行方案

[11] Beyond Weight Adaptation: Feature-Space Domain Injection for Cross-Modal Ship Re-Identification

Tingfeng Xian,Wenlve Zhou,Zhiheng Zhou,Zhelin Li

Main category: cs.CV

TL;DR: 提出Domain Representation Injection (DRI)方法,通过特征空间优化而非权重空间微调,在冻结视觉基础模型的同时,注入领域特定表示来桥接跨模态船舶重识别中的模态差异。

  • Motivation: 跨模态船舶重识别面临显著模态差异挑战,现有方法依赖大规模配对数据集进行显式模态对齐。本文基于柏拉图表示假设,探索视觉基础模型在桥接模态差距方面的潜力,并针对现有参数高效微调方法在有限容量模型上表现不佳的问题,提出特征空间优化的新视角。
  • Method: 提出Domain Representation Injection (DRI)方法:1) 保持视觉基础模型完全冻结以保留通用知识;2) 设计轻量级可学习的Offset Encoder从原始输入提取富含模态和身份属性的领域特定表示;3) 通过Modulator根据不同层中间特征的上下文信息自适应转换这些表示;4) 通过加性融合将转换后的表示注入中间层,动态重塑特征分布以适应下游任务。
  • Result: 在HOSS-ReID数据集上达到SOTA性能,仅使用1.54M和7.05M参数分别获得57.9%和60.5%的mAP,显著优于现有方法。
  • Conclusion: DRI方法通过特征空间优化有效桥接了跨模态船舶重识别中的模态差异,在保持视觉基础模型通用知识的同时,以极少的可训练参数实现了最优性能,为参数高效微调提供了新思路。

[12] DGSAN: Dual-Graph Spatiotemporal Attention Network for Pulmonary Nodule Malignancy Prediction

Xiao Yu,Zhaojie Fang,Guanyu Zhou,Yin Shen,Huoling Luo,Ye Li,Ahmed Elazab,Xiang Wan,Ruiquan Ge,Changmiao Wang

Main category: cs.CV

TL;DR: 提出双图时空注意力网络(DGSAN),通过全局-局部特征编码器和分层跨模态图融合模块,有效整合多模态多时间点信息,显著提升肺结节分类性能

  • Motivation: 肺癌是全球癌症相关死亡的主要原因,早期检测肺结节对提高患者生存率至关重要。现有研究虽然整合了多模态和多时间点信息,但融合方法仅限于低效的向量拼接和简单的相互注意力,需要更有效的多模态信息融合方法。
  • Method: 1. 开发全局-局部特征编码器捕捉肺结节的局部、全局和融合特征;2. 双图构建方法将多模态特征组织成模态间和模态内图;3. 引入分层跨模态图融合模块优化特征整合;4. 构建新的多模态数据集NLST-cmst
  • Result: 在NLST-cmst和CSTL衍生数据集上的广泛实验表明,DGSAN在肺结节分类任务上显著优于最先进方法,同时具有出色的计算效率
  • Conclusion: 提出的双图时空注意力网络通过有效的多模态多时间点信息融合,显著提升了肺结节分类的准确性和效率,为肺癌早期诊断提供了有力工具

[13] Benchmarking and Enhancing VLM for Compressed Image Understanding

Zifu Zhang,Tongda Xu,Siqi Li,Shengxi Li,Yue Zhang,Mai Xu,Yan Wang

Main category: cs.CV

TL;DR: 本文提出了首个评估视觉语言模型处理压缩图像能力的基准测试,分析了性能差距来源,并提出通用适配器提升模型在压缩图像上的表现。

  • Motivation: 随着视觉语言模型的快速发展和应用需求增长,高效压缩图像输入变得日益重要。现有VLM主要处理高比特率压缩图像,而它们在低比特率压缩图像上的理解能力尚未被充分探索。
  • Method: 1) 创建包含100多万张压缩图像的基准测试,涵盖多种图像编解码器和任务;2) 分析性能差距来源:压缩过程中的信息损失和VLM泛化失败;3) 提出通用VLM适配器来增强模型在压缩图像上的性能。
  • Result: 1) 建立了首个全面的压缩图像VLM评估基准;2) 识别出性能差距主要来自泛化失败而非信息损失;3) 提出的单一适配器可将VLM在不同编解码器和比特率压缩图像上的性能提升10%-30%。
  • Conclusion: 本文的基准测试和增强方法为理解VLM与压缩图像之间的差距提供了宝贵见解,有助于弥合这一差距,推动VLM在压缩图像处理方面的发展。

[14] PanoGrounder: Bridging 2D and 3D with Panoramic Scene Representations for VLM-based 3D Visual Grounding

Seongmin Jung,Seongho Choi,Gunwoo Jeon,Minsu Cho,Jongwoo Lim

Main category: cs.CV

TL;DR: PanoGrounder:一个通用的3D视觉定位框架,通过结合多模态全景表示与预训练的2D视觉语言模型,实现强大的视觉语言推理能力

  • Motivation: 传统监督模型依赖显式3D几何但泛化能力有限,主要受限于3D视觉语言数据稀缺和推理能力不足。需要利用现代视觉语言模型的强大推理能力来解决3D视觉定位问题。
  • Method: 采用三阶段流程:1) 基于场景布局和几何放置紧凑的全景点;2) 使用VLM在每个全景渲染上进行文本查询定位;3) 通过提升将每个视图的预测融合为单个3D边界框。全景渲染增强3D语义和几何特征,作为2D和3D之间的中间表示。
  • Result: 在ScanRefer和Nr3D数据集上达到最先进水平,在未见过的3D数据集和文本重述上表现出优越的泛化能力。
  • Conclusion: PanoGrounder通过结合全景表示和预训练2D VLM,为3D视觉定位提供了一种通用且强大的解决方案,克服了传统方法的泛化限制。

[15] Self-supervised Multiplex Consensus Mamba for General Image Fusion

Yingying Wang,Rongjin Zhuang,Hui Zheng,Xuanhua He,Ke Cao,Xiaotong Tu,Xinghao Ding

Main category: cs.CV

TL;DR: SMC-Mamba:一种用于通用图像融合的自监督多路共识Mamba框架,通过模态无关特征增强和多路共识跨模态Mamba模块,在保持低复杂度的同时提升多任务性能。

  • Motivation: 通用图像融合需要处理广泛的任务范围,同时在不增加复杂性的情况下提升性能,而现有任务特定方法主要关注模态间信息整合,难以满足通用需求。
  • Method: 提出SMC-Mamba框架:1) MAFE模块通过自适应门控保留细节,通过空间-通道和频率-旋转扫描增强全局表示;2) MCCM模块实现专家动态协作达成共识,整合多模态互补信息;3) 引入BSCL损失函数,在不增加计算开销的情况下保留高频信息并提升下游任务性能。
  • Result: 在红外-可见光、医学、多焦点和多曝光融合以及下游视觉任务中,该方法均优于最先进的图像融合算法。
  • Conclusion: SMC-Mamba框架通过自监督学习和多路共识机制,在保持低复杂度的同时实现了通用图像融合的高性能,为多模态信息整合提供了有效解决方案。

[16] Quantile Rendering: Efficiently Embedding High-dimensional Feature on 3D Gaussian Splatting

Yoonwoo Jeong,Cheng Sun,Frank Wang,Minsu Cho,Jaesung Choe

Main category: cs.CV

TL;DR: 提出Q-Render渲染策略和GS-Net网络,解决3D高斯泼溅中高维特征渲染效率低的问题,实现实时渲染和高质量开放词汇分割。

  • Motivation: 现有方法在3D高斯泼溅中进行开放词汇分割时,使用码本或特征压缩会导致信息丢失,降低分割质量,且高维特征渲染效率低下。
  • Method: 提出Quantile Rendering (Q-Render)策略,稀疏采样对光线有主导影响的3D高斯,而非密集采样所有相交高斯。结合可泛化3D神经网络提出GS-Net,预测高斯特征。
  • Result: 在ScanNet和LeRF数据集上超越现有方法,在512维特征图上实现约43.7倍加速,支持实时渲染。
  • Conclusion: Q-Render和GS-Net有效解决了3D高斯泼溅中高维特征渲染的效率问题,实现了高质量开放词汇分割和实时渲染能力。

[17] Transductive Visual Programming: Evolving Tool Libraries from Experience for Spatial Reasoning

Shengguang Wu,Xiaohan Wang,Yuhui Zhang,Hao Zhu,Serena Yeung-Levy

Main category: cs.CV

TL;DR: TVP通过从自身经验中构建工具而非预先推测,实现了自进化的视觉编程代理,在3D空间推理任务上达到SOTA性能

  • Motivation: 现有视觉编程方法依赖固定工具集或问题解决前的推测性工具归纳,导致程序次优且工具利用率低,需要更有效的工具创建和重用机制
  • Method: 提出转导式视觉编程框架:先用基础工具解决问题并积累经验方案到示例库,然后从这些程序中抽象出重复模式,创建可重用高级工具到不断演化的工具库
  • Result: 在Omni3D-Bench上达到SOTA,比GPT-4o提升22%,比之前最佳视觉编程系统提升11%;转导学习的工具使用频率是归纳工具的5倍,在未见空间任务上表现出强泛化能力
  • Conclusion: 经验驱动的转导式工具创建是构建自进化视觉编程代理的强大范式,能有效应对挑战性空间推理任务

[18] Reasoning-Driven Amodal Completion: Collaborative Agents and Perceptual Evaluation

Hongxing Fan,Shuyu Zhao,Jiayang Ao,Lu Sheng

Main category: cs.CV

TL;DR: 提出协作多智能体推理框架,通过语义规划与视觉合成的解耦,结合验证智能体和多样化假设生成器,实现语义一致、结构完整的单次模态补全,并引入MAC-Score评估指标。

  • Motivation: 模态补全任务在保持语义一致性和结构完整性方面面临挑战,现有渐进方法存在推理不稳定和误差累积的固有局限性。
  • Method: 协作多智能体推理框架,将语义规划与视觉合成解耦:1) 验证智能体使用思维链推理修正可见区域分割并识别残留遮挡物;2) 多样化假设生成器提供多种合理的语义解释;3) 引入MAC-Score评估指标。
  • Result: 在多个数据集上显著优于现有最先进方法,验证了框架的有效性。
  • Conclusion: 通过协作多智能体推理框架实现了语义一致、结构完整的模态补全,解决了现有方法的局限性,并建立了新的评估标准。

[19] Beyond Artifacts: Real-Centric Envelope Modeling for Reliable AI-Generated Image Detection

Ruiqi Liu,Yi Han,Zhengbo Zhang,Liwei Yao,Zhiyuan Yan,Jialiang Shen,ZhiJin Chen,Boyi Sun,Lubin Weng,Jing Dong,Yan Wang,Shu Wu

Main category: cs.CV

TL;DR: REM提出了一种新的真实图像检测范式,通过建模真实图像分布而非生成器伪影,在真实世界退化条件下实现鲁棒的合成图像检测。

  • Motivation: 现有检测器过度拟合特定生成器的伪影特征,对真实世界图像退化高度敏感。随着生成架构演进和图像多轮跨平台分享处理,这些伪影线索变得过时且难以检测。
  • Method: 提出真实中心包络建模(REM):1) 在自重建中引入特征级扰动生成近真实样本;2) 使用具有跨域一致性的包络估计器学习包围真实图像流形的边界;3) 构建RealChain基准,涵盖开源和商业生成器及模拟真实世界退化。
  • Result: 在八个基准评估中,REM平均比最先进方法提升7.5%,在严重退化的RealChain基准上保持优异泛化能力,为真实世界条件下的合成图像检测奠定坚实基础。
  • Conclusion: REM通过从学习生成器伪影转向建模真实图像分布,实现了对真实世界退化鲁棒的合成图像检测,为解决生成模型快速发展带来的检测挑战提供了新范式。

[20] SPOT!: Map-Guided LLM Agent for Unsupervised Multi-CCTV Dynamic Object Tracking

Yujin Noh,Inho Jake Park,Chigon Hwang

Main category: cs.CV

TL;DR: SPOT是一个基于地图引导的LLM代理,能够在多CCTV环境的盲区中追踪车辆,无需预先训练,通过结合地图空间信息和车辆运动模式来预测车辆最可能出现的下一个CCTV位置。

  • Motivation: 多CCTV环境中,由于摄像头间隔和视野限制导致的盲区会造成车辆ID切换和轨迹丢失,降低了实时路径预测的可靠性。现有系统难以在盲区中连续追踪同一车辆。
  • Method: 1) 将道路结构和CCTV位置信息基于2D空间坐标表示为文档,通过分块技术组织以便实时查询;2) 利用CCTV图像中物体的相对位置和视野信息将车辆位置转换到实际世界坐标系;3) 结合地图空间信息与车辆运动方向、速度和驾驶模式,在交叉口级别进行波束搜索,推导车辆最可能进入的下一个CCTV位置。
  • Result: 在CARLA模拟器的虚拟城市环境中实验验证,SPOT方法即使在盲区也能准确预测下一个出现的CCTV位置,比现有技术更有效地维持连续的车辆轨迹。
  • Conclusion: SPOT方法通过地图引导的LLM代理,成功解决了多CCTV环境中盲区导致的车辆追踪中断问题,无需训练即可实现连续轨迹追踪,提高了车辆追踪系统的可靠性。

[21] XGrid-Mapping: Explicit Implicit Hybrid Grid Submaps for Efficient Incremental Neural LiDAR Mapping

Zeqing Song,Zhongmiao Yan,Junyuan Deng,Songpengcheng Xia,Xiang Mu,Jingyi Xu,Qi Wu,Ling Pei

Main category: cs.CV

TL;DR: XGrid-Mapping:一种结合显式和隐式表示的混合网格框架,用于高效神经激光雷达建图,通过稀疏网格提供几何先验,隐式密集网格丰富场景表示,实现大规模增量建图。

  • Motivation: 现有神经激光雷达建图方法大多依赖密集隐式表示且未充分利用几何结构,而体素引导方法难以实现实时性能。需要一种既能利用几何结构又能保持高效性的增量建图方法。
  • Method: 提出XGrid-Mapping混合网格框架:1)结合稀疏网格(提供几何先验和结构指导)和隐式密集网格(丰富场景表示);2)将VDB结构与基于子图的组织方式结合,降低计算负载;3)引入基于蒸馏的重叠对齐策略,确保子图重叠区域一致性;4)加入动态移除模块增强鲁棒性和采样效率。
  • Result: 实验表明,该方法在提供优越建图质量的同时,克服了体素引导方法的效率限制,优于现有最先进的建图方法。
  • Conclusion: XGrid-Mapping通过混合显式-隐式表示框架,实现了高效的大规模神经激光雷达增量建图,在保持高质量的同时解决了现有方法的效率瓶颈问题。

[22] X-ray Insights Unleashed: Pioneering the Enhancement of Multi-Label Long-Tail Data

Xinquan Yang,Jinheng Xie,Yawen Huang,Yuexiang Li,Huimin Huang,Hao Zheng,Xian Wu,Yefeng Zheng,Linlin Shen

Main category: cs.CV

TL;DR: 提出一种利用大量正常X光片合成罕见肺部异常数据的方法,通过扩散模型和语言模型知识引导,提升长尾病变的诊断精度。

  • Motivation: 胸部X光中的长尾肺部异常诊断面临挑战,现有扩散方法因罕见病变样本稀少而生成能力有限,导致诊断精度不足。
  • Method: 1) 收集大量正常X光片训练扩散模型生成正常图像;2) 用预训练扩散模型对病变X光中的头部病变进行修复,保留尾部病变作为增强数据;3) 引入大型语言模型知识引导模块和渐进增量学习策略稳定微调过程。
  • Result: 在公开肺部数据集MIMIC和CheXpert上的综合评估表明,该方法在性能上创造了新的基准。
  • Conclusion: 提出的数据合成流程能有效增强罕见病变的表示,通过利用大量正常X光片和稳定化策略,显著提升了长尾肺部异常的诊断性能。

[23] PUFM++: Point Cloud Upsampling via Enhanced Flow Matching

Zhi-Song Liu,Chenhang He,Roland Maier,Andreas Rupp

Main category: cs.CV

TL;DR: PUFM++是一个增强的流匹配框架,用于从稀疏、有噪声和部分观测中重建密集准确的点云,通过两阶段流匹配、自适应时间调度、流形约束和循环接口网络等技术,在点云上采样任务中达到新的最先进水平。

  • Motivation: 生成建模的最新进展为高质量点云上采样展示了强大潜力,但现有方法在几何保真度、对不完美输入的鲁棒性以及与下游基于表面的任务的一致性方面仍有改进空间。
  • Method: 提出两阶段流匹配策略:先学习从稀疏输入到密集目标的直接直线路径流,然后使用噪声扰动样本来细化以更好地近似终端边缘分布。引入数据驱动的自适应时间调度器来提高采样效率,在采样过程中施加流形约束确保生成点与底层表面对齐,并采用循环接口网络(RIN)来增强层次特征交互。
  • Result: 在合成基准测试和真实世界扫描上的广泛实验表明,PUFM++在点云上采样方面达到了新的最先进水平,在各种任务中提供了卓越的视觉保真度和定量准确性。
  • Conclusion: PUFM++通过改进流匹配在几何保真度、鲁棒性和一致性三个关键轴向上,为点云上采样任务提供了一个强大且高效的解决方案,代码和预训练模型已公开。

[24] MVInverse: Feed-forward Multi-view Inverse Rendering in Seconds

Xiangzuo Wu,Chengwei Ren,Jun Zhou,Xiu Li,Yuan Liu

Main category: cs.CV

TL;DR: 提出前馈多视角逆渲染框架,通过跨视图注意力机制预测材质属性,并利用一致性微调策略提升真实场景泛化能力。

  • Motivation: 现有单视角方法忽略跨视图关系导致结果不一致,而多视角优化方法依赖缓慢的可微分渲染和逐场景优化,计算成本高且难以扩展。
  • Method: 提出前馈多视角逆渲染框架,通过交替注意力机制同时捕捉视图内长距离光照交互和视图间材质一致性;采用基于一致性的微调策略,利用未标注真实世界视频增强多视图一致性和野外条件鲁棒性。
  • Result: 在基准数据集上的广泛实验表明,该方法在多视图一致性、材质和法线估计质量以及真实世界图像泛化方面达到最先进性能。
  • Conclusion: 该框架能够在前向传播中实现连贯的场景级推理,解决了现有方法的计算效率和一致性限制,并通过无监督微调策略提升了真实场景的泛化能力。

[25] Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations

Jinghan Li,Yang Jin,Hao Jiang,Yadong Mu,Yang Song,Kun Xu

Main category: cs.CV

TL;DR: NExT-Vid是一个新颖的自回归视觉生成预训练框架,通过掩码下一帧预测联合建模图像和视频,解决了现有方法语义定位不准和生成质量差的问题。

  • Motivation: 虽然自回归生成模型在NLP领域取得了革命性进展,但大多数视觉生成预训练方法仍依赖BERT风格的掩码建模,忽略了视频分析所需的时间信息。现有的少数自回归视觉预训练方法存在语义定位不准确、生成质量差导致语义信息不佳的问题。
  • Method: 提出NExT-Vid框架:1) 使用掩码下一帧预测联合建模图像和视频;2) 引入上下文隔离的自回归预测器,将语义表示与目标解码解耦;3) 采用条件流匹配解码器提升生成质量和多样性;4) 通过上下文隔离流匹配预训练获得强表示。
  • Result: 在大规模预训练模型上的广泛实验表明,该方法在下游分类任务中通过注意力探测,始终优于先前的生成预训练方法进行视觉表示学习。
  • Conclusion: NExT-Vid通过创新的自回归视觉生成预训练框架,有效解决了现有方法的局限性,在视觉表示学习方面取得了显著改进。

[26] Granular-ball Guided Masking: Structure-aware Data Augmentation

Shuyin Xia,Fan Chen,Dawei Dai,Meng Yang,Junwei Han,Xinbo Gao,Guoyin Wang

Main category: cs.CV

TL;DR: 提出GBGM方法,一种基于粒球计算的结构感知数据增强策略,通过分层掩码保留语义丰富区域,提升模型鲁棒性

  • Motivation: 深度学习模型依赖大规模标注数据且在数据有限或分布偏移时容易过拟合,现有掩码数据增强方法缺乏结构感知,可能丢弃重要语义信息
  • Method: 提出粒球引导掩码(GBGM),基于粒球计算(GBC)的结构感知增强策略,通过粗到细的分层掩码过程自适应保留语义丰富、结构重要区域,抑制冗余区域
  • Result: 在多个基准测试中,分类准确率和掩码图像重建任务均获得一致提升,证明了方法的有效性和广泛适用性
  • Conclusion: GBGM是一种简单且模型无关的结构感知数据增强方法,可无缝集成到CNN和Vision Transformer中,为结构感知数据增强提供了新范式

[27] FluencyVE: Marrying Temporal-Aware Mamba with Bypass Attention for Video Editing

Mingshu Cai,Yixuan Li,Osamu Yoshie,Yuya Ieiri

Main category: cs.CV

TL;DR: FluencyVE:一种基于Mamba的简单高效单次视频编辑方法,通过替换时间注意力层并采用低秩近似,在保持文本到图像模型生成能力的同时减少计算开销

  • Motivation: 大规模文本到图像扩散模型在图像生成和编辑方面取得了巨大成功,但将其扩展到视频编辑仍然具有挑战性。现有方法通过添加时间注意力机制来适应视频任务,但仍然存在时间不一致性和高计算开销的问题。
  • Method: 提出FluencyVE方法,将线性时间序列模块Mamba集成到基于预训练Stable Diffusion模型的视频编辑模型中,替换时间注意力层。同时采用低秩近似矩阵替换因果注意力中的查询和键权重矩阵,并在训练中使用加权平均技术更新注意力分数。
  • Result: 实验和分析表明,该方法在编辑真实世界视频的各种属性、主体和位置方面取得了有希望的结果,能够实现全局帧级注意力同时降低计算成本。
  • Conclusion: FluencyVE是一种简单而有效的单次视频编辑方法,通过集成Mamba模块和采用低秩近似技术,在保持文本到图像模型生成能力的同时,有效解决了时间不一致性和计算开销问题。

[28] Efficient and Robust Video Defense Framework against 3D-field Personalized Talking Face

Rui-qing Sun,Xingshan Yao,Tian Lan,Hui-Yang Zhao,Jia-Ling Shi,Chen-Hao Cui,Zhijing Wu,Chen Yang,Xian-Ling Mao

Main category: cs.CV

TL;DR: 提出首个针对3D场说话人脸生成方法的视频防御框架,通过扰动3D信息获取过程保护肖像视频,同时保持高保真视频质量

  • Motivation: 当前3D场说话人脸生成方法能够实时合成高保真个性化说话人脸视频,这带来了严重的隐私滥用风险,但现有防御方法要么计算成本过高,要么无法有效破坏3D信息保护视频
  • Method: 提出新颖高效的视频防御框架:1)相似性引导的参数共享机制提高计算效率;2)多尺度双域注意力模块联合优化空间-频率扰动
  • Result: 框架展现强大的防御能力,相比最快基线实现47倍加速,同时保持高保真度,对缩放操作和最先进的净化攻击保持鲁棒性
  • Conclusion: 该研究填补了针对3D场说话人脸生成方法的视频防御空白,提供了一种高效、高质量的肖像视频保护解决方案

[29] Multi-Attribute guided Thermal Face Image Translation based on Latent Diffusion Model

Mingshu Cai,Osamu Yoshie,Yuya Ieiri

Main category: cs.CV

TL;DR: 提出基于潜在扩散模型的红外人脸识别方法,通过多属性分类器和Self-attn Mamba模块提升红外到可见光图像转换的质量和身份特征保留,在多个基准数据集上达到SOTA性能。

  • Motivation: 现有的人脸识别模型主要在可见光数据集上训练,在红外图像上性能显著下降。传统的特征方法效果不佳,而现有的生成式方法存在模型和模态差异导致的图像失真和特征丢失问题。
  • Method: 提出基于潜在扩散的红外到可见光图像生成模型,引入多属性分类器从可见光图像提取关键面部属性以减少特征丢失,并设计Self-attn Mamba模块增强跨模态特征的全局建模能力和推理速度。
  • Result: 在两个基准数据集上的实验结果表明,该方法在图像质量和身份特征保留方面均达到最先进的性能水平。
  • Conclusion: 提出的潜在扩散模型结合多属性分类器和Self-attn Mamba模块,有效解决了红外到可见光人脸图像转换中的失真和特征丢失问题,显著提升了红外人脸识别的性能。

[30] Next-Scale Prediction: A Self-Supervised Approach for Real-World Image Denoising

Yiwen Shan,Haiyu Zhao,Peng Hu,Xi Peng,Yuanbiao Gou

Main category: cs.CV

TL;DR: 提出Next-Scale Prediction (NSP)自监督去噪新范式,通过跨尺度训练解耦噪声去相关与细节保留的矛盾,在真实图像去噪中达到SOTA性能

  • Motivation: 现有盲点网络方法使用像素洗牌下采样来去相关噪声,但激进下采样会破坏精细结构,而温和下采样又无法去除相关噪声,存在噪声去相关与细节保留的根本矛盾
  • Method: 提出NSP自监督范式,构建跨尺度训练对:盲点网络以低分辨率、完全去相关的子图像作为输入,预测保留精细细节的高分辨率目标,从而解耦噪声去相关与细节保留
  • Result: 在真实世界基准测试中达到最先进的自监督去噪性能,显著缓解了噪声去相关与细节保留之间的长期冲突,且自然支持噪声图像超分辨率而无需重新训练
  • Conclusion: NSP通过跨尺度预测成功解决了自监督真实图像去噪中的根本挑战,为噪声去相关与细节保留的矛盾提供了有效解决方案,并具有超分辨率的额外优势

[31] A Large-Depth-Range Layer-Based Hologram Dataset for Machine Learning-Based 3D Computer-Generated Holography

Jaehong Lee,You Chan No,YoungWoo Kim,Duksu Kim

Main category: cs.CV

TL;DR: KOREATECH-CGH数据集包含6000对RGB-D图像和复杂全息图,分辨率从256×256到2048×2048,通过振幅投影技术提升大深度范围的全息图质量,在生成和超分辨率任务中验证了其有效性。

  • Motivation: 机器学习计算机生成全息术(ML-CGH)发展迅速,但受限于高质量、大规模全息图数据集的缺乏,需要构建公开数据集以推动该领域进步。
  • Method: 提出KOREATECH-CGH数据集,包含6000对RGB-D图像和复杂全息图,分辨率覆盖256×256到2048×2048;引入振幅投影后处理技术,在保持相位的同时替换每个深度层的全息波场振幅分量。
  • Result: 振幅投影技术显著提升重建保真度,达到27.01 dB PSNR和0.87 SSIM,比最近的优化轮廓掩模层方法分别提高2.03 dB和0.04 SSIM;在先进ML模型的全息生成和超分辨率任务中验证了数据集的有效性。
  • Conclusion: KOREATECH-CGH数据集解决了ML-CGH领域的数据瓶颈问题,振幅投影技术有效提升全息图质量,该数据集适用于训练和评估下一代ML-CGH系统。

[32] Matrix Completion Via Reweighted Logarithmic Norm Minimization

Zhijie Wang,Liangtian He,Qinghua Zhang,Jifei Miao,Liang-Jian Deng,Jun Liu

Main category: cs.CV

TL;DR: 提出一种新的重加权对数范数作为秩函数的非凸替代,通过ADMM求解,在图像修复中优于现有LRMC方法。

  • Motivation: 低秩矩阵补全(LRMC)应用广泛,但秩最小化问题是NP难的。核范数作为凸替代虽然计算可行,但会导致奇异值过度收缩,产生次优解。需要更有效的非凸替代来更好地逼近秩函数。
  • Method: 提出一种新的重加权对数范数作为秩函数的非凸替代,比现有替代方法提供更接近的逼近。采用交替方向乘子法(ADMM)高效求解得到的优化问题。
  • Result: 在图像修复实验中,所提方法在视觉质量和定量指标上都优于最先进的LRMC方法。
  • Conclusion: 提出的重加权对数范数作为秩函数的非凸替代是有效的,结合ADMM求解,在LRMC任务中取得了优越性能。

[33] Optical Flow-Guided 6DoF Object Pose Tracking with an Event Camera

Zibin Liu,Banglei Guan,Yang Shang,Shunkun Liang,Zhenbao Yu,Qifeng Yu

Main category: cs.CV

TL;DR: 提出基于事件相机的光流引导6自由度物体姿态跟踪方法,通过2D-3D混合特征提取和光流关联,在精度和鲁棒性上超越现有事件相机方法。

  • Motivation: 传统相机在物体姿态跟踪中面临运动模糊、传感器噪声、部分遮挡和光照变化等挑战。事件相机具有高动态范围和低延迟的优势,有潜力解决这些问题。
  • Method: 1) 采用2D-3D混合特征提取策略,从事件和物体模型中检测角点和边缘;2) 通过在时空窗口中最大化事件关联概率来搜索角点的光流;3) 利用光流引导建立角点和边缘的关联;4) 通过最小化角点和边缘之间的距离,迭代优化6自由度物体姿态。
  • Result: 在模拟和真实事件数据上的实验结果表明,该方法在精度和鲁棒性方面优于基于事件的最先进方法。
  • Conclusion: 提出的光流引导事件相机方法能够有效解决传统相机在物体姿态跟踪中的挑战,实现了更精确和鲁棒的连续姿态跟踪。

[34] DexAvatar: 3D Sign Language Reconstruction with Hand and Body Pose Priors

Kaustubh Kundu,Hrishav Bakul Barua,Lucy Robertson-Bell,Zhixi Cai,Kalin Stefanov

Main category: cs.CV

TL;DR: DexAvatar是一个从单目手语视频重建生物力学精确的细粒度手部关节和身体运动的新框架,通过学习的3D手部和身体先验指导,在SGNify数据集上比现有方法提升35.11%

  • Motivation: 当前手语生成方法需要大量精确的2D和3D人体姿态数据,但现有手语数据集主要是视频格式,缺乏准确的3D信息。现有的3D姿态估计方法在自遮挡、噪声和运动模糊等问题下重建质量差
  • Method: 提出DexAvatar框架,利用学习的3D手部和身体先验,从野外单目手语视频中重建生物力学精确的细粒度手部关节和身体运动
  • Result: 在SGNify运动捕捉数据集上表现优异,身体和手部姿态估计相比现有最佳方法提升35.11%
  • Conclusion: DexAvatar能够从单目手语视频中准确重建3D手部和身体运动,解决了现有方法在自遮挡、噪声和运动模糊下的重建质量问题

[35] Beyond Pixel Simulation: Pathology Image Generation via Diagnostic Semantic Tokens and Prototype Control

Minghao Han,YiChen Liu,Yizhou Liu,Zizhi Chen,Jingqun Tang,Xuecheng Wu,Dingkang Yang,Lihua Zhang

Main category: cs.CV

TL;DR: UniPath是一个基于语义驱动的病理图像生成框架,通过多流控制实现精确的语义控制生成,在病理图像生成任务上达到SOTA性能。

  • Motivation: 当前病理计算领域存在三个主要问题:1)缺乏大规模高质量图像-文本语料库;2)缺乏精确的细粒度语义控制,导致依赖非语义线索;3)术语异质性使得相同诊断概念有多种表达方式,影响文本条件化的可靠性。
  • Method: UniPath采用多流控制框架:1)原始文本流;2)高层语义流,使用可学习查询从冻结的病理MLLM中提取诊断语义标记和诊断感知属性束;3)原型流,通过原型库实现组件级形态控制。同时构建了265万图像-文本语料库和6.8万高质量标注子集。
  • Result: UniPath在病理图像生成任务上达到最先进性能,Patho-FID为80.9(比第二名提升51%),细粒度语义控制达到真实图像的98.7%。建立了专门的四层评估体系。
  • Conclusion: UniPath通过利用成熟的诊断理解能力实现可控生成,解决了病理图像生成的关键瓶颈。研究提供了完整的数据集、源代码和预训练模型权重,将公开共享以促进领域发展。

[36] Multimodal Skeleton-Based Action Representation Learning via Decomposition and Composition

Hongsong Wang,Heng Fei,Bingxuan Dai,Jie Gui

Main category: cs.CV

TL;DR: 提出Decomposition and Composition自监督多模态骨架动作表示学习框架,在计算成本与性能间取得良好平衡

  • Motivation: 多模态动作理解的关键挑战是如何有效利用不同模态间的互补性同时保持模型效率。现有方法要么依赖简单的后期融合导致计算开销大,要么采用早期共享主干网络但性能不佳。
  • Method: 提出自监督多模态骨架动作表示学习框架:1) Decomposition策略将融合的多模态特征分解为独立的单模态特征,并与真实单模态特征对齐;2) Composition策略整合多个单模态特征作为自监督指导,增强多模态表示学习。
  • Result: 在NTU RGB+D 60、NTU RGB+D 120和PKU-MMD II数据集上的大量实验表明,该方法在计算成本和模型性能之间取得了良好平衡。
  • Conclusion: 提出的Decomposition and Composition框架有效解决了多模态动作理解中效率与效果的平衡问题,通过自监督学习策略实现了计算效率与性能的优化。

[37] UniPR-3D: Towards Universal Visual Place Recognition with Visual Geometry Grounded Transformer

Tianchen Deng,Xun Chen,Ziming Li,Hongming Shen,Danwei Wang,Javier Civera,Hesheng Wang

Main category: cs.CV

TL;DR: UniPR-3D是首个有效整合多视角信息的视觉地点识别架构,通过VGGT骨干网络编码多视角3D表示,结合2D和3D特征聚合模块,在单帧和多帧聚合方案下实现优越性能。

  • Motivation: 传统视觉地点识别主要基于单图像检索,多视角方法虽有优势但研究不足且泛化能力有限,需要开发能有效整合多视角信息并适应多样化环境的架构。
  • Method: 基于VGGT骨干网络编码多视角3D表示,设计特征聚合器并针对地点识别任务进行微调。联合利用VGGT产生的3D token和中间2D token,为2D和3D特征设计专用聚合模块,结合单帧和多帧聚合方案以及可变长度序列检索策略。
  • Result: UniPR-3D在实验中达到新的state-of-the-art性能,超越了单视角和多视角基线方法,证明了基于几何的token在视觉地点识别中的有效性。
  • Conclusion: UniPR-3D成功展示了整合多视角信息对视觉地点识别的重要性,通过几何基础的token和专门设计的特征聚合策略,实现了优越的泛化能力和性能表现。

[38] Hierarchical Modeling Approach to Fast and Accurate Table Recognition

Takaya Kawakatsu

Main category: cs.CV

TL;DR: 提出了一种利用非因果注意力捕捉完整表格结构的新型多任务模型,以及用于更快单元格内容推理的并行推理算法,在两大公共数据集上验证了优越性。

  • Motivation: 从大量文档中提取和使用多样化知识是智能信息检索的迫切挑战。文档包含需要不同识别方法的元素。现有表格识别模型虽然结合了多任务学习、局部注意力和相互学习取得了优秀效果,但其有效性未得到充分解释,且推理时间较长。
  • Method: 提出新型多任务模型,利用非因果注意力捕捉完整表格结构,并设计并行推理算法以加速单元格内容推理。
  • Result: 在两个大型公共数据集上,通过视觉和统计方式证明了该方法的优越性。
  • Conclusion: 提出的模型和算法在表格识别任务中表现出色,既提高了识别效果又加速了推理过程。

[39] T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation

Zhe Cao,Tao Wang,Jiaming Wang,Yanghai Wang,Yuanxing Zhang,Jialu Chen,Miao Deng,Jiahao Wang,Yubin Guo,Chenxi Liao,Yize Zhang,Zhaoxiang Zhang,Jiaheng Liu

Main category: cs.CV

TL;DR: T2AV-Compass是一个统一的文本到音视频生成系统评测基准,包含500个多样化复杂提示,采用双级评估框架(客观信号级指标+主观MLLM评判协议),评估发现现有模型在音频真实性、跨模态一致性等方面仍远低于人类水平。

  • Motivation: 当前T2AV生成系统的评估存在碎片化问题,通常依赖单模态指标或范围狭窄的基准测试,无法全面捕捉跨模态对齐、指令跟随和复杂提示下的感知真实性。
  • Method: 1. 构建T2AV-Compass基准:通过分类学驱动的流程创建500个多样化和复杂的提示,确保语义丰富性和物理合理性。2. 双级评估框架:结合客观信号级指标(视频质量、音频质量、跨模态对齐)和主观MLLM-as-a-Judge协议(指令跟随和真实性评估)。
  • Result: 对11个代表性T2AV系统的广泛评估显示,即使是最强的模型在人类级真实性和跨模态一致性方面也显著不足,存在音频真实性、细粒度同步、指令跟随等方面的持续失败。
  • Conclusion: T2AV-Compass作为一个具有挑战性和诊断性的测试平台,揭示了未来模型的显著改进空间,对推进文本到音视频生成技术的发展具有重要价值。

[40] UniRec-0.1B: Unified Text and Formula Recognition with 0.1B Parameters

Yongkun Du,Zhineng Chen,Yazhen Xie,Weikang Baiand Hao Feng,Wei Shi,Yuchen Su,Can Huang,Yu-Gang Jiang

Main category: cs.CV

TL;DR: UniRec-0.1B是一个仅0.1B参数的轻量级统一识别模型,能够多层级识别文本和公式,在保持高性能的同时实现2-9倍加速。

  • Motivation: 现有视觉语言模型虽然能统一识别文本和公式,但参数量大、计算需求高,限制了实际应用。需要开发轻量级但性能优异的统一识别模型。
  • Method: 1) 构建包含4000万文本、公式及其混合样本的UniRec40M数据集;2) 针对结构可变性和语义纠缠问题,提出分层监督训练和语义解耦分词器;3) 建立涵盖中英文多领域多层级的评估基准。
  • Result: UniRec-0.1B在综合评估基准和公共基准测试中,性能优于通用视觉语言模型和领先的文档解析专家模型,同时实现2-9倍速度提升。
  • Conclusion: UniRec-0.1B证明了轻量级模型在统一识别文本和公式任务上的有效性,为实际应用提供了高效解决方案。

[41] FreeInpaint: Tuning-free Prompt Alignment and Visual Rationality Enhancement in Image Inpainting

Chao Gong,Dong Li,Yingwei Pan,Jingjing Chen,Ting Yao,Tao Mei

Main category: cs.CV

TL;DR: FreeInpaint:一种无需调优的即插即用图像修复方法,通过优化扩散潜变量提升文本提示对齐和视觉合理性

  • Motivation: 现有基于预训练文本到图像扩散模型的修复方法难以同时保持提示对齐和视觉合理性,需要一种更有效的解决方案
  • Method: 提出FreeInpaint方法,包含先验引导的噪声优化和针对修复任务设计的复合引导目标,在推理时直接优化扩散潜变量
  • Result: 通过在不同修复扩散模型和评估指标上的广泛实验,证明了FreeInpaint的有效性和鲁棒性
  • Conclusion: FreeInpaint是一种无需调优的即插即用方法,能显著提升文本引导图像修复的忠实度和视觉合理性

[42] MarineEval: Assessing the Marine Intelligence of Vision-Language Models

YuK-Kwan Wong,Tuan-An To,Jipeng Zhang,Ziqiang Zheng,Sai-Kit Yeung

Main category: cs.CV

TL;DR: 本文提出了首个大规模海洋视觉语言模型数据集和基准测试MarineEval,包含2000个基于图像的问答对,用于评估现有VLMs在海洋专业领域的表现,发现现有模型在回答需要专业知识的海洋问题时效果有限。

  • Motivation: 尽管视觉语言模型(VLMs)在各种领域取得了成功,但现有模型是否能够作为领域专家准确回答需要专业知识的海洋问题仍不清楚。海洋领域具有特殊的挑战和要求,需要专门的评估。
  • Method: 构建了首个大规模海洋VLM数据集和基准测试MarineEval,包含2000个基于图像的问答对。数据构建确保了多样性和覆盖范围:7个任务维度和20个能力维度。领域需求被专门整合到数据构建中,并由相应的海洋领域专家验证。
  • Result: 对17个现有VLMs在MarineEval上进行了全面基准测试。实验结果表明,现有VLMs无法有效回答领域特定的海洋问题,性能仍有很大提升空间。
  • Conclusion: 提出了首个海洋视觉语言模型基准测试MarineEval,揭示了现有VLMs在海洋专业领域的局限性,希望该基准测试和观察结果能促进未来研究。

[43] TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation

Gaoren Lin,Huangxuan Zhao,Yuan Xiong,Lefei Zhang,Bo Du,Wentao Zhu

Main category: cs.CV

TL;DR: TGC-Net:基于CLIP的文本引导医学分割框架,通过参数高效的任务特定适配解决CLIP在医学图像应用中的三个主要问题

  • Motivation: 现有文本引导医学分割方法依赖未对齐的图像和文本编码器,需要复杂的多模态融合模块。CLIP提供了预对齐的多模态特征空间,但直接应用于医学图像存在三个问题:细粒度解剖结构保留不足、复杂临床描述建模不足、领域特定语义未对齐
  • Method: 提出TGC-Net框架,包含三个核心组件:1) 语义-结构协同编码器(SSE),在CLIP的ViT基础上增加CNN分支进行多尺度结构细化;2) 领域增强文本编码器(DATE),注入大语言模型衍生的医学知识;3) 视觉-语言校准模块(VLCM),在统一特征空间中细化跨模态对应关系
  • Result: 在胸部X光和胸部CT五个数据集上的实验表明,TGC-Net以显著更少的可训练参数实现了最先进的性能,在具有挑战性的基准测试中获得了显著的Dice增益
  • Conclusion: TGC-Net通过参数高效的CLIP适配有效解决了医学图像分割中的多模态对齐问题,为文本引导的医学分割提供了高效解决方案

[44] ORCA: Object Recognition and Comprehension for Archiving Marine Species

Yuk-Kwan Wong,Haixin Liang,Zeyu Ma,Yiwei Chen,Ziqiang Zheng,Rinaldi Gotama,Pascal Sebastian,Lauren D. Sparks,Sai-Kit Yeung

Main category: cs.CV

TL;DR: ORCA是一个多模态海洋研究基准,包含14,647张图像、478个物种、42,217个边界框标注和22,321个专家验证的实例描述,用于评估目标检测、实例描述和视觉定位等任务。

  • Motivation: 海洋视觉理解对于监测和保护海洋生态系统至关重要,但目前进展受到训练数据有限和缺乏系统化任务定义的阻碍,限制了模型在海洋领域的有效应用。
  • Method: 构建ORCA多模态基准数据集,包含丰富的视觉和文本标注,涵盖形态学特征。评估18个最先进模型在三个任务上的表现:目标检测(封闭集和开放词汇)、实例描述和视觉定位。
  • Result: 评估结果突显了海洋理解的关键挑战,包括物种多样性、形态重叠和特定领域需求,表明海洋视觉理解任务的难度较大。
  • Conclusion: ORCA为海洋领域研究建立了一个全面的基准,旨在推动海洋视觉理解方法的发展。

[45] A Turn Toward Better Alignment: Few-Shot Generative Adaptation with Equivariant Feature Rotation

Chenghao Xu,Qi Liu,Jiexi Yan,Muli Yang,Cheng Deng

Main category: cs.CV

TL;DR: 提出Equivariant Feature Rotation (EFR)方法,通过自旋转代理特征空间中的两级对齐,解决少样本图像生成中源域和目标域分布结构差异导致的约束问题。

  • Motivation: 现有少样本图像生成方法通过实例级或分布级损失函数引入一致性约束来对齐源域和目标域的分布模式,但这些策略存在局限性:过于严格的约束会放大域间差异导致内容扭曲,过于宽松的约束则无法有效利用源域知识。问题根源在于源域和目标域底层分布结构存在固有差异,且目标样本稀缺进一步阻碍了目标域分布的准确估计。
  • Method: 提出Equivariant Feature Rotation (EFR)方法:在参数化李群中进行自适应旋转,将源域和目标域特征变换到等变代理特征空间,在该空间进行两级互补对齐。可学习的旋转矩阵在不扭曲域内结构信息的情况下弥合域间差异,对齐优化促进从源域到目标域的有效知识迁移。
  • Result: 在多种常用数据集上的综合实验表明,该方法显著提升了目标域内的生成性能。
  • Conclusion: EFR方法通过自旋转代理特征空间中的两级对齐策略,有效解决了少样本图像生成中源域和目标域分布结构差异导致的约束问题,实现了更好的域适应生成效果。

[46] Towards Arbitrary Motion Completing via Hierarchical Continuous Representation

Chenghao Xu,Guangtao Lyu,Qi Liu,Jiexi Yan,Muli Yang,Cheng Deng

Main category: cs.CV

TL;DR: 提出名为NAME的层次化隐式表示框架,基于INR实现人体运动序列的连续表示,支持任意帧率的插值、补间和外推

  • Motivation: 物理运动本质上是连续的,更高帧率通常能提升平滑度和时间一致性。首次探索人体运动序列的连续表示,实现任意帧率的插值、补间和外推能力
  • Method: 提出参数化激活诱导的层次化隐式表示框架NAME,基于INR。采用层次化时间编码机制从多时间尺度提取特征,捕捉复杂时间模式。在MLP解码器中集成基于傅里叶变换的自定义参数化激活函数,增强连续表示的表达能力
  • Result: 在多个基准数据集上的广泛评估证明了所提方法的有效性和鲁棒性
  • Conclusion: NAME框架成功实现了人体运动序列的连续表示,能够以任意帧率进行插值、补间和外推,参数化激活函数显著增强了模型表示复杂运动行为的能力

[47] UltraShape 1.0: High-Fidelity 3D Shape Generation via Scalable Geometric Refinement

Tanghui Jia,Dongyu Yan,Dehao Hao,Yang Li,Kaiyi Zhang,Xianyi He,Lanjiong Li,Jinnan Chen,Lutao Jiang,Qishen Yin,Long Quan,Ying-Cong Chen,Li Yuan

Main category: cs.CV

TL;DR: UltraShape 1.0是一个可扩展的3D扩散框架,采用两阶段生成流程:先生成粗略全局结构,再细化生成高质量细节几何。通过创新的数据处理和空间定位与细节合成的解耦,在有限训练资源下实现了竞争力的3D几何生成。

  • Motivation: 现有3D生成方法在高质量几何细节生成方面存在挑战,特别是使用公开数据集时数据质量参差不齐。需要开发一个既能处理低质量数据又能生成高保真3D几何的框架。
  • Method: 采用两阶段生成流程:1) 粗略全局结构合成;2) 细节几何细化。开发了包含新型水密处理方法和高质量数据过滤的完整数据处理流程。在扩散过程中将空间定位与几何细节合成解耦,通过基于体素的细化在固定空间位置进行,使用RoPE编码的位置锚点让模型专注于局部几何细节合成。
  • Result: 模型在公开3D数据集上训练,尽管训练资源有限,但实现了强大的几何质量。广泛评估表明,UltraShape 1.0在数据处理质量和几何生成方面与现有开源方法相比具有竞争力。
  • Conclusion: UltraShape 1.0提供了一个有效的3D扩散框架,通过创新的数据处理和生成策略,能够在有限资源下实现高质量的3D几何生成,为未来研究提供了有价值的工具和模型。

[48] VisRes Bench: On Evaluating the Visual Reasoning Capabilities of VLMs

Brigitta Malagurski Törtei,Yasser Dahou,Ngoc Dung Huynh,Wamiq Reyaz Para,Phúc H. Lê Khac,Ankit Singh,Sofian Chaybouti,Sanath Narayan

Main category: cs.CV

TL;DR: VisRes Bench是一个专门评估视觉语言模型在自然场景下视觉推理能力的基准测试,包含三个复杂度级别,发现当前SOTA模型在感知扰动下表现接近随机,揭示了其抽象推理能力有限。

  • Motivation: 当前视觉语言模型在视觉问答和图像描述等任务上取得了显著进展,但尚不清楚这些模型是真正进行视觉推理还是主要依赖语言先验知识。需要设计一个在没有上下文语言监督的自然场景下评估视觉推理能力的基准测试。
  • Method: 提出VisRes Bench基准测试,包含三个复杂度级别:Level 1测试感知补全和全局图像匹配能力,包含模糊、纹理变化、遮挡和旋转等扰动;Level 2测试基于单一属性(如颜色、数量、方向)的规则推理;Level 3测试需要整合多个视觉属性的组合推理能力。在超过19,000张受控任务图像上评估模型表现。
  • Result: 研究发现最先进的视觉语言模型在细微的感知扰动下表现接近随机水平,显示出有限的抽象能力,主要停留在模式识别层面而非真正的视觉推理。模型在感知和关系视觉推理能力方面存在明显局限。
  • Conclusion: VisRes Bench为多模态研究提供了一个统一的框架来推进抽象视觉推理能力的发展,揭示了当前视觉语言模型在视觉推理方面的局限性,为未来模型改进指明了方向。

[49] Human Motion Estimation with Everyday Wearables

Siqi Zhu,Yixuan Li,Junfu Li,Qi Wu,Zan Wang,Haozhe Ma,Wei Liang

Main category: cs.CV

TL;DR: EveryWear:基于日常可穿戴设备(手机、手表、耳机、智能眼镜)的轻量级人体运动捕捉方法,无需显式校准,通过多模态师生框架整合视觉和惯性信号,在真实世界数据上训练消除仿真到现实的差距。

  • Motivation: 现有基于身体设备的人体运动估计方法存在穿戴性差、硬件昂贵、校准繁琐等问题,阻碍了日常生活中的应用。需要一种轻量级、实用且基于日常可穿戴设备的解决方案。
  • Method: 提出EveryWear方法,使用智能手机、智能手表、耳机和配备前向及两个向下摄像头的智能眼镜。采用多模态师生框架,整合第一人称视角的视觉线索和消费设备的惯性信号,直接在真实世界数据上训练。
  • Result: 方法在实验中优于基线模型,验证了其在实际全身运动估计中的有效性。同时创建了Ego-Elec数据集,包含9小时真实世界数据,涵盖56种日常活动和17个不同室内外环境,带有运动捕捉提供的3D真值标注。
  • Conclusion: EveryWear提供了一种实用、轻量级的人体运动捕捉方法,完全基于日常可穿戴设备,无需显式校准,通过真实世界数据训练消除了仿真到现实的差距,为XR交互等应用提供了可行的解决方案。

[50] Latent Implicit Visual Reasoning

Kelvin Li,Chuyi Shang,Leonid Karlinsky,Rogerio Feris,Trevor Darrell,Roei Herzig

Main category: cs.CV

TL;DR: 提出一种任务无关的机制,让大型多模态模型能够自主发现和使用视觉推理标记,无需显式监督,在多种视觉中心任务上达到SOTA性能。

  • Motivation: 现有大型多模态模型本质上是文本中心的,依赖语言作为核心推理模态,在处理以视觉为主的推理任务时能力有限。现有方法需要监督中间视觉步骤,但存在限制:对"有用"视觉抽象施加先验限制、标注成本高、跨任务泛化能力差。
  • Method: 提出任务无关机制,训练LMMs在没有显式监督的情况下发现和使用视觉推理标记。这些标记全局关注并以任务自适应方式重新编码图像,使模型能够提取相关视觉信息而无需手工监督。
  • Result: 方法优于直接微调,在多种视觉中心任务上取得最先进结果,包括那些中间抽象难以指定的任务,同时能够泛化到多任务指令调优。
  • Conclusion: 提出的任务无关机制使LMMs能够自主发现视觉推理标记,解决了现有方法的限制,在多种视觉任务上表现出色,具有更好的泛化能力。

[51] Leveraging Lightweight Entity Extraction for Scalable Event-Based Image Retrieval

Dao Sy Duy Minh,Huynh Trung Kiet,Nguyen Lam Phu Quy,Phu-Hoa Pham,Tran Chi Nguyen

Main category: cs.CV

TL;DR: 提出基于事件实体提取的轻量级两阶段图像检索方法,结合BM25候选过滤和BEiT-3重排序,在OpenEvents v1基准上显著优于现有方法。

  • Motivation: 现实世界图像文本检索面临模糊查询、语言变异性和可扩展性等挑战,需要更有效的解决方案来处理复杂场景。
  • Method: 两阶段检索管道:第一阶段使用基于事件实体提取的BM25进行高效候选过滤;第二阶段使用BEiT-3模型捕获深度多模态语义并重排序结果。
  • Result: 在OpenEvents v1基准测试中达到0.559的平均精度均值,显著优于现有基线方法。
  • Conclusion: 结合事件引导过滤和长文本视觉语言建模的方法在复杂现实场景中实现了准确高效的图像检索。

[52] SegMo: Segment-aligned Text to 3D Human Motion Generation

Bowen Dang,Lin Wu,Xiaohang Yang,Zheng Yuan,Zhixiang Chen

Main category: cs.CV

TL;DR: SegMo是一个新颖的分段对齐文本条件人体运动生成框架,通过将文本和运动分解为语义连贯的片段,实现细粒度的文本-运动对齐,在HumanML3D数据集上取得了0.553的TOP 1分数。

  • Motivation: 现有方法在序列级别对齐文本描述与人体运动,忽略了模态的内部语义结构。然而,运动描述和运动序列都可以自然地分解为更小、语义连贯的片段,这些片段可以作为原子对齐单元实现更细粒度的对应关系。
  • Method: SegMo框架包含三个模块:(1) 文本片段提取:将复杂文本描述分解为时间顺序的短语,每个短语代表一个简单的原子动作;(2) 运动片段提取:将完整运动序列分割为对应的运动片段;(3) 细粒度文本-运动对齐:通过对比学习对齐文本和运动片段。
  • Result: 在广泛使用的数据集上进行大量实验表明,SegMo在两个数据集上改进了强基线,在HumanML3D测试集上实现了0.553的改进TOP 1分数。此外,由于学习了文本和运动片段的共享嵌入空间,SegMo还可以应用于检索式任务,如运动定位和运动到文本检索。
  • Conclusion: SegMo通过分段对齐的方法实现了细粒度的文本-运动对应,在生成和检索任务上都表现出色,为文本条件人体运动生成提供了更精细的语义对齐解决方案。

[53] DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

Jiawei Liu,Junqiao Li,Jiangfan Deng,Gen Li,Siyu Zhou,Zetao Fang,Shanshan Lao,Zengde Deng,Jianing Zhu,Tingting Ma,Jiayi Li,Yunqiu Wang,Qian He,Xinglong Wu

Main category: cs.CV

TL;DR: DreaMontage:一个基于任意帧引导的生成框架,能够从多样化用户输入合成无缝、富有表现力的长时一镜到底视频,解决了现有方法在视觉平滑性和时序连贯性上的不足。

  • Motivation: 一镜到底是电影制作中独特而复杂的美学手法,但实际制作成本高昂且受现实约束限制。现有视频生成模型通常采用简单的片段拼接方法,难以保持视觉平滑性和时序连贯性。
  • Method: 1. 在DiT架构中集成轻量级中间条件机制,采用自适应调优策略利用基础训练数据;2. 构建高质量数据集并进行视觉表达SFT阶段,针对主体运动合理性和过渡平滑性采用定制化DPO方案;3. 设计分段自回归推理策略,实现内存高效的长序列生成。
  • Result: 实验表明,该方法能够生成视觉惊艳且无缝连贯的一镜到底效果,同时保持计算效率,成功将碎片化视觉素材转化为生动、连贯的一镜到底电影体验。
  • Conclusion: DreaMontage框架通过创新的技术方案,有效解决了长时一镜到底视频生成的挑战,为用户提供了从多样化输入创建高质量一镜到底视频的强大工具。

[54] AnyAD: Unified Any-Modality Anomaly Detection in Incomplete Multi-Sequence MRI

Changwei Wu,Yifei Chen,Yuxin Du,Mingxuan Liu,Jinying Zong,Beining Wu,Jie Dong,Feiwei Qin,Yunkang Cao,Qiyuan Tian

Main category: cs.CV

TL;DR: 提出Any-Modality AD框架,可在任意MRI模态可用性下进行稳健的异常检测和定位,无需重新训练即可适应所有模态配置。

  • Motivation: 脑MRI异常检测面临标注异常病例稀缺和临床工作流中关键成像模态经常缺失的挑战。现有方法依赖固定模态配置、需要重复训练或无法泛化到未见模态组合,限制了临床可扩展性。
  • Method: 整合双路径DINOv2编码器与特征分布对齐机制,统计对齐不完整模态特征与完整模态表示;引入内在正常原型提取器和INP引导的解码器,仅重建正常解剖模式;通过随机模态掩码和间接特征完成训练,使模型适应所有模态配置。
  • Result: 在BraTS2018、MU-Glioma-Post和Pretreat-MetsToBrain-Masks数据集上,该方法在7种模态组合中始终超越最先进的工业和医学异常检测基线,实现了优异的泛化性能。
  • Conclusion: 该研究为真实世界不完美模态条件下的多模态医学异常检测建立了可扩展的范式。

[55] ACD: Direct Conditional Control for Video Diffusion Models via Attention Supervision

Weiqi Li,Zehao Zhang,Liang Lin,Guangrun Wang

Main category: cs.CV

TL;DR: 提出ACD框架,通过注意力监督实现视频扩散模型的直接条件控制,使用稀疏3D感知物体布局作为条件信号,提升视频生成的条件对齐能力。

  • Motivation: 现有视频合成中的可控性方法存在局限:无分类器引导通过建模数据和条件的联合分布实现间接控制,可控性有限;基于分类器的引导使用外部分类器,但模型可能通过对抗性手段提高分类器分数而不真正满足条件,导致对抗伪影和有限的有效可控性。
  • Method: 提出注意力条件扩散(ACD)框架,通过将模型的注意力图与外部控制信号对齐来实现直接条件控制。引入稀疏3D感知物体布局作为高效条件信号,配合专门的布局ControlNet和自动标注流程,实现可扩展的布局集成。
  • Result: 在基准视频生成数据集上的大量实验表明,ACD在保持时间一致性和视觉保真度的同时,实现了与条件输入的优越对齐,建立了条件视频合成的有效范式。
  • Conclusion: ACD通过注意力监督实现了视频扩散模型的直接条件控制,提供了一种有效提升视频生成条件对齐能力的新方法,解决了现有引导方法的局限性。

[56] GriDiT: Factorized Grid-Based Diffusion for Efficient Long Image Sequence Generation

Snehal Singh Tomar,Alexandros Graikos,Arjun Krishna,Dimitris Samaras,Klaus Mueller

Main category: cs.CV

TL;DR: 提出一种新的图像序列生成方法:先生成低分辨率序列,再单独超分辨率处理各帧,避免直接处理大张量,提升生成质量和效率

  • Motivation: 现有方法将图像序列视为堆叠的大张量,效率低下且存在瓶颈。需要更有效的图像序列建模方式,特别是针对生成模型
  • Method: 将生成过程分解为两步:1) 使用扩散变换器生成低分辨率序列(网格图像),利用自注意力机制捕捉帧间相关性;2) 对每个帧单独进行超分辨率处理,添加高分辨率细节
  • Result: 相比现有方法,在合成质量、序列一致性、任意长度序列生成、推理效率(至少快2倍)和训练数据使用方面均有显著提升,能有效泛化到不同数据域
  • Conclusion: 通过分解生成过程(先低分辨率序列生成,再帧级超分辨率),提供了一种更有效的图像序列生成方法,克服了现有方法的局限性,在质量和效率上均优于SOTA

[57] Surgical Scene Segmentation using a Spike-Driven Video Transformer with Real-Time Potential

Shihao Zou,Jingjing Li,Wei Ji,Jincai Huang,Kai Wang,Guo Dan,Weixin Si,Yi Pan

Main category: cs.CV

TL;DR: SpikeSurgSeg:首个面向手术场景分割的脉冲驱动视频Transformer框架,在非GPU平台上实现实时潜力,相比ANN模型减少8倍推理延迟,相比基础模型加速20倍以上。

  • Motivation: 现代手术系统依赖智能场景理解来提供及时的情境感知,但现有深度学习模型(尤其是基础模型)计算需求大、功耗高,难以在资源受限的手术环境中实时部署。脉冲神经网络(SNN)作为高效手术智能的潜力范式,但其性能受到标记手术数据稀缺和手术视频表示稀疏性的限制。
  • Method: 提出SpikeSurgSeg框架:1)引入手术场景掩码自编码预训练策略,通过分层管状掩码实现鲁棒的时空表示学习;2)基于预训练骨干网络,采用轻量级脉冲驱动分割头,在保持SNN低延迟特性的同时产生时间一致的预测。
  • Result: 在EndoVis18和内部SurgBleed数据集上的实验表明,SpikeSurgSeg达到与SOTA ANN模型相当的mIoU,同时减少至少8倍推理延迟。相比大多数基础模型基线,提供超过20倍的加速。
  • Conclusion: SpikeSurgSeg展示了在非GPU平台上实现实时手术场景分割的潜力,为资源受限的手术环境提供了高效解决方案,平衡了准确性和计算效率。

[58] Post-Processing Mask-Based Table Segmentation for Structural Coordinate Extraction

Suren Bandara

Main category: cs.CV

TL;DR: 提出一种基于多尺度信号处理的方法,从表格掩码中检测表格边缘,通过高斯卷积和统计阈值处理一维信号来准确识别行列边界,在噪声和低分辨率图像中表现鲁棒。

  • Motivation: 表格结构化数据提取在文档图像分析中至关重要,但现有方法在低分辨率或噪声图像中准确检测表格边界仍面临挑战。基于掩码的边缘检测方法虽然对噪声更鲁棒,但直接应用于图像会导致噪声敏感、分辨率损失或计算成本高的问题。
  • Method: 提出多尺度信号处理方法:将行列过渡建模为一维信号,使用方差逐渐增大的高斯卷积进行处理,然后通过统计阈值抑制噪声同时保留稳定的结构边缘。检测到的信号峰值映射回图像坐标以获得准确的边界分割。
  • Result: 在PubLayNet-1M基准测试中,使用TableNet与PyTesseract OCR时,提出的方法将列边缘检测的Cell-Aware Segmentation Accuracy (CASA)从67%提升到76%。该方法通过零填充和缩放策略对分辨率变化具有鲁棒性。
  • Conclusion: 该方法能够从表格掩码中准确检测表格边缘,在噪声和低分辨率条件下表现鲁棒,为下游分析提供优化的结构化表格输出。多尺度信号处理方法比直接应用掩码的方法更有效。

[59] AndroidLens: Long-latency Evaluation with Nested Sub-targets for Android GUI Agents

Yue Cao,Yingyao Wang,Pi Bu,Jingxuan Xing,Wei Jiang,Zekun Zhu,Junpeng Ma,Sashuai Zhou,Tong Lu,Jun Song,Yu Cheng,Yuning Jiang,Bo Zheng

Main category: cs.CV

TL;DR: AndroidLens是一个用于移动GUI代理的评估框架,包含571个长延迟任务,平均需要26步以上完成,涵盖38个真实世界领域,采用静态和动态评估方法。

  • Motivation: 现有GUI代理评估基准存在局限性:应用范围有限、任务简单、评估指标粗粒度,无法充分评估移动设备上真实复杂任务的自动化能力。
  • Method: 1) 构建包含571个长延迟任务的评估框架,任务源自38个真实世界领域;2) 采用静态评估保留真实异常并允许多个有效路径;3) 动态评估采用里程碑方案,通过平均任务进度(ATP)进行细粒度测量。
  • Result: 最佳模型仅达到12.7%的任务成功率,平均任务进度(ATP)为50.47%,揭示了真实环境中的关键挑战:环境异常、自适应探索和长期记忆保留。
  • Conclusion: AndroidLens提供了一个具有挑战性的评估框架,揭示了当前GUI代理在真实世界移动任务自动化中的局限性,为未来研究指明了方向。

[60] TICON: A Slide-Level Tile Contextualizer for Histopathology Representation Learning

Varun Belagali,Saarthak Kapse,Pierre Marza,Srijan Das,Zilinghan Li,Sofiène Boutaj,Pushpak Pati,Srikar Yellapragada,Tarak Nath Nandi,Ravi K Madduri,Joel Saltz,Prateek Prasanna,Stergios Christodoulidis Maria Vakalopoulou,Dimitris Samaras

Main category: cs.CV

TL;DR: TICON是一个基于Transformer的病理切片表示上下文化模型,能够为任何瓦片级基础模型生成丰富的上下文化嵌入,显著提升病理图像分析性能。

  • Motivation: 在计算病理学中,大型全切片图像中的小瓦片分析需要更大的图像上下文信息。现有的瓦片编码器方法提取脱离上下文的瓦片嵌入,无法建模对局部和全局任务都至关重要的丰富切片级信息,且不同瓦片编码器在不同下游任务上表现各异,需要一个统一的模型来上下文化任何瓦片级基础模型的嵌入。
  • Method: TICON使用单个共享编码器,通过掩码建模目标进行预训练,同时统一和上下文化来自不同瓦片级病理基础模型的表示。模型还预训练了一个聚合器,在TICON基础上形成切片级基础模型。
  • Result: TICON上下文化嵌入显著提升了多种任务的性能,在瓦片级基准测试(HEST-Bench、THUNDER、CATCH)和切片级基准测试(Patho-Bench)上建立了新的最先进结果。使用仅11K全切片图像预训练的切片级基础模型,性能超过了使用多达350K全切片图像预训练的最先进切片级基础模型。
  • Conclusion: TICON提供了一个统一的框架,能够为任何瓦片级基础模型生成丰富的上下文化嵌入,显著提升计算病理学中各种任务的性能,同时为构建高效的切片级基础模型提供了新途径。

[61] Fast SAM2 with Text-Driven Token Pruning

Avilasha Mandal,Chaoning Zhang,Fachrina Dewi Puspitasari,Xudong Wang,Jiaquan Zhang,Caiyan Qin,Guoqing Wang,Yang Yang,Heng Tao Shen

Main category: cs.CV

TL;DR: 提出文本引导的token剪枝框架,在SAM2中通过选择性减少token密度来提高推理效率,保持分割质量的同时显著降低计算和内存开销

  • Motivation: SAM2等视觉基础模型在视频对象分割方面虽有进步,但处理密集视觉token时计算和内存成本高,限制了实际部署。现有方法传播所有token,无论其与目标对象的相关性,导致二次内存注意开销
  • Method: 在视觉编码后、基于内存的传播前,引入文本引导的token剪枝框架。使用轻量级路由机制对token进行排名,整合局部视觉上下文、对象中心文本描述的语义相关性以及不确定性线索,仅保留最信息丰富的token进行下游处理
  • Result: 在多个具有挑战性的视频分割基准测试中,该方法相比未剪枝的SAM2基线实现了高达42.50%的更快推理速度和37.41%的更低GPU内存使用,同时保持竞争力的J和F性能
  • Conclusion: 编码后token剪枝为高效、提示感知的视频分割提供了实用有效的途径,突显了早期token选择在提高基于transformer的视频分割系统可扩展性方面的潜力,适用于实时和资源受限的应用

[62] Streaming Video Instruction Tuning

Jiaer Xia,Peixian Chen,Mengdan Zhang,Xing Sun,Kaiyang Zhou

Main category: cs.CV

TL;DR: Streamo是一个实时流视频大语言模型,作为通用交互助手,能够执行多种流视频任务,包括实时叙述、动作理解、事件描述、时间事件定位和时间敏感问答。

  • Motivation: 现有在线视频模型主要专注于问答或字幕生成等狭窄任务,缺乏能够处理多种流视频任务的通用实时视频助手。需要弥合离线视频感知模型与实时多模态助手之间的差距。
  • Method: 构建了Streamo-Instruct-465K大规模指令跟随数据集,涵盖多样化时间上下文和多任务监督;通过端到端训练流程在指令跟随数据集上进行统一训练。
  • Result: Streamo展现出强大的时间推理能力、响应式交互能力以及在多种流视频基准测试中的广泛泛化能力。实验表明该模型在流视频任务上表现优异。
  • Conclusion: Streamo向连续视频流中的统一智能视频理解迈出了一步,弥合了离线视频感知模型与实时多模态助手之间的差距。

[63] Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models

Li-Zhong Szu-Tu,Ting-Lin Wu,Chia-Jui Chang,He Syu,Yu-Lun Liu

Main category: cs.CV

TL;DR: 研究发现视觉语言模型存在显著流行度偏见,对著名建筑的识别准确率比普通建筑高34%,表明模型依赖记忆而非泛化理解。作者创建了YearGuessr数据集来系统研究此问题,并开发了流行度感知评估指标。

  • Motivation: 当前最先进的视觉语言模型存在严重流行度偏见,对著名建筑的识别准确率远高于普通建筑,这表明模型更多依赖记忆而非真正的泛化理解能力。这种偏见暴露了模型推理能力的根本缺陷。
  • Method: 创建了YearGuessr数据集,包含55,546个建筑图像,涵盖157个国家,标注了建造年份、GPS数据和页面浏览量。将建造年份预测任务构建为序数回归问题,并引入了流行度感知区间准确率指标来量化偏见。评估了30多个模型,包括作者提出的YearCLIP模型。
  • Result: 视觉语言模型在流行、记忆的项目上表现出色,但在未被识别的主题上表现显著较差,证实了模型存在严重的流行度偏见。YearGuessr成为该任务最大的开放基准数据集。
  • Conclusion: 视觉语言模型严重依赖记忆而非泛化理解,存在系统性流行度偏见。这暴露了当前模型推理能力的根本缺陷,需要开发更鲁棒的评估方法和模型架构来克服这一限制。

[64] HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming

Haonan Qiu,Shikun Liu,Zijian Zhou,Zhaochong An,Weiming Ren,Zhiheng Liu,Jonas Schult,Sen He,Shoufa Chen,Yuren Cong,Tao Xiang,Ziwei Liu,Juan-Manuel Perez-Rua

Main category: cs.CV

TL;DR: HiStream提出了一种高效的自回归框架,通过空间、时间和时间步三个维度的压缩来加速高分辨率视频生成,在保持视觉质量的同时实现76.2-107.5倍的加速。

  • Motivation: 高分辨率视频生成面临扩散模型二次复杂度的计算瓶颈,导致实际推理不可行,需要开发更高效的生成方法。
  • Method: HiStream采用自回归框架,通过三个维度的压缩:1) 空间压缩:先在低分辨率去噪,再用缓存特征在高分辨率细化;2) 时间压缩:分块策略配合固定大小的锚点缓存;3) 时间步压缩:对后续缓存条件块应用更少的去噪步骤。
  • Result: 在1080p基准测试中,HiStream模型(i+ii)达到最先进的视觉质量,去噪速度比Wan2.1基线快76.2倍,质量损失可忽略。HiStream+(i+ii+iii)实现107.5倍加速,在速度和质量之间提供良好权衡。
  • Conclusion: HiStream通过系统性的冗余减少,使高分辨率视频生成变得实用且可扩展,为实际应用提供了高效的解决方案。

cs.GR

[65] TexAvatars : Hybrid Texel-3D Representations for Stable Rigging of Photorealistic Gaussian Head Avatars

Jaeseong Lee,Junyeong Ahn,Taewoong Kang,Jaegul Choo

Main category: cs.GR

TL;DR: TexAvatars:结合解析绑定与纹理空间的混合头像表示方法,通过网格感知雅可比驱动3D变形,在极端姿态和表情下实现更好的泛化能力

  • Motivation: 现有3D头像方法(解析绑定或神经变形场)在极端重演场景中泛化能力不足,而基于3DMM纹理空间的方法未能充分利用底层网格结构,导致几何一致性弱和复杂变形外推能力有限
  • Method: 提出混合表示方法:在UV空间通过CNN预测局部几何属性,但通过网格感知雅可比驱动3D变形,将语义建模与几何控制分离,实现跨三角形边界的平滑语义过渡
  • Result: 在极端姿态和表情变化下达到最先进性能,能够捕捉肌肉诱导的皱纹、眉间纹和真实口腔几何等细粒度表情效果,在挑战性头部重演场景中表现出强泛化能力
  • Conclusion: TexAvatars通过结合解析绑定的显式几何基础与纹理空间的空间连续性,实现了更好的泛化性、可解释性和稳定性,为AR/XR应用提供了高质量的可驱动3D头像

physics.med-ph

[66] Equivariant Multiscale Learned Invertible Reconstruction for Cone Beam CT: From Simulated to Real Data

Nikita Moriakov,Efstratios Gavves,Jonathan H. Mason,Carmen Seller-Oria,Jonas Teuwen,Jan-Jakob Sonke

Main category: physics.med-ph

TL;DR: LIRE++是一种端到端旋转等变多尺度可逆原始对偶学习方法,用于快速、内存高效的CBCT重建,在合成和临床数据上均优于现有方法。

  • Motivation: CBCT图像质量低于传统CT限制了其应用,深度学习重建方法因缺乏真实数据、内存限制和临床分辨率下的快速推理需求而难以应用于CBCT。
  • Method: 提出LIRE++:端到端旋转等变多尺度可逆原始对偶学习方法,结合内存优化和多尺度重建实现快速训练推理,使用快速准蒙特卡洛CBCT投影模拟器生成训练数据。
  • Result: 在合成数据上,LIRE++比替代深度学习基线平均PSNR提高1dB;在真实临床数据上,相比当前最先进的混合深度学习方法,重建与规划CT之间的平均MAE减少10HU。
  • Conclusion: LIRE++通过旋转等变性和多尺度架构实现了高效CBCT重建,在合成和临床数据上均表现出优越性能,为CBCT临床应用提供了有前景的解决方案。

cs.LG

[67] MaskOpt: A Large-Scale Mask Optimization Dataset to Advance AI in Integrated Circuit Manufacturing

Yuting Hu,Lei Zhuang,Hua Xiang,Jinjun Xiong,Gi-Joon Nam

Main category: cs.LG

TL;DR: MaskOpt是一个用于IC掩模优化的大规模基准数据集,包含从45nm节点真实IC设计中提取的20多万个金属层和通孔层图块,支持不同上下文窗口大小,用于评估深度学习模型在考虑单元层次和周围环境情况下的掩模生成能力。

  • Motivation: 随着IC尺寸缩小到光刻波长以下,光学邻近校正和逆向光刻技术计算成本高昂。现有深度学习掩模优化数据集通常基于合成布局,忽略了标准单元层次结构和周围环境,限制了在实际掩模优化中的应用。
  • Method: 从45nm节点的真实IC设计中构建大规模基准数据集MaskOpt,包含104,714个金属层图块和121,952个通孔层图块。每个图块在标准单元放置处裁剪以保留单元信息,支持不同上下文窗口大小来捕捉光学邻近效应的影响。
  • Result: 评估了最先进的深度学习IC掩模优化模型,建立了基准测试结果,揭示了不同基线模型之间的权衡取舍。上下文大小分析和输入消融研究证实了周围几何形状和单元感知输入对于准确掩模生成的重要性。
  • Conclusion: MaskOpt数据集为细胞和上下文感知的掩模优化提供了重要资源,推动了深度学习在IC掩模优化中的应用,强调了考虑单元层次和周围环境对于实际掩模优化的重要性。

[68] HyDRA: Hierarchical and Dynamic Rank Adaptation for Mobile Vision Language Model

Yuanhao Xi,Xiaohuan Bing,Ramin Yahyapour

Main category: cs.LG

TL;DR: HyDRA:一种用于移动视觉语言模型的高效参数微调框架,通过分层动态秩调度实现优于基线4.7%的性能提升

  • Motivation: 移动视觉语言模型虽然应用场景广泛,但训练计算需求大成为实际应用障碍。标准LoRA固定秩方法不足以训练处理文本和图像模态的移动VLMs
  • Method: 提出HyDRA框架,包含两个优化策略:1)分层优化:粗粒度为不同层分配不同秩,细粒度调整单个层内秩;2)动态调整:使用轻量级性能模型进行端到端自动优化,在微调过程中确定和调整秩
  • Result: 在流行基准测试中,HyDRA始终优于基线,在各种模型大小上实现4.7%的性能提升,且不增加可训练参数数量。在某些任务中甚至超越全参数微调
  • Conclusion: HyDRA通过分层动态秩调度有效解决了移动VLMs高效微调问题,在保持参数效率的同时显著提升性能

[69] Generalization of Diffusion Models Arises with a Balanced Representation Space

Zekai Zhang,Xiao Li,Xiang Li,Lianghe Shi,Meng Wu,Molei Tao,Qing Qu

Main category: cs.LG

TL;DR: 该论文分析了扩散模型中记忆化与泛化的区别,发现记忆化对应存储原始训练样本的"尖峰"表示,而泛化对应捕捉局部数据统计的"平衡"表示,并基于此提出了检测记忆化和训练自由编辑的方法。

  • Motivation: 扩散模型在生成高质量多样化样本方面表现出色,但存在过拟合训练目标导致记忆训练数据的风险。需要理解记忆化与泛化的本质区别,以促进更好的生成建模。
  • Method: 通过表示学习的视角分析两层ReLU去噪自编码器(DAE),理论上证明记忆化与泛化的表示结构差异。在真实世界的无条件扩散模型和文本到图像扩散模型上验证理论发现,并基于表示结构提出记忆化检测方法和训练自由编辑技术。
  • Result: 理论分析表明:记忆化对应模型在编码和解码权重中存储原始训练样本,产生局部化的"尖峰"表示;泛化对应模型捕捉局部数据统计,产生"平衡"表示。实验验证了这些表示结构在深度生成模型中的存在,并展示了基于表示的方法在检测记忆化和精确控制生成方面的有效性。
  • Conclusion: 学习良好的表示是新颖且有意义的生成建模的核心。通过表示学习的视角可以区分记忆化与泛化,并开发出检测记忆化和实现精确控制的技术,对实际应用有重要意义。

[70] STLDM: Spatio-Temporal Latent Diffusion Model for Precipitation Nowcasting

Shi Quan Foo,Chi-Ho Wong,Zhihan Gao,Dit-Yan Yeung,Ka-Hing Wong,Wai-Kin Wong

Main category: cs.LG

TL;DR: STLDM是一种基于扩散模型的降水临近预报方法,通过变分自编码器和条件网络学习潜在表示,将任务分解为确定性预报和增强两个阶段,在多个雷达数据集上实现了最先进的性能。

  • Motivation: 降水临近预报对于预防极端天气灾害至关重要,但现有方法面临挑战:确定性模型预测模糊,生成模型精度不足。需要一种既能保持准确性又能生成清晰预测的方法。
  • Method: STLDM采用端到端的扩散模型架构,结合变分自编码器和条件网络学习潜在表示。将任务分解为:1)条件网络处理确定性预报阶段;2)潜在扩散模型执行增强阶段。
  • Result: 在多个雷达数据集上的实验结果表明,STLDM相比现有最先进方法取得了优越性能,同时提高了推理效率。
  • Conclusion: STLDM通过两阶段分解方法有效解决了降水临近预报中确定性与生成模型各自的局限性,实现了准确且清晰的预测,代码已开源。

[71] Improving the Convergence Rate of Ray Search Optimization for Query-Efficient Hard-Label Attacks

Xinjie Xu,Shuyu Cheng,Dongwei Xu,Qi Xuan,Chen Ma

Main category: cs.LG

TL;DR: 提出AR-OPT和PAR-OPT方法,利用动量加速和代理模型先验,显著提升硬标签黑盒对抗攻击的查询效率

  • Motivation: 硬标签黑盒对抗攻击中仅能获取top-1预测标签,查询复杂度极高,阻碍实际部署。现有方法在寻找最小L2范数扰动的最优射线方向时效率低下。
  • Method: 受Nesterov加速梯度启发,提出AR-OPT动量算法,通过累积动量主动估计未来射线方向的梯度。进一步结合代理模型先验,提出PAR-OPT方法增强梯度估计。
  • Result: 在ImageNet和CIFAR-10上超越13个最先进方法,显著提升查询效率。理论分析证明AR-OPT能实现更准确的方向更新和更快、更稳定的优化。
  • Conclusion: 提出的动量加速和代理模型先验方法有效解决了硬标签黑盒对抗攻击的高查询复杂度问题,为实际部署提供了高效解决方案。

[72] Does the Data Processing Inequality Reflect Practice? On the Utility of Low-Level Tasks

Roy Turgeman,Tom Tirer

Main category: cs.LG

TL;DR: 数据处理的经典信息论不等式表明信号处理不会增加信息量,但在实际分类任务中,低层预处理(如去噪、编码)仍能提升有限训练样本下的分类性能。

  • Motivation: 尽管数据处理不等式表明信号处理不会增加信息量,且最优贝叶斯分类器理论上不需要预处理,但实际中人们常在分类前进行低层处理(如去噪、编码)。本文旨在探究在有限训练样本下,为何以及何时低层预处理能提升分类性能。
  • Method: 1. 对二元分类问题进行理论分析,构建与最优贝叶斯分类器紧密相关、随训练样本增加而收敛的分类器;2. 证明对于任何有限训练样本,存在能提升分类准确率的预处理方法;3. 研究类别分离度、训练集大小、类别平衡性对预处理增益的影响;4. 在理论框架下进行实证验证;5. 在实际深度分类器上研究去噪和编码对基准数据集性能的影响,分析训练集大小、类别分布和噪声水平的影响。
  • Result: 1. 理论证明:对于任何有限训练样本,存在能提升分类准确率的预处理方法;2. 预处理增益受类别分离度、训练集大小和类别平衡性影响;3. 实证研究验证了理论结果,显示去噪和编码在有限训练样本下能提升实际深度分类器的性能,且趋势与理论分析一致。
  • Conclusion: 数据处理不等式在无限训练样本的最优贝叶斯分类器下成立,但在有限训练样本的实际分类任务中,低层预处理(如去噪、编码)能有效提升分类性能。预处理的价值取决于类别分离度、训练集大小和类别平衡性等实际因素。

physics.flu-dyn

[73] Flow Gym

Francesco Banelli,Antonio Terpin,Alan Bonomi,Raffaello D'Andrea

Main category: physics.flu-dyn

TL;DR: Flow Gym是一个用于流场量化方法研究和部署的工具包,基于OpenAI Gym和Stable-Baselines3设计,提供统一的算法测试、部署和训练接口

  • Motivation: 为流场量化方法的研究和部署提供一个标准化的工具包,解决现有方法缺乏统一接口和测试平台的问题,促进算法比较和实际应用
  • Method: 基于OpenAI Gym和Stable-Baselines3设计架构,使用SynthPix作为合成图像生成引擎,提供统一接口支持多种流场量化算法的测试、部署和训练
  • Result: 开发了Flow Gym工具包,集成了现有算法并在JAX中提供稳定实现,支持从连续示踪粒子图像进行流场量化的学习和传统算法
  • Conclusion: Flow Gym为流场量化方法研究提供了标准化平台,有助于算法比较、复现和实际部署,未来将继续扩展算法集成和功能

cs.AI

[74] MegaRAG: Multimodal Knowledge Graph-Based Retrieval Augmented Generation

Chi-Hsiang Hsiao,Yi-Cheng Wang,Tzung-Sheng Lin,Yi-Ren Yeh,Chu-Song Chen

Main category: cs.AI

TL;DR: 提出多模态知识图谱增强的检索生成方法,通过整合视觉线索提升对长文档的理解和推理能力

  • Motivation: 传统检索增强生成方法在处理长文档和跨模态内容时存在局限:1)上下文窗口有限,难以进行深度推理;2)现有知识图谱方法仅支持文本输入,无法利用视觉信息;3)视觉文档理解需要整合文本、视觉和空间线索
  • Method: 提出多模态知识图谱增强的检索生成框架,将视觉线索整合到知识图谱构建、检索和答案生成三个关键阶段,支持跨模态推理
  • Result: 在全局和细粒度问答任务上的实验表明,该方法在文本和多模态语料库上均优于现有检索增强生成方法
  • Conclusion: 通过整合视觉线索到知识图谱中,实现了更好的跨模态内容理解和推理能力,为处理长文档和多模态内容提供了有效解决方案

[75] RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic

Le Wang,Zonghao Ying,Xiao Yang,Quanchen Zou,Zhenfei Yin,Tianlin Li,Jian Yang,Yaodong Yang,Aishan Liu,Xianglong Liu

Main category: cs.AI

TL;DR: RoboSafe:一种基于可执行谓词安全逻辑的混合推理运行时安全防护系统,用于具身智能体,通过前后向推理显著减少危险行为

  • Motivation: 现有基于静态规则过滤或提示级控制的运行时安全防护难以应对动态、时间依赖和上下文丰富的环境中的隐含风险,需要更灵活、可验证的安全逻辑
  • Method: 提出RoboSafe,包含:1)后向反思推理模块,持续回顾短期记忆中的轨迹推断时间安全谓词;2)前向预测推理模块,从长期安全记忆和多模态观察中生成上下文感知安全谓词;两者在混合长短安全记忆上协同工作
  • Result: 在多个智能体上的实验表明,RoboSafe显著减少危险行为(风险发生率降低36.8%),同时保持接近原始的任务性能;物理机械臂的真实世界评估进一步证实其实用性
  • Conclusion: RoboSafe提供了一种自适应、可验证、可解释且可执行为代码的安全逻辑,有效解决了具身智能体在动态环境中的运行时安全问题

cs.RO

[76] Language-Guided Grasp Detection with Coarse-to-Fine Learning for Robotic Manipulation

Zebin Jiang,Tianle Jin,Xiangtong Yao,Alois Knoll,Hu Cao

Main category: cs.RO

TL;DR: 提出LGGD方法,通过粗到细的学习范式实现语言引导的机器人抓取检测,利用CLIP嵌入进行跨模态融合,在多个数据集上超越现有方法

  • Motivation: 现有语言引导抓取方法通常采用浅层融合策略,导致语义基础有限,语言意图与视觉抓取推理之间的对齐较弱。在非结构化、杂乱和语义多样的环境中,机器人需要更好地理解和执行自然语言指令
  • Method: 提出LGGD方法:1) 利用CLIP视觉和文本嵌入的层次化跨模态融合管道,逐步注入语言线索到视觉特征重建过程;2) 引入语言条件动态卷积头(LDCH),基于句子级特征混合多个卷积专家;3) 最终细化模块增强复杂场景中的抓取一致性和鲁棒性
  • Result: 在OCID-VLG和Grasp-Anything++数据集上超越现有语言引导抓取方法,对未见过的物体和多样化语言查询表现出强泛化能力。在实际机器人平台上部署验证了方法的实际有效性
  • Conclusion: LGGD通过粗到细的学习范式和层次化跨模态融合,实现了精细的视觉-语义对齐,提高了抓取预测的任务指令可行性,为语言引导的机器人操作提供了有效解决方案

[77] Schrödinger's Navigator: Imagining an Ensemble of Futures for Zero-Shot Object Navigation

Yu He,Da Huang,Zhenyang Liu,Zixiao Gu,Qiang Sun,Guangnan Ye,Yanwei Fu

Main category: cs.RO

TL;DR: 提出Schrödinger's Navigator框架,通过轨迹条件3D世界模型想象未来观测,解决零样本物体导航在遮挡、风险和动态目标环境中的挑战

  • Motivation: 现有零样本物体导航方法在现实杂乱环境中表现不佳,特别是在存在严重遮挡、未知风险或动态移动目标的情况下。需要一种能够处理这些挑战的新方法。
  • Method: 受薛定谔思想实验启发,将未观测空间视为一组可能的未来世界。基于自中心视觉输入和三个候选轨迹,使用轨迹条件3D世界模型想象每条路径上的未来观测。将想象的3D观测融合到导航地图中,更新价值地图,引导策略选择避免遮挡、减少不确定空间暴露并更好跟踪移动目标的轨迹。
  • Result: 在Go2四足机器人上的三个挑战性场景(严重静态遮挡、未知风险、动态移动目标)实验中,Schrödinger's Navigator在自定位、物体定位和整体成功率方面均优于强基线方法,特别是在遮挡严重环境中。
  • Conclusion: 轨迹条件3D想象能够实现鲁棒的零样本物体导航,通过想象未来观测使智能体能够"看穿"遮挡并预见未观测区域的风险,无需额外绕行或密集全局建图。