Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] VL4Gaze: Unleashing Vision-Language Models for Gaze Following
Shijing Wang,Chaoqun Cui,Yaping Huang,Hyung Jin Chang,Yihua Cheng
Main category: cs.CV
TL;DR: VL4Gaze:首个大规模基准测试,用于评估和训练视觉语言模型在注视理解方面的能力,包含48.9万个自动生成的问答对,涵盖四个互补任务。
- Motivation: 人类注视为理解视觉场景中的注意力、意图和社会互动提供了重要线索,但当前视觉语言模型在注视理解方面尚未得到充分探索。目前缺乏系统评估或训练模型注视理解能力的基准测试,需要填补这一空白。
- Method: 构建VL4Gaze基准测试,包含124K张图像上的489K个自动生成的问答对,将注视理解统一为视觉问答问题,涵盖四个任务:注视对象描述、注视方向描述、注视点定位和模糊问题识别。
- Result: 评估显示,即使大规模视觉语言模型在没有任务特定监督的情况下也难以可靠推断注视语义和空间定位。而在VL4Gaze上进行训练能带来显著且一致的改进,凸显了针对性多任务监督的重要性。
- Conclusion: 需要针对性的多任务监督来开发视觉语言模型的注视理解能力,VL4Gaze基准测试为这一方向的研究和开发提供了重要支持。
[2] TrashDet: Iterative Neural Architecture Search for Efficient Waste Detection
Tony Tran,Bin Hu
Main category: cs.CV
TL;DR: 提出TrashDets系列检测器,通过硬件感知神经架构搜索在TACO数据集上实现垃圾检测,满足TinyML严格约束,显著提升能效和性能。
- Motivation: 解决在资源受限的边缘和物联网设备上进行垃圾检测的挑战,需要满足TinyML的严格约束(计算、内存、能耗限制),同时保持检测精度。
- Method: 采用迭代硬件感知神经架构搜索框架,构建Once-for-All风格的ResDets超网络,通过交替优化主干网络和颈部/头部结构,结合种群传递机制和精度预测器降低搜索成本。
- Result: TrashDet-l在五类TACO子集上达到19.5 mAP50(30.5M参数),比现有检测器精度提升3.6 mAP50且参数更少。在MAX78002微控制器上,TrashDet-ResNet实现7525μJ能耗/26.7ms延迟/37.45 FPS,TrashDet-MBNet提升mAP50 10.2%,相比现有TinyML检测器能耗降低88%、延迟降低78%、平均功耗降低53%。
- Conclusion: 提出的TrashDets系列为资源受限硬件提供了可扩展的垃圾检测解决方案,在TinyML约束下实现了精度、能效和延迟的显著改进,适用于多样化的边缘部署场景。
[3] OccuFly: A 3D Vision Benchmark for Semantic Scene Completion from the Aerial Perspective
Markus Gross,Sai B. Matha,Aya Fahmy,Rui Song,Daniel Cremers,Henri Meess
Main category: cs.CV
TL;DR: 首个基于相机的真实世界空中语义场景补全基准OccuFly,为无人机3D感知提供数据集和标注框架
- Motivation: 语义场景补全在移动机器人3D感知中至关重要,但现有研究主要集中于地面场景(如自动驾驶),空中场景(如自主飞行)尚未充分探索。同时,LiDAR作为主要数据采集方式对无人机存在诸多限制(法规、重量、能耗、稀疏性),而相机在无人机上普遍存在但缺乏相应基准。
- Method: 提出OccuFly基准:1)在50m、40m、30m高度采集春夏秋冬四季数据,覆盖城市、工业、农村场景;2)提供22个语义类别,遵循现有数据格式便于集成;3)提出基于相机的无LiDAR数据生成框架,利用传统3D重建技术将标注的2D掩码提升到重建点云中,大幅减少手动3D标注工作量。
- Result: 建立了首个真实世界相机空中SSC基准,包含多高度、多季节、多场景数据。在OccuFly上对现有最先进方法进行基准测试,突出了高空视角特有的挑战,为全面的空中3D场景理解提供了视觉基准。
- Conclusion: OccuFly填补了空中语义场景补全研究的空白,为无人机3D感知提供了重要基准。基于相机的数据生成框架解决了LiDAR在无人机应用中的限制,降低了标注成本,促进了空中场景理解研究的发展。
[4] NULLBUS: Multimodal Mixed-Supervision for Breast Ultrasound Segmentation via Nullable Global-Local Prompts
Raja Mallina,Bryar Shareef
Main category: cs.CV
TL;DR: NullBUS:一种用于乳腺超声分割的多模态混合监督框架,通过可学习的空嵌入处理缺失的文本提示,在有无提示的情况下都能学习,在三个公共数据集上达到SOTA性能。
- Motivation: 乳腺超声分割对计算机辅助诊断和治疗规划至关重要。现有的可提示方法需要文本或空间提示才能提升性能,但许多公共BUS数据集缺乏可靠的元数据或报告,导致只能在小规模多模态子集上训练,降低了模型的鲁棒性。
- Method: 提出NullBUS多模态混合监督框架,在单个模型中同时学习有提示和无提示的图像。针对缺失文本问题,引入可空提示,通过可学习的空嵌入和存在掩码实现:当元数据缺失时回退到仅图像证据,当文本存在时则利用文本信息。
- Result: 在三个公共BUS数据集的统一池上评估,NullBUS达到平均IoU 0.8568和平均Dice 0.9103,在混合提示可用性条件下展示了最先进的性能。
- Conclusion: NullBUS通过可空提示机制有效解决了BUS分割中元数据缺失的问题,实现了在有无文本提示情况下的鲁棒分割,为实际临床应用中数据质量不一的情况提供了实用解决方案。
[5] Learning to Sense for Driving: Joint Optics-Sensor-Model Co-Design for Semantic Segmentation
Reeshad Khan amd John Gauch
Main category: cs.CV
TL;DR: 提出一个任务驱动的端到端RAW-to-task框架,联合优化光学设计、传感器建模和语义分割网络,相比传统分离式自动驾驶感知系统在KITTI-360上获得mIoU提升,尤其对细长或低光敏感类别效果显著。
- Motivation: 传统自动驾驶系统将相机设计与下游感知任务解耦,使用固定光学元件和手工ISP处理,优先生成人眼可视图像而非机器语义信息。这种分离在去马赛克、去噪或量化过程中丢弃信息,并迫使模型适应传感器伪影。
- Method: 提出端到端RAW-to-task联合设计框架,集成真实手机级镜头模型、可学习颜色滤波阵列、泊松-高斯噪声过程和量化,直接针对分割目标进行优化。基于DeepLens构建,包含轻量级语义分割网络。
- Result: 在KITTI-360上评估显示,相比固定处理流程获得一致的mIoU提升,其中光学建模和CFA学习贡献最大增益,尤其对细长或低光敏感类别。紧凑的~1M参数模型能以~28 FPS运行,具备边缘部署能力。
- Conclusion: 联合优化光学、传感器和网络是实现高效、可靠、可部署自动驾驶感知系统的原则性路径。协同设计的传感器能够适应语义结构获取,在模糊、噪声和低比特深度下保持边界锐化和精度。
[6] CHAMMI-75: pre-training multi-channel models with heterogeneous microscopy images
Vidit Agrawal,John Peters,Tyler N. Thompson,Mohammad Vali Sanian,Chau Pham,Nikita Moshkov,Arshad Kazi,Aditya Pillai,Jack Freeman,Byunguk Kang,Samouil L. Farhi,Ernest Fraenkel,Ron Stewart,Lassi Paavolainen,Bryan A. Plummer,Juan C. Caicedo
Main category: cs.CV
TL;DR: CHAMMI-75是一个包含75个不同生物学研究的异质多通道显微镜图像数据集,旨在训练能够适应不同通道数、处理各种显微镜图像类型的细胞形态量化模型。
- Motivation: 当前细胞形态量化模型通常针对单一显微镜成像类型训练,导致模型无法跨研究重复使用,因为技术规格不匹配(如通道数不同)或目标实验条件超出分布范围。
- Method: 从公开来源整理并构建CHAMMI-75数据集,包含75个不同生物学研究的异质多通道显微镜图像,用于训练通道自适应、能处理任何显微镜图像类型的细胞形态模型。
- Result: 实验表明,使用CHAMMI-75训练可以提升多通道生物成像任务的性能,主要归因于其在显微镜模态方面的高度多样性。
- Conclusion: 这项工作为创建下一代适用于生物学研究的细胞形态模型铺平了道路。
[7] Input-Adaptive Visual Preprocessing for Efficient Fast Vision-Language Model Inference
Putu Indah Githa Cahyani,Komang David Dananjaya Suartana,Novanto Yudistira
Main category: cs.CV
TL;DR: 提出自适应视觉预处理方法,动态调整输入分辨率和空间覆盖范围,显著降低FastVLM推理延迟和计算成本
- Motivation: 视觉语言模型在处理高分辨率视觉输入时存在高推理延迟和计算成本问题,现有静态视觉预处理方法对视觉简单输入存在冗余计算
- Method: 结合内容感知图像分析、自适应分辨率选择和内容感知裁剪,在视觉编码前减少视觉冗余,无需修改FastVLM架构或重新训练
- Result: 在DocVQA数据集上,每图像推理时间减少超50%,平均完整生成时间降低,视觉标记数比基线减少超55%
- Conclusion: 输入感知预处理是提高视觉语言模型部署效率的有效轻量级策略
[8] ALIVE: An Avatar-Lecture Interactive Video Engine with Content-Aware Retrieval for Real-Time Interaction
Md Zabirul Islam,Md Motaleb Hossen Manik,Ge Wang
Main category: cs.CV
TL;DR: ALIVE是一个本地部署的交互式学习系统,将传统讲座视频转化为动态实时学习体验,通过AI虚拟形象、内容感知检索和多模态交互实现实时答疑。
- Motivation: 传统讲座视频缺乏实时澄清机制,学习者在困惑时需要外部搜索。现有交互学习系统通常缺乏讲座意识、依赖云端服务,或未能将检索和虚拟形象解释集成到统一的隐私保护流程中。
- Method: ALIVE系统包含三个核心组件:(1) 通过ASR转录、LLM精炼和神经说话头合成生成的虚拟形象讲座;(2) 结合语义相似性和时间戳对齐的内容感知检索机制;(3) 支持文本或语音提问、以文本或虚拟形象回复的实时多模态交互。系统采用轻量级嵌入模型、FAISS检索和分段虚拟形象合成。
- Result: 在完整的医学影像课程上演示,评估显示ALIVE提供准确、内容感知且吸引人的实时支持。系统检索准确,延迟特性良好,用户体验积极。
- Conclusion: ALIVE展示了多模态AI结合内容感知检索和本地部署如何显著提升录制讲座的教学价值,为下一代交互式学习环境提供了可扩展的途径。
[9] Lightweight framework for underground pipeline recognition and spatial localization based on multi-view 2D GPR images
Haotian Lv,Chao Li,Jiangbo Dai,Yuhui Zhang,Zepeng Fan,Yiqiu Tan,Dawei Wang,Binglei Xie
Main category: cs.CV
TL;DR: 本文提出了一种用于3D探地雷达地下管道检测的智能框架,通过三视图联合分析、改进的YOLO算法和三维空间特征匹配,显著提升了复杂场景下小尺度管道的检测精度。
- Motivation: 针对3D探地雷达在地下管道检测中存在的多视图特征相关性弱、小尺度目标识别精度低、复杂场景鲁棒性不足等问题,需要开发更有效的智能检测框架。
- Method: 1. 基于B/C/D-Scan三视图联合分析策略,建立三维管道三视图特征评估方法;2. 提出DCO-YOLO框架,集成DySample、CGLU和OutlookAttention机制改进YOLOv11;3. 提出3D-DIoU空间特征匹配算法,实现多视图标注的自动关联。
- Result: 在真实城市地下管道数据上的实验显示,该方法在复杂多管道场景下的准确率、召回率和平均精度分别为96.2%、93.3%和96.7%,比基线模型分别提高了2.0%、2.1%和0.9%。
- Conclusion: 本研究将深度学习优化策略与3D探地雷达物理特性相结合,为地下管道的智能识别与定位提供了一个高效可靠的新技术框架,三视图融合策略有效解决了单视图检测的固有模糊性问题。
[10] NeRV360: Neural Representation for 360-Degree Videos with a Viewport Decoder
Daichi Arai,Kyohei Unno,Yasuko Sugito,Yuichi Kusakabe
Main category: cs.CV
TL;DR: NeRV360:针对高分辨率360度视频的神经隐式表示压缩框架,通过选择性视口解码而非全景重建,大幅降低内存消耗并提升解码速度。
- Motivation: 现有NeRV方法应用于高分辨率360度视频时存在内存占用高、解码速度慢的问题,难以实现实时应用,需要更高效的解决方案。
- Method: 提出端到端框架NeRV360,将视口提取集成到解码过程中,引入时空仿射变换模块,根据视点和时间进行条件解码,只解码用户选择的视口而非整个全景帧。
- Result: 在6K分辨率视频上,相比代表性先前工作HNeRV,NeRV360实现了7倍内存消耗降低和2.5倍解码速度提升,同时在客观指标上提供更好的图像质量。
- Conclusion: NeRV360通过选择性视口解码策略,有效解决了360度视频神经隐式表示的高内存和慢解码问题,为实时应用提供了可行方案。
[11] Beyond Weight Adaptation: Feature-Space Domain Injection for Cross-Modal Ship Re-Identification
Tingfeng Xian,Wenlve Zhou,Zhiheng Zhou,Zhelin Li
Main category: cs.CV
TL;DR: 提出DRI方法,通过特征空间优化而非权重空间微调,在冻结视觉基础模型的同时注入领域特定表示,实现跨模态船舶重识别
- Motivation: 跨模态船舶重识别面临显著模态差异挑战,现有方法依赖大规模配对数据集进行预训练和显式模态对齐,计算成本高且不灵活
- Method: 提出领域表示注入(DRI)方法:保持视觉基础模型完全冻结,设计轻量级偏移编码器提取模态和身份属性丰富的领域特定表示,通过调制器自适应转换后注入中间层
- Result: 在HOSS-ReID数据集上仅用1.54M和7.05M参数分别达到57.9%和60.5% mAP,实现SOTA性能且参数效率极高
- Conclusion: DRI方法通过特征空间优化有效桥接模态差异,在最小化可训练参数的同时最大化保留基础模型的通用知识,为跨模态重识别提供高效解决方案
[12] DGSAN: Dual-Graph Spatiotemporal Attention Network for Pulmonary Nodule Malignancy Prediction
Xiao Yu,Zhaojie Fang,Guanyu Zhou,Yin Shen,Huoling Luo,Ye Li,Ahmed Elazab,Xiang Wan,Ruiquan Ge,Changmiao Wang
Main category: cs.CV
TL;DR: 提出Dual-Graph Spatiotemporal Attention Network (DGSAN),通过双图构建和分层跨模态图融合,利用多模态和多时序信息提升肺结节分类准确率。
- Motivation: 肺癌是全球癌症相关死亡的主要原因,早期检测肺结节对提高患者生存率至关重要。现有多模态融合方法局限于低效的向量拼接和简单的相互注意力机制,需要更有效的多模态信息融合方法。
- Method: 1. 提出Dual-Graph Spatiotemporal Attention Network (DGSAN);2. 开发Global-Local Feature Encoder捕捉肺结节的局部、全局和融合特征;3. 提出Dual-Graph Construction方法将多模态特征组织为模态间图和模态内图;4. 引入Hierarchical Cross-Modal Graph Fusion Module优化特征融合;5. 构建新的多模态数据集NLST-cmst。
- Result: 在NLST-cmst和CSTL-derived数据集上的实验表明,DGSAN在肺结节分类任务上显著优于现有最先进方法,且具有出色的计算效率。
- Conclusion: 提出的DGSAN框架通过有效的双图时空注意力机制和多模态融合,显著提升了肺结节分类性能,为肺癌早期诊断提供了有力工具。
[13] Benchmarking and Enhancing VLM for Compressed Image Understanding
Zifu Zhang,Tongda Xu,Siqi Li,Shengxi Li,Yue Zhang,Mai Xu,Yan Wang
Main category: cs.CV
TL;DR: 本文提出了首个评估视觉语言模型处理压缩图像能力的基准测试,分析了性能差距来源,并提出通用适配器提升性能10%-30%
- Motivation: 随着视觉语言模型的快速发展和应用需求增长,高效压缩图像输入变得日益重要。现有VLM主要处理高比特率压缩图像,而对低比特率压缩图像的理解能力尚未被充分探索。
- Method: 1) 创建包含超过100万张压缩图像的基准测试,涵盖多种图像编解码器和任务;2) 分析性能差距来源:压缩过程中的信息损失和VLM泛化失败;3) 提出通用VLM适配器来增强模型对压缩图像的处理能力。
- Result: 1) 建立了首个全面的压缩图像VLM评估基准;2) 识别出压缩图像的性能差距主要来自泛化失败而非信息损失;3) 提出的通用适配器能在不同编解码器和比特率下提升VLM性能10%-30%。
- Conclusion: 该研究为理解VLM处理压缩图像的能力提供了重要基准和方法,提出的通用适配器能有效弥合VLM与压缩图像之间的性能差距,具有实际应用价值。
[14] PanoGrounder: Bridging 2D and 3D with Panoramic Scene Representations for VLM-based 3D Visual Grounding
Seongmin Jung,Seongho Choi,Gunwoo Jeon,Minsu Cho,Jongwoo Lim
Main category: cs.CV
TL;DR: PanoGrounder:一个通用的3D视觉定位框架,通过多模态全景表示结合预训练的2D视觉语言模型,实现强大的视觉语言推理能力
- Motivation: 传统监督模型依赖显式3D几何但泛化能力有限,主要受限于3D视觉语言数据稀缺和推理能力不足。需要结合现代视觉语言模型的强大推理能力来解决3D视觉定位问题。
- Method: 提出三阶段流程:1)基于场景布局和几何放置紧凑的全景点;2)使用VLM在每个全景渲染上定位文本查询;3)通过提升将每个视图预测融合为单个3D边界框。使用增强了3D语义和几何特征的全景渲染作为2D和3D之间的中间表示。
- Result: 在ScanRefer和Nr3D数据集上达到最先进结果,并在未见过的3D数据集和文本重述上表现出优异的泛化能力。
- Conclusion: PanoGrounder通过将全景表示与预训练2D VLM结合,为3D视觉定位提供了一个通用且泛化能力强的解决方案,有效弥合了2D视觉语言模型与3D场景理解之间的差距。
[15] Self-supervised Multiplex Consensus Mamba for General Image Fusion
Yingying Wang,Rongjin Zhuang,Hui Zheng,Xuanhua He,Ke Cao,Xiaotong Tu,Xinghao Ding
Main category: cs.CV
TL;DR: SMC-Mamba:基于自监督多路共识Mamba框架的通用图像融合方法,通过模态无关特征增强和多路共识跨模态Mamba模块,结合双层自监督对比学习损失,在多种融合任务和下游视觉任务中达到SOTA性能。
- Motivation: 通用图像融合需要处理多种任务并提升性能而不增加复杂度,而现有任务特定方法主要关注模态间信息整合,无法满足通用需求。
- Method: 提出SMC-Mamba框架:1) MAFE模块通过自适应门控保留细节,通过空间-通道和频率-旋转扫描增强全局表示;2) MCCM模块实现专家动态协作达成共识,整合多模态互补信息;3) BSCL损失函数在不增加计算开销下保留高频信息并提升下游任务性能。
- Result: 在红外-可见光、医学、多焦点、多曝光等多种图像融合任务及下游视觉任务中,超越现有SOTA算法。
- Conclusion: SMC-Mamba为通用图像融合提供了有效解决方案,通过创新的模块设计和损失函数,在保持低复杂度的同时显著提升融合质量和下游任务性能。
[16] Quantile Rendering: Efficiently Embedding High-dimensional Feature on 3D Gaussian Splatting
Yoonwoo Jeong,Cheng Sun,Frank Wang,Minsu Cho,Jaesung Choe
Main category: cs.CV
TL;DR: 提出Q-Render渲染策略和GS-Net网络,解决3D高斯特征渲染效率问题,实现实时高维特征渲染并提升分割质量
- Motivation: 现有3D开放词汇分割方法使用码本或特征压缩会导致信息损失,降低分割质量,高维特征渲染效率低下
- Method: 提出Quantile Rendering (Q-Render)策略,稀疏采样沿射线有主导影响的3D高斯;结合可泛化3D神经网络构建Gaussian Splatting Network (GS-Net)
- Result: 在ScanNet和LeRF数据集上超越SOTA方法,512维特征图渲染速度提升约43.7倍,实现实时渲染
- Conclusion: Q-Render和GS-Net有效解决了3D高斯高维特征渲染的效率瓶颈,在保持高质量的同时实现实时渲染
[17] Transductive Visual Programming: Evolving Tool Libraries from Experience for Spatial Reasoning
Shengguang Wu,Xiaohan Wang,Yuhui Zhang,Hao Zhu,Serena Yeung-Levy
Main category: cs.CV
TL;DR: TVP通过从自身经验中学习构建新工具,而非预先推测,实现了自我进化的视觉编程代理,在3D空间推理任务上取得SOTA性能。
- Motivation: 现有视觉编程方法依赖固定工具集或问题解决前的推测性工具归纳,导致程序次优且工具利用率低。需要一种能从经验中学习构建工具的方法来提升3D空间推理能力。
- Method: 提出Transductive Visual Programming (TVP)框架:1) 使用基础工具解决问题,将经验解存入示例库;2) 从这些程序中抽象出重复模式,构建可重用高层工具存入工具库;3) 用不断进化的工具库解决新问题。
- Result: 在Omni3D-Bench上超越GPT-4o 22%,比之前最佳视觉编程系统提升11%。学习到的工具使用频率比归纳方法高5倍,且在SpatialScore-Hard基准上无需修改即展现强大泛化能力。
- Conclusion: 经验驱动的转导式工具创建是构建自我进化视觉编程代理的有效范式,能显著提升复杂空间推理任务的解决能力。
[18] Reasoning-Driven Amodal Completion: Collaborative Agents and Perceptual Evaluation
Hongxing Fan,Shuyu Zhao,Jiayang Ao,Lu Sheng
Main category: cs.CV
TL;DR: 提出协作多智能体推理框架,通过语义规划与视觉合成解耦,结合验证智能体和多样化假设生成器,实现语义一致的单次合成,并引入MAC-Score评估指标。
- Motivation: 现有渐进式方法存在推理不稳定和错误累积问题,难以保持语义一致性和结构完整性,需要更稳健的amodal completion方法。
- Method: 协作多智能体推理框架,将语义规划与视觉合成解耦;包含验证智能体(使用思维链推理修正分割)和多样化假设生成器(提供多种语义解释);引入MAC-Score评估指标。
- Result: 在多个数据集上显著优于现有方法,验证了框架的有效性;MAC-Score与人类判断和真实数据一致,建立了稳健的评估标准。
- Conclusion: 通过解耦语义规划和视觉合成,结合验证机制和多样化假设,实现了语义和视觉一致的amodal completion,为不可见区域推理提供了新框架。
[19] Beyond Artifacts: Real-Centric Envelope Modeling for Reliable AI-Generated Image Detection
Ruiqi Liu,Yi Han,Zhengbo Zhang,Liwei Yao,Zhiyuan Yan,Jialiang Shen,ZhiJin Chen,Boyi Sun,Lubin Weng,Jing Dong,Yan Wang,Shu Wu
Main category: cs.CV
TL;DR: 提出REM方法,从学习生成器伪影转向建模真实图像分布,通过特征扰动生成近真实样本,使用包络估计器学习真实图像流形边界,在RealChain基准上表现优异。
- Motivation: 现有检测器过度拟合特定生成器伪影,对真实世界退化高度敏感。随着生成架构演进和图像多轮跨平台共享处理,这些伪影线索变得过时且难以检测。
- Method: 提出Real-centric Envelope Modeling (REM):1) 在自重建中引入特征级扰动生成近真实样本;2) 使用具有跨域一致性的包络估计器学习真实图像流形边界;3) 构建RealChain基准覆盖开源和商业生成器及模拟真实世界退化。
- Result: 在八个基准评估中,REM平均比最先进方法提升7.5%,在严重退化的RealChain基准上保持优异泛化能力,为真实世界条件下的合成图像检测奠定基础。
- Conclusion: REM通过建模真实图像分布而非生成器伪影,显著提升了合成图像检测在真实世界条件下的鲁棒性和泛化能力,为解决生成模型快速发展带来的检测挑战提供了新范式。
[20] SPOT!: Map-Guided LLM Agent for Unsupervised Multi-CCTV Dynamic Object Tracking
Yujin Noh,Inho Jake Park,Chigon Hwang
Main category: cs.CV
TL;DR: SPOT是一种基于地图引导的LLM代理,能够在多CCTV环境的盲区中追踪车辆,无需预先训练,通过结合地图空间信息和车辆运动特征预测车辆最可能出现的下一个CCTV位置。
- Motivation: 多CCTV环境中,由于摄像头间隔和视野限制导致的盲区会造成车辆ID切换和轨迹丢失,降低了实时路径预测的可靠性,需要解决盲区中的连续追踪问题。
- Method: 将道路结构和CCTV布局信息基于2D空间坐标表示为文档,通过分块技术组织以支持实时查询;将车辆位置转换到实际世界坐标系;结合地图空间信息、车辆运动方向、速度和驾驶模式,在交叉口级别进行波束搜索,预测车辆最可能进入的下一个CCTV位置。
- Result: 在CARLA模拟器的虚拟城市环境中,SPOT方法能够准确预测盲区后车辆最可能出现的下一个CCTV位置,比现有技术更有效地维持连续车辆轨迹。
- Conclusion: SPOT方法通过地图引导的LLM代理,成功解决了多CCTV环境中盲区导致的车辆追踪中断问题,实现了无需训练的连续轨迹预测,提高了追踪系统的可靠性。
[21] XGrid-Mapping: Explicit Implicit Hybrid Grid Submaps for Efficient Incremental Neural LiDAR Mapping
Zeqing Song,Zhongmiao Yan,Junyuan Deng,Songpengcheng Xia,Xiang Mu,Jingyi Xu,Qi Wu,Ling Pei
Main category: cs.CV
TL;DR: XGrid-Mapping:一种结合显式和隐式表示的混合网格框架,用于高效神经激光雷达建图,通过稀疏网格提供几何先验,隐式密集网格丰富场景表示,实现大规模增量建图
- Motivation: 现有神经激光雷达建图方法大多依赖密集隐式表示且未充分利用几何结构,而现有的体素引导方法难以实现实时性能。需要一种既能利用几何结构又能高效运行的增量建图方法
- Method: 提出XGrid-Mapping混合网格框架:1)结合稀疏网格(提供几何先验和结构指导)与隐式密集网格(丰富场景表示);2)将VDB结构与基于子图的组织相结合,降低计算负载;3)引入基于蒸馏的重叠对齐策略,确保子图间一致性;4)加入动态移除模块增强鲁棒性和采样效率
- Result: 实验表明,该方法在保持高质量建图的同时,克服了体素引导方法的效率限制,优于现有最先进的建图方法
- Conclusion: XGrid-Mapping通过显式-隐式混合表示、子图组织和重叠对齐策略,实现了高效、高质量的大规模增量神经激光雷达建图,解决了现有方法在效率和几何利用方面的不足
[22] X-ray Insights Unleashed: Pioneering the Enhancement of Multi-Label Long-Tail Data
Xinquan Yang,Jinheng Xie,Yawen Huang,Yuexiang Li,Huimin Huang,Hao Zheng,Xian Wu,Yefeng Zheng,Linlin Shen
Main category: cs.CV
TL;DR: 提出一种基于扩散模型的数据合成管道,利用大量正常X光片增强罕见肺部异常检测,通过大语言模型知识引导和渐进增量学习优化生成过程。
- Motivation: 胸部X光中的长尾肺部异常诊断面临挑战,现有扩散方法因罕见病变样本稀缺而生成能力受限,导致诊断精度不足。
- Method: 1) 收集大量正常X光片训练扩散模型生成正常图像;2) 利用预训练扩散模型对病变X光中的头部病变进行修复,保留尾部类别作为增强数据;3) 引入大语言模型知识引导模块和渐进增量学习策略稳定修复微调过程。
- Result: 在公开肺部数据集MIMIC和CheXpert上的综合评估表明,该方法在性能上创造了新的基准。
- Conclusion: 提出的数据合成管道能有效增强罕见肺部病变的检测能力,通过利用大量正常X光片和稳定化策略,显著提升了长尾异常诊断的精度。
[23] PUFM++: Point Cloud Upsampling via Enhanced Flow Matching
Zhi-Song Liu,Chenhang He,Roland Maier,Andreas Rupp
Main category: cs.CV
TL;DR: PUFM++是一个增强的流匹配框架,用于从稀疏、噪声和部分观测中重建密集准确的点云,通过两阶段流匹配、自适应时间调度、流形约束和循环接口网络实现高质量上采样。
- Motivation: 现有生成模型在点云上采样方面已有进展,但需要改进几何保真度、对不完美输入的鲁棒性以及与下游表面任务的一致性。
- Method: 提出两阶段流匹配策略:先学习从稀疏输入到密集目标的直接直线路径流,然后用噪声扰动样本细化以更好近似终端边际分布;引入数据驱动的自适应时间调度器提高采样效率;在采样时施加流形约束确保生成点与底层表面对齐;使用循环接口网络增强层次特征交互。
- Result: 在合成基准和真实世界扫描上的广泛实验表明,PUFM++在点云上采样方面达到了新的最先进水平,在各种任务中提供了卓越的视觉保真度和定量准确性。
- Conclusion: PUFM++通过改进流匹配框架的三个关键维度(几何保真度、鲁棒性和一致性),为点云上采样建立了新的技术标杆,代码和预训练模型已公开。
[24] MVInverse: Feed-forward Multi-view Inverse Rendering in Seconds
Xiangzuo Wu,Chengwei Ren,Jun Zhou,Xiu Li,Yuan Liu
Main category: cs.CV
TL;DR: 提出前馈多视角逆渲染框架,通过跨视角注意力机制实现单次前向传播即可预测材质、光照和法线,并利用无标签真实视频进行一致性微调以提升泛化能力。
- Motivation: 现有单视角方法忽略跨视角关系导致结果不一致,而多视角优化方法依赖缓慢的可微分渲染和逐场景优化,计算成本高且难以扩展。同时,基于合成数据训练的模型难以泛化到真实世界场景。
- Method: 1) 前馈多视角逆渲染框架:通过交替注意力机制在多个视角间进行特征交互,同时捕捉视角内的长程光照交互和视角间的材质一致性;2) 一致性微调策略:利用无标签真实世界视频进行微调,增强多视角一致性和野外条件下的鲁棒性。
- Result: 在基准数据集上的广泛实验表明,该方法在多视角一致性、材质和法线估计质量以及向真实世界图像的泛化能力方面达到了最先进的性能。
- Conclusion: 该方法成功解决了多视角逆渲染中的一致性和泛化问题,通过前馈架构实现了高效推理,并通过无监督微调提升了真实世界场景的适应性,为实际应用提供了可行方案。
[25] Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations
Jinghan Li,Yang Jin,Hao Jiang,Yadong Mu,Yang Song,Kun Xu
Main category: cs.CV
TL;DR: NExT-Vid:一种新的自回归视觉生成预训练框架,通过掩码下一帧预测联合建模图像和视频,解决了现有方法语义定位不准确和生成质量差的问题。
- Motivation: 虽然自回归生成模型在NLP领域取得了革命性进展,但大多数视觉生成预训练方法仍依赖BERT风格的掩码建模,忽视了视频分析所需的时间信息。现有的少数自回归视觉预训练方法存在语义定位不准确和生成质量差的问题。
- Method: 提出NExT-Vid框架:1)使用掩码下一帧预测联合建模图像和视频;2)引入上下文隔离的自回归预测器,将语义表示与目标解码解耦;3)采用条件流匹配解码器提升生成质量和多样性;4)通过上下文隔离流匹配预训练获得强表示。
- Result: 在大规模预训练模型上的广泛实验表明,该方法在下游分类任务中通过注意力探测,始终优于先前的生成预训练方法,实现了更好的视觉表示学习。
- Conclusion: NExT-Vid通过创新的自回归视觉生成预训练框架,有效解决了现有方法的局限性,在视觉表示学习方面取得了显著改进,为联合建模图像和视频提供了有效方案。
[26] Granular-ball Guided Masking: Structure-aware Data Augmentation
Shuyin Xia,Fan Chen,Dawei Dai,Meng Yang,Junwei Han,Xinbo Gao,Guoyin Wang
Main category: cs.CV
TL;DR: 提出GBGM方法,通过粒度球计算引导的结构感知数据增强,在保持语义丰富区域的同时抑制冗余区域,提升模型鲁棒性。
- Motivation: 深度学习模型依赖大规模标注数据,在数据有限或分布偏移时容易过拟合。现有基于掩码的信息丢弃增强方法缺乏结构感知,可能丢弃重要语义信息。
- Method: 提出粒度球引导掩码(GBGM),基于粒度球计算(GBC)进行结构感知增强。采用从粗到细的层次化掩码过程,自适应保留语义丰富、结构重要的区域,抑制冗余区域。
- Result: 在多个基准测试中,分类准确率和掩码图像重建任务均获得一致提升,验证了方法的有效性和广泛适用性。
- Conclusion: GBGM是一种简单、模型无关的结构感知数据增强方法,可无缝集成到CNN和Vision Transformer中,为结构感知数据增强提供了新范式。
[27] FluencyVE: Marrying Temporal-Aware Mamba with Bypass Attention for Video Editing
Mingshu Cai,Yixuan Li,Osamu Yoshie,Yuya Ieiri
Main category: cs.CV
TL;DR: FluencyVE:一种简单有效的单次视频编辑方法,通过将Mamba线性时间序列模块集成到基于预训练Stable Diffusion的视频编辑模型中,替换时间注意力层,在保持生成能力的同时降低计算成本。
- Motivation: 大规模文本到图像扩散模型在图像生成和编辑方面取得了巨大成功,但扩展到视频编辑仍然具有挑战性。现有的视频编辑方法通过添加时间注意力机制来适应预训练模型,但仍然存在时间不一致性和高计算开销的问题。
- Method: 提出FluencyVE方法:1) 将线性时间序列模块Mamba集成到基于预训练Stable Diffusion的视频编辑模型中,替换时间注意力层;2) 使用低秩近似矩阵替换因果注意力中的查询和键权重矩阵;3) 在训练期间使用加权平均技术更新注意力分数。
- Result: 实验和分析表明,该方法在编辑真实世界视频的各种属性、主体和位置方面取得了有希望的结果,能够保持文本到图像模型的生成能力,同时有效降低计算负担。
- Conclusion: FluencyVE是一种简单而有效的单次视频编辑方法,通过引入Mamba模块和优化注意力机制,解决了现有视频编辑方法中的时间不一致性和高计算成本问题,为视频编辑任务提供了新的解决方案。
[28] Efficient and Robust Video Defense Framework against 3D-field Personalized Talking Face
Rui-qing Sun,Xingshan Yao,Tian Lan,Hui-Yang Zhao,Jia-Ling Shi,Chen-Hao Cui,Zhijing Wu,Chen Yang,Xian-Ling Mao
Main category: cs.CV
TL;DR: 提出首个针对3D场视频参考说话人脸生成方法的防御框架,通过扰动3D信息获取过程来保护肖像视频,同时保持高保真视频质量,实现47倍加速。
- Motivation: 现有的3D场说话人脸生成方法能够实时合成高保真个性化说话人脸视频,这引发了严重的隐私担忧,但目前缺乏有效的防御框架来保护视频免受此类方法的恶意使用。
- Method: 提出新颖高效的视频防御框架:1)相似性引导的参数共享机制提高计算效率;2)多尺度双域注意力模块联合优化空间-频率扰动,通过扰动3D信息获取过程来保护肖像视频。
- Result: 实验表明该框架具有强大的防御能力,相比最快基线实现47倍加速,同时保持高保真度,对缩放操作和最先进的净化攻击保持鲁棒性,消融研究验证了设计选择的有效性。
- Conclusion: 该研究提出了首个针对3D场说话人脸生成方法的有效防御框架,在保持视频质量的同时显著提高了计算效率,为解决肖像视频隐私保护问题提供了实用解决方案。
[29] Multi-Attribute guided Thermal Face Image Translation based on Latent Diffusion Model
Mingshu Cai,Osamu Yoshie,Yuya Ieiri
Main category: cs.CV
TL;DR: 提出基于潜在扩散模型的红外-可见光人脸识别方法,通过多属性分类器和自注意力Mamba模块提升图像质量和身份特征保留,在两个基准数据集上达到SOTA性能。
- Motivation: 当前人脸识别模型主要在可见光数据集上训练,在红外图像上性能显著下降。传统的特征方法效果不佳,而现有的生成式方法存在模型和模态差异问题,导致生成图像失真和特征丢失。
- Method: 提出基于潜在扩散的红外-可见光人脸生成模型:1) 使用多属性分类器从可见光图像提取关键面部属性,减少特征损失;2) 引入Self-attn Mamba模块增强跨模态特征的全局建模并提升推理速度。
- Result: 在两个基准数据集上的实验表明,该方法在图像质量和身份特征保留方面均达到最先进性能,显著优于现有方法。
- Conclusion: 提出的潜在扩散模型结合多属性分类器和Self-attn Mamba模块,有效解决了红外-可见光人脸识别中的特征损失问题,实现了高质量的图像生成和身份特征保留。
[30] Next-Scale Prediction: A Self-Supervised Approach for Real-World Image Denoising
Yiwen Shan,Haiyu Zhao,Peng Hu,Xi Peng,Yuanbiao Gou
Main category: cs.CV
TL;DR: 提出Next-Scale Prediction (NSP)自监督去噪方法,通过跨尺度训练解耦噪声去相关与细节保留的冲突,实现更好的真实图像去噪效果
- Motivation: 现有盲点网络(BSN)方法使用像素洗牌下采样(PD)来去相关噪声,但激进下采样会破坏精细结构,而温和下采样又无法去除相关噪声,存在噪声去相关与细节保留的根本矛盾
- Method: 提出Next-Scale Prediction (NSP)自监督范式,构建跨尺度训练对:BSN以低分辨率、完全去相关的子图像作为输入,预测保留精细细节的高分辨率目标,从而解耦噪声去相关与细节保留
- Result: NSP在真实世界基准测试中实现了最先进的自监督去噪性能,显著缓解了噪声去相关与细节保留之间的长期冲突,并自然地支持噪声图像超分辨率而无需重新训练或修改
- Conclusion: NSP通过跨尺度预测有效解决了自监督真实图像去噪中的根本挑战,为噪声去相关与细节保留的权衡提供了创新解决方案,并具有额外的超分辨率能力
[31] A Large-Depth-Range Layer-Based Hologram Dataset for Machine Learning-Based 3D Computer-Generated Holography
Jaehong Lee,You Chan No,YoungWoo Kim,Duksu Kim
Main category: cs.CV
TL;DR: 提出了KOREATECH-CGH数据集,包含6000对RGB-D图像和复杂全息图,分辨率从256×256到2048×2048,并引入振幅投影技术提升大深度范围的全息图质量。
- Motivation: 机器学习计算机生成全息术(ML-CGH)发展迅速,但受限于高质量、大规模全息图数据集的缺乏。现有数据集不足制约了该领域的进步。
- Method: 1) 创建KOREATECH-CGH公开数据集,包含6000对RGB-D图像和复杂全息图,覆盖多种分辨率和深度范围;2) 提出振幅投影后处理技术,在保持相位的同时替换全息波场在每个深度层的振幅分量。
- Result: 振幅投影技术显著提升了重建保真度,达到27.01 dB PSNR和0.87 SSIM,比最近的优化轮廓掩模层方法分别提高了2.03 dB和0.04 SSIM。数据集在多种最先进ML模型的全息生成和超分辨率实验中验证了其有效性。
- Conclusion: KOREATECH-CGH数据集解决了ML-CGH领域的数据稀缺问题,振幅投影技术提升了全息图质量,该数据集适用于训练和评估下一代ML-CGH系统。
[32] Matrix Completion Via Reweighted Logarithmic Norm Minimization
Zhijie Wang,Liangtian He,Qinghua Zhang,Jifei Miao,Liang-Jian Deng,Jun Liu
Main category: cs.CV
TL;DR: 提出一种新的重加权对数范数作为秩函数的非凸替代,用于低秩矩阵补全,通过ADMM求解,在图像修复中优于现有方法。
- Motivation: 低秩矩阵补全应用广泛,但秩最小化是NP难问题。常用的核范数作为凸替代会导致奇异值过度收缩,产生次优解。需要更好的非凸替代函数来更接近地近似秩函数。
- Method: 提出一种新的重加权对数范数作为秩函数的非凸替代,比现有替代函数更接近秩函数。使用交替方向乘子法(ADMM)高效求解优化问题。
- Result: 在图像修复实验中,提出的方法在视觉质量和量化指标上都优于最先进的低秩矩阵补全方法。
- Conclusion: 重加权对数范数作为秩函数的非凸替代比核范数更有效,能获得更好的矩阵补全性能,在图像修复等应用中表现出色。
[33] Optical Flow-Guided 6DoF Object Pose Tracking with an Event Camera
Zibin Liu,Banglei Guan,Yang Shang,Shunkun Liang,Zhenbao Yu,Qifeng Yu
Main category: cs.CV
TL;DR: 提出一种基于事件相机的光流引导6DoF物体姿态跟踪方法,通过2D-3D混合特征提取和光流关联实现精确跟踪
- Motivation: 传统相机在物体姿态跟踪中面临运动模糊、传感器噪声、部分遮挡和光照变化等挑战,而事件相机具有高动态范围和低延迟优势,有望解决这些问题
- Method: 采用2D-3D混合特征提取策略检测事件和物体模型的角点和边缘;通过最大化时空窗口内事件关联概率搜索角点光流;建立光流引导的角点-边缘关联;通过最小化角点与边缘距离迭代优化6DoF物体姿态
- Result: 在模拟和真实事件数据上的实验结果表明,该方法在准确性和鲁棒性方面优于基于事件的最先进方法
- Conclusion: 提出的光流引导方法有效利用事件相机优势,实现了更准确和鲁棒的6DoF物体姿态跟踪
[34] DexAvatar: 3D Sign Language Reconstruction with Hand and Body Pose Priors
Kaustubh Kundu,Hrishav Bakul Barua,Lucy Robertson-Bell,Zhixi Cai,Kalin Stefanov
Main category: cs.CV
TL;DR: DexAvatar是一个从单目手语视频重建生物力学准确的手部关节和身体运动的新框架,通过学习的3D手部和身体先验指导,在SGNify数据集上比现有方法提升35.11%
- Motivation: 当前手语生成依赖大量精确的2D和3D人体姿态数据,但现有数据集多为视频格式,缺乏准确的3D信息,且现有3D姿态估计方法易受自遮挡、噪声和运动模糊影响,重建质量差
- Method: 提出DexAvatar框架,利用学习的3D手部和身体先验,从野外单目手语视频重建生物力学准确的细粒度手部关节和身体运动
- Result: 在SGNify运动捕捉数据集上达到最佳性能,身体和手部姿态估计相比现有技术提升35.11%
- Conclusion: DexAvatar通过结合3D手部和身体先验,有效解决了从单目手语视频重建准确3D姿态的挑战,为高质量手语生成提供了更好的数据基础
[35] Beyond Pixel Simulation: Pathology Image Generation via Diagnostic Semantic Tokens and Prototype Control
Minghao Han,YiChen Liu,Yizhou Liu,Zizhi Chen,Jingqun Tang,Xuecheng Wu,Dingkang Yang,Lihua Zhang
Main category: cs.CV
TL;DR: UniPath是一个语义驱动的病理图像生成框架,通过多流控制实现精确的语义控制生成,在病理图像生成任务上达到SOTA性能。
- Motivation: 当前计算病理学中,理解模型已具备诊断级能力,但生成模型仍停留在像素模拟层面。主要障碍包括:高质量图像-文本数据稀缺、缺乏精确的细粒度语义控制、以及术语异质性导致文本条件不可靠。
- Method: 提出UniPath框架,采用多流控制:原始文本流、高层语义流(使用可学习查询从冻结的病理MLLM中提取诊断语义标记)、原型流(通过原型库实现组件级形态控制)。同时构建了265万图像-文本语料库和6.8万高质量标注子集。
- Result: UniPath在病理图像生成上达到SOTA性能,Patho-FID为80.9(比第二名提升51%),细粒度语义控制达到真实图像的98.7%。建立了四层评估体系,并公开数据集、源代码和预训练模型权重。
- Conclusion: UniPath通过利用成熟的诊断理解能力实现可控生成,解决了病理图像生成中的关键挑战,为计算病理学提供了强大的生成工具和高质量数据集。
[36] Multimodal Skeleton-Based Action Representation Learning via Decomposition and Composition
Hongsong Wang,Heng Fei,Bingxuan Dai,Jie Gui
Main category: cs.CV
TL;DR: 提出Decomposition and Composition自监督多模态骨架动作表示学习框架,在计算成本与模型性能间取得良好平衡
- Motivation: 多模态动作理解的关键挑战在于有效利用不同模态间的互补性同时保持模型效率。现有方法要么依赖简单的后期融合导致计算开销大,要么使用早期融合但性能不佳
- Method: 提出Decomposition and Composition框架:Decomposition策略将融合的多模态特征分解为独立的单模态特征,并与对应的真实单模态特征对齐;Composition策略整合多个单模态特征,作为自监督指导来增强多模态表示学习
- Result: 在NTU RGB+D 60、NTU RGB+D 120和PKU-MMD II数据集上的大量实验表明,该方法在计算成本和模型性能之间取得了良好平衡
- Conclusion: 提出的自监督多模态骨架动作表示学习框架成功解决了效率与效果之间的平衡问题,为多模态动作理解提供了有效解决方案
[37] UniPR-3D: Towards Universal Visual Place Recognition with Visual Geometry Grounded Transformer
Tianchen Deng,Xun Chen,Ziming Li,Hongming Shen,Danwei Wang,Javier Civera,Hesheng Wang
Main category: cs.CV
TL;DR: UniPR-3D是首个有效整合多视角信息的视觉地点识别架构,通过VGGT骨干网络编码多视角3D表示,结合2D和3D特征聚合模块,在多个数据集上达到新的SOTA性能。
- Motivation: 传统视觉地点识别通常基于单图像检索,多视角方法虽有优势但研究不足且泛化能力有限。本文旨在开发能有效整合多视角信息并提升跨环境泛化能力的VPR方法。
- Method: 基于VGGT骨干网络编码多视角3D表示,设计特征聚合器并针对地点识别任务微调。联合利用VGGT产生的3D tokens和中间2D tokens,为2D和3D特征设计专用聚合模块,结合单帧和多帧聚合方案以及可变长度序列检索策略。
- Result: UniPR-3D在实验中达到新的state-of-the-art性能,超越了单视角和多视角基线方法,证明了基于几何的tokens在VPR任务中的有效性。
- Conclusion: UniPR-3D成功整合多视角信息,通过2D和3D特征的有效聚合,在视觉地点识别任务中实现了优异的性能和泛化能力,为VPR研究提供了新的方向。
[38] Hierarchical Modeling Approach to Fast and Accurate Table Recognition
Takaya Kawakatsu
Main category: cs.CV
TL;DR: 提出一种新颖的多任务表格识别模型,使用非因果注意力捕获完整表格结构,并采用并行推理算法加速单元格内容推断
- Motivation: 从大量文档中提取和使用多样化知识是智能信息检索的紧迫挑战。文档包含需要不同识别方法的元素。现有表格识别模型虽然结合多任务学习、局部注意力和相互学习取得了优秀效果,但其有效性未得到充分解释,且推理时间较长
- Method: 提出新颖的多任务模型,利用非因果注意力捕获整个表格结构,并设计并行推理算法以加速单元格内容推断
- Result: 在两个大型公共数据集上,通过视觉和统计方法证明了该方法的优越性
- Conclusion: 该方法在表格识别任务中表现出色,既能有效捕获表格结构,又能显著提高推理速度
[39] T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation
Zhe Cao,Tao Wang,Jiaming Wang,Yanghai Wang,Yuanxing Zhang,Jialu Chen,Miao Deng,Jiahao Wang,Yubin Guo,Chenxi Liao,Yize Zhang,Zhaoxiang Zhang,Jiaheng Liu
Main category: cs.CV
TL;DR: T2AV-Compass:一个统一的文本到音视频生成评估基准,包含500个多样化提示和双级评估框架,揭示当前模型在音频真实性、跨模态对齐等方面仍远低于人类水平
- Motivation: 当前T2AV生成系统的评估存在碎片化问题,通常依赖单模态指标或范围狭窄的基准,无法全面捕捉跨模态对齐、指令跟随和感知真实性
- Method: 提出T2AV-Compass基准:1)通过分类学驱动的流程构建500个多样化复杂提示;2)采用双级评估框架:客观信号级指标(视频质量、音频质量、跨模态对齐)+主观MLLM-as-a-Judge协议(指令跟随和真实性评估)
- Result: 对11个代表性T2AV系统的广泛评估显示,即使最强模型在人类级真实性和跨模态一致性方面仍有显著差距,在音频真实性、细粒度同步、指令跟随等方面存在持续失败
- Conclusion: T2AV-Compass作为一个具有挑战性和诊断性的测试平台,揭示了未来模型的显著改进空间,对推进文本到音视频生成技术具有重要价值
[40] UniRec-0.1B: Unified Text and Formula Recognition with 0.1B Parameters
Yongkun Du,Zhineng Chen,Yazhen Xie,Weikang Baiand Hao Feng,Wei Shi,Yuchen Su,Can Huang,Yu-Gang Jiang
Main category: cs.CV
TL;DR: UniRec-0.1B是一个仅0.1B参数的轻量级统一识别模型,能够在字符、单词、行、段落和文档等多个层次上同时识别文本和公式,比现有模型快2-9倍。
- Motivation: 当前视觉语言模型虽然能统一识别文本和公式,但参数量大、计算需求高,限制了实际应用。需要开发轻量级但性能强大的统一识别模型。
- Method: 1) 构建包含4000万文本、公式及其混合样本的UniRec40M数据集;2) 针对层次结构可变性和文本-公式语义纠缠问题,提出层次监督训练和语义解耦分词器;3) 建立涵盖中英文多领域多层次的综合评估基准。
- Result: UniRec-0.1B在综合基准和公共基准测试中,性能优于通用视觉语言模型和领先的文档解析专家模型,同时实现2-9倍的速度提升。
- Conclusion: 提出的轻量级统一识别模型在保持高性能的同时显著提升了效率,为文档解析系统提供了实用解决方案。
[41] FreeInpaint: Tuning-free Prompt Alignment and Visual Rationality Enhancement in Image Inpainting
Chao Gong,Dong Li,Yingwei Pan,Jingjing Chen,Ting Yao,Tao Mei
Main category: cs.CV
TL;DR: FreeInpaint:一种无需调优的即插即用图像修复方法,通过优化扩散潜变量来提升文本提示对齐和视觉合理性
- Motivation: 现有基于预训练文本到图像扩散模型的修复方法难以同时保持提示对齐和视觉合理性,需要一种更有效的优化方法
- Method: 提出FreeInpaint框架,包含先验引导的噪声优化方法(优化初始噪声)和专门为修复任务设计的复合引导目标(优化中间潜变量)
- Result: 通过多种修复扩散模型和评估指标的广泛实验,证明了FreeInpaint的有效性和鲁棒性
- Conclusion: FreeInpaint是一种无需调优的即插即用方法,能够在推理过程中直接优化扩散潜变量,显著提升图像修复的忠实度
[42] MarineEval: Assessing the Marine Intelligence of Vision-Language Models
YuK-Kwan Wong,Tuan-An To,Jipeng Zhang,Ziqiang Zheng,Sai-Kit Yeung
Main category: cs.CV
TL;DR: 本文提出了首个大规模海洋视觉语言模型数据集和基准测试MarineEval,包含2000个基于图像的问答对,用于评估现有VLMs在海洋领域专业问题上的表现。
- Motivation: 尽管视觉语言模型在各种领域取得了成功,但现有模型是否能作为海洋领域的专家,准确回答需要专业知识的海洋问题仍不清楚。海洋领域具有特殊的挑战和要求,需要专门的评估。
- Method: 构建了首个大规模海洋VLM数据集MarineEval,包含2000个图像问答对,涵盖7个任务维度和20个能力维度。数据构建过程中确保多样性和覆盖范围,并由海洋领域专家验证。在17个现有VLM上进行了全面基准测试。
- Result: 实验结果显示,现有VLMs无法有效回答领域特定的海洋问题,性能仍有很大提升空间。模型在专业海洋知识方面存在明显局限性。
- Conclusion: 提出了首个海洋VLM基准测试MarineEval,揭示了现有模型在海洋专业领域的不足,为未来研究提供了评估工具和方向。
[43] TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation
Gaoren Lin,Huangxuan Zhao,Yuan Xiong,Lefei Zhang,Bo Du,Wentao Zhu
Main category: cs.CV
TL;DR: TGC-Net:基于CLIP的文本引导医学分割框架,通过参数高效的任务特定适配解决医学图像分割中的三个关键问题,在多个数据集上实现SOTA性能。
- Motivation: 现有文本引导医学分割方法依赖未对齐的图像和文本编码器,需要复杂的交互模块进行多模态融合。CLIP虽然提供预对齐的多模态特征空间,但在医学图像应用中存在三个主要问题:1)细粒度解剖结构保留不足;2)复杂临床描述建模不足;3)领域特定语义不对齐。
- Method: 提出TGC-Net框架,包含三个核心组件:1)语义-结构协同编码器(SSE):在CLIP的ViT基础上增加CNN分支进行多尺度结构细化;2)领域增强文本编码器(DATE):注入大语言模型衍生的医学知识;3)视觉-语言校准模块(VLCM):在统一特征空间中细化跨模态对应关系。
- Result: 在胸部X光和胸部CT的五个数据集上实验表明,TGC-Net以显著更少的可训练参数实现了最先进的性能,在具有挑战性的基准测试中获得了显著的Dice增益。
- Conclusion: TGC-Net通过参数高效的任务特定适配,有效解决了CLIP在医学图像分割中的局限性,为文本引导的医学分割提供了有效的解决方案。
[44] ORCA: Object Recognition and Comprehension for Archiving Marine Species
Yuk-Kwan Wong,Haixin Liang,Zeyu Ma,Yiwei Chen,Ziqiang Zheng,Rinaldi Gotama,Pascal Sebastian,Lauren D. Sparks,Sai-Kit Yeung
Main category: cs.CV
TL;DR: ORCA是一个多模态海洋视觉理解基准数据集,包含14,647张图像、478个物种、42,217个边界框标注和22,321个专家验证的实例描述,用于推动海洋视觉研究。
- Motivation: 海洋视觉理解对监测和保护海洋生态系统至关重要,但当前进展受到训练数据有限和缺乏系统化任务定义的阻碍,限制了有效模型的应用。
- Method: 构建了ORCA多模态基准数据集,包含精细的视觉和文本标注,涵盖形态学特征。评估了18个最先进模型在三个任务上的表现:目标检测(封闭集和开放词汇)、实例描述和视觉定位。
- Result: 评估结果突显了海洋理解的关键挑战,包括物种多样性、形态重叠和特定领域需求,表明海洋视觉理解具有较高难度。
- Conclusion: ORCA建立了一个全面的基准,为海洋领域的研究提供了系统化的任务定义和评估框架,有助于推动海洋视觉理解的发展。
[45] A Turn Toward Better Alignment: Few-Shot Generative Adaptation with Equivariant Feature Rotation
Chenghao Xu,Qi Liu,Jiexi Yan,Muli Yang,Cheng Deng
Main category: cs.CV
TL;DR: 提出Equivariant Feature Rotation (EFR)方法,通过可学习的旋转矩阵在自旋转代理特征空间中对齐源域和目标域,解决少样本图像生成中的域适应问题。
- Motivation: 现有少样本图像生成方法通常通过实例级或分布级损失函数引入一致性约束来对齐源域和目标域的分布模式,但这些策略存在局限性:过于严格的约束会放大域差距的负面影响,导致内容扭曲或无信息;过于宽松的约束则无法有效利用源域知识。这种限制主要源于源域和目标域底层分布结构的内在差异,而目标样本的稀缺性进一步加剧了这一问题。
- Method: 提出Equivariant Feature Rotation (EFR)方法,在自旋转代理特征空间中进行两个互补级别的域对齐。具体来说,在参数化李群中执行自适应旋转,将源域和目标域特征转换到等变代理空间中进行对齐。这些可学习的旋转矩阵通过保留域内结构信息而不扭曲来桥接域差距,同时对齐优化促进从源域到目标域的有效知识迁移。
- Result: 在多种常用数据集上的综合实验表明,该方法显著提升了目标域内的生成性能。
- Conclusion: EFR方法通过可学习的旋转矩阵在等变代理特征空间中对齐源域和目标域,有效解决了少样本图像生成中的域适应问题,避免了传统方法中约束过严或过松的局限性。
[46] Towards Arbitrary Motion Completing via Hierarchical Continuous Representation
Chenghao Xu,Guangtao Lyu,Qi Liu,Jiexi Yan,Muli Yang,Cheng Deng
Main category: cs.CV
TL;DR: 提出了一种基于隐式神经表示(INRs)的连续人体运动表示框架NAME,能够以任意帧率插值、内插和外推输入运动序列。
- Motivation: 物理运动本质上是连续的,更高的相机帧率通常能提升平滑性和时间一致性。首次探索人体运动序列的连续表示,具备任意帧率下插值、内插和外推的能力。
- Method: 提出参数化激活诱导的分层隐式表示框架NAME:1) 分层时间编码机制从多时间尺度提取特征,捕捉复杂时间模式;2) 基于傅里叶变换的自定义参数化激活函数集成到MLP解码器中,增强连续表示的表达能力。
- Result: 在多个基准数据集上的广泛评估证明了所提方法的有效性和鲁棒性。
- Conclusion: NAME框架首次实现了人体运动序列的连续表示,能够以任意帧率进行运动插值、内插和外推,显著提升了复杂运动行为表示的准确性。
[47] UltraShape 1.0: High-Fidelity 3D Shape Generation via Scalable Geometric Refinement
Tanghui Jia,Dongyu Yan,Dehao Hao,Yang Li,Kaiyi Zhang,Xianyi He,Lanjiong Li,Jinnan Chen,Lutao Jiang,Qishen Yin,Long Quan,Ying-Cong Chen,Li Yuan
Main category: cs.CV
TL;DR: UltraShape 1.0是一个可扩展的3D扩散框架,采用两阶段生成流程:先生成粗略全局结构,再细化生成高质量细节几何。通过创新的数据处理和空间解耦方法,在有限训练资源下实现高质量3D几何生成。
- Motivation: 现有3D生成方法在几何质量和细节保留方面存在不足,特别是对于公开可用的3D数据集,数据质量参差不齐,需要更可靠的数据处理流程和更精细的生成框架。
- Method: 1. 两阶段生成流程:粗略全局结构生成 + 细节几何细化;2. 综合数据处理管道:包括新型水密处理方法和高质量数据过滤;3. 空间解耦扩散:将空间定位与几何细节合成分离,使用基于体素的细化方法,通过RoPE编码固定空间位置。
- Result: 模型在公开3D数据集上训练,在有限训练资源下实现了强大的几何质量。广泛评估表明,UltraShape 1.0在数据处理质量和几何生成方面与现有开源方法具有竞争力。
- Conclusion: UltraShape 1.0提供了一个可扩展的3D扩散框架,通过创新的数据处理和空间解耦方法,实现了高质量的3D几何生成,所有代码和训练模型将公开发布以支持未来研究。
[48] VisRes Bench: On Evaluating the Visual Reasoning Capabilities of VLMs
Brigitta Malagurski Törtei,Yasser Dahou,Ngoc Dung Huynh,Wamiq Reyaz Para,Phúc H. Lê Khac,Ankit Singh,Sofian Chaybouti,Sanath Narayan
Main category: cs.CV
TL;DR: VisRes Bench是一个专门评估视觉语言模型在无语言监督下视觉推理能力的基准,通过三个复杂度级别测试发现现有模型在感知和关系推理方面存在明显局限。
- Motivation: 当前视觉语言模型虽然取得了显著进展,但尚不清楚它们是否真正进行视觉推理还是主要依赖语言先验知识。为了研究模型在自然场景中的纯视觉推理能力,需要设计一个无语言上下文监督的评估基准。
- Method: 提出VisRes Bench基准,包含三个复杂度级别:Level 1测试感知补全和全局图像匹配(在模糊、纹理变化、遮挡、旋转等扰动下);Level 2测试基于单一属性(如颜色、数量、方向)的规则推理;Level 3测试需要整合多个视觉属性的组合推理。使用超过19,000张受控任务图像进行评估。
- Result: 在最先进的视觉语言模型上测试发现,在细微的感知扰动下,模型表现接近随机水平,显示出模型在模式识别之外的抽象能力有限。VisRes Bench能够有效隔离不同层次的推理能力。
- Conclusion: VisRes Bench为多模态研究提供了一个统一的框架,可用于推进抽象视觉推理能力的发展,揭示了当前模型在纯视觉推理方面的局限性。
[49] Human Motion Estimation with Everyday Wearables
Siqi Zhu,Yixuan Li,Junfu Li,Qi Wu,Zan Wang,Haozhe Ma,Wei Liang
Main category: cs.CV
TL;DR: EveryWear:基于日常可穿戴设备(智能手机、智能手表、耳机、智能眼镜)的无校准轻量级人体运动捕捉系统,通过多模态师生框架融合视觉和惯性信号,在真实世界数据上训练,消除模拟到现实的差距。
- Motivation: 现有基于身体设备的人体运动估计方法存在穿戴性差、硬件昂贵、校准繁琐等问题,阻碍了其在日常生活中的应用。需要一种轻量级、实用且无需显式校准的解决方案。
- Method: 提出EveryWear方法,完全基于日常可穿戴设备(智能手机、智能手表、耳机、智能眼镜),其中智能眼镜配备一个前向和两个下向摄像头。采用多模态师生框架,将自我中心摄像头的视觉线索与消费设备的惯性信号相结合。直接在真实世界数据上训练,而非合成数据。
- Result: 实验表明该方法优于基线模型,验证了其在实际全身运动估计中的有效性。同时发布了Ego-Elec数据集,包含9小时真实世界数据,涵盖56种日常活动和17个多样化室内外环境,带有动作捕捉提供的真实3D标注。
- Conclusion: EveryWear提供了一种轻量级、实用的人体运动捕捉方法,完全基于日常可穿戴设备,无需显式校准,通过真实世界数据训练有效消除了模拟到现实的差距,为XR交互等应用提供了可行的解决方案。
[50] Latent Implicit Visual Reasoning
Kelvin Li,Chuyi Shang,Leonid Karlinsky,Rogerio Feris,Trevor Darrell,Roei Herzig
Main category: cs.CV
TL;DR: 提出一种任务无关的机制,让大型多模态模型自主发现和使用视觉推理标记,无需显式监督,在视觉中心任务上取得SOTA效果
- Motivation: 当前大型多模态模型主要依赖文本作为核心推理模态,在处理视觉主导的推理任务时存在局限。现有方法通过辅助图像、深度图或图像裁剪来监督中间视觉步骤,但这些方法对"有用"视觉抽象施加了限制性先验,标注成本高,且难以跨任务泛化。
- Method: 提出任务无关机制,训练LMMs在没有显式监督的情况下发现和使用视觉推理标记。这些标记全局关注并以任务自适应方式重新编码图像,使模型能够提取相关视觉信息而无需手工监督。
- Result: 该方法优于直接微调,在多种视觉中心任务上取得最先进结果(包括那些难以指定中间抽象的任务),同时能够泛化到多任务指令调优。
- Conclusion: 提出的任务无关视觉推理标记机制有效解决了LMMs在视觉推理任务上的局限性,无需手工监督就能实现任务自适应的视觉信息提取,在多种视觉任务上表现出优越性能。
[51] Leveraging Lightweight Entity Extraction for Scalable Event-Based Image Retrieval
Dao Sy Duy Minh,Huynh Trung Kiet,Nguyen Lam Phu Quy,Phu-Hoa Pham,Tran Chi Nguyen
Main category: cs.CV
TL;DR: 提出一个轻量级两阶段检索框架,通过事件中心实体提取结合时间上下文信号,使用BM25进行候选过滤,再用BEiT-3模型重排序,在OpenEvents v1基准上显著超越基线。
- Motivation: 现实世界的图像文本检索面临模糊查询、语言变异性和可扩展性挑战,需要能够处理复杂真实场景的解决方案。
- Method: 两阶段检索流程:第一阶段基于显著实体使用BM25进行高效候选过滤;第二阶段应用BEiT-3模型捕获深度多模态语义并重排序结果。
- Result: 在OpenEvents v1基准上达到0.559的平均精度,显著优于先前基线方法。
- Conclusion: 事件引导过滤与长文本视觉语言建模的结合在复杂真实场景中实现了准确高效的检索。
[52] SegMo: Segment-aligned Text to 3D Human Motion Generation
Bowen Dang,Lin Wu,Xiaohang Yang,Zheng Yuan,Zhixiang Chen
Main category: cs.CV
TL;DR: SegMo:一种新颖的分段对齐文本条件人体运动生成框架,通过将文本描述和运动序列分解为语义连贯的片段,实现细粒度的文本-运动对齐。
- Motivation: 现有方法在序列级别对齐文本描述与人体运动,忽略了模态的内部语义结构。文本描述和运动序列都可以自然分解为更小、语义连贯的片段,这些片段可以作为原子对齐单元实现更细粒度的对应关系。
- Method: SegMo框架包含三个模块:(1) 文本片段提取:将复杂文本描述分解为时间顺序的短语,每个短语代表一个简单的原子动作;(2) 运动片段提取:将完整运动序列划分为对应的运动片段;(3) 细粒度文本-运动对齐:通过对比学习对齐文本和运动片段。
- Result: 在两个广泛使用的数据集上,SegMo改进了强基线,在HumanML3D测试集上实现了0.553的改进TOP 1分数。此外,由于学习了文本和运动片段的共享嵌入空间,SegMo还可应用于运动定位和运动到文本检索等检索式任务。
- Conclusion: SegMo通过分段对齐方法实现了细粒度的文本-运动对应,不仅提升了运动生成质量,还扩展了应用范围到检索任务,为文本条件人体运动生成提供了更精细的解决方案。
[53] DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation
Jiawei Liu,Junqiao Li,Jiangfan Deng,Gen Li,Siyu Zhou,Zetao Fang,Shanshan Lao,Zengde Deng,Jianing Zhu,Tingting Ma,Jiayi Li,Yunqiu Wang,Qian He,Xinglong Wu
Main category: cs.CV
TL;DR: DreaMontage是一个用于生成无缝、表达性强、长时长的"一镜到底"视频的框架,通过中间条件机制、视觉表达微调和分段自回归推理解决现有方法在视觉平滑性和时间一致性上的不足。
- Motivation: 电影制作中的"一镜到底"技术具有独特的艺术美学,但实际实现成本高昂且受现实条件限制。现有视频生成模型通常采用简单的片段拼接方法,难以保持视觉平滑性和时间一致性,需要更先进的解决方案。
- Method: 1) 在DiT架构中集成轻量级中间条件机制,采用自适应调优策略利用基础训练数据;2) 构建高质量数据集并进行视觉表达监督微调,使用定制化的DPO方案改善主体运动合理性和过渡平滑性;3) 设计内存高效的分段自回归推理策略以生成长序列视频。
- Result: 实验表明,该方法能够生成视觉惊艳且无缝连贯的一镜到底效果,同时保持计算效率,成功将碎片化的视觉材料转化为生动、连贯的电影体验。
- Conclusion: DreaMontage框架通过创新的技术方案有效解决了传统一镜到底视频生成的挑战,为用户提供了从多样化输入生成高质量长时长一镜到底视频的实用工具。
[54] AnyAD: Unified Any-Modality Anomaly Detection in Incomplete Multi-Sequence MRI
Changwei Wu,Yifei Chen,Yuxin Du,Mingxuan Liu,Jinying Zong,Beining Wu,Jie Dong,Feiwei Qin,Yunkang Cao,Qiyuan Tian
Main category: cs.CV
TL;DR: 提出Any-Modality AD框架,能在任意MRI模态可用性下进行稳健的异常检测和定位,无需重复训练即可适应所有模态配置。
- Motivation: 脑MRI异常检测面临标注异常病例稀缺和临床工作流中关键成像模态经常缺失的挑战。现有方法依赖固定模态配置、需要重复训练或无法泛化到未见模态组合,限制了临床可扩展性。
- Method: 1) 集成双路径DINOv2编码器与特征分布对齐机制,统计对齐不完整模态特征与完整模态表示;2) 引入内在正常原型提取器和INP引导的解码器,仅重建正常解剖模式;3) 通过随机模态掩码和间接特征完成训练,使模型适应所有模态配置。
- Result: 在BraTS2018、MU-Glioma-Post和Pretreat-MetsToBrain-Masks数据集上,该方法在7种模态组合中始终优于最先进的工业和医学AD基线,展现出卓越的泛化能力。
- Conclusion: 该研究为真实世界不完美模态条件下的多模态医学异常检测建立了可扩展的范式,能够适应任意MRI模态可用性,无需重新训练。
[55] ACD: Direct Conditional Control for Video Diffusion Models via Attention Supervision
Weiqi Li,Zehao Zhang,Liang Lin,Guangrun Wang
Main category: cs.CV
TL;DR: 提出ACD框架,通过注意力监督实现视频扩散模型的直接条件控制,使用稀疏3D感知物体布局作为条件信号,提高条件对齐效果。
- Motivation: 现有视频合成方法在可控性方面存在局限:无分类器引导方法通过联合建模数据与条件分布实现间接控制,可控性有限;基于分类器的引导方法可能产生对抗性伪影,有效可控性不足。
- Method: 提出注意力条件扩散(ACD)框架,通过将模型注意力图与外部控制信号对齐实现直接条件控制;引入稀疏3D感知物体布局作为高效条件信号,配合专用Layout ControlNet和自动化标注流程。
- Result: 在基准视频生成数据集上的实验表明,ACD在条件输入对齐方面表现优异,同时保持时间连贯性和视觉保真度。
- Conclusion: ACD为条件视频合成建立了有效范式,通过注意力监督实现了更好的可控性,解决了现有方法在条件对齐方面的局限性。
[56] GriDiT: Factorized Grid-Based Diffusion for Efficient Long Image Sequence Generation
Snehal Singh Tomar,Alexandros Graikos,Arjun Krishna,Dimitris Samaras,Klaus Mueller
Main category: cs.CV
TL;DR: 提出一种新的图像序列生成方法:先生成低分辨率序列,再单独超分辨率每帧,避免处理大张量,提升质量和效率
- Motivation: 当前SOTA方法将图像序列视为大张量堆叠,存在效率瓶颈。需要更有效的图像序列建模方式,特别是生成模型领域
- Method: 将生成过程分解为两步:1)在低分辨率生成粗序列(使用网格图像训练,利用DiT自注意力捕获帧间相关性);2)单独超分辨率每帧添加高分辨率细节。无需架构修改即可将2D生成器扩展为低分辨率3D序列生成器
- Result: 相比现有方法,在合成质量、序列一致性、任意长度序列生成、推理效率(至少快2倍)和数据使用效率方面均表现更优。在不同数据域上泛化能力强
- Conclusion: 通过分解生成过程(先低分辨率序列生成,再帧级超分辨率)的方法优于直接处理大张量的SOTA方法,在质量、效率和泛化性方面均有显著优势
[57] Surgical Scene Segmentation using a Spike-Driven Video Transformer with Real-Time Potential
Shihao Zou,Jingjing Li,Wei Ji,Jincai Huang,Kai Wang,Guo Dan,Weixin Si,Yi Pan
Main category: cs.CV
TL;DR: 提出首个基于脉冲神经网络的实时手术场景分割框架SpikeSurgSeg,通过手术场景掩码自编码预训练和轻量级分割头,在非GPU平台上实现比传统ANN模型至少8倍的延迟降低。
- Motivation: 当前手术系统需要智能场景理解来提供实时态势感知,但现有深度学习模型(特别是大模型)计算需求大、功耗高,难以在资源受限的手术环境中实时部署。脉冲神经网络(SNN)作为高效计算范式具有潜力,但受限于标注数据稀缺和手术视频表示的稀疏性。
- Method: 提出SpikeSurgSeg框架:1)采用手术场景掩码自编码预训练策略,通过分层管状掩码实现鲁棒的时空表示学习;2)基于预训练骨干网络,采用轻量级脉冲驱动分割头,在保持SNN低延迟特性的同时产生时间一致的预测。
- Result: 在EndoVis18和内部SurgBleed数据集上的实验表明,SpikeSurgSeg达到与SOTA ANN模型相当的mIoU,同时推理延迟降低至少8倍,相对于大多数基础模型基线实现超过20倍的加速。
- Conclusion: SpikeSurgSeg展示了脉冲神经网络在时间关键型手术场景分割中的巨大潜力,能够在非GPU平台上实现高效实时分割,为资源受限的手术环境提供了可行的解决方案。
[58] Post-Processing Mask-Based Table Segmentation for Structural Coordinate Extraction
Suren Bandara
Main category: cs.CV
TL;DR: 提出一种基于多尺度信号处理的方法,从表格掩码中检测表格边缘,通过高斯卷积和统计阈值处理提高低分辨率或噪声图像中表格边界检测的准确性。
- Motivation: 现有表格结构提取方法在低分辨率或噪声图像中表现不佳,特别是表格边界检测困难。基于掩码的边缘检测技术虽然更鲁棒,但直接应用于图像会导致噪声敏感、分辨率损失或计算成本高的问题。
- Method: 将行和列转换建模为一维信号,使用方差逐渐增加的高斯卷积进行多尺度处理,然后通过统计阈值抑制噪声并保留稳定的结构边缘。检测到的信号峰值映射回图像坐标以获得准确的边界。
- Result: 在PubLayNet-1M基准测试中,使用TableNet和PyTesseract OCR时,列边缘检测将Cell-Aware Segmentation Accuracy (CASA)从67%提高到76%。该方法通过零填充和缩放策略对分辨率变化具有鲁棒性。
- Conclusion: 提出的多尺度信号处理方法能够有效检测表格边缘,在噪声和低分辨率条件下表现鲁棒,为下游分析提供优化的结构化表格输出。
[59] AndroidLens: Long-latency Evaluation with Nested Sub-targets for Android GUI Agents
Yue Cao,Yingyao Wang,Pi Bu,Jingxuan Xing,Wei Jiang,Zekun Zhu,Junpeng Ma,Sashuai Zhou,Tong Lu,Jun Song,Yu Cheng,Yuning Jiang,Bo Zheng
Main category: cs.CV
TL;DR: AndroidLens是一个用于评估移动GUI代理的挑战性框架,包含571个长延迟任务,平均需要超过26步完成,涵盖38个领域的真实场景,采用静态和动态评估方法。
- Motivation: 现有GUI代理评估基准存在局限性:应用范围有限、任务简单、度量粗糙。需要更贴近真实世界复杂场景的评估框架来推动移动GUI代理的实际应用。
- Method: 1) 构建包含571个长延迟任务的基准,平均超过26步,涵盖38个领域;2) 静态评估保留真实世界异常并允许多条有效路径;3) 动态评估采用里程碑方案,通过平均任务进度(ATP)进行细粒度进度测量。
- Result: 即使最佳模型也只能达到12.7%的任务成功率和50.47%的ATP,表明当前GUI代理在真实世界环境中仍面临巨大挑战。
- Conclusion: AndroidLens为移动GUI代理提供了更真实、更具挑战性的评估基准,揭示了环境异常、自适应探索和长期记忆保持等关键挑战,为未来研究指明了方向。
[60] TICON: A Slide-Level Tile Contextualizer for Histopathology Representation Learning
Varun Belagali,Saarthak Kapse,Pierre Marza,Srijan Das,Zilinghan Li,Sofiène Boutaj,Pushpak Pati,Srikar Yellapragada,Tarak Nath Nandi,Ravi K Madduri,Joel Saltz,Prateek Prasanna,Stergios Christodoulidis Maria Vakalopoulou,Dimitris Samaras
Main category: cs.CV
TL;DR: TICON是一个基于Transformer的病理图像瓦片表示上下文化模型,能够为计算病理学中的任何应用生成丰富的上下文化嵌入,显著提升多种任务的性能。
- Motivation: 在计算病理学中,大型全切片图像中的小瓦片分析需要更大的图像上下文信息。标准的瓦片编码器方法提取的嵌入缺乏上下文信息,无法建模对局部和全局任务都至关重要的幻灯片级信息。此外,不同的瓦片编码器在不同下游任务中表现各异,需要一个统一的模型来为任何瓦片级基础模型生成的嵌入添加上下文。
- Method: TICON使用单个共享编码器,通过掩码建模目标进行预训练,同时统一和上下文化来自不同瓦片级病理基础模型的表示。该方法能够处理任何瓦片级基础模型生成的嵌入,并为它们添加丰富的上下文信息。
- Result: TICON上下文化嵌入显著提升了多种任务的性能,在瓦片级基准测试(HEST-Bench、THUNDER、CATCH)和幻灯片级基准测试(Patho-Bench)上建立了新的最先进结果。此外,基于TICON预训练的聚合器仅使用11K个全切片图像就超越了使用多达350K个全切片图像预训练的最先进幻灯片级基础模型。
- Conclusion: TICON提供了一个统一的框架,能够为任何瓦片级基础模型生成的嵌入添加丰富的上下文信息,显著提升计算病理学中多种任务的性能,同时能够构建高效的幻灯片级基础模型,为计算病理学领域提供了强大的工具。
[61] Fast SAM2 with Text-Driven Token Pruning
Avilasha Mandal,Chaoning Zhang,Fachrina Dewi Puspitasari,Xudong Wang,Jiaquan Zhang,Caiyan Qin,Guoqing Wang,Yang Yang,Heng Tao Shen
Main category: cs.CV
TL;DR: 提出一种文本引导的token剪枝框架,在SAM2视觉编码后、时序传播前选择性减少token密度,提升推理效率42.5%,降低GPU内存37.4%,同时保持分割性能。
- Motivation: SAM2等视觉基础模型在处理视频对象分割时,需要传播所有视觉token,无论是否与目标对象相关,导致计算和内存成本高,限制了实际部署的扩展性。
- Method: 在视觉编码后、基于内存的传播前,使用轻量级路由机制对token进行排序,整合局部视觉上下文、对象中心文本描述(用户提供或自动生成)的语义相关性,以及不确定性线索,保留最信息丰富的token进行下游处理。
- Result: 在多个具有挑战性的视频分割基准测试中,该方法相比未剪枝的SAM2基线实现了高达42.50%的推理加速和37.41%的GPU内存使用降低,同时保持了有竞争力的J和F性能。
- Conclusion: 编码后token剪枝为高效、提示感知的视频分割提供了实用有效的途径,展示了早期token选择在提升基于transformer的视频分割系统可扩展性方面的潜力,适用于实时和资源受限的应用场景。
[62] Streaming Video Instruction Tuning
Jiaer Xia,Peixian Chen,Mengdan Zhang,Xing Sun,Kaiyang Zhou
Main category: cs.CV
TL;DR: Streamo是一个实时流视频LLM,作为通用交互助手,能够执行多种流视频任务,包括实时叙述、动作理解、事件描述、时间事件定位和时间敏感问答。
- Motivation: 现有在线视频模型主要专注于问答或字幕生成等狭窄任务,缺乏能够处理广泛流视频任务的通用交互助手。需要弥合离线视频感知模型与实时多模态助手之间的差距。
- Method: 构建了Streamo-Instruct-465K大规模指令跟随数据集,涵盖多样化时间上下文和多任务监督;通过端到端训练流程,在指令跟随数据集上进行统一训练。
- Result: Streamo展现出强大的时间推理能力、响应式交互能力和广泛的泛化能力,在多种流视频基准测试中表现优异,实现了离线视频感知模型与实时多模态助手之间的桥梁。
- Conclusion: Streamo朝着统一、智能的连续视频流理解迈出了一步,为通用流视频交互助手的发展提供了重要进展。
[63] Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models
Li-Zhong Szu-Tu,Ting-Lin Wu,Chia-Jui Chang,He Syu,Yu-Lun Liu
Main category: cs.CV
TL;DR: 研究发现视觉语言模型存在显著流行度偏见,在著名建筑上的准确率比普通建筑高34%,表明模型依赖记忆而非泛化理解。为此构建了YearGuessr数据集,包含55,546个建筑图像,用于评估模型在建筑年份预测任务中的表现。
- Motivation: 当前视觉语言模型在建筑识别任务中存在严重流行度偏见,对著名建筑的识别准确率远高于普通建筑,这暴露了模型依赖记忆而非真正理解的问题。需要系统性地量化这种偏见并评估模型的泛化能力。
- Method: 构建YearGuessr数据集(55,546个建筑图像,含建造年份、GPS数据和页面浏览量),将建筑年份预测任务构建为序数回归问题,引入流行度感知区间准确度指标来量化偏见,评估了30多个模型包括提出的YearCLIP模型。
- Result: 视觉语言模型在流行、记忆的项目上表现出色,但在未识别主题上表现显著较差,证实了模型存在严重的流行度偏见,最高准确率差异达34%。YearCLIP模型在基准测试中表现良好。
- Conclusion: 视觉语言模型存在严重的流行度偏见,依赖记忆而非泛化理解,这暴露了其推理能力的重大缺陷。需要开发更鲁棒的评估方法和模型来克服这种偏见。
[64] HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming
Haonan Qiu,Shikun Liu,Zijian Zhou,Zhaochong An,Weiming Ren,Zhiheng Liu,Jonas Schult,Sen He,Shoufa Chen,Yuren Cong,Tao Xiang,Ziwei Liu,Juan-Manuel Perez-Rua
Main category: cs.CV
TL;DR: HiStream是一个高效的自回归框架,通过空间、时间和时间步压缩三个维度减少冗余,实现高分辨率视频生成的显著加速,在1080p基准上达到76.2-107.5倍加速,同时保持SOTA视觉质量。
- Motivation: 高分辨率视频生成在数字媒体和电影制作中至关重要,但扩散模型的二次复杂度导致计算瓶颈,使得实际推理不可行。需要解决高效高分辨率视频生成的问题。
- Method: HiStream采用自回归框架,通过三个维度的压缩:1) 空间压缩:先在低分辨率去噪,然后利用缓存特征在高分辨率细化;2) 时间压缩:采用分块策略和固定大小的锚点缓存,确保稳定推理速度;3) 时间步压缩:对后续缓存条件块应用更少的去噪步骤。
- Result: 在1080p基准上,主要模型HiStream(i+ii)达到最先进的视觉质量,相比Wan2.1基线实现76.2倍加速且质量损失可忽略。更快的变体HiStream+(i+ii+iii)实现107.5倍加速,在速度和质量之间提供有吸引力的权衡。
- Conclusion: HiStream通过系统性的冗余减少,使高分辨率视频生成变得实用且可扩展,解决了扩散模型在视频生成中的计算瓶颈问题。
cs.AI
[65] MegaRAG: Multimodal Knowledge Graph-Based Retrieval Augmented Generation
Chi-Hsiang Hsiao,Yi-Cheng Wang,Tzung-Sheng Lin,Yi-Ren Yeh,Chu-Song Chen
Main category: cs.AI
TL;DR: 提出一种多模态知识图谱增强的检索生成方法,通过整合视觉线索提升对长文档的理解和推理能力
- Motivation: 传统RAG方法在处理长文档(如整本书)时存在局限性,主要受限于上下文窗口大小,难以进行深度推理。现有基于知识图谱的RAG方案仅支持文本输入,无法利用视觉等多模态信息的互补优势
- Method: 提出多模态知识图谱增强的RAG框架,将视觉线索整合到知识图谱构建、检索阶段和答案生成过程中,支持跨模态推理
- Result: 实验结果显示,该方法在全局和细粒度问答任务上,在文本和多模态语料库上都持续优于现有的RAG方法
- Conclusion: 通过整合视觉信息到知识图谱增强的RAG框架中,能够显著提升对长文档内容的理解和推理能力,特别是在处理多模态文档时效果更佳
[66] RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic
Le Wang,Zonghao Ying,Xiao Yang,Quanchen Zou,Zhenfei Yin,Tianlin Li,Jian Yang,Yaodong Yang,Aishan Liu,Xianglong Liu
Main category: cs.AI
TL;DR: RoboSafe:一种用于具身智能体的混合推理运行时安全防护系统,通过可执行的基于谓词的安全逻辑来减少危险行为
- Motivation: 基于视觉语言模型的具身智能体在执行复杂现实任务时容易受到危险指令的影响,而现有的静态规则过滤器或提示级控制方法难以应对动态、时间依赖和上下文丰富的环境中的隐含风险
- Method: 提出RoboSafe系统,包含两个互补的推理模块:1)后向反思推理模块,持续回顾短期记忆中的轨迹以推断时间安全谓词;2)前向预测推理模块,通过长期安全记忆和多模态观察生成上下文感知的安全谓词。两者在混合长短安全记忆上运行,形成可验证、可解释且可执行的安全逻辑
- Result: 在多个智能体上的实验表明,RoboSafe相比领先基线显著减少了危险行为(风险发生率降低36.8%),同时保持了接近原始的任务性能。物理机械臂的真实世界评估进一步证实了其实用性
- Conclusion: RoboSafe提供了一种自适应、可验证的运行时安全防护方案,能够有效应对具身智能体在动态复杂环境中的安全挑战,平衡安全性和任务性能
cs.LG
[67] MaskOpt: A Large-Scale Mask Optimization Dataset to Advance AI in Integrated Circuit Manufacturing
Yuting Hu,Lei Zhuang,Hua Xiang,Jinjun Xiong,Gi-Joon Nam
Main category: cs.LG
TL;DR: MaskOpt:一个用于单元感知和上下文感知掩模优化的大规模基准数据集,基于45nm节点的真实IC设计构建,包含超过22万个金属层和通孔层图块,支持不同上下文窗口大小以捕捉光学邻近效应。
- Motivation: 随着集成电路尺寸缩小至低于光刻波长,光学光刻面临衍射和工艺可变性的挑战。基于模型的OPC和ILT计算成本高,而现有的深度学习掩模优化数据集通常依赖合成布局,忽略标准单元层次结构和周围上下文,限制了实际应用。
- Method: 从45nm节点的真实IC设计中构建大规模基准数据集MaskOpt,包含104,714个金属层图块和121,952个通孔层图块。每个图块在标准单元放置处裁剪以保留单元信息,支持不同上下文窗口大小来捕捉邻近形状的影响。
- Result: 评估了最先进的深度学习掩模优化模型,建立了基准测试结果,揭示了基线模型之间的不同权衡。上下文大小分析和输入消融研究证实了周围几何形状和单元感知输入对于实现准确掩模生成的重要性。
- Conclusion: MaskOpt数据集为单元感知和上下文感知掩模优化提供了重要资源,通过真实IC设计和考虑上下文影响,推动了深度学习在掩模优化领域的实际应用。
[68] HyDRA: Hierarchical and Dynamic Rank Adaptation for Mobile Vision Language Model
Yuanhao Xi,Xiaohuan Bing,Ramin Yahyapour
Main category: cs.LG
TL;DR: HyDRA:针对移动视觉语言模型的高效微调框架,通过分层动态秩调度实现参数高效微调,性能超越基线且不增加可训练参数
- Motivation: 移动视觉语言模型训练计算需求大,标准LoRA固定秩方法对处理文本和图像模态的移动VLM能力不足,需要更高效的微调方法
- Method: 提出HyDRA框架,包含分层优化(粗粒度层间不同秩分配和细粒度层内秩调整)和动态调整(轻量性能模型端到端自动优化秩调度)两种策略
- Result: 在多个基准测试中,HyDRA始终优于基线,各种模型尺寸平均提升4.7%,且不增加可训练参数,部分任务甚至超越全参数微调
- Conclusion: HyDRA通过分层动态秩调度有效解决了移动VLM高效微调问题,在保持参数效率的同时显著提升性能
[69] Generalization of Diffusion Models Arises with a Balanced Representation Space
Zekai Zhang,Xiao Li,Xiang Li,Lianghe Shi,Meng Wu,Molei Tao,Qing Qu
Main category: cs.LG
TL;DR: 扩散模型在训练目标过拟合时可能记忆训练数据,本文通过表示学习分析记忆与泛化的区别,提出检测记忆的方法和无需训练的编辑技术。
- Motivation: 扩散模型能生成高质量多样化样本,但存在过拟合训练目标导致记忆训练数据的风险。需要理解记忆与泛化的本质区别,以促进更好的生成建模。
- Method: 通过两层ReLU去噪自编码器(DAE)的理论分析,研究表示学习视角下的记忆与泛化。在真实无条件扩散模型和文本到图像扩散模型上验证理论发现,并提出基于表示的检测方法和表示导向的训练免费编辑技术。
- Result: 证明记忆对应模型在权重中存储原始训练样本,产生局部"尖峰"表示;泛化对应模型捕捉局部数据统计,产生"平衡"表示。在深度生成模型中验证了相同表示结构,并展示了基于表示的方法能有效检测记忆和实现精确控制编辑。
- Conclusion: 学习良好表示是新颖且有意义的生成建模的核心。表示结构区分了记忆与泛化,基于此的检测和编辑方法具有重要实践意义。
[70] STLDM: Spatio-Temporal Latent Diffusion Model for Precipitation Nowcasting
Shi Quan Foo,Chi-Ho Wong,Zhihan Gao,Dit-Yan Yeung,Ka-Hing Wong,Wai-Kin Wong
Main category: cs.LG
TL;DR: STLDM是一种基于扩散模型的降水临近预报方法,通过变分自编码器和条件网络学习潜在表示,将任务分解为确定性预报和增强两个阶段,在多个雷达数据集上取得了最先进的性能。
- Motivation: 降水临近预报对于预防极端天气灾害至关重要,但现有方法面临挑战:确定性模型预测模糊,生成模型精度不佳。需要一种既能保持准确性又能生成清晰预测的方法。
- Method: STLDM采用基于扩散的模型架构,结合变分自编码器和条件网络端到端学习潜在表示。将任务分解为两个阶段:1)条件网络处理确定性预报阶段;2)潜在扩散模型执行增强阶段。
- Result: 在多个雷达数据集上的实验表明,STLDM相比现有最先进方法取得了更优的性能,同时提高了推理效率。
- Conclusion: STLDM通过将降水临近预报分解为确定性预报和扩散增强两个阶段,有效解决了现有方法在准确性和清晰度方面的权衡问题,为极端天气预警提供了更可靠的解决方案。
[71] Improving the Convergence Rate of Ray Search Optimization for Query-Efficient Hard-Label Attacks
Xinjie Xu,Shuyu Cheng,Dongwei Xu,Qi Xuan,Chen Ma
Main category: cs.LG
TL;DR: 提出AR-OPT和PARS-OPT两种硬标签黑盒对抗攻击方法,通过动量加速和代理模型先验显著提升查询效率
- Motivation: 硬标签黑盒对抗攻击中仅能获取top-1预测标签,查询复杂度极高,阻碍实际部署。现有基于射线方向优化的攻击方法收敛缓慢,需要更高效的优化算法。
- Method: 1. 提出AR-OPT:受Nesterov加速梯度启发,设计动量算法,通过累积动量主动估计未来射线方向的梯度。2. 提出PARS-OPT:在AR-OPT基础上融入代理模型先验,增强梯度估计性能。3. 提供理论分析证明收敛性和稳定性。
- Result: 在ImageNet和CIFAR-10数据集上,方法超越13种最先进方法,显著提升查询效率。理论分析表明AR-OPT能实现更准确的方向更新和更快更稳定的优化。
- Conclusion: 提出的动量加速和代理模型先验方法有效解决了硬标签黑盒对抗攻击的高查询复杂度问题,为实际部署提供了可行的解决方案。
[72] Does the Data Processing Inequality Reflect Practice? On the Utility of Low-Level Tasks
Roy Turgeman,Tom Tirer
Main category: cs.LG
TL;DR: 论文挑战了数据处理不等式在分类任务中的适用性,证明了在有限训练样本下,预处理(如去噪、编码)可以提升分类准确率,即使对于接近最优贝叶斯分类器的模型也是如此。
- Motivation: 尽管数据处理不等式表明信号处理不会增加信息量,且最优贝叶斯分类器理论上不需要预处理,但实践中人们常在分类前进行低层处理(如去噪、编码)。论文旨在理解这种看似矛盾的现象何时及为何有益。
- Method: 1. 对二元分类问题进行全面的理论研究,考虑一个与最优贝叶斯分类器紧密相关且随训练样本增加收敛到它的分类器;2. 证明对于任何有限训练样本,存在能提高分类准确率的预处理方法;3. 探索类别分离度、训练集大小和类别平衡对预处理增益的影响;4. 通过理论设置的实证研究支持理论;5. 在实际深度分类器上进行实证研究,考察去噪和编码在基准数据集上的效果。
- Result: 理论证明:对于任何有限训练样本,都存在能提高分类准确率的预处理方法。实证研究:在实际深度分类器上,通过改变训练集大小、类别分布和噪声水平,观察到的趋势与理论结果一致。
- Conclusion: 数据处理不等式在有限训练样本的实际分类场景中可能不成立。预处理(如去噪、编码)可以通过减少估计误差和改善特征表示来提升分类性能,特别是在训练数据有限、类别不平衡或噪声较大的情况下。这解释了为什么实践中低层处理对高层分类任务有益。
physics.flu-dyn
[73] Flow Gym
Francesco Banelli,Antonio Terpin,Alan Bonomi,Raffaello D'Andrea
Main category: physics.flu-dyn
TL;DR: Flow Gym是一个用于流场量化研究的工具包,提供统一的算法测试、部署和训练接口
- Motivation: 为流场量化方法的研究和部署提供标准化工具,解决算法测试和比较缺乏统一平台的问题
- Method: 基于OpenAI Gym和Stable-Baselines3的设计理念,使用SynthPix作为合成图像生成引擎,提供JAX实现的稳定算法集成
- Result: 开发了一个包含合成图像生成、算法集成和统一接口的完整工具包,支持多种流场量化算法的测试和训练
- Conclusion: Flow Gym为流场量化研究提供了标准化的实验平台,促进了算法比较和部署的便利性
cs.RO
[74] Language-Guided Grasp Detection with Coarse-to-Fine Learning for Robotic Manipulation
Zebin Jiang,Tianle Jin,Xiangtong Yao,Alois Knoll,Hu Cao
Main category: cs.RO
TL;DR: 提出LGGD方法,通过粗到细的学习范式实现语言引导的抓取检测,利用CLIP嵌入进行跨模态融合,在多个数据集上超越现有方法并展示实际机器人部署效果。
- Motivation: 当前语言引导的抓取方法通常采用浅层融合策略,导致语义基础薄弱,语言意图与视觉抓取推理之间的对齐效果有限。在非结构化、杂乱和语义多样的环境中,机器人需要更好地理解自然语言指令来执行抓取任务。
- Method: 提出LGGD方法,采用粗到细的学习范式:1) 利用CLIP的视觉和文本嵌入,在分层跨模态融合管道中逐步注入语言线索到视觉特征重建过程;2) 引入语言条件动态卷积头(LDCH),基于句子级特征混合多个卷积专家,实现指令自适应的粗掩码和抓取预测;3) 最终细化模块增强复杂场景中的抓取一致性和鲁棒性。
- Result: 在OCID-VLG和Grasp-Anything++数据集上的实验表明,LGGD超越了现有的语言引导抓取方法,对未见过的物体和多样化的语言查询展现出强大的泛化能力。在实际机器人平台上的部署证明了该方法在执行准确、指令条件抓取动作方面的实际有效性。
- Conclusion: LGGD通过精细的视觉-语义对齐和指令自适应预测,有效解决了语言引导抓取中的语义基础和对齐问题,在模拟和真实环境中都表现出优越性能,为机器人操作提供了实用的语言引导抓取解决方案。
[75] Schrödinger's Navigator: Imagining an Ensemble of Futures for Zero-Shot Object Navigation
Yu He,Da Huang,Zhenyang Liu,Zixiao Gu,Qiang Sun,Guangnan Ye,Yanwei Fu
Main category: cs.RO
TL;DR: 提出Schrödinger's Navigator框架,通过轨迹条件化的3D世界模型想象未来观测,解决零样本物体导航在遮挡、风险和动态目标环境中的挑战
- Motivation: 现有零样本物体导航方法在真实杂乱环境中表现不佳,特别是在存在严重遮挡、未知风险或动态移动目标的情况下。需要一种能够处理未观察空间不确定性的导航框架
- Method: 受薛定谔思想实验启发,将未观察空间视为可能的未来世界集合。基于自中心视觉输入和三条候选轨迹,轨迹条件化的3D世界模型沿每条路径想象未来观测,将想象的3D观测融合到导航地图中并更新价值地图
- Result: 在Go2四足机器人上的实验表明,在严重静态遮挡、未知风险和动态移动目标三种挑战场景中,该方法在自定位、物体定位和整体成功率方面均优于现有零样本导航基线
- Conclusion: 轨迹条件化的3D想象能够实现鲁棒的零样本物体导航,特别是在遮挡严重的环境中,证明了通过想象未来观测来处理空间不确定性的有效性
physics.med-ph
[76] Equivariant Multiscale Learned Invertible Reconstruction for Cone Beam CT: From Simulated to Real Data
Nikita Moriakov,Efstratios Gavves,Jonathan H. Mason,Carmen Seller-Oria,Jonas Teuwen,Jan-Jakob Sonke
Main category: physics.med-ph
TL;DR: LIRE++是一种端到端旋转等变多尺度可逆原始-对偶学习方法,用于快速、内存高效的CBCT重建,在合成和临床数据上均优于现有方法。
- Motivation: CBCT图像质量低于传统CT是其应用的主要限制因素。深度学习重建方法有潜力,但应用于CBCT面临缺乏真实数据、内存限制和临床分辨率下快速推理等挑战。
- Method: 提出LIRE++:端到端旋转等变多尺度可逆原始-对偶方案。采用内存优化和多尺度重建实现快速训练推理,旋转等变性提高参数效率。使用开发的快速准蒙特卡洛CBCT投影模拟器生成训练数据。
- Result: 在合成数据上,LIRE++比替代深度学习基线平均PSNR提高1dB。在真实临床数据上,与当前最先进的混合深度/迭代方法相比,重建与规划CT之间的平均绝对误差降低10HU。
- Conclusion: LIRE++在CBCT重建中表现出色,通过内存优化、多尺度设计和旋转等变性解决了深度学习重建的关键挑战,在合成和临床数据上均优于现有方法。
cs.GR
[77] TexAvatars : Hybrid Texel-3D Representations for Stable Rigging of Photorealistic Gaussian Head Avatars
Jaeseong Lee,Junyeong Ahn,Taewoong Kang,Jaegul Choo
Main category: cs.GR
TL;DR: TexAvatars:结合解析绑定与纹理空间表示的混合3D头部化身方法,通过网格感知雅可比驱动变形,在极端姿态和表情下实现更好的泛化能力
- Motivation: 现有3D头部化身方法存在局限性:基于规则的解析绑定和基于神经网络的变形场在极端重演场景中泛化能力不足;基于3DMM纹理空间的方法过度依赖神经回归器和启发式正则化,几何一致性弱,难以处理复杂变形
- Method: 提出TexAvatars混合表示方法:1) 通过CNN在UV空间预测局部几何属性;2) 使用网格感知雅可比驱动3D变形,实现三角形边界间的平滑语义过渡;3) 将语义建模与几何控制分离
- Result: 在极端姿态和表情变化下实现最先进性能,能捕捉细粒度表情效果(肌肉诱导皱纹、眉间纹、口腔几何),在挑战性头部重演场景中表现出强泛化能力
- Conclusion: TexAvatars通过结合解析绑定的显式几何基础和纹理空间的空间连续性,实现了更好的泛化性、可解释性和稳定性,为AR/XR应用提供了高质量的3D头部化身解决方案
Powered by Deepseek & arXiv Daily AI Enhanced