Skip to content
每日arXiv - 2025年8月21日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] A comparative study of some wavelet and sampling operators on various features of an image

Digvijay Singh,Rahul Shukla,Karunesh Kumar Singh

Main category: cs.CV

TL;DR: 本文研究了多种正采样Kantorovich算子(SK算子)及其收敛性质,包括SK、高斯、双边和阈值小波算子,分析了局部和全局逼近特性,并通过数值实验验证了基本逼近定理。

  • Motivation: 研究不同采样Kantorovich算子在图像处理中的逼近性能,特别是在非理想条件下对各种图像特征的处理效果,为选择合适的算子提供理论依据。
  • Method: 引入基本术语和基本逼近定理,通过测量均方误差、散斑指数、散斑抑制指数等数学参数,在不同分辨率水平下分析各种算子的性能,并使用2D Shepp-Logan Phantom图像进行数值验证。
  • Result: 研究发现不同算子在处理图像不同特征时具有各自的优势,某些算子在特定图像特征上表现良好,而其他算子则表现不佳,这取决于图像的非均匀性质。
  • Conclusion: 各种采样Kantorovich算子在图像处理中各有其重要性,需要根据具体的图像特征和非理想条件来选择合适的算子,基本逼近定理得到了数值实验的验证。

[2] Federated Action Recognition for Smart Worker Assistance Using FastPose

Vinit Hegiste,Vidit Goyal,Tatjana Legler,Martin Ruskowski

Main category: cs.CV

TL;DR: 这篇论文提出了一种基于联邦学习的骨架动作识别框架,解决智能制造中的隐私保护和跨用户泛化问题,在保持隐私的同时显著提升了识别精度。

  • Motivation: 智能制造环境中需要准确实时的工人动作识别,但传统的集中式数据集方案在隐私敏感场景中不实用,需要一种能够保护隐私的分布式学习方案。
  • Method: 使用联邦学习框架,基于自建的8种工业相关上身手势数据集,采用修改的FastPose模型进行骨架处理,对比了LSTM和Transformer编码器两种时序模型,并在四种训练范式下进行评估。
  • Result: 在全局测试集上,FL Transformer模型比集中式训练提升12.4%,FedEnsemble方法提升16.3%;在未见客户端上,FL和FedEnsemble分别超过集中式精度52.6%和58.3%,显著提升了跨用户泛化能力。
  • Conclusion: 联邦学习不仅能够保护隐私,还能显著提升跨用户泛化性能,是异构工业环境中可扩展、隐私意识的人体动作识别的实用解决方案。

[3] LENS: Learning to Segment Anything with Unified Reinforced Reasoning

Lianghui Zhu,Bin Ouyang,Yuxuan Zhang,Tianheng Cheng,Rui Hu,Haocheng Shen,Longjin Ran,Xiaoxin Chen,Li Yu,Wenyu Liu,Xinggang Wang

Main category: cs.CV

TL;DR: LENS是一个基于强化学习的端到端框架,通过联合优化推理过程和图像分割,在文本提示分割任务上实现了81.2%的平均cIoU,比GLaMM方法提升5.6%

  • Motivation: 现有监督微调方法在测试时忽略了显式的思维链推理,限制了模型对未见提示和领域的泛化能力
  • Method: 提出统一的强化学习奖励机制,涵盖句子级、边界框级和分割级线索,鼓励模型生成信息丰富的思维链推理同时提升掩码质量
  • Result: 在RefCOCO、RefCOCO+和RefCOCOg基准测试中达到81.2%的平均cIoU,比GLaMM方法提升最高5.6%
  • Conclusion: 强化学习驱动的思维链推理为文本提示分割提供了强大的先验,是实现更通用分割模型的实用路径

[4] RynnEC: Bringing MLLMs into Embodied World

Ronghao Dang,Yuqian Yuan,Yunxuan Mao,Kehan Li,Jiangpin Liu,Zhikai Wang,Xin Li,Fan Wang,Deli Zhao

Main category: cs.CV

TL;DR: RynnEC是一个用于具身认知的视频多模态大语言模型,通过区域编码器和掩码解码器实现区域级视频交互,在物体属性理解、分割和空间推理方面达到SOTA性能

  • Motivation: 为具身智能体开发通用认知核心,提供对物理世界的细粒度感知和精确交互能力,解决标注3D数据稀缺的问题
  • Method: 基于通用视觉语言基础模型,集成区域编码器和掩码解码器,提出基于第一人称视频的具身认知数据生成流程
  • Result: 在紧凑架构下实现了最先进的性能,建立了RynnEC-Bench评估基准
  • Conclusion: RynnEC为具身智能体提供了以区域为中心的视频范式,将推动通用认知核心的发展并促进跨任务的泛化

[5] Local Scale Equivariance with Latent Deep Equilibrium Canonicalizer

Md Ashiqur Rahman,Chiao-An Yang,Michael N. Cheng,Lim Jun Hao,Jeremiah Jiang,Teck-Yian Lim,Raymond A. Yeh

Main category: cs.CV

TL;DR: 提出深度均衡规范化器(DEC)来解决计算机视觉中的尺度变化问题,通过提高模型的局部尺度等变性来提升性能

  • Motivation: 计算机视觉中同一类别的物体可能具有不同尺寸,且感知尺寸受相机距离影响,这些局部尺度变化是重要挑战
  • Method: 开发深度均衡规范化器(DEC),可轻松集成到现有网络架构中,并能适配预训练模型,提高局部尺度等变性
  • Result: 在竞争性的ImageNet基准测试中,DEC提升了ViT、DeiT、Swin和BEiT四种流行预训练深度网络的性能和局部尺度一致性
  • Conclusion: DEC是处理尺度变化的有效方法,能够显著改善现有模型的尺度和性能表现

[6] CLIPSym: Delving into Symmetry Detection with CLIP

Tinghan Yang,Md Ashiqur Rahman,Raymond A. Yeh

Main category: cs.CV

TL;DR: CLIPSym利用CLIP预训练模型和语义感知提示分组技术,通过旋转等变解码器检测旋转和反射对称性,在多个标准数据集上达到最先进性能。

  • Motivation: 对称性是计算机视觉中最基本的几何线索之一,但检测对称性一直是个挑战。研究探索预训练的CLIP模型是否能利用自然图像描述中的对称性线索来辅助对称检测。
  • Method: 提出CLIPSym方法,结合CLIP的图像和语言编码器,以及基于Transformer和G-卷积混合的旋转等变解码器。开发了语义感知提示分组(SAPG)技术,聚合多样化的基于对象的提示来整合语义线索。
  • Result: 在三个标准对称检测数据集(DENDI、SDRW、LDRS)上超越了当前最先进的方法。详细的消融实验验证了CLIP预训练、等变解码器和SAPG技术的有效性。
  • Conclusion: CLIPSym成功证明了预训练视觉语言模型在对称检测任务中的价值,通过创新的提示技术和等变架构设计,显著提升了对称性检测性能。

[7] A Survey on Video Anomaly Detection via Deep Learning: Human, Vehicle, and Environment

Ghazal Alinezhad Noghre,Armin Danesh Pazho,Hamed Tabkhi

Main category: cs.CV

TL;DR: 这篇论文是关于视频异常检测(VAD)的综述文章,系统整理了该领域在不同监督级别、学习范式和应用场景下的研究进展,旨在为该领域提供结构化基础并指出开放挑战。

  • Motivation: 视频异常检测在计算机视觉中具有重要意义,但该领域在不同领域和学习范式之间存在碎片化,需要系统性的整理和综述来推动理论理解和实际应用。
  • Method: 采用系统性文献综述方法,从监督级别(不同监督水平)、学习范式(在线学习、主动学习、持续学习等)和应用场景(人本、车辆、环境为中心)三个维度对VAD文献进行组织和分析。
  • Result: 识别了当前方法的基本贡献和局限性,为VAD领域提供了结构化的知识基础,并整合了各个子领域的见解。
  • Conclusion: 该综述为研究社区提供了有用的参考,同时指出了异常检测领域更广泛的开放挑战,包括基础研究问题和实际部署障碍,旨在支持VAD系统的理论发展和实际应用推进。

[8] Accelerating Image Classification with Graph Convolutional Neural Networks using Voronoi Diagrams

Mustafa Mohammadi Gharasuie,Luis Rueda

Main category: cs.CV

TL;DR: 该研究提出了一种结合Voronoi图和图卷积网络(GCN)的创新图像分类框架NVGCN,通过图结构表示图像,在多个基准数据集上显著提升了预处理时间和分类准确率

  • Motivation: 传统卷积神经网络在处理复杂数据结构时存在局限性,需要新的范式来处理图像中的关系数据,GCN与Voronoi图的结合为此提供了创新解决方案
  • Method: 使用基于图的图像表示方法,将像素或区域视为图的顶点,通过Delaunay三角剖分进行简化,提出了归一化Voronoi图卷积网络(NVGCN)新架构
  • Result: 在多个基准数据集上实现了预处理时间的显著改善和分类准确率的提升,特别是在复杂场景和细粒度分类任务中超越了现有最先进模型
  • Conclusion: 该研究为图像分类引入了新颖的方法,证明了GCN与Voronoi图集成的潜力,为计算机视觉和其他非结构化数据领域的图基学习范式开辟了新途径

[9] Directed-Tokens: A Robust Multi-Modality Alignment Approach to Large Language-Vision Models

Thanh-Dat Truong,Huu-Thien Tran,Tran Thai Son,Bhiksha Raj,Khoa Luu

Main category: cs.CV

TL;DR: 提出一种通过解决排序重构问题来改进大型多模态模型视觉-文本对齐鲁棒性的简单有效方法,包含图像和文本顺序重构任务、定向token技术和图像到响应引导损失函数

  • Motivation: 现有大型多模态模型在鲁棒性和泛化能力方面存在根本性限制,主要源于视觉和文本特征之间的对齐和相关性不足
  • Method: 在预训练和微调阶段引入图像顺序重构和文本顺序重构两个新任务;提出定向token方法捕获视觉和文本知识;引入图像到响应引导损失函数改进视觉理解
  • Result: 在学术任务导向和指令跟随的多模态模型基准测试中持续取得最先进的性能
  • Conclusion: 该方法通过排序重构任务有效提升了多模态模型的推理能力、视觉理解和跨模态对齐能力

[10] Effect of Data Augmentation on Conformal Prediction for Diabetic Retinopathy

Rizwan Ahamed,Annahita Amireskandari,Joel Palko,Carol Laxson,Binod Bhattarai,Prashnna Gyawali

Main category: cs.CV

TL;DR: 本文系统研究了不同数据增强策略对糖尿病视网膜病变分级中保形预测器性能的影响,发现样本混合策略(Mixup和CutMix)不仅能提高预测准确性,还能产生更可靠和高效的不确定性估计。

  • Motivation: 深度学习模型在高风险医疗任务(如糖尿病视网膜病变分级)中需要可靠的不确定性量化。虽然保形预测能提供统计保证的预测集,但标准训练实践(如数据增强)与这些保证有效性之间的相互作用尚不清楚。
  • Method: 使用DDR数据集,评估两种骨干架构(ResNet-50和CoaT)在五种增强方案下的表现:无增强、标准几何变换、CLAHE、Mixup和CutMix,分析对保形指标(经验覆盖率、平均预测集大小和正确效率)的下游影响。
  • Result: 样本混合策略(Mixup和CutMix)不仅提高了预测准确性,还产生了更可靠和高效的不确定性估计。相反,CLAHE等方法可能对模型确定性产生负面影响。
  • Conclusion: 研究强调需要将增强策略与下游不确定性量化协同设计,以构建真正值得信赖的医疗影像AI系统。

[11] Tooth-Diffusion: Guided 3D CBCT Synthesis with Fine-Grained Tooth Conditioning

Said Djafar Said,Torkan Gholamalizadeh,Mostafa Mehdipour Ghazi

Main category: cs.CV

TL;DR: 提出了一种基于条件扩散框架的3D牙齿CBCT扫描生成方法,通过牙齿级二元属性实现精确控制,支持牙齿添加、移除和全牙列合成等任务。

  • Motivation: 尽管CBCT扫描在牙科诊断和治疗规划中日益重要,但生成具有精细控制能力的解剖学真实扫描图像仍然是医学图像合成领域的挑战。
  • Method: 采用基于小波的去噪扩散模型,结合FiLM条件调节和掩码损失函数,专注于相关解剖结构的学习。
  • Result: 模型在多样性任务中表现出色,FID分数低,修复性能强,SSIM值超过0.91,即使在未见过的扫描数据上也能保持良好泛化能力。
  • Conclusion: 该方法能够实现无需重新扫描的真实局部牙列修改,为外科规划、患者沟通和牙科AI工作流中的针对性数据增强开辟了新机会。

[12] GALA: Guided Attention with Language Alignment for Open Vocabulary Gaussian Splatting

Elena Alegret Regalado,Kunyi Li,Sen Wang,Siyun Liang,Michael Niemeyer,Stefano Gasperini,Nassir Navab,Federico Tombari

Main category: cs.CV

TL;DR: GALA是一个基于3D高斯泼溅的创新框架,通过自监督对比学习和交叉注意力模块实现开放词汇的3D场景理解,在2D和3D查询中表现出色且内存效率高。

  • Motivation: 现有方法难以从2D图像中捕捉细粒度、语言感知的3D表示,需要开发能够支持开放词汇查询的高效3D场景理解框架。
  • Method: 使用3D高斯泼溅技术,通过自监督对比学习提炼场景特定的3D实例特征场,引入带有两个可学习码本的交叉注意力模块来编码视图无关的语义嵌入。
  • Result: 在真实数据集上的广泛实验表明,GALA在2D和3D开放词汇查询方面都表现出卓越性能。
  • Conclusion: GALA框架成功实现了高效的内存使用和优秀的开放词汇3D场景理解能力,为3D表示学习提供了新的解决方案。

[13] Multi-Rationale Explainable Object Recognition via Contrastive Conditional Inference

Ali Rasekh,Sepehr Kazemi Ranjbar,Simon Gottschalk

Main category: cs.CV

TL;DR: 这篇论文提出了一种新的对比性条件推理(CCI)框架,用于多理由可解释物体识别,解决了现有CLIP模型在提示条件化和理由质量方面的限制。

  • Motivation: 现有的可解释物体识别方法依赖提示条件化,存在CLIP文本编码器限制和解释结构条件化弱的问题,同时数据集中的理由多为单一、噪声大且无法涵盖图像特征的完整多样性。
  • Method: 提出了对比性条件推理(CCI)框架,显式建模图像嵌入、类别标签和理由之间的概率关系。该方法无需训练,能够更有效地利用理由条件来预测准确的物体类别。
  • Result: 在多理由可解释物体识别性能测试中达到了最高水平,包括强大的零样本性能,为分类准确性和理由质量设定了新标准。
  • Conclusion: 该研究与性能测试一起提供了一个更完整的框架,用于评估未来可解释物体识别模型的性能。

[14] OccluNet: Spatio-Temporal Deep Learning for Occlusion Detection on DSA

Anushka A. Kore,Frank G. te Nijenhuis,Matthijs van der Sluijs,Wim van Zwam,Charles Majoie,Geert Lycklama à Nijeholt,Danny Ruijters,Frans Vos,Sandra Cornelissen,Ruisheng Su,Theo van Walsum

Main category: cs.CV

TL;DR: OccluNet是一个结合YOLOX目标检测器和transformer时序注意力机制的深度学习模型,用于自动检测血管造影序列中的血管闭塞,在急性缺血性卒中治疗中表现优于基线模型。

  • Motivation: 在急性缺血性卒中血管内取栓治疗中,准确检测血管闭塞至关重要,但由于解剖结构复杂和时间限制,数字减影血管造影序列的解读具有挑战性。
  • Method: 提出OccluNet模型,集成YOLOX单阶段目标检测器和基于transformer的时序注意力机制,探索了纯时序注意力和分时空注意力两种变体,并与基于单帧或最小强度投影的YOLOv11基线模型进行比较。
  • Result: 在MR CLEAN Registry的DSA图像评估中,模型能够捕获时序一致特征,达到89.02%的精确率和74.87%的召回率,显著优于基线模型,两种注意力变体性能相似。
  • Conclusion: OccluNet通过结合空间检测和时序建模,为血管闭塞的自动化检测提供了有效解决方案,在急性缺血性卒中的临床应用中具有重要价值。

[15] Pixels to Play: A Foundation Model for 3D Gameplay

Yuguang Yue,Chris Green,Samuel Hunt,Irakli Salia,Wenzhe Shi,Jonathan J Hunt

Main category: cs.CV

TL;DR: Pixels2Play-0.1是一个基础模型,通过像素输入学习玩多种3D游戏,使用行为克隆和逆动力学模型训练,在消费级GPU上实现低延迟游戏控制

  • Motivation: 满足AI队友、可控NPC、个性化直播和辅助测试等新兴需求,需要基于玩家可用的像素流进行泛化,减少游戏特定工程
  • Method: 端到端行为克隆训练,结合人工标注演示和未标注公共视频(通过逆动力学模型推断动作),使用解码器transformer自回归输出动作
  • Result: 在简单Roblox和经典MS-DOS游戏中表现出色,验证了未标注数据的有效性,为达到专家级文本条件控制奠定了基础
  • Conclusion: 该模型展示了基于像素输入的通用游戏AI的可行性,为未来扩展到更复杂游戏和文本控制指明了方向

[16] MoVieDrive: Multi-Modal Multi-View Urban Scene Video Generation

Guile Wu,David Huang,Dongfeng Bai,Bingbing Liu

Main category: cs.CV

TL;DR: 提出了一种用于自动驾驶的多模态多视角视频生成方法,通过统一的扩散变换器模型生成RGB、深度图和语义图等多种模态数据

  • Motivation: 现有自动驾驶视频生成方法主要关注RGB视频,缺乏多模态生成能力,而多模态数据(如深度图和语义图)对全面场景理解至关重要
  • Method: 构建统一的扩散变换器模型,包含模态共享组件和模态特定组件,利用多样化条件输入编码可控场景结构和内容线索
  • Result: 在nuScenes数据集上的实验表明,该方法能够生成高保真度和高可控性的多模态多视角城市场景视频,超越现有最先进方法
  • Conclusion: 提出的统一框架成功实现了多模态多视角驾驶场景视频的生成,解决了现有方法在多模态生成方面的局限性

[17] Inter-Class Relational Loss for Small Object Detection: A Case Study on License Plates

Dian Ning,Dong Seog Han

Main category: cs.CV

TL;DR: 提出了一种基于类别间空间关系的损失函数(ICR loss),利用大物体指导小物体检测,解决了IoU损失在小物体梯度更新不足的问题,在车牌检测任务中显著提升了性能。

  • Motivation: IoU-based损失函数在小物体检测中存在梯度更新不足的问题,因为小物体的梯度非常平坦,导致训练过程中小物体的学习效率低下。
  • Method: 提出inter-class relational loss,利用物体间的空间关系(如车牌与汽车的附着关系),当预测的小物体不在其关联的大物体内部时添加惩罚损失,惩罚程度与重叠面积成反比。
  • Result: 在SVMLP数据集上,YOLOv12-T的mAP50提升10.3%,UAV-DETR提升1.6%,无需额外超参数调优。
  • Conclusion: ICR损失可以轻松集成到现有IoU-based损失中,通过利用类别间空间关系有效提升小物体检测性能,特别是在车牌检测等任务中表现优异。

[18] HandCraft: Dynamic Sign Generation for Synthetic Data Augmentation

Gaston Gustavo Rios

Main category: cs.CV

TL;DR: 提出基于CMLPe的轻量级手语生成模型,通过合成数据预训练方法解决手语识别中训练数据不足的问题,在LSFB和DiSPLaY数据集上取得了最先进的结果。

  • Motivation: 手语识别模型因训练数据不足而面临性能限制,需要解决数据稀缺性问题。
  • Method: 使用基于CMLPe的轻量级手语生成模型生成合成数据,并采用合成数据预训练方法,配合Mamba-SL和Transformer-SL分类器。
  • Result: 在LSFB和DiSPLaY数据集上建立了新的最先进识别准确率,合成数据预训练在某些情况下优于传统数据增强方法,且与传统方法结合时产生互补效益。
  • Conclusion: 该方法通过计算高效的方式实现了显著性能提升,为手语识别领域民主化了手语生成和合成数据预训练技术。

[19] Deep Learning for Taxol Exposure Analysis: A New Cell Image Dataset and Attention-Based Baseline Model

Sean Fletcher,Gabby Scott,Douglas Currie,Xin Zhang,Yuqi Song,Bruce MacLeod

Main category: cs.CV

TL;DR: 这篇论文提供了一个新的微粒镜图像数据集,用于监测化疗药Taxol对细胞的影响,并提出了基准模型ResAttention-KNN来进行浓度分类。

  • Motivation: 目前监测Taxol效果的方法需要专业设备和复杂的样品处理,成本高且不适合高速或实时分析。深度学习在医学图像分析中展现了强大潜力,但缺乏相关公开数据集。
  • Method: 收集了C6脑研细胞经不同Taxol浓度处理后的微粒图像数据集,并提出ResAttention-KNN模型,结合ResNet-50、卷积注意力模块和k近邻分类器。
  • Result: 建立了公开数据集和基准模型,为自动化细胞形态分析提供了标准化解决方案,支持可复现性和未来研究。
  • Conclusion: 该研究填补了Taxol细胞响应分析领域的数据空白,通过深度学习方法实现了高速、自动化的细胞形态监测,为生物医学图像分析领域做出了贡献。

[20] Learning Point Cloud Representations with Pose Continuity for Depth-Based Category-Level 6D Object Pose Estimation

Zhujun Li,Shuo Zhang,Ioannis Stamos

Main category: cs.CV

TL;DR: HRC-Pose是一个基于深度信息的类别级物体姿态估计框架,通过对比学习保持6D姿态连续性,在旋转和平移分量上分别处理,在REAL275和CAMERA25基准测试中优于现有方法。

  • Motivation: 现有方法仅依赖6D姿态作为监督信号,未能显式捕捉姿态的内在连续性,导致预测不一致和对未见姿态的泛化能力下降。
  • Method: 提出HRC-Pose框架,通过对比学习学习保持6D姿态连续性的点云表示,将物体姿态解耦为旋转和平移分量分别编码,并基于6D姿态感知的层次排序方案设计多任务多类别对比学习策略。
  • Result: 在REAL275和CAMERA25基准测试中一致优于现有的深度信息方法,能够实时运行,成功学习了连续特征空间。
  • Conclusion: HRC-Pose通过对比学习有效解决了类别级物体姿态估计中的连续性问题,展示了在真实世界应用中的潜力和有效性。

[21] Taming Transformer for Emotion-Controllable Talking Face Generation

Ziqi Zhang,Cheng Deng

Main category: cs.CV

TL;DR: 提出了一种基于情感锚点表示和自回归变换器的情感可控说话人脸生成方法,通过预训练策略解耦音频和量化视频,实现了身份保持的情感视频合成。

  • Motivation: 解决情感可控说话人脸生成中的两个关键挑战:如何有效建模与特定情感相关的多模态关系,以及如何利用这种关系合成保持身份特征的情感视频。
  • Method: 采用两种预训练策略将音频解耦为独立组件并将视频量化为视觉标记组合;提出情感锚点表示将情感信息整合到视觉标记中;使用自回归变换器建模视觉标记的全局分布并预测合成视频的索引序列。
  • Result: 在MEAD数据集上进行实验,通过多情感音频条件控制视频情感,定性和定量实验均证明了方法的优越性。
  • Conclusion: 该方法能够有效实现情感可控的说话人脸生成,在保持身份特征的同时合成出高质量的情感视频。

[22] FastTracker: Real-Time and Accurate Visual Tracking

Hamidreza Hashempoor,Yu Dong Hwang

Main category: cs.CV

TL;DR: 提出了一种通用的多目标跟踪框架,特别针对复杂交通场景中的车辆跟踪,包含遮挡感知重识别和道路结构感知轨迹优化,并在新基准和公开数据集上表现出色。

  • Motivation: 传统多目标跟踪系统主要针对行人跟踪,对其他物体类别的泛化能力有限,需要开发能够处理多种物体类型的通用跟踪框架。
  • Method: 采用两个关键组件:1)遮挡感知重识别机制,增强被严重遮挡物体的身份保持;2)道路结构感知轨迹优化策略,利用车道方向、人行横道、道路边界等语义场景先验来改善轨迹连续性和准确性。
  • Result: 在新引入的数据集和多个公开基准测试中均取得稳健性能,在MOT17和MOT20测试集上分别获得66.4和65.7的HOTA分数。
  • Conclusion: 该框架不仅适用于通用的多类跟踪,在传统基准测试中也表现出强大性能,证明了其在通用目标跟踪中的有效性。

[23] TCFNet: Bidirectional face-bone transformation via a Transformer-based coarse-to-fine point movement network

Runshi Zhang,Bimeng Jie,Yang He,Junchen Wang

Main category: cs.CV

TL;DR: 提出基于Transformer的粗到细点移动网络(TCFNet),用于正颌手术规划中的面骨点云变换,通过两阶段网络结构解决传统方法和现有深度学习方法的问题。

  • Motivation: 传统生物力学模拟方法计算耗时、数据处理繁琐且精度低,现有深度学习方法无法处理大规模点云、感受野有限导致噪声点,且需要复杂的预处理和后处理操作。
  • Method: 采用端到端框架,第一阶段使用Transformer网络,第二阶段使用局部信息聚合网络(LIA-Net),两阶段相互增强生成精确点移动路径。LIA-Net通过建模局部几何结构补偿Transformer网络的邻域精度损失,并使用门控循环单元引导局部位移。
  • Result: 在收集的数据集上与现有最先进方法相比,TCFNet取得了优异的评估指标和可视化结果。
  • Conclusion: TCFNet能够有效学习面骨点云变换的复杂对应关系,解决了现有方法的局限性,为正颌手术规划提供了更精确高效的解决方案。

[24] QuadINR: Hardware-Efficient Implicit Neural Representations Through Quadratic Activation

Wenyong Zhou,Boyu Li,Jiachen Ren,Taiqiang Wu,Zhilin Ai,Zhengwu Liu,Ngai Wong

Main category: cs.CV

TL;DR: QuadINR是一种硬件高效的隐式神经表示方法,使用分段二次激活函数来减少硬件开销,同时提升高频信号表达能力,在FPGA和ASIC实现中显著降低了资源消耗和功耗。

  • Motivation: 现有的隐式神经表示方法通过复杂激活函数来缓解频谱偏差,但带来了显著的硬件开销。需要开发一种硬件高效的INR方法,在保持性能的同时大幅降低硬件消耗。
  • Method: 提出QuadINR,使用分段二次激活函数,这些函数在其傅里叶级数中包含丰富的谐波内容,能够增强高频信号的表达能力。开发了统一的N级流水线框架,支持INR中各种激活函数的高效硬件实现。
  • Result: 在图像和视频实验中,QuadINR相比现有方法实现了最高2.06dB的PSNR提升,面积仅为1914μm²,动态功耗6.14mW,资源消耗减少高达97%,功耗降低高达97%,延迟提升高达93%。
  • Conclusion: QuadINR通过硬件优化的分段二次激活函数,在保持优异性能的同时大幅降低了硬件资源消耗和功耗,为隐式神经表示的高效硬件实现提供了有效解决方案。

[25] Img2ST-Net: Efficient High-Resolution Spatial Omics Prediction from Whole Slide Histology Images via Fully Convolutional Image-to-Image Learning

Junchao Zhu,Ruining Deng,Junlin Guo,Tianyuan Yao,Juming Xiong,Chongyu Qu,Mengmeng Yin,Yu Wang,Shilin Zhao,Haichun Yang,Daguang Xu,Yucheng Tang,Yuankai Huo

Main category: cs.CV

TL;DR: Img2ST-Net是一个新颖的组织学图像到空间转录组学生成框架,通过全卷积架构并行生成高分辨率基因表达图谱,解决了传统点对点方法的计算效率问题,并提出了专门针对高分辨率ST分析的SSIM-ST评估指标。

  • Motivation: 随着空间转录组学分辨率提高到8um或更精细,传统点对点序列回归框架变得低效且不稳定,同时高分辨率ST的极端稀疏性和低表达水平给预测和评估带来了挑战。
  • Method: 采用全卷积架构将HD ST数据建模为超像素表示,将任务重新表述为具有数百或数千个输出通道的超内容图像生成问题,而不是传统的图像到组学推断。
  • Result: 提出了一个可扩展、生物学一致的高分辨率ST预测框架,提高了计算效率并更好地保留了空间组学数据固有的空间组织结构。
  • Conclusion: Img2ST-Net为大规模高效准确的ST推断提供了一个原则性解决方案,为下一代稳健且分辨率感知的ST建模奠定了基础。

[26] CTA-Flux: Integrating Chinese Cultural Semantics into High-Quality English Text-to-Image Communities

Yue Gong,Shanyuan Liu,Liuzhuozheng Li,Jian Zhu,Bo Cheng,Liebucha Wu,Xiaoyu Wu,Yuhang Ma,Dawei Leng,Yuhui Yin

Main category: cs.CV

TL;DR: 中文文本适配器CTA-Flux,通过MMDiT技术直接控制Flux模型核心,在保持英语模型兼容性的同时提升中文语义理解能力和图像生成质量

  • Motivation: 解决Flux等英语训练的文本生图模型在处理中文等非英语提示时的语言和文化偏见问题,充分保留中文语义的文化真实性
  • Method: 采用多模态双向Transformer(MMDiT)技术直接控制Flux核心模型,大幅减少参数量的同时增强对中文语义的理解能力
  • Result: 实验评估显示CTA-Flux能够同时支持中英文提示,在图像生成质量、视觉真实性和中文语义准确性方面达到优异表现
  • Conclusion: 该方法在不需大规模重新训练整体模型的情况下,显著提升了中文文本生成图像的质量和文化真实性,并保持了与现有插件的兼容性

[27] MoCHA-former: Moiré-Conditioned Hybrid Adaptive Transformer for Video Demoiréing

Jeahun Sung,Changhyun Roh,Chanho Eom,Jihyong Oh

Main category: cs.CV

TL;DR: 提出MoCHA-former模型解决相机拍摄屏幕时产生的摩尔纹问题,通过解耦自适应和时空自适应方法,在RAW和sRGB视频数据上取得最优性能

  • Motivation: 现有去摩尔纹方法存在四个主要限制:空间变化伪影强度、大尺度全局结构、通道依赖统计特性以及帧间快速时间波动
  • Method: 采用解耦摩尔纹自适应去摩尔纹(DMAD)和时空自适应去摩尔纹(STAD)两个核心组件,包含摩尔纹解耦块、细节解耦块、空间融合块和特征通道注意力机制
  • Result: 在两个视频数据集上评估,在PSNR、SSIM和LPIPS指标上均超越先前方法
  • Conclusion: MoCHA-former通过创新的解耦和自适应机制,有效解决了相机拍摄屏幕时摩尔纹去除的关键挑战

[28] HyperDiff: Hypergraph Guided Diffusion Model for 3D Human Pose Estimation

Bing Han,Yuhua Huang,Pan Gao

Main category: cs.CV

TL;DR: HyperDiff结合扩散模型和HyperGCN,通过多粒度结构建模关节高阶相关性,有效解决单目3D人体姿态估计中的深度模糊和遮挡问题,在多个数据集上达到SOTA性能。

  • Motivation: 解决单目3D人体姿态估计中的深度模糊、遮挡问题,以及传统方法忽略多尺度骨架特征导致精度下降的挑战
  • Method: 提出HyperDiff方法,集成扩散模型和HyperGCN:扩散模型捕捉数据不确定性缓解深度模糊和遮挡;HyperGCN作为去噪器,使用多粒度结构精确建模关节间的高阶相关性
  • Result: 在Human3.6M和MPI-INF-3DHP数据集上达到最先进性能,能够灵活适应不同计算资源来平衡性能与效率
  • Conclusion: HyperDiff通过结合扩散模型的不确定性建模能力和HyperGCN的多粒度结构建模,有效提升了复杂姿态下的3D人体姿态估计精度和鲁棒性

[29] FOCUS: Frequency-Optimized Conditioning of DiffUSion Models for mitigating catastrophic forgetting during Test-Time Adaptation

Gabriel Tjio,Jie Zhang,Xulei Yang,Yun Xing,Nhat Chung,Xiaofeng Cao,Ivor W. Tsang,Chee Keong Kwoh,Qing Guo

Main category: cs.CV

TL;DR: FOCUS是一种基于频率调节的扩散驱动输入适应方法,通过频率预测网络分离高低频信息,在测试时适应中平衡知识保持和域适应,防止灾难性遗忘。

  • Motivation: 测试时适应方法在适应域漂移时容易忘记任务相关知识,需要平衡知识保持和域适应的权衡问题。
  • Method: 提出FOCUS方法:使用Y形频率预测网络(Y-FPN)从噪声图像中分离高低频信息,结合FrequencyMix数据增强,在扩散去噪过程中通过频率先验条件化来保持任务相关语义信息。
  • Result: 在15种损坏类型和3个数据集上的语义分割和单目深度估计任务中达到最先进性能,并能通过伪标签提升现有模型适应方法,缓解灾难性遗忘。
  • Conclusion: FOCUS通过频率调节机制有效解决了测试时适应中的知识保持问题,既能提升独立性能,又能补充现有模型适应方法,具有良好的实用价值。

[30] MUSE: Multi-Subject Unified Synthesis via Explicit Layout Semantic Expansion

Fei Peng,Junqiang Wu,Yan Li,Tingting Gao,Di Zhang,Huiyuan Fu

Main category: cs.CV

TL;DR: MUSE是一个统一的文本到图像合成框架,通过串联交叉注意力机制实现布局可控的多主体合成,解决了现有方法在空间精度和身份保持方面的双重挑战。

  • Motivation: 现有的文本到图像扩散模型在生成高质量图像方面表现出色,但在多主体组合合成中难以同时实现精确的空间控制和参考主体的忠实重建。
  • Method: 提出串联交叉注意力(CCA)机制,通过显式语义空间扩展将布局规范与文本引导无缝集成;采用渐进式两阶段训练策略,将任务分解为可学习的子目标。
  • Result: MUSE实现了零样本端到端生成,在空间准确性和身份一致性方面优于现有解决方案,推进了可控图像合成的前沿。
  • Conclusion: 该框架成功解决了布局可控多主体合成中的关键挑战,为精确的空间控制和身份保持提供了有效的解决方案。

[31] Reconstruction Using the Invisible: Intuition from NIR and Metadata for Enhanced 3D Gaussian Splatting

Gyusam Chang,Tuan-Anh Vu,Vivek Alumootil,Harris Song,Deanna Pham,Sangpil Kim,M. Khalid Jawed

Main category: cs.CV

TL;DR: NIRPlant是一个结合近红外、RGB、深度和LiDAR数据的多模态农业数据集,NIRSplat是基于3D高斯泼溅的多模态架构,在农业场景重建中优于现有方法

  • Motivation: 农业场景的3D重建面临光照不均、遮挡和视野受限等独特挑战,现有3DGS方法在农业领域应用不足
  • Method: 提出NIRPlant多模态数据集,包含NIR、RGB、文本元数据、深度和LiDAR数据;开发NIRSplat架构,使用交叉注意力机制和3D点位置编码
  • Result: NIRSplat在挑战性农业场景中优于3DGS、CoR-GS和InstantSplat等现有方法
  • Conclusion: 多模态数据融合和NIR信息的整合显著提升了农业场景3D重建的鲁棒性和植物学洞察能力

[32] Generalizable Engagement Estimation in Conversation via Domain Prompting and Parallel Attention

Yangche Yu,Yin Chen,Jia Li,Peng Jia,Yu Zhang,Li Dai,Zhenzhen Hu,Meng Wang,Richang Hong

Main category: cs.CV

TL;DR: DAPA框架通过域提示机制和并行交叉注意力模块,实现了跨领域和跨语言的对话参与度建模,在多个基准测试中达到最先进性能

  • Motivation: 现有参与度估计方法在跨领域泛化性差,难以建模复杂的交互动态,限制了自适应人机交互系统的部署
  • Method: 提出DAPA框架:1)域提示机制-在输入前添加可学习的域特定向量;2)并行交叉注意力模块-对齐参与者的反应性和预期性状态
  • Result: 在跨文化和跨语言基准测试中达到SOTA性能,在NoXi-J测试集上CCC指标绝对提升0.45,获得MultiMediate'25挑战赛第一名
  • Conclusion: DAPA通过显式的域适应和交互同步建模,显著提升了对话参与度估计的泛化能力和性能表现

[33] D^3-Talker: Dual-Branch Decoupled Deformation Fields for Few-Shot 3D Talking Head Synthesis

Yuhang Guo,Kaijun Deng,Siyang Song,Jindong Xie,Wenhui Ma,Linlin Shen

Main category: cs.CV

TL;DR: D^3-Talker提出了一种新颖的3D说话头合成方法,通过构建静态3D高斯属性场,使用音频和面部运动信号分别控制两个独立的高斯属性变形场,实现通用和个性化变形的解耦,在有限训练数据下实现高质量渲染和准确的音频-唇部同步。

  • Motivation: 现有3D说话头合成方法需要大量视频数据训练每个目标身份,且音频中包含与唇部运动无关的信息,导致在少量帧训练时难以实现准确的唇部同步和高质量的说话头图像。
  • Method: 构建静态3D高斯属性场,使用音频和面部运动信号分别控制两个独立的高斯属性变形场;设计相似性对比损失函数实现更彻底的解耦;集成粗到细模块细化渲染图像。
  • Result: 大量实验表明,D^3-Talker在有限训练数据下,在高保真渲染和准确的音频-唇部同步方面优于现有最先进方法。
  • Conclusion: 该方法有效解决了3D说话头合成中的数据依赖问题,实现了更好的解耦效果和图像质量,为少样本学习提供了有效解决方案。

[34] Ouroboros: Single-step Diffusion Models for Cycle-consistent Forward and Inverse Rendering

Shanlin Sun,Yifan Wang,Hanwen Zhang,Yifeng Xiong,Qin Ren,Ruogu Fang,Xiaohui Xie,Chenyu You

Main category: cs.CV

TL;DR: Ouroboros是一个由两个单步扩散模型组成的框架,通过相互增强的方式处理正向和逆向渲染,解决了现有方法的循环不一致性和推理速度慢的问题。

  • Motivation: 现有的多步扩散模型通常将正向和逆向渲染作为独立问题处理,导致循环不一致和推理速度缓慢,需要一种能够确保一致性和效率的统一框架。
  • Method: 提出由两个单步扩散模型组成的框架,扩展了室内外场景的本征分解,并引入了循环一致性机制来确保正向和逆向渲染输出的一致性。
  • Result: 实验结果表明,该方法在多样化场景中实现了最先进的性能,相比其他基于扩散的方法显著提高了推理速度,并能以无需训练的方式迁移到视频分解。
  • Conclusion: Ouroboros框架通过单步扩散模型和循环一致性机制,有效解决了正向和逆向渲染的一致性问题,同时大幅提升了推理效率,具有良好的泛化能力。

[35] DreamSwapV: Mask-guided Subject Swapping for Any Customized Video Editing

Weitao Wang,Zichen Wang,Hongdeng Shen,Yulei Lu,Xirui Fan,Suhui Wu,Jun Zhang,Haoqian Wang,Hao Zhang

Main category: cs.CV

TL;DR: DreamSwapV是一个端到端的视频主题替换框架,通过掩码引导和参考图像实现任意视频中任意主题的定制化替换,在多个基准测试中优于现有方法。

  • Motivation: 随着视频生成技术的快速发展,定制化视频编辑需求激增,其中主题替换是关键组成部分但研究不足。现有方法要么局限于特定领域,要么依赖间接编辑范式或模糊文本提示,影响最终保真度。
  • Method: 提出了DreamSwapV框架,采用掩码引导和主题无关的设计,通过多条件输入和专用条件融合模块提供细粒度指导,并设计了自适应掩码策略来处理不同尺度和属性的主题。通过精心设计的两阶段数据集构建和训练方案实现。
  • Result: 在VBench指标和新提出的DreamSwapV-Benchmark上进行的综合实验验证了该方法优于现有方法。
  • Conclusion: DreamSwapV提供了一个有效的端到端解决方案,能够高质量地实现视频中任意主题的替换,解决了现有方法的局限性。

[36] LookOut: Real-World Humanoid Egocentric Navigation

Boxiao Pan,Adam W. Harley,C. Karen Liu,Leonidas J. Guibas

Main category: cs.CV

TL;DR: 提出从第一人称视角视频预测未来6D头部姿态序列的挑战性问题,包括平移和旋转,以学习主动信息收集行为。开发了基于3D潜在特征的框架,并贡献了使用Project Aria眼镜收集的数据集AND。

  • Motivation: 从第一人称视角预测无碰撞的未来轨迹在人形机器人、VR/AR和辅助导航等应用中至关重要,需要学习通过头部转动事件表达的主动信息收集行为。
  • Method: 提出基于时间聚合3D潜在特征的框架,建模静态和动态环境的几何和语义约束。使用Project Aria眼镜构建数据收集管道,创建了Aria Navigation Dataset (AND)数据集。
  • Result: 模型学会了类似人类的导航行为,如等待/减速、重新路由和环顾交通情况,并能泛化到未见过的环境。
  • Conclusion: 该工作成功解决了从第一人称视频预测6D头部姿态的问题,提出的框架和数据集为学习真实世界的第一人称导航策略提供了宝贵资源。

[37] Vivid-VR: Distilling Concepts from Text-to-Video Diffusion Transformer for Photorealistic Video Restoration

Haoran Bai,Xiaoxu Chen,Canqian Yang,Zongyao He,Sibin Deng,Ying Chen

Main category: cs.CV

TL;DR: Vivid-VR是基于DiT的视频修复方法,通过ControlNet控制生成过程保持内容一致性,采用概念蒸馏训练策略和重新设计的控制架构,在纹理真实性和时间一致性方面表现优异

  • Motivation: 传统可控管道的微调常因多模态对齐不完美而导致分布漂移,影响纹理真实性和时间连贯性
  • Method: 提出概念蒸馏训练策略,利用预训练T2V模型合成训练样本;重新设计控制架构,包括控制特征投影器和双分支ControlNet连接器
  • Result: 在合成和真实世界基准测试以及AIGC视频上表现优于现有方法,实现了出色的纹理真实性、视觉生动性和时间一致性
  • Conclusion: Vivid-VR通过创新的训练策略和架构设计,有效解决了视频修复中的纹理和时间一致性问题,为可控视频生成提供了新思路

[38] WeedSense: Multi-Task Learning for Weed Segmentation, Height Estimation, and Growth Stage Classification

Toqi Tahamid Sarker,Khaled R Ahmed,Taminul Islam,Cristiana Bernardi Rankrape,Karla Gage

Main category: cs.CV

TL;DR: WeedSense是一个新颖的多任务学习架构,用于杂草分析,同时执行语义分割、高度估计和生长阶段分类,在保持实时推理速度的同时显著优于现有技术。

  • Motivation: 杂草管理是农业中的关键挑战,严重影响作物产量并需要大量控制资源。有效的杂草监测和分析策略对于实施可持续农业实践和特定地点管理方法至关重要。
  • Method: WeedSense采用双路径编码器,包含通用倒置瓶颈块和多任务分叉解码器,具有基于transformer的特征融合,可生成多尺度特征并实现多任务同时预测。使用包含16种杂草物种11周生长周期的独特数据集。
  • Result: 在多任务数据集上,WeedSense实现分割mIoU 89.78%、高度估计MAE 1.67cm、生长阶段分类准确率99.99%,同时保持160 FPS的实时推理速度。比顺序单任务执行快3倍,参数减少32.4%。
  • Conclusion: WeedSense提供了一个高效的杂草分析解决方案,通过多任务学习方法在保持高性能的同时实现了显著的效率提升,为精准农业和可持续杂草管理提供了有力工具。

[39] SATURN: Autoregressive Image Generation Guided by Scene Graphs

Thanh-Nhan Vo,Trong-Thuan Nguyen,Tam V. Nguyen,Minh-Triet Tran

Main category: cs.CV

TL;DR: SATURN是一个轻量级的文本到图像生成模型扩展,通过将场景图转换为显著性排序的token序列,在保持VAR-CLIP主干网络冻结的情况下,仅微调VAR变换器就能有效理解图结构,显著提升了布局准确性和图像质量。

  • Motivation: 现有的文本到图像模型在复杂提示的布局和对象关系捕捉方面存在困难,而基于场景图的方法通常依赖于笨重的GAN或扩散管道,在速度和保真度上落后于现代自回归架构。
  • Method: 提出SATURN方法,将场景图转换为显著性排序的token序列,使用冻结的CLIP-VQ-VAE主干网络,仅微调VAR变换器来理解图结构,无需额外模块或多阶段训练。
  • Result: 在Visual Genome数据集上,FID从56.45%降至21.62%,Inception Score从16.03提升至24.78,超越了SG2IM和SGDiff等方法,在对象计数保真度和空间关系准确性方面均有显著改善。
  • Conclusion: SATURN成功地将结构感知能力与最先进的自回归保真度相结合,为文本到图像生成提供了高效的图结构理解解决方案。

[40] PB-IAD: Utilizing multimodal foundation models for semantic industrial anomaly detection in dynamic manufacturing environments

Bernd Hofmann,Albert Scheck,Joerg Franke,Patrick Bruendl

Main category: cs.CV

TL;DR: PB-IAD是一个基于基础模型的多模态工业异常检测框架,通过语义指令和提示模板实现数据稀疏场景下的高性能检测,无需大量标注数据。

  • Motivation: 传统统计和数据驱动方法在工业异常检测中依赖大量标注数据且灵活性不足,基础模型的感知能力为解决这些问题提供了新机会。
  • Method: 提出PB-IAD框架,利用基础模型的多模态和推理能力,包含专门设计的提示模板和预处理模块,将领域用户输入转换为有效系统提示。
  • Result: 在三种制造场景、两种数据模态下评估,在数据稀疏和低样本设置中表现优异,超越PatchCore等最先进方法。
  • Conclusion: 该框架通过语义指令实现高性能异常检测,具有数据稀疏适应性、敏捷适应性和领域用户中心性,为工业应用提供了实用解决方案。

[41] Adversarial Generation and Collaborative Evolution of Safety-Critical Scenarios for Autonomous Vehicles

Jiangfan Liu,Yongkang Guo,Fangzhi Zhong,Tianyuan Zhang,Zonglei Jing,Siyuan Liang,Jiakai Wang,Mingchuan Zhang,Aishan Liu,Xianglong Liu

Main category: cs.CV

TL;DR: ScenGE是一个通过大语言模型推理生成安全关键场景的框架,能够自动创建多样化的对抗性交通场景来测试自动驾驶系统的安全性。

  • Motivation: 当前的安全关键场景生成方法主要依赖预定义的威胁模式或基于规则的策略,无法暴露多样化和不可预见的故障模式,需要更智能的场景生成方法来提高自动驾驶系统的安全性评估。
  • Method: 提出ScenGE框架:1)元场景生成:使用基于结构化驾驶知识的大语言模型推断具有威胁性的对抗代理行为;2)复杂场景演化:通过背景车辆放大核心威胁,构建对抗协作图来优化关键代理轨迹,同时减少自我车辆的操纵空间并创建关键遮挡。
  • Result: 在多个基于强化学习的AV模型上进行广泛实验,ScenGE比最先进的基线方法平均多发现31.96%的严重碰撞案例。生成的场景可用于大型模型AV系统,并在不同模拟器上部署,对抗训练能提高模型鲁棒性。通过真实车辆测试和人类评估验证了场景的合理性和关键性。
  • Conclusion: ScenGE框架为构建公众信任和确保自动驾驶系统安全部署迈出了关键一步,能够生成既合理又关键的安全测试场景。

[42] WISE-FUSE: Efficient Whole Slide Image Encoding via Coarse-to-Fine Patch Selection with VLM and LLM Knowledge Fusion

Yonghan Shin,SeungKyu Kim,Won-Ki Jeong

Main category: cs.CV

TL;DR: WISE-FUSE是一个自适应全切片图像编码框架,通过选择性处理诊断相关区域,将编码时间减少三倍以上,同时保持或超越详尽处理的诊断性能。

  • Motivation: 计算病理学中的全切片图像(WSI)由于千兆像素规模,需要处理数万到数十万个高分辨率图像块,导致预处理和训练时间长达数天甚至数周,成为实际部署中的主要瓶颈。
  • Method: WISE-FUSE利用病理学领域视觉语言模型和大语言模型,首先计算低分辨率图像块与类别特定文本描述之间的相似度分数,选择信息丰富的区域子集,然后选择性编码对应的高分辨率图像块并与文本嵌入融合以增强诊断上下文。
  • Result: 广泛实验表明,WISE-FUSE将WSI编码时间减少三倍以上,同时实现与详尽图像块处理相当或更优的诊断性能。
  • Conclusion: WISE-FUSE为计算病理学提供了一个可扩展且实用的解决方案,通过选择性处理显著提高了编码效率。

[43] Improving OCR using internal document redundancy

Diego Belzarena,Seginus Mowlavi,Aitor Artola,Camilo Mariño,Marina Gardella,Ignacio Ramírez,Antoine Tadros,Roy He,Natalia Bottaioli,Boshra Rajaei,Gregory Randall,Jean-Michel Morel

Main category: cs.CV

TL;DR: 提出一种无监督OCR后处理方法,利用文档内字符形状的冗余性来纠正OCR输出错误,通过扩展高斯混合模型和统计测试改善低质量文档的识别效果

  • Motivation: 当前OCR系统在处理低质量文档时表现不佳,特别是印刷文档的域间变异性高而域内变异性低,现有方法未能充分利用文档内的字符形状冗余信息
  • Method: 扩展高斯混合模型(GMM),交替使用期望最大化(EM)算法和簇内重对齐过程,结合正态性统计测试,利用文档内字符形状冗余进行无监督校正
  • Result: 在多种退化程度的文档上验证有效,包括乌拉圭军事档案和17世纪至20世纪中期的欧洲报纸,展示了识别效果的改进
  • Conclusion: 该方法通过利用文档内字符冗余信息,能够有效提升低质量文档的OCR识别精度,为历史文档数字化提供了有效的后处理解决方案

[44] A Comprehensive Review of Agricultural Parcel and Boundary Delineation from Remote Sensing Images: Recent Progress and Future Perspectives

Juepeng Zheng,Zi Ye,Yibin Wen,Jianxi Huang,Zhiwei Zhang,Qingmei Li,Qiong Hu,Baodong Xu,Lingyuan Zhao,Haohuan Fu

Main category: cs.CV

TL;DR: 这是一篇关于农业田块边界划分(APBD)技术的综述性论文,系统总结了基于遥感图像的农业田块检测和划分方法,包括传统图像处理、传统机器学习和深度学习三类方法,并展望了未来研究方向。

  • Motivation: 高分辨率遥感图像的发展为自动化农业调查提供了机遇,需要系统总结APBD领域的研究进展和方法分类,为研空人员提供知识地图。
  • Method: 进行全面的文献综述和元数据分析,将APBD方法分为三大类:传统图像处理方法、传统机器学习方法和深度学习方法,并深入讨论了深度学习方法中的语义分割、目标检测和Transformer等方法。
  • Result: 综述展现了APBD领域的完整知识体系,包括算法、研究区域、作物类型、传感器类型、评估方法等元数据分析,并讨论了多传感器数据、单任务学习与多任务学习等关键问题。
  • Conclusion: 这篇综述为APBD领域研空人员提供了完整的知识地图,并提出了未来研究的激励前景和潜在热门话题,有助于跟踪该领域的发展趋势。

[45] Making Pose Representations More Expressive and Disentangled via Residual Vector Quantization

Sukhyun Jeong,Hong-Gi Shin,Yong-Hoon Choi

Main category: cs.CV

TL;DR: 提出了一种通过残差向量量化增强姿态编码的方法,在保持可解释性的同时提升运动细节生成质量

  • Motivation: 现有基于姿态编码的可控运动生成方法无法捕捉细粒度运动细节,限制了表达能力
  • Method: 使用残差向量量化将连续运动特征与离散姿态编码结合,增强潜在表示
  • Result: 在HumanML3D数据集上FID从0.041降至0.015,Top-1 R-Precision从0.508提升至0.510
  • Conclusion: 该方法在保持姿态编码可解释性和可操控性的同时,有效提升了运动生成的细节质量和可控性

[46] Locality-aware Concept Bottleneck Model

Sujin Jeon,Hyundo Lee,Eungseo Kim,Sanghack Lee,Byoung-Tak Zhang,Inwoo Hwang

Main category: cs.CV

TL;DR: LCBM通过原型学习改进概念瓶颈模型的概念定位能力,利用基础模型确保概念原型准确表示相关视觉区域,提升概念定位精度同时保持分类性能

  • Motivation: 现有的无标注概念瓶颈模型往往无法准确定位概念相关的视觉区域,容易关注不相关的区域来预测概念存在,需要改进概念的空间定位能力
  • Method: 提出LCBM框架,为每个概念分配一个原型,通过基础模型确保原型与相关概念的相关性,利用原型学习促进从正确局部区域预测概念
  • Result: 实验结果表明LCBM能有效识别图像中的概念,展示出改进的定位能力,同时保持相当的分类性能
  • Conclusion: LCBM通过原型学习和基础模型的结合,成功解决了概念定位问题,为构建更准确的可解释AI模型提供了有效方法

[47] GOGS: High-Fidelity Geometry and Relighting for Glossy Objects via Gaussian Surfels

Xingyuan Yang,Min Wei

Main category: cs.CV

TL;DR: GOGS是一个基于2D高斯面片的两阶段框架,通过物理渲染和材料分解解决高光物体逆渲染问题,在几何重建、材质分离和新光照重照明方面达到最先进性能

  • Motivation: 现有NeRF方法计算成本过高,3D高斯泼溅在镜面反射下表现不佳,多视角不一致性导致高频表面噪声和结构伪影,简化渲染方程使材质属性模糊,重照明结果不真实
  • Method: 两阶段框架:1) 基于物理渲染和分割求和近似的鲁棒表面重建,利用基础模型的几何先验增强;2) 通过蒙特卡洛重要性采样进行材料分解,使用可微分2D高斯光线追踪建模间接光照,通过球面mipmap方向编码细化高频镜面细节
  • Result: 在几何重建、材质分离和真实感重照明方面达到最先进性能,优于现有逆渲染方法
  • Conclusion: GOGS框架有效解决了高光物体逆渲染中的计算效率和镜面反射处理问题,通过创新的两阶段方法实现了高质量的几何和材质重建

[48] Safety-Critical Learning for Long-Tail Events: The TUM Traffic Accident Dataset

Walter Zimmer,Ross Greer,Xingcheng Zhou,Rui Song,Marc Pavel,Daniel Lehmberg,Ahmed Ghita,Akshay Gopalkrishnan,Mohan Trivedi,Alois Knoll

Main category: cs.CV

TL;DR: TUMTraf-A数据集包含10个高速公路事故序列,提供2D/3D标注框和轨迹ID,并提出Accid3nD事故检测模型结合规则和深度学习方法

  • Motivation: 尽管交通安全工作不断推进,事故仍频繁发生,需要将其视为交通网络中不可避免的偶发结果,因此需要高质量的事故数据集和检测方法
  • Method: 收集真实高速公路事故数据,提供OpenLABEL格式标注,提出Accid3nD模型结合规则基和学**基方法进行事故检测
  • Result: 数据集包含294,924个2D标注框和93,012个3D标注框,48,144帧标注图像,10个物体类别,实验证明所提方法的鲁棒性
  • Conclusion: TUMTraf-A数据集和Accid3nD模型为高速公路事故检测提供了有价值的资源和方法,数据集和代码已公开

[49] Controllable Latent Space Augmentation for Digital Pathology

Sofiène Boutaj,Marin Scalbert,Pierre Marza,Florent Couzinie-Devy,Maria Vakalopoulou,Stergios Christodoulidis

Main category: cs.CV

TL;DR: HistAug是一种用于数字病理学的高效生成模型,通过在潜在空间中进行可控增强,解决了WSI分析中数据稀缺和计算成本高的问题。

  • Motivation: 数字病理学中的全切片图像(WSI)分析面临两个主要挑战:千兆像素分辨率导致的计算成本高昂,以及密集监督信号的稀缺性。传统的补丁级增强方法计算成本过高,而现有的特征级增强方法缺乏对转换语义的控制。
  • Method: 提出HistAug方法,这是一种快速高效的生成模型,通过在潜在空间中进行可控增强。该方法通过条件化明确的补丁级转换(如色调、侵蚀等)来生成真实的增强嵌入,同时保留初始语义信息。能够高效地单次前向处理大量补丁。
  • Result: 实验表明HistAug在多个切片级任务和不同器官上都优于现有方法,特别是在低数据情况下表现突出。消融研究证实了学习转换相对于基于噪声的扰动的优势,并强调了统一WSI级增强的重要性。
  • Conclusion: HistAug为数字病理学提供了一种高效可控的增强方法,显著提高了MIL模型的性能,特别是在数据稀缺的情况下,为解决WSI分析中的计算和标注挑战提供了有效解决方案。

[50] Reliable Smoke Detection via Optical Flow-Guided Feature Fusion and Transformer-Based Uncertainty Modeling

Nitish Kumar Mahala,Muzammil Khan,Pushpendra Kumar

Main category: cs.CV

TL;DR: 基于双阶段不确定性知觉Shifted Windows Transformer的烟雾检测框架,通过光流动势动态编码和多规模不确定性估计,实现了高精度的早期火灾预警

  • Motivation: 烟雾呈现复杂的时空动态特征,受照明变化、流动动力学和环境噪声影响,传统检测器可靠性低,需要高保真度早期预警系统
  • Method: 提出信息融合框架:1)四色定理含义的双阶段分数次变分模型进行光流动估计;2)高斯混合模型融合外观线索;3)新题Shifted-Windows Transformer模型,配备多尺度不确定性估计头,采用双阶段学习策略
  • Result: 通过多种评估指标和与现有最优方法的对比分析,证明方法具有超越性的演绎性能和稳健性
  • Conclusion: 该框架为监控、工业安全和自主监测应用提供了可靠的早期火灾检测解决方案,通过不确定性知觉和多模态融合有效应对烟雾检测中的复杂挑战

[51] Incremental Object Detection with Prompt-based Methods

Matthias Neuwirth-Trapp,Maarten Bieshaar,Danda Pani Paudel,Luc Van Gool

Main category: cs.CV

TL;DR: 本文分析了视觉提示方法在增量目标检测(IOD)中的应用,发现在复杂域增量学习设置下,单纯的提示方法表现不佳,但结合少量数据回放的提示方法能达到最佳效果。

  • Motivation: 虽然视觉提示方法在增量图像分类中表现出色,但尚未应用于增量目标检测,其通用性尚不明确。本文旨在探索提示方法在IOD中的有效性。
  • Method: 在复杂域增量学习设置下分析三种不同的提示方法,并提供广泛的基线比较。测试提示长度和初始化,并探索提示与少量数据回放结合的方法。
  • Result: 实验表明,单纯的提示方法在IOD设置下表现不佳,但结合少量数据回放的提示方法取得了最佳结果。
  • Conclusion: 研究结果为推进提示方法在增量目标检测中的应用提供了宝贵见解,表明需要结合数据回放策略来获得更好的性能。

[52] UST-SSM: Unified Spatio-Temporal State Space Models for Point Cloud Video Modeling

Peiming Li,Ziyi Wang,Yulin Yuan,Hong Liu,Xiangming Meng,Junsong Yuan,Mengyuan Liu

Main category: cs.CV

TL;DR: 提出UST-SSM模型,通过时空选择扫描和结构聚合技术,解决点云视频时空无序性问题,提升选择性状态空间模型在点云视频动作识别中的性能。

  • Motivation: 点云视频能捕捉动态3D运动并减少光照和视角变化的影响,但时空无序性阻碍了选择性状态空间模型(SSMs)的有效建模。需要解决将无序点云展开为1D序列时的时空混乱问题。
  • Method: 提出统一时空状态空间模型(UST-SSM):1)时空选择扫描(STSS)通过提示引导聚类重组无序点;2)时空结构聚合(STSA)聚合时空特征并补偿缺失细节;3)时序交互采样(TIS)增强细粒度时序依赖。
  • Result: 在MSR-Action3D、NTU RGB+D和Synthia 4D数据集上的实验结果验证了方法的有效性。
  • Conclusion: UST-SSM成功将SSMs扩展到点云视频领域,通过创新的时空重组和特征聚合机制,有效解决了点云视频的时空无序性问题,提升了动作识别性能。

[53] SMTrack: End-to-End Trained Spiking Neural Networks for Multi-Object Tracking in RGB Videos

Pengzhi Zhong,Xinzhe Wang,Dan Zeng,Qihua Zhou,Feixiang He,Shuiwang Li

Main category: cs.CV

TL;DR: SMTrack是首个直接在标准RGB视频上进行端到端多目标跟踪的深度脉冲神经网络框架,通过自适应尺度感知的归一化Wasserstein距离损失和TrackTrack身份模块,在多个数据集上达到与ANN方法相当的性能。

  • Motivation: 虽然脉冲神经网络在低功耗计算方面具有潜力,但在视觉任务中主要局限于图像分类等简单任务,对于RGB视频流中的复杂时序任务(如多目标跟踪)研究不足。
  • Method: 提出SMTrack框架,包含自适应尺度感知归一化Wasserstein距离损失(Asa-NWDLoss)来提升不同尺度目标的检测性能,以及TrackTrack身份模块来保持目标轨迹的一致性。
  • Result: 在BEE24、MOT17、MOT20和DanceTrack数据集上的广泛评估表明,SMTrack达到了与领先的ANN-based多目标跟踪方法相当的性能。
  • Conclusion: SMTrack推动了脉冲神经网络在复杂场景中实现鲁棒准确的多目标跟踪,为SNN在实时视觉任务中的应用开辟了新途径。

[54] AnchorSync: Global Consistency Optimization for Long Video Editing

Zichi Liu,Yinggui Wang,Tao Wei,Chao Ma

Main category: cs.CV

TL;DR: AnchorSync是一个基于扩散模型的视频编辑框架,通过分离锚点帧编辑和中间帧插值来解决长视频编辑中的全局一致性和时间连贯性问题

  • Motivation: 长视频编辑面临维持全局一致性和时间连贯性的挑战,现有方法在分钟级序列中容易出现结构漂移和时间伪影
  • Method: 将任务解耦为稀疏锚点帧编辑和平滑中间帧插值,通过渐进去噪过程强制结构一致性,并通过多模态引导保持时间动态
  • Result: 实验表明AnchorSync能够产生连贯、高保真的编辑效果,在视觉质量和时间稳定性方面超越先前方法
  • Conclusion: AnchorSync通过创新的解耦框架有效解决了长视频编辑中的一致性和连贯性问题,为高质量长视频编辑提供了可行方案

[55] Towards PerSense++: Advancing Training-Free Personalized Instance Segmentation in Dense Images

Muhammad Ibraheem Siddiqui,Muhammad Umer Sheikh,Hassan Abid,Kevin Henry,Muhammad Haris Khan

Main category: cs.CV

TL;DR: PerSense是一个无需训练、模型无关的单样本密集图像实例分割框架,通过密度图生成候选点提示并过滤假阳性,PerSense++进一步增强了在复杂场景中的鲁棒性。

  • Motivation: 密集视觉场景中的分割面临遮挡、背景杂乱和尺度变化等挑战,需要开发专门的处理方法。
  • Method: 使用Instance Detection Module通过密度图生成实例级候选点提示,Point Prompt Selection Module通过自适应阈值和空间门控过滤假阳性,PerSense++增加了多样性感知范例选择、混合IDM和无关掩码拒绝模块。
  • Result: 在多个基准测试中,PerSense++在密集设置下优于现有方法。
  • Conclusion: 该框架为密集图像中的个性化分割提供了有效的解决方案,并通过PerSense-D基准推动了该领域的发展。

[56] GeMS: Efficient Gaussian Splatting for Extreme Motion Blur

Gopi Raju Matta,Trisha Reddypalli,Vemunuri Divya Madhuri,Kaushik Mitra

Main category: cs.CV

TL;DR: GeMS是一个处理严重运动模糊图像的3D高斯泼溅框架,无需依赖清晰图像进行相机姿态估计,通过深度学习方法直接从模糊输入重建场景。

  • Motivation: 现有方法通常假设可以获得清晰图像进行相机姿态估计和点云生成,这在严重模糊情况下不现实。基于COLMAP初始化的方法也因特征对应不可靠而失败。
  • Method: GeMS整合了三个核心组件:VGGSfM(基于深度学习的SfM管道)、3DGS-MCMC(将高斯视为概率分布样本的稳健初始化)、相机轨迹和高斯参数的联合优化。GeMS-E额外增加了基于事件的双积分去模糊步骤。
  • Result: 在合成和真实数据集上实现了最先进的性能,是首个直接从严重模糊输入处理极端运动模糊的3DGS框架。
  • Conclusion: 该框架成功解决了从极端模糊图像直接进行3D重建的挑战,无需清晰图像作为输入,为处理运动模糊场景提供了有效解决方案。

[57] Seeing Further on the Shoulders of Giants: Knowledge Inheritance for Vision Foundation Models

Jiabo Huang,Chen Chen,Lingjuan Lyu

Main category: cs.CV

TL;DR: 通过联合知识转移和保持策略,统一多个预训练模型在共享隐藏空间中,构建了一个无需大规模标签数据的强大视觉基础模型

  • Motivation: 解决数据中心方法需要大量高质量标签数据和高端GPU的问题,利用现有预训练模型的知识来开发通用视觉基础模型
  • Method: 在共享隐藏空间中统一多个预训练教师模型,使用适配器模块从具体任务教师整合知识到通用教师中,避免分布差异导致的知识转移不均衡问题
  • Result: 在四个基础视觉任务(图像分类、目标检测、语义分割、实例分割)上超过现有数据中心模型
  • Conclusion: 通过模型驱动方法统一和聚合现有模型,可以在不需大规模标签数据的情况下构建功能强大的通用视觉基础模型

[58] GSFix3D: Diffusion-Guided Repair of Novel Views in Gaussian Splatting

Jiaxin Wei,Stefan Leutenegger,Simon Schaefer

Main category: cs.CV

TL;DR: GSFix3D是一个新框架,通过将扩散模型的先验知识蒸馏到3D表示中,提升极端视角和部分观测区域的渲染质量,同时保持与观测场景细节的一致性。

  • Motivation: 3D高斯泼溅在极端新视角或部分观测区域生成高质量渲染仍具挑战性,而扩散模型虽然生成能力强,但依赖文本提示且缺乏特定场景信息,难以实现准确的3D重建。
  • Method: 提出GSFix3D框架,核心是GSFixer(通过定制微调协议获得的潜在扩散模型),利用网格和3D高斯将预训练生成模型适配到不同环境和重建方法产生的伪影类型,并提出随机掩码增强策略进行缺失区域的合理修复。
  • Result: 在挑战性基准测试中达到最先进性能,仅需对捕获数据进行最小程度的场景特定微调,真实世界测试证实其对潜在姿态误差的鲁棒性。
  • Conclusion: GSFix3D通过结合扩散模型的生成能力和3D表示的几何一致性,有效解决了极端视角渲染和部分观测区域修复的问题,为3D重建和视图合成提供了新的解决方案。

[59] Multiscale Video Transformers for Class Agnostic Segmentation in Autonomous Driving

Leila Cheshmi,Mennatullah Siam

Main category: cs.CV

TL;DR: 提出了一种基于多尺度视频变换器的高效类无关分割方法,仅使用运动线索检测未知物体,无需光流计算,在保持高分辨率信息的同时实现了实时性能

  • Motivation: 自动驾驶安全需要处理未知物体和意外场景,现有方法依赖已知类别训练或计算成本高昂的视觉基础模型,需要更高效、实时的解决方案
  • Method: 使用多阶段多尺度查询-记忆解码机制和尺度特定的随机丢弃标记技术,采用记忆中心设计保持多尺度高分辨率时空特征
  • Result: 在DAVIS'16、KITTI和Cityscapes数据集上一致优于多尺度基线方法,同时在GPU内存和运行时间方面保持高效
  • Conclusion: 该方法为安全关键型机器人系统中的实时、鲁棒密集预测提供了有前景的方向,特别适用于自动驾驶中的未知物体检测

[60] Improved Mapping Between Illuminations and Sensors for RAW Images

Abhijith Punnappurath,Luxi Zhao,Hoang Le,Abdelrahman Abdelhamed,SaiKiran Kumar Tedla,Michael S. Brown

Main category: cs.CV

TL;DR: 本文提出了首个包含多种光照条件和相机的RAW图像数据集,并开发了一种轻量级神经网络方法用于光照和传感器映射,在神经ISP训练等下游任务中表现出色。

  • Motivation: RAW图像具有传感器和光照特定的特性,这使得为深度学习捕获RAW数据集具有挑战性,因为需要为每个传感器和广泛的光照条件捕获场景。需要开发光照增强和传感器间映射的方法来减轻数据采集负担。
  • Method: 使用定制化的可调光谱光照箱捕获多个场景,构建包含390种光照、4个相机和18个场景的数据集。提出轻量级神经网络方法进行光照和传感器映射。
  • Result: 提出的方法在竞争方法中表现优异,并在神经ISP训练等下游任务中展示了实用性。
  • Conclusion: 该研究为解决RAW图像处理中的光照和传感器依赖问题提供了有效的数据集和方法,显著降低了深度学习应用中的数据采集需求。

[61] Fusing Monocular RGB Images with AIS Data to Create a 6D Pose Estimation Dataset for Marine Vessels

Fabian Holst,Emre Gülsoylu,Simone Frintrop

Main category: cs.CV

TL;DR: 通过融合单目RGB图像与AIS数据,提出了一种无需手动标注的海上船舶6D姿势估计数据集创建方法,并发布了BONK-pose公开数据集

  • Motivation: 解决依赖单纯AIS系统存在的设备可靠性、数据操控和传输延迟等问题,提高海上船舶位置信息的准确性
  • Method: 使用YOLOX-X目标检测网络从RGB图像中检测船舶,然后通过对比同谨变换和PnP方法将AIS数据与图像坐标系对齐,生成3D边界框表示6D姿势
  • Result: PnP方法比同谨变换方法抛影误差显著更低,YOLOX-X模型在IoU阈值0.5时达到0.80 mAP,成功创建了3753张带有3D边界框标注的图像数据集
  • Conclusion: 该技术能够自动创建高质量的6D姿势估计数据集,免去了手动标注的需要,BONK-pose数据集为船舶姿势估计领域提供了重要资源

[62] 6-DoF Object Tracking with Event-based Optical Flow and Frames

Zhichao Li,Arren Glover,Chiara Bartolozzi,Lorenzo Natale

Main category: cs.CV

TL;DR: 提出了一种结合事件相机和RGB相机的混合方法,用于高速运动物体的6自由度姿态跟踪。利用事件相机的高时间分辨率测量运动,结合RGB相机的全局姿态估计,实现高速场景下的精确跟踪。

  • Motivation: 传统RGB相机在高速运动场景下存在帧率限制和运动模糊问题,而事件相机虽然具有高时间分辨率但缺乏丰富的视觉信息。需要结合两种传感器的优势来解决高速物体6-DoF姿态跟踪的挑战。
  • Method: 使用事件光流算法测量物体运动,实现6-DoF速度跟踪器。将跟踪到的速度信息与低频RGB全局姿态估计器输出的姿态信息进行融合,通过积分获得高速运动时的连续姿态跟踪。
  • Result: 在合成数据和真实世界数据上都进行了测试验证,证明了该方法的有效性,特别是在高速运动场景下表现优异。
  • Conclusion: 通过融合事件相机和RGB相机的优势,成功实现了高速运动物体的6-DoF姿态跟踪,解决了传统方法在高速场景下的局限性。

[63] Adversarial Hospital-Invariant Feature Learning for WSI Patch Classification

Mengliang Zhang,Jacob M. Luber

Main category: cs.CV

TL;DR: 该研究首次系统性地分析了病理学基础模型中的医院域偏差问题,提出了一个轻量级对抗框架来消除医院特异性特征,同时保持疾病分类性能。

  • Motivation: 不同医院的病理图像由于扫描硬件和预处理方式的差异存在域偏差,可能导致病理学基础模型学习到医院特异性特征而非疾病相关特征,这对其临床部署构成风险。
  • Method: 构建了量化PFM域偏差的流程,提出了包含可训练适配器和域分类器的轻量级对抗框架,通过梯度反转层(GRL)从冻结表示中移除医院特异性特征。
  • Result: 在多中心组织病理学数据集上的实验表明,该方法显著降低了域可预测性,同时保持甚至提高了疾病分类性能,特别是在未见医院场景中表现优异。
  • Conclusion: 该研究提出的对抗框架有效缓解了医院偏差,通过医院检测和特征空间可视化分析证实了方法的有效性,为病理学基础模型的临床部署提供了重要解决方案。

[64] MF-LPR2: Multi-Frame License Plate Image Restoration and Recognition using Optical Flow

Kihyun Na,Junseok Oh,Youngkwan Cho,Bumjin Kim,Sungmin Cho,Jinyoung Choi,Injung Kim

Main category: cs.CV

TL;DR: 提出MF-LPR²框架,通过多帧对齐和聚合技术解决低质量车牌图像恢复问题,显著提升车牌识别准确率

  • Motivation: 现有生成模型依赖预训练先验知识,无法可靠恢复低分辨率、运动模糊和眩光等低质量车牌图像,经常引入严重伪影和失真
  • Method: 使用先进光流估计器结合精心设计的算法,利用车牌图像序列的时空一致性来检测和校正错误的光流估计,实现多帧对齐和聚合
  • Result: 在PSNR、SSIM和LPIPS指标上显著优于8个最新恢复模型,识别准确率达到86.44%,远超最佳单帧LPR(14.04%)和多帧LPR(82.55%)
  • Conclusion: MF-LPR²框架通过多帧信息聚合有效解决了低质量车牌图像的恢复和识别问题,同时保持了输入图像的证据内容完整性

[65] DINOv3 with Test-Time Training for Medical Image Registration

Shansong Wang,Mojtaba Safari,Mingzhe Hu,Qiang Li,Chih-Wei Chang,Richard LJ Qiu,Xiaofeng Yang

Main category: cs.CV

TL;DR: 提出无需训练的医学图像配准方法,使用冻结的DINOv3编码器和测试时特征空间变形场优化,在两个基准测试中表现优异

  • Motivation: 现有学习方法需要大量训练数据,限制了临床采用,需要克服这一限制
  • Method: 使用冻结的DINOv3编码器,在测试时优化特征空间的变形场,无需额外训练
  • Result: 在腹部MR-CT上获得最佳Dice分数0.790,最低HD95为4.9±5.0,最低SDLogJ为0.08±0.02;在心脏MRI上DSC提升至0.769,SDLogJ降至0.11,HD95降至4.8
  • Conclusion: 在紧凑的基础特征空间中进行测试时操作为临床配准提供了实用且通用的解决方案

[66] Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization

Canyu Zhao,Xiaoman Li,Tianjian Feng,Zhiyue Zhao,Hao Chen,Chunhua Shen

Main category: cs.CV

TL;DR: Tinker是一个无需逐场景微调的高保真3D编辑框架,支持单样本和少样本编辑,通过重新利用预训练扩散模型实现多视角一致性编辑

  • Motivation: 解决现有3D编辑技术需要大量逐场景优化和多视角一致输入的问题,降低通用3D内容创作的门槛
  • Method: 包含两个核心组件:参考多视角编辑器实现精确参考驱动的多视角一致编辑;任意视角到视频合成器利用视频扩散的空间-时间先验进行高质量场景补全和新视角生成
  • Result: 在编辑、新视角合成和渲染增强任务上达到最先进性能,显著减少了通用3D内容创作的障碍
  • Conclusion: Tinker代表了向真正可扩展的零样本3D编辑迈出的关键一步

[67] Repeating Words for Video-Language Retrieval with Coarse-to-Fine Objectives

Haoyu Zhao,Jiaxi Gu,Shicong Wang,Xing Zhang,Hang Xu,Zuxuan Wu,Yu-Gang Jiang

Main category: cs.CV

TL;DR: 提出了一种新颖的视频-文本检索框架,通过细粒度特征学习和无需额外训练的推理流程,在提高检索精度的同时降低计算成本。

  • Motivation: 视频流媒体的爆炸式增长对视频-语言检索提出了高精度和低训练成本的挑战,现有方法依赖大规模预训练导致计算需求大,且视频和文本中的细粒度信息未被充分探索。
  • Method: 采用粗到细的目标函数理解视频-文本对的语义信息,包括对比学习和匹配学习;通过粒度感知表示模块获取细粒度训练数据;提出包含投票机制和匹配熵指标的推理流程。
  • Result: 在四个基准测试中优于先前方法,推理流程在MSR-VTT数据集上Recall@1提升2.1%,在DiDeMo数据集上提升1.6%。
  • Conclusion: 该方法通过细粒度特征学习和创新的推理机制,有效提升了视频-文本检索性能,同时避免了额外的预训练成本。

[68] TransLight: Image-Guided Customized Lighting Control with Generative Decoupling

Zongming Li,Lianghui Zhu,Haocheng Shen,Longjin Ran,Wenyu Liu,Xinggang Wang

Main category: cs.CV

TL;DR: TransLight是一个创新框架,通过生成式解耦技术实现高保真度的光照效果迁移,能够将参考图像中的复杂光照效果自然地转移到目标图像上。

  • Motivation: 现有光照编辑方法无法同时提供定制化的光照控制并保持内容完整性,特别是在将复杂光照效果从参考图像迁移到目标图像这一挑战性任务中表现不佳。
  • Method: 使用两个微调的扩散模型进行生成式解耦,准确分离图像内容和光照效果,构建百万级的三元组数据集;采用IC-Light作为生成模型,将参考光照图像作为额外条件信号进行训练。
  • Result: TransLight成功实现了跨不同图像的光照效果迁移,提供了比现有技术更定制化的光照控制,在光照和谐化和编辑方面开辟了新方向。
  • Conclusion: 该框架通过彻底解耦参考图像中的光照效果,赋予TransLight高度灵活的光照控制能力,为光照编辑研究提供了新的解决方案。

[69] EventSSEG: Event-driven Self-Supervised Segmentation with Probabilistic Attention

Lakshmi Annamalai,Chetan Singh Thakur

Main category: cs.CV

TL;DR: EventSSEG是一种基于事件相机的道路分割方法,使用事件计算和概率注意力机制,通过自监督学习解决标注数据稀缺问题,在DSEC-Semantic和DDD17数据集上达到最先进性能。

  • Motivation: 传统帧相机在自动驾驶道路分割中存在延迟高和计算量大的问题,事件相机提供了有前景的替代方案,但面临预训练权重迁移困难和标注数据稀缺的挑战。
  • Method: 提出EventSSEG方法,采用事件计算和概率注意力机制,利用事件相机的自监督学习来避免对大量标注数据的依赖。
  • Result: 在DSEC-Semantic和DDD17数据集上的实验表明,EventSSEG仅需少量标注事件就能达到state-of-the-art性能。
  • Conclusion: 该方法充分挖掘了事件相机的潜力,有效解决了标注事件数据缺乏的问题,为低延迟、低计算量的道路分割提供了可行方案。

[70] Lifespan Pancreas Morphology for Control vs Type 2 Diabetes using AI on Largescale Clinical Imaging

Lucas W. Remedios,Chloe Cho,Trent M. Schwartz,Dingjie Su,Gaurav Rudravaram,Chenyu Gao,Aravind R. Krishnan,Adam M. Saunders,Michael E. Kim,Shunxing Bao,Thomas A. Lasko,Alvin C. Powers,Bennett A. Landman,John Virostko

Main category: cs.CV

TL;DR: 通过分析2533名患者的腺脾CT和MRI图像,研究评估了腺脾形态在0-90岁的生命过程变化趋势,发现类型2糖尿病患者在10个腺脾形态特征上呈现显著异常而且腺脾较小,同时评估了CT和MRI在腺脾测量中的一致性。

  • Motivation: 理解腺脾在生命过程中的变化对于检测类型2糖尿病和其他腺脾疾病至关重要。研究目标包括:1)确定可靠的临床成像模态用于AI基础的腺脾测量;2)建立标准的形态老化趋势;3)检测类型2糖尿病中的潜在异常。
  • Method: 分析2533名患者的腺脾CT或MRI图像,重新采样到3mm同向分辨率,使用自动化方法分割腺脾并提取13个形态特征。首先评估CT和MRI测量的一致性,其次分析标准形态模式(按年龄和性别分层),最后使用GAMLSS回归模型分析类型2糖尿病对腺脾形态的影响。
  • Result: 在调整混杂因素后,13个形态特征中有10个在类型2糖尿病患者中呈现显著不同的老化趋势(p < 0.05)。此外,MRI与CT在AI基础测量方法下得到不同的腺脾测量结果。
  • Conclusion: 研究提供了腺脾在生命过程中的变化趋势,证实类型2糖尿病患者腺脾较小且形状改变。同时为临床实践提供了来自大规模非糖尿病对照组的腺脾形态参考值。

[71] MS-CLR: Multi-Skeleton Contrastive Learning for Human Action Recognition

Mert Kiray,Alvaro Ritter,Nassir Navab,Benjamin Busam

Main category: cs.CV

TL;DR: 提出了多骨架对比学习框架MS-CLR,通过跨骨架对齐学习结构不变性,在NTU数据集上取得了新的SOTA性能

  • Motivation: 现有对比学习方法依赖单一骨架结构,限制了在不同关节结构和解剖覆盖数据集上的泛化能力
  • Method: 提出MS-CLR自监督框架,从同一序列中提取多个骨架结构并对其姿态表示进行对齐,使用改进的ST-GCN架构处理不同关节布局和尺度的骨架
  • Result: 在NTU RGB+D 60和120数据集上,MS-CLR持续优于强单骨架对比学习基线,多骨架集成进一步提升了性能
  • Conclusion: 多骨架对比学习能够学习更表达性和泛化性的特征,为骨架动作识别提供了有效的自监督学习框架

[72] GaussianArt: Unified Modeling of Geometry and Motion for Articulated Objects

Licheng Shen,Saining Zhang,Honghan Li,Peilin Yang,Zihao Huang,Zongzheng Zhang,Hao Zhao

Main category: cs.CV

TL;DR: 提出了一种基于关节化3D高斯分布的统一表示方法,联合建模几何和运动,显著提升了多部件关节物体的重建能力,支持多达20个部件的复杂结构。

  • Motivation: 现有方法将几何和运动解耦处理,先重建不同状态下的形状再通过后处理对齐估计关节,这种分离使重建流程复杂且限制了可扩展性,特别是对于具有复杂多部件关节的物体。
  • Method: 引入关节化3D高斯表示,统一建模几何和运动,通过联合优化提高运动分解的鲁棒性,支持复杂多部件关节物体的重建。
  • Result: 在包含90个关节物体的新基准MPArt-90上进行了广泛实验,方法在部件级几何重建和运动估计方面始终达到优异精度,显著优于之前只能处理2-3个部件的方法。
  • Conclusion: 统一关节表示方法在机器人仿真和人-场景交互建模等下游任务中展现出良好应用潜力,证明了其在可扩展物理建模中的价值。

[73] Virtual Community: An Open World for Humans, Robots, and Society

Qinhong Zhou,Hongxin Zhang,Xiangye Lin,Zheyuan Zhang,Yutian Chen,Wenjun Liu,Zunzhe Zhang,Sunli Chen,Lixing Fang,Qiushi Lyu,Xinyu Sun,Jincheng Yang,Zeyuan Wang,Bao Chi Dang,Zhehuan Chen,Daksha Ladia,Jiageng Liu,Chuang Gan

Main category: cs.CV

TL;DR: Virtual Community是一个基于物理引擎的开放世界平台,用于研究人类与机器人共存的社会智能,包含多智能体模拟器和真实世界对齐的社区生成系统,提出了社区规划和社区机器人两个新挑战。

  • Motivation: 随着AI和机器人技术的快速发展,人类与机器人将在共享社区中共存,这带来了机遇和挑战。需要研究具身社会智能,包括机器人如何智能合作竞争、人类如何建立社会关系,以及人机如何在开放世界中和谐共存。
  • Method: 构建了Virtual Community平台,包含开源多智能体物理模拟器(支持机器人、人类及其社会交互)和大规模真实世界对齐的社区生成流水线(包括户外空间、室内场景和具有丰富特征的智能体)。提出了社区规划挑战和社区机器人挑战两个新任务。
  • Result: 评估了各种基线方法,展示了在高层开放世界任务规划和低层合作控制方面存在的挑战。证明了平台在支持人机共存研究方面的有效性。
  • Conclusion: Virtual Community平台为开放世界环境中的人机共存研究提供了新的可能性,有望推动该领域的进一步发展。

eess.IV

[74] Hallucinations in medical devices

Jason Granstedt,Prabhat Kc,Rucha Deshpande,Victor Garcia,Aldo Badano

Main category: eess.IV

TL;DR: 本文提出了医疗设备中AI幻觉的实用定义:指AI系统产生看似合理但错误的输出,这些错误可能对医疗任务产生重要影响或相对无害。

  • Motivation: 当前医疗AI设备经常出现错误输出,但缺乏对"幻觉"现象的统一定义和评估标准,阻碍了跨产品领域的设备评估和改进。
  • Method: 通过理论分析和多个医疗设备领域的实证研究,提出了一个通用的幻觉定义,并结合影像和非影像应用案例进行验证。
  • Result: 建立了医疗AI幻觉的实用定义框架,该定义有助于统一评估不同医疗设备中的幻觉现象,并讨论了现有的减少幻觉方法。
  • Conclusion: 提出的幻觉定义为医疗AI设备的评估提供了统一标准,有助于改进设备性能并减少临床诊断中的错误风险。

[75] 3D Cardiac Anatomy Generation Using Mesh Latent Diffusion Models

Jolanta Mozyrska,Marcel Beetz,Luke Melas-Kyriazi,Vicente Grau,Abhirup Banerjee,Alfonso Bueno-Orovio

Main category: eess.IV

TL;DR: 本文提出MeshLDM,一种基于潜在扩散模型的新型架构,用于生成3D心脏解剖网格,在急性心肌梗死患者数据上表现优异,与金标准相比仅有2.4%的种群均值差异。

  • Motivation: 扩散模型在3D医学成像特别是心脏病学中的应用仍然稀缺,而生成多样化真实的心脏解剖结构对于计算机模拟试验、电机械计算机模拟和机器学习数据增强等应用至关重要。
  • Method: 提出MeshLDM架构,基于潜在扩散模型(LDMs)生成3D心脏解剖网格,应用于急性心肌梗死患者的左心室3D网格数据集。
  • Result: MeshLDM成功捕捉了舒张末期和收缩末期心脏相位的形状特征,生成的网格与金标准相比仅有2.4%的种群均值差异,在定性和定量临床指标以及3D网格重建指标上均表现优异。
  • Conclusion: MeshLDM证明了扩散模型在3D心脏解剖生成中的有效性,为医学成像和计算心脏病学应用提供了有前景的工具。

[76] Fracture Detection and Localisation in Wrist and Hand Radiographs using Detection Transformer Variants

Aditya Bagri,Vasanthakumar Venugopal,Anandakumar D,Revathi Ezhumalai,Kalyan Sivasailam,Bargava Subramanian,VarshiniPriya,Meenakumari K S,Abi M,Renita S

Main category: eess.IV

TL;DR: 本研究应用Co-DETR目标检测变换器模型,在26,000多张手腕和手部X光片上实现骨折检测,达到83.1%的准确率和96.4%的召回率,展示了在肌肉骨骼放射学中的临床应用价值。

  • Motivation: 手腕和手部骨折的准确诊断在急诊护理中至关重要,但人工判读速度慢且容易出错。基于Transformer的模型在医学图像分析中显示出潜力,但在肢体骨折应用方面仍有局限。
  • Method: 使用在COCO上预训练的RT-DETR和Co-DETR模型,在26,000多张标注X光片上进行微调。采用ResNet-50分类器对裁剪区域进行异常分类精炼,并使用监督对比学习提升嵌入质量。
  • Result: Co-DETR表现优异(AP@50=0.615),集成管道在真实X光片上达到83.1%准确率、85.1%精确率和96.4%召回率,能够准确识别13种骨折类型并实现精确定位。
  • Conclusion: 基于Co-DETR的管道在手部和手腕骨折检测中表现出高准确性和临床相关性,提供可靠的骨折定位和类型区分,具有可扩展性和实时部署能力,能显著提升诊断速度和可靠性。

[77] Automated surgical planning with nnU-Net: delineation of the anatomy in hepatobiliary phase MRI

Karin A. Olthof,Matteo Fusagli,Bianca Güttner,Tiziano Natali,Bram Westerink,Stefanie Speidel,Theo J. M. Ruers,Koert F. D. Kuhlmann,Andrey Zhylka

Main category: eess.IV

TL;DR: 开发基于nnU-Net的深度学习模型,用于自动分割钆塞酸增强MRI中的肝脏解剖结构(实质、肿瘤、门静脉、肝静脉和胆道树),以简化术前规划临床工作流程。

  • Motivation: 简化肝脏手术术前规划的临床工作流程,通过自动化分割肝脏解剖结构来提高效率和准确性。
  • Method: 使用90例患者的钆塞酸增强MRI扫描进行手动分割,其中72例用于训练nnU-Net v1模型,特别关注薄层结构和地形保持。在18例测试集上评估性能,并使用Dice相似系数进行比较。
  • Result: 测试集DSC结果:肝实质0.97±0.01,肝静脉0.80±0.04,胆道树0.79±0.07,肿瘤0.77±0.17,门静脉0.74±0.06。肿瘤检测率76.6±24.1%,每例患者中位数1个假阳性。临床评估显示3D模型只需微小调整即可使用。
  • Conclusion: 基于nnU-Net的分割方法能够准确自动描绘肝脏解剖结构,使3D规划能够高效应用于每位肝脏手术患者的标准护理中。

[78] A Systematic Study of Deep Learning Models and xAI Methods for Region-of-Interest Detection in MRI Scans

Justin Yiu,Kushank Arora,Daniel Steinberg,Rohit Ghiya

Main category: eess.IV

TL;DR: 本研究系统评估了多种深度学习架构结合可解释AI技术用于膝关节MRI自动ROI检测,发现ResNet50在分类和ROI识别方面表现最佳,CNN迁移学习是最有效的方法。

  • Motivation: 膝关节MRI手动解读耗时且存在观察者间差异,需要自动化ROI检测方法来提高诊断效率和一致性。
  • Method: 使用ResNet50、InceptionV3、Vision Transformers和多种U-Net变体,结合Grad-CAM和Saliency Maps等xAI技术,评估监督和自监督学习方法。
  • Result: ResNet50在分类和ROI识别方面表现最优,CNN迁移学习效果最好,Grad-CAM提供最具临床意义的解释。
  • Conclusion: CNN迁移学习是当前最有效的方法,未来更大规模预训练可能更好发挥transformer模型的潜力。

[79] Fine-grained Image Quality Assessment for Perceptual Image Restoration

Xiangfei Sheng,Xiaofeng Pan,Zhichao Yang,Pengfei Chen,Leida Li

Main category: eess.IV

TL;DR: 该论文提出了首个针对图像恢复任务的细粒度图像质量评估数据集FGRestore,并基于此开发了FGResQ模型,该模型在粗粒度评分回归和细粒度质量排序方面表现出色,显著优于现有IQA指标。

  • Motivation: 现有图像质量评估(IQA)指标在图像恢复(IR)任务中存在固有缺陷,特别是在区分恢复图像间的细粒度质量差异方面表现不佳,这阻碍了性能比较和算法优化。
  • Method: 构建了包含18,408张恢复图像和30,886对细粒度偏好标注的FGRestore数据集;提出了FGResQ模型,结合粗粒度评分回归和细粒度质量排序;在六个常见IR任务上进行全面基准测试。
  • Result: 实验表明现有IQA指标在评分评估与细粒度恢复质量之间存在显著不一致;FGResQ模型在广泛实验和比较中显著优于最先进的IQA指标。
  • Conclusion: FGRestore数据集和FGResQ模型为图像恢复任务提供了更准确的细粒度质量评估解决方案,解决了现有IQA指标的局限性,并已开源代码和模型权重。

[80] Deep Skin Lesion Segmentation with Transformer-CNN Fusion: Toward Intelligent Skin Cancer Analysis

Xin Wang,Xiaopei Zhang,Xingang Wang

Main category: eess.IV

TL;DR: 提出基于改进TransUNet的高精度皮肤病变语义分割方法,通过集成Transformer模块和卷积分支,结合边界引导注意力机制和多尺度上采样路径,有效解决病变结构复杂、边界模糊和尺度变化大的问题。

  • Motivation: 解决皮肤病变图像中复杂病变结构、模糊边界和显著尺度变化带来的分割挑战,提高自动化皮肤病变分析的准确性和鲁棒性。
  • Method: 在传统编码器-解码器框架中集成Transformer模块建模全局语义信息,保留卷积分支保持局部纹理和边缘特征;设计边界引导注意力机制和多尺度上采样路径改善边界定位和分割一致性。
  • Result: 在mIoU、mDice和mAcc指标上优于现有代表性方法,表现出更强的病变识别准确性和鲁棒性,特别是在复杂场景下实现更好的边界重建和结构恢复。
  • Conclusion: 该方法适用于皮肤病变分析中的自动化分割任务关键需求,能够有效处理复杂病变结构的分割问题。

[81] From Slices to Structures: Unsupervised 3D Reconstruction of Female Pelvic Anatomy from Freehand Transvaginal Ultrasound

Max Krähenmann,Sergio Tascon-Morales,Fabian Laumer,Julia E. Vogt,Ece Ozkan

Main category: eess.IV

TL;DR: 提出了一种无监督框架,从自由手动的2D经阴道超声扫描重建3D解剖结构,无需外部跟踪或学习位姿估计器,基于高斯溅射原理并针对超声成像特性进行优化。

  • Motivation: 体积超声能显著提高诊断准确性和临床决策,但其广泛应用受限于对专用硬件和严格采集协议的依赖。
  • Method: 将高斯溅射原理应用于超声领域,引入切片感知的可微分光栅化器,将解剖结构建模为各向异性3D高斯集合,通过无传感器探头运动估计和领域特定几何先验直接从图像级监督优化参数。
  • Result: 构建了紧凑、灵活且内存高效的体积表示,能够以高空间保真度捕获解剖细节。
  • Conclusion: 证明仅通过计算手段就能从2D超声图像实现准确的3D重建,为传统3D系统提供了可扩展的替代方案,并为AI辅助分析和诊断开辟了新机会。

[82] Virtual Multiplex Staining for Histological Images using a Marker-wise Conditioned Diffusion Model

Hyun-Jic Oh,Junsik Kim,Zhiyi Shi,Yichen Wu,Yu-An Chen,Peter K. Sorger,Hanspeter Pfister,Won-Ki Jeong

Main category: eess.IV

TL;DR: 基于预训练潜在液化模型的条件液化模型,从H&E图像生成虚拟多重某某某图像,支持最多18种标记物生成,显著提升了之前方法的标记类型数量和准确性。

  • Motivation: 多重某某某成像技术虽能提供分子级别的视觉化信息,但复杂性和成本高,而现有大量H&E图像库缺少对应的多重某某某图像,限制了多模态分析的发展。
  • Method: 采用条件液化模型,利用预训练LDM参数从H&E图像生成多重某某某图像。通过标记物条件化支持按标记分别生成,使用单一步金石提高推理速度,通过像素级损失函数改善颜色对比保真度。
  • Result: 在两个公开数据集上验证案例,成功生成了18种不同标记物类型,准确性显著提高,远超之前只能处理2-3种标记物的方法。
  • Conclusion: 该框架垠平了H&E和多重某某某成像之间的差距,为对现有H&E图像库进行回顾性研究和大规模分析提供了可能,开创了虚拟多重某某某染色新方向。

[83] Rule-based Key-Point Extraction for MR-Guided Biomechanical Digital Twins of the Spine

Robert Graf,Tanja Lerchl,Kati Nispel,Hendrik Möller,Matan Atad,Julian McGinnis,Julius Maria Watrinet,Johannes Paetzold,Daniel Rueckert,Jan S. Kirschke

Main category: eess.IV

TL;DR: 这篇论文提出了一种基于MRI的规则基础方法,用于从脊柱MRI中提取子像素精度的关键点,以支持个体化数字双胞站架的建立。

  • Motivation: 为了支持个体化数字双胞站架的开发,需要准确的个体化解剐建模。这项工作旨在解决从MRI图像中提取精确解剐标记点的挑战,以支持生物力学模型的建立。
  • Method: 采用规则基础方法,适配自之前的CT基础方法。包括稳健的图像对齐和脊柱特异性方向估计,生成解剐意义上的标记点。
  • Result: 该方法能够生成用于生物力学模型的边界条件和力作用点,如肌肉和钙带插入点,支持考虑个体解剐结构的脊柱力学模拟。
  • Conclusion: 通过利用MRI成像,该方法无放射、适合大规模研究和在代表性不足的群体中使用,为个体化医疗健康建模做出了贡献。

cs.NI

[84] OmniSense: Towards Edge-Assisted Online Analytics for 360-Degree Videos

Miao Zhang,Yifei Zhu,Linfeng Shen,Fangxin Wang,Jiangchuan Liu

Main category: cs.NI

TL;DR: OmniSense是一个边缘辅助的360度视频分析框架,通过球形感兴趣区域预测和智能模型缩放,在保持低延迟的同时显著提升分析精度

  • Motivation: 随着全景相机硬件成本降低和XR应用普及,需要从360度视频中提取无盲区的可操作洞察,但面临计算和网络资源挑战
  • Method: 引入轻量级球形感兴趣区域(SRoI)预测算法修剪冗余信息,结合视频内容和网络动态智能缩放视觉模型,优化资源利用率
  • Result: 相比资源无关基线,精度提升19.8%-114.6%,延迟相当;在保持最高精度同时实现2.0-2.4倍加速
  • Conclusion: OmniSense框架有效解决了360度视频分析的计算和网络资源挑战,实现了低延迟和高精度的平衡

cs.CL

[85] From Image Captioning to Visual Storytelling

Admitos Passadakis,Yingjin Song,Albert Gatt

Main category: cs.CL

TL;DR: 将视觉叙事视为图像描述的超集,先通过视觉到语言模型生成图像描述,再用语言到语言方法转换为连贯故事,提高了故事质量并加速训练

  • Motivation: 平衡视觉叙事的两个关键方面:既要基于图像序列,又要具有叙事性和连贯性。不同于大多数先前研究的方法
  • Method: 采用两阶段方法:1) 使用视觉到语言模型获取输入图像的描述 2) 使用语言到语言方法将这些描述转换为连贯的叙事
  • Result: 统一框架整合描述和叙事对生成故事质量有积极影响,加速训练时间,提高框架的可重用性和可复现性
  • Conclusion: 提出的方法有效平衡了视觉叙事的两个关键要求,并引入了新的ideality指标来模拟结果与理想模型的接近程度

[86] ShizhenGPT: Towards Multimodal LLMs for Traditional Chinese Medicine

Junying Chen,Zhenyang Cai,Zhiheng Liu,Yunjin Yang,Rongsheng Wang,Qingying Xiao,Xiangyi Feng,Zhan Su,Jing Guo,Xiang Wan,Guangjun Yu,Haizhou Li,Benyou Wang

Main category: cs.CL

TL;DR: ShizhenGPT是首个针对中医的多模态大语言模型,通过整合文本、图像、音频和生理信号数据,解决了中医数据稀缺和多模态诊断的挑战,在中医资格考试和视觉诊断任务中表现优异。

  • Motivation: 传统大语言模型在中医领域应用受限,主要因为高质量中医数据稀缺以及中医诊断固有的多模态特性(望闻问切),这些感官丰富的模态超出了传统LLMs的处理范围。
  • Method: 构建了最大的中医数据集(100GB+文本和200GB+多模态数据),包括120万张图像、200小时音频和生理信号。通过预训练和指令微调使模型具备深厚的中医知识和多模态推理能力。
  • Result: ShizhenGPT在性能上超越了同等规模的LLMs,并能与更大的专有模型竞争。在中医视觉理解方面领先于现有多模态LLMs,并在声音、脉搏、气味和视觉等多种模态上展现出统一的感知能力。
  • Conclusion: 该研究为中医领域的多模态感知和诊断开辟了新途径,数据集、模型和代码均已公开,有望推动该领域的进一步探索和发展。

q-bio.QM

[87] High-Throughput Low-Cost Segmentation of Brightfield Microscopy Live Cell Images

Surajit Das,Gourav Roy,Pavel Zun

Main category: q-bio.QM

TL;DR: 开发了一个基于CNN的低成本管道,用于分割明场显微镜下的未染色活细胞,在低对比度、噪声和模糊图像上达到93%测试准确率和89%平均F1分数,并展示了良好的跨模态泛化能力。

  • Motivation: 明场活细胞成像中存在时间表型变化、低对比度、噪声和细胞运动引起的运动模糊等主要挑战,现有分割方法无法一致地解决这些问题。
  • Method: 采用统一的U-Net架构,集成了注意力机制、实例感知系统、自适应损失函数、困难实例重训练、动态学习率、渐进机制和集成技术,并比较了冻结编码器的性能。
  • Result: 在公共数据集上验证,达到93%测试准确率和89%平均F1分数(标准差0.07),在主要使用明场图像训练的情况下,能有效泛化到相差显微镜的LIVECell数据集。
  • Conclusion: 该管道在鲁棒性和精度方面优于现有方法,计算需求低,适用于Google Colab等基础深度学习设置,具有实际实验室部署潜力。

cs.LG

[88] STAS: Spatio-Temporal Adaptive Computation Time for Spiking Transformers

Donghwa Kang,Doohyun Kim,Sang-Ki Ko,Jinkyu Lee,Brent ByungHoon Kang,Hyeongboo Baek

Main category: cs.LG

TL;DR: STAS框架通过时空自适应计算时间方法,解决了脉冲神经网络在视觉Transformer中的高延迟和计算开销问题,在降低能耗的同时提升准确率

  • Motivation: 脉冲神经网络(SNNs)虽然比人工神经网络(ANNs)更节能,但由于多时间步操作特性导致高延迟和计算开销。现有的动态计算方法零散且不统一,自适应计算时间(ACT)原则虽然提供了统一基础,但在SNN-based ViTs中应用存在两个核心问题:时间相似性前提的违反和静态架构的不适配
  • Method: 提出STAS框架,通过集成脉冲补丁分割(I-SPS)模块建立时间稳定性,创建统一输入表示来解决时间不相似性问题;使用自适应脉冲自注意力(A-SSA)模块在空间和时间维度上进行二维token剪枝
  • Result: 在CIFAR-10、CIFAR-100和ImageNet数据集上验证,能耗分别降低45.9%、43.8%和30.1%,同时准确率超过最先进模型
  • Conclusion: STAS通过协同设计静态架构和动态计算策略,成功解决了SNN-based ViTs中的关键挑战,实现了能耗降低和性能提升的双重目标

[89] Organ-Agents: Virtual Human Physiology Simulator via LLMs

Rihao Chang,He Jiao,Weizhi Nie,Honglin Guo,Keliang Xie,Zhenhua Wu,Lina Zhao,Yunpeng Bai,Yongtao Ma,Lanjun Wang,Yuting Su,Xi Gao,Weijie Wang,Nicu Sebe,Bruno Lepri,Bingwei Sun

Main category: cs.LG

TL;DR: Organ-Agents是一个基于大语言模型的多智能体框架,通过模拟人体多个生理系统来创建数字孪生体,在脓毒症患者生理模拟中表现出高精度和临床实用性。

  • Motivation: 利用大语言模型的新进展来模拟复杂生理系统,为重症监护提供精确、可解释的数字孪生模型,用于精准诊断、治疗模拟和假设检验。
  • Method: 采用多智能体框架,每个模拟器对应特定生理系统(如心血管、肾脏、免疫系统)。通过监督微调系统特异性时间序列数据,然后使用动态参考选择和错误校正进行强化引导协调。
  • Result: 在4,509名保留患者上实现高模拟精度(各系统MSE<0.16),外部验证显示在分布偏移下性能稳定。15名重症医师确认了真实性和生理合理性(平均Likert评分3.9和3.7),合成数据训练的预警分类器AUROC下降<0.04。
  • Conclusion: Organ-Agents是一个可信、可解释且可推广的数字孪生平台,能够准确重现关键多系统事件,支持替代治疗策略的反事实模拟,在重症监护领域具有重要应用价值。

[90] Disentanglement in T-space for Faster and Distributed Training of Diffusion Models with Fewer Latent-states

Samarth Gupta,Raghudeep Gadde,Rui Chen,Aleix M. Martinez

Main category: cs.LG

TL;DR: 本文挑战了扩散模型需要大量潜在状态/时间步长的假设,证明通过精心选择噪声调度,仅需少量甚至单个潜在状态即可达到与传统大量状态相当的性能,并实现了4-6倍的收敛加速。

  • Motivation: 挑战扩散模型需要大量潜在状态的基本假设,探索减少时间步数对模型性能的影响,旨在提高训练效率和收敛速度。
  • Method: 1) 通过精心选择噪声调度,在少量潜在状态(T∼32)下训练扩散模型;2) 进一步将潜在状态减少到单个状态,实现T空间的完全解耦;3) 结合多个独立训练的单状态模型生成高质量样本。
  • Result: 1) 少量潜在状态模型性能与大量状态模型相当;2) 单状态解耦模型能生成高质量样本;3) 在两个不同数据集上实现4-6倍的收敛加速。
  • Conclusion: 扩散模型不需要大量潜在状态,通过适当的噪声调度和模型解耦,可以在显著减少计算成本的同时保持生成质量,为高效扩散模型设计提供了新思路。

[91] Understanding Data Influence with Differential Approximation

Haoru Tan,Sitong Wu,Xiuzhe Wu,Wang Wang,Bo Zhao,Zeke Xie,Gui-Song Xia,Xiaojuan Qi

Main category: cs.LG

TL;DR: Diff-In是一种新的样本影响力近似方法,通过累积连续训练步骤中的影响力差异来估计样本影响力,无需模型凸性假设,计算效率高且可扩展。

  • Motivation: 现有数据分析工具在准确性方面存在不足,许多工具甚至假设神经网络损失函数是凸的,这些限制使得现有方法难以有效实施。
  • Method: 提出Diff-In方法,将样本级影响力公式化为连续训练迭代中变化/差异的累积和。使用二阶近似高精度近似这些差异项,同时消除现有方法所需的模型凸性要求。通过计算Hessian矩阵和梯度的乘积来保持计算效率。
  • Result: 理论分析和大量实验证明,Diff-In相比现有影响力估计器具有显著更低的近似误差。在三个数据中心任务(数据清理、数据删除和核心集选择)中表现优异,能够扩展到数百万数据点的大规模视觉语言预训练数据修剪任务。
  • Conclusion: Diff-In提供了一种准确、高效且可扩展的样本影响力估计方法,克服了现有方法的局限性,在多个实际应用中展现出优越性能。

[92] Squeezed Diffusion Models

Jyotirmai Singh,Samar Khanna,James Burgess

Main category: cs.LG

TL;DR: 本文提出了挤压扩散模型(SDM),通过数据感知的各向异性噪声缩放来改进扩散模型性能,在多个数据集上实现了FID指标15%的提升。

  • Motivation: 传统扩散模型使用各向同性高斯噪声,忽略了数据的结构信息。受量子压缩态根据海森堡不确定性原理重新分配不确定性的启发,作者希望通过对主成分方向进行各向异性噪声缩放来更好地学习重要数据特征。
  • Method: 提出了两种配置:(i)海森堡扩散模型,在主轴上补偿缩放并在正交方向进行逆缩放;(ii)标准SDM变体,仅缩放主轴。意外发现适度的反压缩(增加主轴方差)效果更好。
  • Result: 在CIFAR-10/100和CelebA-64数据集上,适度的反压缩一致地将FID提高了15%,并将精确率-召回率边界向更高召回率方向移动。
  • Conclusion: 简单的数据感知噪声整形可以在不改变架构的情况下提供稳健的生成增益,证明了数据相关噪声缩放的有效性。

physics.med-ph

[93] Physics-Constrained Diffusion Reconstruction with Posterior Correction for Quantitative and Fast PET Imaging

Yucun Hou,Fenglin Zhan,Chenxi Li,Ziquan Yuan,Haoyu Lu,Yue Chen,Yihao Chen,Kexin Wang,Runze Liao,Haoqi Wen,Ganxi Du,Jiaru Ni,Taoran Chen,Jinyue Zhang,Jigang Yang,Jianyong Jiang

Main category: physics.med-ph

TL;DR: 提出PET-DPC方法,结合条件扩散模型和物理后校正,实现快速且定量准确的PET图像重建,在保持图像质量的同时显著缩短重建时间。

  • Motivation: 深度学习PET重建方法存在定量准确性不足、伪影问题、模型可解释性差、数据依赖性强和过拟合风险等问题,阻碍了临床应用。
  • Method: 提出条件扩散模型结合后验物理校正(PET-DPC),通过创新归一化程序生成GTP-image输入,在扩散采样过程中整合物理信息进行散射、衰减和随机校正。
  • Result: PET-DPC重建结果与完全校正的OSEM图像高度一致,在定量指标上优于端到端深度学习模型,有时甚至超过传统迭代方法。重建时间减少50-85%,在OOD数据上泛化良好。
  • Conclusion: PET-DPC是一种快速、定量准确的PET重建方法,具有改善临床成像工作流程的强大潜力。

cs.GR

[94] A Real-world Display Inverse Rendering Dataset

Seokjun Choi,Hoon-Gyu Chung,Yujin Jeon,Giljoo Nam,Seung-Hwan Baek

Main category: cs.GR

TL;DR: 首个真实世界显示-相机系统的逆渲染数据集,包含LCD显示器和偏振相机系统,提供高质量几何真值和多样化物体数据,用于评估现有方法并提出了新的基线方法。

  • Motivation: 显示-相机成像系统在逆渲染中具有独特优势(可编程点光源、偏振光分离漫反射和镜面反射),但缺乏真实世界数据集阻碍了相关方法的发展。
  • Method: 构建并校准LCD显示器和立体偏振相机系统,在OLAT显示模式下捕获多样化几何和反射率物体,提供高质量几何真值,支持任意显示模式和噪声级别的图像合成。
  • Result: 建立了首个真实世界显示逆渲染数据集,评估了现有光度立体和逆渲染方法性能,提出了简单有效的基线方法,优于现有最先进方法。
  • Conclusion: 该数据集填补了显示-相机系统逆渲染领域的空白,为方法开发和评估提供了重要资源,所提基线方法展示了优越性能。

[95] MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds

Bingquan Dai,Li Ray Luo,Qihong Tang,Jie Wang,Xinyu Lian,Hao Xu,Minghan Qin,Xudong Xu,Bo Dai,Haoqian Wang,Zhaoyang Lyu,Jiangmiao Pang

Main category: cs.GR

TL;DR: MeshCoder是一个将3D点云重建为可编辑Blender Python脚本的新框架,通过大规模数据集和多模态LLM实现复杂几何结构的程序化重建和编辑。

  • Motivation: 现有方法依赖有限的领域特定语言和小规模数据集,无法有效建模复杂几何结构和形状。需要一种能够将3D对象重建为可编辑程序的方法。
  • Method: 开发了表达性Blender Python API集合,构建大规模配对对象-代码数据集,训练多模态大语言模型将3D点云转换为可执行Blender脚本。
  • Result: 在形状到代码重建任务中取得优异性能,支持通过代码修改进行直观的几何和拓扑编辑,增强LLM在3D形状理解任务中的推理能力。
  • Conclusion: MeshCoder为程序化3D形状重建和理解提供了强大而灵活的解决方案,建立了从几何到代码的有效转换框架。

[96] Snap-Snap: Taking Two Images to Reconstruct 3D Human Gaussians in Milliseconds

Jia Lu,Taoran Yi,Jiemin Fang,Chen Yang,Chuiyun Wu,Wei Shen,Wenyu Liu,Qi Tian,Xinggang Wang

Main category: cs.GR

TL;DR: 从前后两张图像重建3D人体,通过几何重建模型和增强算法实现快速高质量重建

  • Motivation: 降低用户创建3D数字人的门槛,解决稀疏视图下3D一致性和信息缺失的挑战
  • Method: 基于基础重建模型重新设计几何重建模型预测一致点云,应用增强算法补充颜色信息,转换为3D高斯分布提升渲染质量
  • Result: 在单张RTX 4090上190ms内完成重建,在THuman2.0和跨域数据集上达到SOTA性能,支持低成本移动设备图像
  • Conclusion: 该方法能够从极稀疏的二维图像高效重建完整3D人体,降低了数据采集要求,具有实际应用价值

q-bio.NC

[97] Activity Coefficient-based Channel Selection for Electroencephalogram: A Task-Independent Approach

Kartik Pandey,Arun Balasubramanian,Debasis Samanta

Main category: q-bio.NC

TL;DR: 提出了一种任务无关的脑电通道选择方法ACCS,使用新的通道活动系数指标来选择信息量最大的16个通道,在多类分类任务中准确率提升高达34.97%

  • Motivation: 高密度脑电电极阵列带来通道间干扰和计算开销问题,现有通道选择方法通常需要针对特定任务重新优化,缺乏通用性
  • Method: 提出Activity Coefficient-based Channel Selection (ACCS)方法,使用Channel Activity Coefficient (CAC)指标量化通道效用,基于活动水平选择排名前16的通道
  • Result: ACCS方法在多类分类准确率上实现了高达34.97%的提升,且选择的通道集合可重复用于不同下游任务
  • Conclusion: ACCS提供了一种任务无关的通道选择方案,能够识别出独立于具体任务的信息丰富通道,具有高度的适应性和通用性