Skip to content
每日arXiv - 2026年1月7日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Self-Supervised Masked Autoencoders with Dense-Unet for Coronary Calcium Removal in limited CT Data

Mo Chen

Main category: cs.CV

TL;DR: 提出Dense-MAE自监督学习框架,通过3D掩码自编码器预训练Dense-Unet,无需人工标注即可学习动脉拓扑特征,显著提升CTA钙化伪影去除和狭窄评估的准确性。

  • Motivation: 冠状动脉钙化在CTA中产生伪影,严重影响管腔狭窄诊断。现有DCNN方法需要大量标注数据,但医学领域标注数据稀缺。需要开发不依赖大量标注的自监督学习方法。
  • Method: 提出Dense-MAE框架:随机掩码血管管腔的3D块,训练Dense-Unet重建缺失几何结构。通过掩码自编码器预训练策略,使编码器学习动脉拓扑的高级潜在特征,无需人工标注。
  • Result: 在临床CTA数据集上,使用MAE预训练权重初始化钙化去除网络,相比从头训练显著提高了修复精度和狭窄评估准确性,特别是在少样本场景下表现优异。
  • Conclusion: Dense-MAE为医学体积数据提供有效的自监督学习框架,通过掩码自编码器预训练显著提升钙化伪影去除性能,减少对标注数据的依赖,在临床应用中具有重要价值。

[2] MIAR: Modality Interaction and Alignment Representation Fuison for Multimodal Emotion

Jichao Zhu,Jun Yu

Main category: cs.CV

TL;DR: 提出MIAR方法,通过模态交互和对齐表示解决多模态情感识别中模态分布差异和贡献度不均的问题,在CMU-MOSI和CMU-MOSEI数据集上取得SOTA性能。

  • Motivation: 现有多模态情感识别方法主要关注模态融合,但未能充分处理模态间的显著分布差异,也未考虑不同模态对任务的贡献度差异,同时缺乏对不同文本模型特征的鲁棒泛化能力,限制了多模态场景下的性能。
  • Method: 提出MIAR(Modality Interaction and Alignment Representation)网络,通过特征交互整合不同模态的上下文特征,生成特征token来表示每个模态从其他模态提取信息的全局表示,使用对比学习和归一化策略对齐不同模态。
  • Result: 在CMU-MOSI和CMU-MOSEI两个基准数据集上的实验结果表明,MIAR方法优于现有的最先进多模态情感识别方法。
  • Conclusion: MIAR通过有效的模态交互和对齐表示机制,解决了多模态情感识别中的模态分布差异和贡献度不均问题,在多模态情感识别任务中表现出优越性能。

[3] Multimodal Sentiment Analysis based on Multi-channel and Symmetric Mutual Promotion Feature Fusion

Wangyuan Zhu,Jun Yu

Main category: cs.CV

TL;DR: 本文提出了一种用于多模态情感分析的对称互促特征融合方法,通过多通道特征提取增强单模态表示,并利用对称交叉注意力机制促进模态间信息交互。

  • Motivation: 当前多模态情感分析面临两个主要挑战:1)从单模态数据提取的特征有限且不够丰富;2)现有研究大多只关注模态间特征信息的一致性,而忽略了特征差异,导致特征信息融合不足。
  • Method: 1)提取多通道特征以获得更全面的特征信息,在视觉和听觉模态中采用双通道特征增强单模态特征表示;2)提出对称互促(SMP)的模态间特征融合方法,结合对称交叉注意力机制和自注意力机制,交叉注意力机制从其他模态捕捉有用信息,自注意力机制建模上下文信息;3)整合单模态特征和模态间融合特征,充分利用模态间特征信息的互补性同时考虑特征信息差异。
  • Result: 在两个基准数据集上的实验证明了所提方法的有效性和优越性。
  • Conclusion: 通过多通道特征提取和对称互促的模态间特征融合,能够更有效地进行多模态情感分析,解决了现有方法中特征提取不足和模态融合不充分的问题。

[4] Watch Wider and Think Deeper: Collaborative Cross-modal Chain-of-Thought for Complex Visual Reasoning

Wenting Lu,Didi Zhu,Tao Shen,Donglin Zhu,Ayong Ye,Chao Wu

Main category: cs.CV

TL;DR: CoCoT框架通过动态多区域定位和关系感知推理解决多模态推理中的区域依赖和语义碎片化问题,显著提升视觉推理性能

  • Motivation: 现有Chain-of-Thought方法在多模态场景中存在两个关键限制:1)过度依赖单一粗粒度图像区域;2)连续推理步骤间的语义碎片化。这些问题阻碍了视觉和语言线索的无缝整合。
  • Method: 提出CoCoT框架,包含两个核心创新:a)动态多区域定位,根据问题自适应检测最相关图像区域;b)关系感知推理,通过迭代对齐视觉线索实现多区域协作,形成连贯逻辑的思维链。
  • Result: 构建了包含74,691个高质量样本的CoCoT-70K数据集,实验显示CoCoT显著提升复杂视觉推理性能,在LLaVA-1.5上平均准确率提升15.4%,在Qwen2-VL上提升4.0%(跨6个挑战性基准测试)。
  • Conclusion: CoCoT框架通过动态多区域定位和关系感知推理有效解决了多模态推理中的关键限制,为构建更连贯、逻辑性更强的视觉推理系统提供了新方法。

[5] NitroGen: An Open Foundation Model for Generalist Gaming Agents

Loïc Magne,Anas Awadalla,Guanzhi Wang,Yinzhen Xu,Joshua Belofsky,Fengyuan Hu,Joohwan Kim,Ludwig Schmidt,Georgia Gkioxari,Jan Kautz,Yisong Yue,Yejin Choi,Yuke Zhu,Linxi "Jim" Fan

Main category: cs.CV

TL;DR: NitroGen是一个基于4万小时游戏视频训练的游戏智能体基础模型,在1000多款游戏中展现跨游戏泛化能力,相比从头训练模型提升52%任务成功率。

  • Motivation: 构建通用的游戏智能体面临跨游戏泛化的挑战,需要能够处理不同类型游戏(3D动作、2D平台、程序生成世界)的单一模型。
  • Method: 1) 从公开游戏视频自动提取玩家动作构建大规模数据集;2) 创建多游戏基准环境评估跨游戏泛化;3) 通过大规模行为克隆训练统一的视觉-动作模型。
  • Result: NitroGen在多种游戏类型中表现优异,包括3D动作游戏的战斗、2D平台游戏的高精度控制、程序生成世界的探索,在未见游戏中任务成功率相对提升达52%。
  • Conclusion: NitroGen展示了大规模行为克隆训练的游戏智能体具有强大的跨游戏泛化能力,为通用具身智能体研究提供了数据集、评估套件和模型权重。

[6] TAP-ViTs: Task-Adaptive Pruning for On-Device Deployment of Vision Transformers

Zhibo Wang,Zuoyuan Zhang,Xiaoyi Pang,Qile Zhang,Xuanyi Hao,Shuguo Zhuo,Peng Sun

Main category: cs.CV

TL;DR: TAP-ViTs:一种无需访问原始本地数据的任务自适应剪枝框架,通过GMM参数估计设备任务特性,实现设备特定的ViT剪枝

  • Motivation: 现有ViT剪枝方法存在两个问题:1)生成单一模型忽略设备异构性;2)依赖设备本地数据进行微调,这在资源受限和隐私约束下不可行。需要一种能在隐私保护移动计算环境中实现任务定制化ViT剪枝的方法。
  • Method: 1)基于GMM的度量数据集构建机制:设备拟合轻量级GMM近似私有数据分布,仅上传GMM参数;云端从公共数据中选择分布一致样本构建任务代表性度量数据集。2)双粒度重要性评估剪枝策略:联合测量复合神经元重要性和自适应层重要性,实现细粒度、任务感知的剪枝。
  • Result: 在多个ViT骨干网络和数据集上的广泛实验表明,TAP-ViTs在可比压缩比下始终优于最先进的剪枝方法。
  • Conclusion: TAP-ViTs框架成功解决了在隐私保护移动计算环境中为异构设备生成定制化剪枝ViT模型的挑战,无需访问原始本地数据,实现了任务自适应的高效剪枝。

[7] Understanding Pure Textual Reasoning for Blind Image Quality Assessment

Yuan Li,Shin'ya Nishida

Main category: cs.CV

TL;DR: 该研究从信息流角度分析文本推理在盲图像质量评估中的作用,比较了三种学习图像-文本-分数关系的范式,发现自一致性范式能显著缩小图像与文本条件预测之间的差距。

  • Motivation: 尽管文本推理在盲图像质量评估中得到广泛应用,但文本信息如何贡献于质量预测以及文本能在多大程度上代表与分数相关的图像内容仍不清楚。本研究旨在从信息流角度回答这些问题。
  • Method: 通过比较现有BIQA模型与三种设计用于学习图像-文本-分数关系的范式:思维链、自一致性和自编码器,从信息流角度进行分析。
  • Result: 实验显示:1) 现有模型仅使用文本信息时预测性能显著下降;2) 思维链范式对BIQA性能提升有限;3) 自一致性范式显著缩小了图像与文本条件预测之间的差距(PLCC/SRCC差异缩小到0.02/0.03);4) 自编码器范式在缩小图像-文本差距方面效果较差,但指出了进一步优化的方向。
  • Conclusion: 这些发现为如何改进BIQA和高级视觉任务的文本推理提供了见解,特别是自一致性范式在弥合图像与文本表示差距方面表现出色。

[8] Evaluating the Diagnostic Classification Ability of Multimodal Large Language Models: Insights from the Osteoarthritis Initiative

Li Wang,Xi Chen,XiangWen Deng,HuaHui Yi,ZeKun Jiang,Kang Li,Jian Li

Main category: cs.CV

TL;DR: MLLMs在医学图像分类任务中表现不如专门的视觉编码器,对于膝关节骨关节炎X光分类,优化视觉编码器和数据集质量比使用完整MLLM架构更有效。

  • Motivation: 尽管多模态大语言模型在医学视觉问答和报告生成方面表现良好,但其在疾病特异性分类任务上的能力尚未得到可靠验证。膝关节骨关节炎影响全球数亿人,但在现有医学MLLM基准中代表性不足,需要评估MLLM在该重要医学分类任务中的实际效果。
  • Method: 通过系统消融研究,操纵视觉编码器、连接器和大型语言模型组件,采用不同训练策略,评估各组件对诊断准确率的贡献。比较了仅使用训练好的视觉编码器与完整MLLM管道的性能,测试了提示引导与微调LLM的效果,并对比了小规模平衡数据集(500张图像)与大规模不平衡数据集(5,778张图像)的训练结果。
  • Result: 在膝关节骨关节炎X光分类任务中,仅使用训练好的视觉编码器就能超越完整MLLM管道的分类准确率;微调LLM相比提示引导没有带来有意义的改进;在小型平衡数据集上的LoRA微调比在大规模不平衡数据集上训练效果更好,表明数据平衡和质量比原始规模更重要。
  • Conclusion: 对于领域特定的医学分类任务,LLM更适合作为解释器和报告生成器,而非主要分类器。MLLM架构不太适合需要高确定性的医学图像诊断分类任务。建议在开发临床适用系统时,优先优化视觉编码器并进行仔细的数据集策划。

[9] A Spatio-Temporal Deep Learning Approach For High-Resolution Gridded Monsoon Prediction

Parashjyoti Borah,Sanghamitra Sarkar,Ranjan Phukan

Main category: cs.CV

TL;DR: 提出基于深度学习的空间预测框架,将印度夏季风预测重构为时空计算机视觉任务,使用CNN从前期大气海洋场预测高分辨率网格化降雨模式。

  • Motivation: 传统长期预报主要关注单一空间平均的季节值,缺乏对区域资源管理至关重要的空间细节信息,需要开发能够提供高分辨率空间预测的新方法。
  • Method: 将多变量前期大气海洋场视为多通道图像序列,构建视频式输入张量,使用基于CNN的架构学习1-5月前期数据与后续季风季节高分辨率网格降雨模式之间的复杂映射关系。
  • Result: 成功生成四个季风月份(6-9月)的独立预测以及总季节平均值,证明该框架对季节内和季节展望都具有实用性。
  • Conclusion: 深度学习框架能够有效解决传统季风预测中空间细节不足的问题,为区域资源管理提供更精细的预测信息。

[10] Don't Mind the Gaps: Implicit Neural Representations for Resolution-Agnostic Retinal OCT Analysis

Bennet Kahrs,Julia Andresen,Fenja Falta,Monty Santarossa,Heinz Handels,Timo Kepp

Main category: cs.CV

TL;DR: 提出两种基于隐式神经表示(INR)的框架,用于处理高各向异性视网膜OCT图像的密集3D分析,包括利用en-face模态的B扫描间插值和分辨率无关的视网膜图谱

  • Motivation: 临床OCT成像通常具有大的切片间距,导致高度各向异性的图像和稀疏扫描的视网膜。现有的2D方法存在相邻B扫描结果不一致的问题,且CNN受限于训练数据分辨率,无法应用于不同成像协议。INR具有分辨率无关的特性,适合处理各向异性数据。
  • Method: 提出两种基于INR的框架:1)通过整合en-face模态的附加信息进行B扫描间插值,保留扫描间相关结构;2)创建分辨率无关的视网膜图谱,支持对任意数据的一般分析。两种方法都利用可泛化的INR,通过基于群体的训练改进视网膜形状表示。
  • Result: 开发了分辨率独立的框架,能够处理大B扫描间距的OCT图像,为视网膜结构和病理的容积评估开辟了可能性。INR的连续表示特性使得方法能够应用于各向异性数据。
  • Conclusion: 基于INR的框架能够有效解决临床OCT图像的各向异性问题,实现密集的3D分析。这些方法为视网膜结构和病理的容积评估提供了新的可能性,特别是在处理大B扫描间距的临床数据时具有优势。

[11] PatchAlign3D: Local Feature Alignment for Dense 3D Shape understanding

Souhail Hadgi,Bingchen Gong,Ramana Sundararaman,Emery Pierson,Lei Li,Peter Wonka,Maks Ovsjanikov

Main category: cs.CV

TL;DR: 提出PatchAlign3D:一种仅编码器的3D模型,直接从点云生成语言对齐的patch级特征,实现零样本3D部件分割,无需多视图渲染

  • Motivation: 当前3D基础模型擅长全局任务(检索、分类),但在局部部件级推理上表现不佳。现有方法依赖多视图渲染和文本查询,需要昂贵的推理、依赖LLM提示工程,且未能充分利用3D几何信息
  • Method: 使用两阶段预训练:1) 从视觉编码器(如DINOv2)蒸馏密集2D特征到3D patch;2) 通过多正对比目标将patch嵌入与部件级文本嵌入对齐。直接从点云输入,无需多视图渲染
  • Result: 在多个3D部件分割基准上显著优于之前的渲染基和前馈方法,实现零样本3D部件分割,具有快速单次推理速度
  • Conclusion: 提出的3D编码器能够直接从点云生成语言对齐的patch级特征,实现了高效、准确的零样本3D部件分割,解决了现有方法依赖多视图渲染和LLM提示工程的局限性

[12] CT Scans As Video: Efficient Intracranial Hemorrhage Detection Using Multi-Object Tracking

Amirreza Parvahan,Mohammad Hoseyni,Javad Khoramdel,Amirhossein Nikoofard

Main category: cs.CV

TL;DR: 将3D CT数据重构为视频序列,结合YOLO检测器和ByteTrack跟踪算法,实现轻量级颅内出血检测框架,在边缘设备上高效运行。

  • Motivation: 边缘设备上运行3D医学影像分析面临内存和计算资源限制,需要开发轻量级解决方案,同时保持3D上下文信息的重要性。
  • Method: 将CT体积数据重构为视频序列,使用YOLO Nano作为切片级检测器,引入ByteTrack算法确保z轴解剖一致性,采用混合推理策略和时空一致性滤波器减少初始化延迟和噪声。
  • Result: 在独立测试数据上,检测精度从0.703提升到0.779,同时保持高灵敏度,计算成本远低于传统3D CNN方法。
  • Conclusion: 该方法为资源受限环境(如移动卒中单元和远程诊所)提供了可扩展的实时患者优先级排序解决方案,以较低计算成本近似3D上下文推理。

[13] MovieRecapsQA: A Multimodal Open-Ended Video Question-Answering Benchmark

Shaden Shaar,Bradon Thymes,Sirawut Chaixanien,Claire Cardie,Bharath Hariharan

Main category: cs.CV

TL;DR: 该论文提出了首个开放式的多模态视频问答基准MovieRecapsQA,基于电影解说视频构建,包含约8.2K个问题-答案对,并提供验证答案所需的"事实"信息,支持无参考评估。

  • Motivation: 现有VideoQA基准难以捕捉真实电影理解所需的多模态推理能力,且大多不是开放式的,因为自由形式答案评估困难。需要创建能够评估视频和对话线索整合能力的开放式基准。
  • Method: 利用YouTube电影解说视频构建基准,通过解说摘要生成约8.2K个与电影字幕对齐的QA对,提供验证答案所需的"事实"信息,支持无参考评估。基准包含多种视频长度(解说片段、电影片段)和问题分类(按模态和类型)。
  • Result: 评估了7个最先进的多模态大语言模型,发现:1)纯视觉问题最具挑战性;2)模型倾向于优先使用文本输入;3)从视频内容提取准确事实信息对所有模型都困难;4)专有和开源模型在视频依赖问题上表现相当。
  • Conclusion: MovieRecapsQA是首个提供显式文本上下文支持的开放式VideoQA基准,能够进行细粒度分析。研究揭示了当前MLLM在多模态视频理解方面的局限性,特别是在视觉信息处理和事实准确性方面。

[14] Shallow- and Deep-fake Image Manipulation Localization Using Vision Mamba and Guided Graph Neural Network

Junbin Zhang,Hamid Reza Tohidypour,Yixiao Wang,Panos Nasiopoulos

Main category: cs.CV

TL;DR: 本文提出一种基于Vision Mamba和引导图神经网络的方法,用于同时定位浅层伪造和深层伪造图像中的篡改区域,在推理精度上优于现有方法。

  • Motivation: 伪造图像对社会各方面有重大影响,现有研究大多只关注浅层伪造图像或深层伪造视频中的篡改定位,缺乏能同时处理两种情况的统一方法。
  • Method: 使用Vision Mamba网络提取能清晰描述篡改与未篡改区域边界的特征图,并提出新颖的引导图神经网络模块来增强篡改像素与真实像素之间的区分度。
  • Result: 评估结果显示,提出的方法在推理精度上优于其他最先进的方法。
  • Conclusion: 该方法能有效定位浅层伪造和深层伪造图像中的篡改区域,为图像篡改检测提供了统一的解决方案。

[15] DreamLoop: Controllable Cinemagraph Generation from a Single Photograph

Aniruddha Mahapatra,Long Mai,Cusuh Ham,Feng Liu

Main category: cs.CV

TL;DR: DreamLoop:首个从单张照片生成可控电影循环动画的框架,无需专门的电影循环训练数据,通过视频扩散模型适配实现灵活控制。

  • Motivation: 现有技术存在局限性:传统图像动画方法只能处理简单低频运动且限于特定领域(如水、烟雾);大规模视频扩散模型不适用于电影循环约束且缺乏专门数据。需要一种能从单张照片生成可控电影循环动画的方法。
  • Method: 提出DreamLoop框架,通过两个训练目标适配通用视频扩散模型:1)时间桥接;2)运动条件。推理时:使用输入图像作为首尾帧条件实现无缝循环;通过静态轨迹条件保持静态背景;通过用户指定的目标物体运动路径控制动画轨迹和时间。
  • Result: DreamLoop能生成高质量、复杂的电影循环动画,与用户意图一致,优于现有方法。这是首个支持通用场景电影循环生成且具有灵活直观控制的方法。
  • Conclusion: DreamLoop成功解决了从单张照片生成可控电影循环动画的挑战,通过适配视频扩散模型实现了无需专门训练数据的灵活控制,为电影循环创作提供了新的可能性。

[16] GRRE: Leveraging G-Channel Removed Reconstruction Error for Robust Detection of AI-Generated Images

Shuman He,Xiehua Li,Xioaju Yang,Yang Xiong,Keqin Li

Main category: cs.CV

TL;DR: 提出基于绿色通道移除重建误差(GRRE)的新方法,通过分析真实图像与AI生成图像在绿色通道移除重建后的误差差异,实现鲁棒的AI生成图像检测。

  • Motivation: 随着生成模型(如扩散模型和GANs)的快速发展,区分合成图像与真实图像变得越来越困难。现有检测方法在面对新型或未见过的生成模型时,准确率往往下降,缺乏强泛化能力。
  • Method: 提出基于通道移除重建的检测范式。具体观察发现:当从真实图像中移除绿色(G)通道并进行重建时,重建误差与AI生成图像存在显著差异。基于此提出G通道移除重建误差(GRRE)方法,利用这种差异进行鲁棒的AI生成图像检测。
  • Result: 大量实验表明,GRRE在多个生成模型(包括训练期间未见过的模型)上都能保持高检测准确率。相比现有方法,GRRE不仅对各种扰动和后处理操作具有强鲁棒性,还表现出优越的跨模型泛化能力。
  • Conclusion: 基于通道移除重建的方法作为强大的取证工具,在生成AI时代具有保护图像真实性的潜力。GRRE的简单性和有效性展示了这一范式的优势。

[17] CAMO: Category-Agnostic 3D Motion Transfer from Monocular 2D Videos

Taeyeon Kim,Youngju Na,Jumin Lee,Minhyuk Sung,Sung-Eui Yoon

Main category: cs.CV

TL;DR: CAMO:无需模板或3D监督的类别无关运动迁移框架,通过形态参数化3D高斯溅射和语义对应,从2D视频向3D网格迁移运动

  • Motivation: 现有方法需要类别特定的参数化模板,难以处理姿态歧义和多样物体形状,限制了从2D视频到3D资产的运动迁移应用
  • Method: 提出形态参数化的关节3D高斯溅射模型,结合密集语义对应关系,通过联合优化同时适应形状和姿态,缓解形状-姿态歧义问题
  • Result: 在运动准确性、效率和视觉一致性方面优于现有方法,能够处理多样物体类别和日常视频场景
  • Conclusion: CAMO框架显著推进了运动迁移技术,实现了无需模板或3D监督的类别无关运动迁移,具有广泛的应用潜力

[18] Robust Mesh Saliency GT Acquisition in VR via View Cone Sampling and Geometric Smoothing

Guoquan Zheng,Jie Hao,Huiyu Duan,Yongming Han,Liang Yuan,Dong Zhang,Guangtao Zhai

Main category: cs.CV

TL;DR: 提出一个用于VR中3D网格显著性标注的鲁棒框架,通过视锥采样和混合流形-欧几里得约束扩散算法,解决现有方法在复杂拓扑结构下的采样和传播问题。

  • Motivation: 当前3D网格显著性标注方法大多沿用2D图像方法,忽略了3D几何拓扑与2D图像阵列的差异。现有VR眼动追踪流程依赖单射线采样和欧几里得平滑,导致纹理注意力和跨间隙信号泄漏问题,需要更符合人类感知的3D注意力获取方法。
  • Method: 1. 视锥采样策略:通过高斯分布的射线束模拟人类中央凹感受野,提高复杂拓扑结构的采样鲁棒性。2. 混合流形-欧几里得约束扩散算法:融合流形测地线约束与欧几里得尺度,确保拓扑一致的显著性传播。
  • Result: 该框架通过缓解"拓扑短路"和混叠问题,提供了一个高保真的3D注意力获取范式,与自然人类感知对齐,为3D网格显著性研究提供了更准确和鲁棒的基线。
  • Conclusion: 提出的框架解决了当前3D网格显著性标注方法的局限性,通过视锥采样和混合约束扩散算法,实现了更符合人类感知的3D注意力获取,为VR中的人为中心视觉建模提供了可靠的基础。

[19] Foreground-Aware Dataset Distillation via Dynamic Patch Selection

Longzhen Li,Guang Li,Ren Togo,Keisuke Maeda,Takahiro Ogawa,Miki Haseyama

Main category: cs.CV

TL;DR: 提出一种前景感知的数据集蒸馏方法,通过内容自适应的动态补丁选择策略,在保持关键前景信息的同时减少冗余背景内容,提升蒸馏性能。

  • Motivation: 传统优化方法计算开销大、内存受限且生成噪声图像,泛化能力有限;近期非优化方法使用刚性补丁选择策略可能丢弃主要对象的关键信息。需要一种既能保留前景信息又能减少背景冗余的方法。
  • Method: 利用Grounded SAM2识别前景对象并计算每张图像的前景占比,推导类别级补丁决策阈值。基于这些阈值设计动态补丁选择策略:对每张图像,要么从多个候选补丁中选择信息量最大的,要么在前景占主导时直接调整完整图像大小。这种双路径机制保留更多主要对象的关键信息。
  • Result: 在多个基准测试上的广泛实验表明,该方法持续优于现有方法,生成更具信息性和代表性的蒸馏数据集,并在不同架构和图像组合上展现出更强的鲁棒性。
  • Conclusion: 提出的前景感知数据集蒸馏方法通过内容自适应的动态补丁选择,有效解决了传统方法丢弃关键前景信息的问题,显著提升了蒸馏性能和数据质量。

[20] HOLO: Homography-Guided Pose Estimator Network for Fine-Grained Visual Localization on SD Maps

Xuchang Zhong,Xu Cao,Jinke Feng,Hao Fang

Main category: cs.CV

TL;DR: 提出一种基于单应性引导的姿态估计网络,用于多视角图像与标准定义地图之间的细粒度视觉定位,通过BEV特征投影和语义对齐提升训练效率和定位精度。

  • Motivation: 现有基于回归的方法往往忽略固有的几何先验,导致训练效率低下和定位精度有限。需要一种能够有效利用几何约束的方法来改进图像到地图的视觉定位。
  • Method: 构建满足单应性约束的输入对,将地面视图特征投影到BEV域并与地图特征进行语义对齐。利用单应性关系指导特征融合,并将姿态输出限制在有效可行区域内,支持跨分辨率输入。
  • Result: 在nuScenes数据集上的大量实验表明,该方法显著优于现有最先进的视觉定位方法,提高了训练效率和定位精度。
  • Conclusion: 这是首个将BEV语义推理与单应性学习统一用于图像到地图定位的工作,通过显式建模单应性变换,框架自然支持跨分辨率输入,增强了模型灵活性。

[21] Unveiling and Bridging the Functional Perception Gap in MLLMs: Atomic Visual Alignment and Hierarchical Evaluation via PET-Bench

Zanting Ye,Xiaolong Niu,Xuanbin Wu,Xu Han,Shengyuan Liu,Jing Hao,Zhihao Peng,Hao Sun,Jieqin Lv,Fanghu Wang,Yanchao Huang,Hubing Wu,Yixuan Yuan,Habib Zaidi,Arman Rahmim,Yefeng Zheng,Lijun Lu

Main category: cs.CV

TL;DR: 该研究揭示了多模态大语言模型在功能成像中的感知缺陷,提出了PET-Bench基准,发现了CoT幻觉陷阱,并提出AVA方法解决该问题

  • Motivation: 当前多模态大语言模型在解剖模态异常检测和报告生成方面表现出色,但在功能成像(特别是PET)中的能力尚未被充分探索。研究发现现有视觉编码器无法独立于形态先验解码功能示踪剂生物分布,存在功能性感知差距
  • Method: 1. 构建PET-Bench基准:包含52,308个分层QA对,来自9,732个多中心、多示踪剂PET研究;2. 评估19个最先进MLLM,发现CoT幻觉陷阱;3. 提出原子视觉对齐(AVA)微调策略,强制模型先掌握低层功能感知再进行高层诊断推理
  • Result: AVA方法有效弥合了感知差距,将CoT从幻觉来源转变为稳健推理工具,诊断准确率提升高达14.83%
  • Conclusion: 功能成像存在独特的感知挑战,标准CoT提示在PET中会导致语言生成与视觉证据脱节。AVA通过强制低层视觉对齐,能够有效解决这一问题,为功能成像的MLLM应用提供了可靠解决方案

[22] D3R-DETR: DETR with Dual-Domain Density Refinement for Tiny Object Detection in Aerial Images

Zixiao Wen,Zhen Yang,Xianjie Bao,Lei Zhang,Xiantai Xiang,Wenshuai Li,Yuhan Liu

Main category: cs.CV

TL;DR: 提出D³R-DETR,一种基于DETR的双域密度细化检测器,用于解决遥感图像中小目标检测的挑战,通过融合空间和频域信息提升检测性能。

  • Motivation: 遥感图像中的微小目标检测至关重要,但现有基于Transformer的检测器由于像素信息有限和目标密度变化大,存在收敛慢和查询-目标匹配不准确的问题。
  • Method: 提出D³R-DETR,采用双域密度细化方法,融合空间和频域信息来细化低层特征图,利用丰富的细节预测更准确的目标密度图,从而精确定位微小目标。
  • Result: 在AI-TOD-v2数据集上的大量实验表明,D³R-DETR在微小目标检测方面优于现有的最先进检测器。
  • Conclusion: D³R-DETR通过双域密度细化有效解决了遥感图像中微小目标检测的挑战,在性能上超越了现有方法。

[23] Towards Zero-Shot Point Cloud Registration Across Diverse Scales, Scenes, and Sensor Setups

Hyungtae Lim,Minkyun Seo,Luca Carlone,Jaesik Park

Main category: cs.CV

TL;DR: BUFFER-X是一个无需训练的零样本点云配准框架,通过几何引导的超参数估计、分布感知采样和补丁级坐标归一化解决跨域泛化问题,在12个数据集上验证了有效性。

  • Motivation: 现有深度学习方法在零样本泛化方面存在三个关键限制:1) 固定用户定义参数无法适应不同尺度;2) 学习的关键点检测器跨域迁移性差;3) 绝对坐标会放大数据集间的尺度不匹配。
  • Method: 提出BUFFER-X框架:1) 几何引导的超参数自动估计;2) 分布感知最远点采样替代学习检测器;3) 补丁级坐标归一化确保尺度一致性;4) 分层多尺度匹配提取局部、中间和全局对应关系;5) BUFFER-X-Lite版本通过早期退出策略和快速位姿求解器减少43%计算时间。
  • Result: 在包含12个数据集的综合基准测试中(涵盖物体尺度、室内、室外场景,包括异构LiDAR配置的跨传感器配准),该方法无需手动调参或测试域先验知识即可有效泛化。
  • Conclusion: BUFFER-X通过训练无关的设计解决了点云配准的零样本泛化问题,在多样环境中实现了鲁棒配准,并通过轻量级版本平衡了效率与精度。

[24] AnyDepth: Depth Estimation Made Easy

Zeyu Ren,Zeyu Zhang,Wukai Li,Qingxiang Liu,Hao Tang

Main category: cs.CV

TL;DR: 提出轻量级数据中心的零样本单目深度估计框架,使用DINOv3编码器和Simple Depth Transformer解码器,通过质量过滤策略减少数据集规模,在五个基准测试中超越DPT性能。

  • Motivation: 当前单目深度估计方法依赖大规模数据集和复杂解码器,限制了效率和泛化能力,需要更轻量且数据高效的方法。
  • Method: 1) 采用DINOv3作为视觉编码器获取高质量密集特征;2) 设计Simple Depth Transformer(SDT)作为紧凑解码器,使用单路径特征融合和上采样减少计算开销;3) 提出基于质量的过滤策略筛选有害样本。
  • Result: SDT相比DPT减少85%-89%参数,在五个基准测试中精度超越DPT,证明在减少数据集规模的同时提升训练质量。
  • Conclusion: 平衡模型设计和数据质量对于实现高效且可泛化的零样本深度估计至关重要,提出的框架在精度和效率方面均表现优异。

[25] ClearAIR: A Human-Visual-Perception-Inspired All-in-One Image Restoration

Xu Zhang,Huan Zhang,Guoli Wang,Qian Zhang,Lefei Zhang

Main category: cs.CV

TL;DR: 提出ClearAIR框架,基于人类视觉感知,采用从粗到细的分层恢复策略,通过MLLM质量评估、区域感知任务识别和内部线索重用机制,实现更好的全场景图像恢复。

  • Motivation: 现有All-in-One图像恢复方法过度依赖退化特定表示,容易导致过度平滑和伪影问题。需要更准确处理复杂复合退化的方法。
  • Method: 1) 基于MLLM的图像质量评估模型进行整体评估;2) 区域感知和任务识别管道,包括语义交叉注意力和退化感知模块;3) 内部线索重用机制,以自监督方式挖掘图像内在信息。
  • Result: ClearAIR在多种合成和真实世界数据集上表现出优越性能,优于现有方法。
  • Conclusion: ClearAIR通过模拟人类视觉感知的分层恢复策略,有效解决了复杂复合退化问题,实现了更精确的图像恢复。

[26] AbductiveMLLM: Boosting Visual Abductive Reasoning Within MLLMs

Boyu Chang,Qi Wang,Xi Guo,Zhixiong Nan,Yazhou Yao,Tianfei Zhou

Main category: cs.CV

TL;DR: 提出AbductiveMLLM框架,通过模拟人类认知中言语与图像双重推理模式,增强多模态大语言模型的溯因推理能力,在VAR基准测试中达到SOTA性能。

  • Motivation: 当前MLLMs在溯因推理方面仍落后于人类能力,需要弥补这一差距。受人类认知中言语与图像双重推理模式的启发,旨在通过模拟这种双模态行为来增强MLLMs的溯因推理能力。
  • Method: 提出AbductiveMLLM框架,包含两个协同组件:REASONER(言语域推理)和IMAGINER(图像域想象)。REASONER使用盲LLM探索可能的解释空间,基于跨模态因果对齐修剪视觉不一致假设,并将剩余假设作为先验引导MLLM。IMAGINER使用文本到图像扩散模型,基于输入视频和REASONER的嵌入来"想象"与言语解释对应的视觉场景,增强上下文基础。两个组件端到端联合训练。
  • Result: 在标准VAR基准测试中,AbductiveMLLM实现了最先进的性能,一致优于传统解决方案和先进的MLLMs。
  • Conclusion: 通过模拟人类认知中言语与图像双重推理模式,可以有效增强MLLMs的溯因推理能力,在视觉溯因推理任务上取得显著性能提升。

[27] EarthVL: A Progressive Earth Vision-Language Understanding and Generation Framework

Junjue Wang,Yanfei Zhong,Zihang Chen,Zhuo Zheng,Ailong Ma,Liangpei Zhang

Main category: cs.CV

TL;DR: 提出EarthVL框架,包含EarthVLSet数据集和EarthVLNet网络,通过渐进式地物视觉-语言理解与生成,实现遥感图像的语义分割、关系推理和综合理解。

  • Motivation: 当前地球视觉研究在目标识别方面取得进展,但缺乏对目标关系推理的探索,限制了场景的全面理解。需要建立连接"图像-掩码-文本"的框架来推进地理应用。
  • Method: 1) 构建EarthVLSet数据集:包含10.9k亚米级遥感图像、土地覆盖掩码和761.5k文本对,支持多项选择和开放式VQA任务;2) 设计EarthVLNet网络:采用渐进式方法,第一阶段进行土地覆盖语义分割,第二阶段基于对象感知的LLM进行关系推理和知识总结;3) 提出数值差异损失函数动态调整不同对象的统计差异。
  • Result: 在语义分割、多项选择和开放式VQA三个基准测试中,EarthVLNet表现出优越性能。发现三个重要方向:1) 分割特征即使在跨数据集场景中也持续提升VQA性能;2) 多项选择任务对视觉编码器更敏感;3) 开放式任务需要先进的视觉编码器和语言解码器以获得最优性能。
  • Conclusion: 该数据集和方法为连接"图像-掩码-文本"提供了有益基准,推进了地球视觉的地理应用。框架展示了渐进式地物视觉-语言理解在遥感场景理解中的有效性。

[28] DreamStyle: A Unified Framework for Video Stylization

Mengtian Li,Jinshu Chen,Songtao Zhao,Wanquan Feng,Pengqi Tu,Qian He

Main category: cs.CV

TL;DR: DreamStyle是一个统一的视频风格化框架,支持文本引导、风格图像引导和首帧引导三种条件,通过精心设计的数据收集流程和LoRA训练方法,在风格一致性和视频质量上优于现有方法。

  • Motivation: 现有视频风格化方法存在两个主要问题:1) 大多局限于单一类型的风格条件(文本、风格图像或首帧),限制了应用范围;2) 缺乏高质量数据集,导致风格不一致和时间闪烁问题。
  • Method: 基于基础的图像到视频(I2V)模型构建,采用精心设计的数据收集流程获取高质量配对视频数据,使用低秩适应(LoRA)训练方法,并引入特定token的上矩阵来减少不同条件token之间的混淆。
  • Result: DreamStyle在文本引导、风格图像引导和首帧引导三种视频风格化任务上都表现出色,在风格一致性和视频质量方面优于竞争对手,定性和定量评估都证实了其有效性。
  • Conclusion: DreamStyle是一个统一的视频风格化框架,成功解决了现有方法在风格条件单一和数据质量不足方面的限制,为视频风格化任务提供了更灵活、高质量的解决方案。

[29] Textile IR: A Bidirectional Intermediate Representation for Physics-Aware Fashion CAD

Petteri Teikari,Neliana Fuenmayor

Main category: cs.CV

TL;DR: Textile IR是一个双向中间表示,连接CAD、物理模拟和生命周期评估,通过七层验证阶梯提供语义集成,解决时尚设计中的工程约束和可持续性权衡问题。

  • Motivation: 现有工具存在孤岛问题:图案软件保证可缝制但不理解悬垂性,物理模拟预测行为但不能自动修复图案。时尚设计需要同时考虑可持续性、可制造性和美观性,但设计师通常在昂贵的物理原型制作后才发现冲突。
  • Method: 提出Textile IR双向中间表示,采用七层验证阶梯(从廉价语法检查到昂贵物理验证),将时尚工程形式化为三个领域的约束满足问题,使用场景图表示使AI系统能够将服装作为结构化程序操作。
  • Result: 该框架支持双向反馈:模拟失败建议图案修改;材料替换实时更新可持续性估计;不确定性在管道中传播并带有明确的置信界限。解决了复合不确定性问题,使工程约束可感知、可操作且立即产生后果。
  • Conclusion: Textile IR使设计师能够同时导航可持续性、可制造性和美观性权衡,而不是在昂贵的物理原型制作后发现冲突。提出了六个研究重点,并讨论了时尚中小企业的部署考虑,集成工作流程减少了专业工程要求。

[30] StableDPT: Temporal Stable Monocular Video Depth Estimation

Ivan Sobko,Hayko Riemenschneider,Markus Gross,Christopher Schroers

Main category: cs.CV

TL;DR: 提出StableDPT方法,将单图像深度估计模型适配到视频处理,通过时间模块提升时间稳定性,避免闪烁伪影

  • Motivation: 将单图像深度估计模型应用于视频序列时会出现显著的时间不稳定性和闪烁伪影,需要解决视频深度估计的时间一致性问题
  • Method: 基于现成的ViT编码器和增强的DPT头部,在头部加入时间层,使用高效的交叉注意力机制整合整个视频序列中关键帧的信息,并提出处理任意长度视频的推理策略
  • Result: 在多个基准数据集上评估显示时间一致性改善,达到竞争性的最先进性能,在实际场景中处理速度提升2倍以上
  • Conclusion: StableDPT能够有效提升视频深度估计的时间稳定性,同时保持高性能和高效处理速度

[31] Topology-aware Pathological Consistency Matching for Weakly-Paired IHC Virtual Staining

Mingzhou Jiang,Jiaying Zhou,Nan Zeng,Mickael Li,Qijie Tang,Chao He,Huazhu Fu,Honghui He

Main category: cs.CV

TL;DR: 提出一种拓扑感知的H&E到IHC虚拟染色框架,通过拓扑一致性匹配和拓扑约束病理匹配解决相邻切片空间错位问题,在四个染色任务上优于现有方法。

  • Motivation: IHC染色对癌症诊断至关重要,但过程复杂、耗时且昂贵。虚拟染色提供了一种替代方案,但使用相邻切片作为ground truth会导致空间错位和局部变形,阻碍有效的监督学习。
  • Method: 提出拓扑感知虚拟染色框架,包含两个核心机制:1) 拓扑感知一致性匹配(TACM),使用图对比学习和拓扑扰动学习鲁棒匹配模式;2) 拓扑约束病理匹配(TCPM),基于节点重要性对齐病理阳性区域以增强病理一致性。
  • Result: 在两个基准数据集上的四个染色任务中,该方法优于现有最先进方法,实现了更高的生成质量和临床相关性。
  • Conclusion: 提出的拓扑感知框架有效解决了H&E到IHC虚拟染色中的空间错位问题,为临床提供了一种成本效益高的IHC染色替代方案。

[32] SketchThinker-R1: Towards Efficient Sketch-Style Reasoning in Large Multimodal Models

Ruiyang Zhang,Dongzhan Zhou,Zhedong Zheng

Main category: cs.CV

TL;DR: SketchThinker-R1通过模仿人类草图式推理,大幅减少多模态模型推理时的token成本(降低64%以上)而不损失准确性。

  • Motivation: 当前多模态模型采用逐步推理方式导致计算开销大(token成本高、响应时间长),而人类使用草图式推理(简洁、目标导向)更高效,因此希望让模型学习这种高效推理方式。
  • Method: 1. 草图模式冷启动:将标准长推理转换为草图式推理并微调基础模型;2. 训练SketchJudge奖励模型,评估推理过程并给草图式推理更高评分;3. 在SketchJudge监督下进行草图思维强化学习,泛化草图式推理能力。
  • Result: 在四个基准测试中,SketchThinker-R1实现了超过64%的推理token成本降低,同时保持最终答案准确性不变。定性分析显示草图式推理在解决问题时更关注关键线索。
  • Conclusion: 草图式推理能显著提高多模态模型的推理效率,减少计算开销而不影响准确性,为高效推理提供了新思路。

[33] DGA-Net: Enhancing SAM with Depth Prompting and Graph-Anchor Guidance for Camouflaged Object Detection

Yuetong Li,Qing Zhang,Yilin Zhao,Gongyang Li,Zeming Liu

Main category: cs.CV

TL;DR: DGA-Net:基于深度提示的SAM适配框架,用于伪装目标检测,通过跨模态图增强和锚点引导精炼模块提升性能

  • Motivation: 现有伪装目标检测方法主要依赖稀疏提示(如点或框),未能充分利用深度线索。需要一种更全面的机制来构建和传播密集深度提示,以更好地利用深度信息。
  • Method: 提出DGA-Net框架,包含两个核心模块:1)跨模态图增强模块,在异质图中融合RGB语义和深度几何信息形成统一引导信号;2)锚点引导精炼模块,创建全局锚点并建立非局部路径,将引导从深层传播到浅层,确保精确一致的分割。
  • Result: 定量和定性实验结果表明,DGA-Net在伪装目标检测任务上超越了现有最先进方法。
  • Conclusion: 通过深度提示范式和提出的两个模块,DGA-Net能够有效利用深度线索,在伪装目标检测任务中取得了优异性能。

[34] Breaking Self-Attention Failure: Rethinking Query Initialization for Infrared Small Target Detection

Yuteng Liu,Duanni Meng,Maoxun Yuan,Xingxing Wei

Main category: cs.CV

TL;DR: SEF-DETR:一种针对红外小目标检测的DETR改进框架,通过频率引导的补丁筛选、动态嵌入增强和可靠性一致性融合,解决自注意力机制中目标特征被背景淹没的问题。

  • Motivation: 红外小目标检测面临信噪比低、目标尺寸小和背景复杂等挑战。现有的DETR基检测器虽然受益于全局上下文建模,但在红外小目标检测中性能显著下降。研究发现,由于自注意力机制,红外小目标的相关嵌入被主导的背景特征淹没,导致查询初始化和目标定位不可靠。
  • Method: 提出SEF-DETR框架,包含三个核心组件:1) 频率引导的补丁筛选(FPS):利用局部补丁的傅里叶频谱构建目标相关密度图,抑制背景主导特征;2) 动态嵌入增强(DEE):以目标感知方式增强多尺度表示;3) 可靠性一致性融合(RCF):通过强制空间-频率一致性和可靠性来细化对象查询。
  • Result: 在三个公开的红外小目标检测数据集上进行广泛实验,SEF-DETR相比现有最先进方法实现了更优越的检测性能,为红外小目标检测任务提供了鲁棒且高效的解决方案。
  • Conclusion: SEF-DETR通过改进查询初始化机制,有效解决了DETR基检测器在红外小目标检测中目标特征被背景淹没的问题,显著提升了检测性能,为红外小目标检测提供了新的有效框架。

[35] Towards Agnostic and Holistic Universal Image Segmentation with Bit Diffusion

Jakob Lønborg Christensen,Morten Rieger Hannemose,Anders Bjorholm Dahl,Vedrana Andersen Dahl

Main category: cs.CV

TL;DR: 提出基于扩散模型的通用图像分割框架,无需依赖掩码架构,通过整体预测实现与模型无关的分割

  • Motivation: 现有分割方法多依赖掩码框架,本文旨在探索扩散模型在离散分割任务中的应用,实现更灵活、原则性的分割方法
  • Method: 采用扩散模型框架,引入位置感知调色板和2D格雷码排序,添加tanh激活函数,使用sigmoid损失加权和x-prediction策略
  • Result: 虽然性能尚未超越领先的掩码架构,但显著缩小了性能差距,并具备原则性模糊建模等独特能力
  • Conclusion: 扩散模型在图像分割领域具有潜力,结合大规模预训练或可提示条件可能实现有竞争力的模型

[36] TA-Prompting: Enhancing Video Large Language Models for Dense Video Captioning via Temporal Anchors

Wei-Yuan Cheng,Kai-Po Chang,Chi-Pin Huang,Fu-En Yang,Yu-Chiang Frank Wang

Main category: cs.CV

TL;DR: 提出TA-Prompting方法,通过时间锚点增强VideoLLMs的密集视频描述能力,解决现有方法在未修剪视频中事件边界定位不精确的问题。

  • Motivation: 现有基于大语言模型的视频描述方法在未修剪视频中难以精确识别事件边界,导致生成的描述缺乏准确的时间定位基础。
  • Method: 提出TA-Prompting方法:1) 使用时间锚点学习精确事件定位并提示VideoLLMs进行时间感知的视频事件理解;2) 推理时引入事件连贯性采样策略,选择跨时间事件连贯且与视频跨模态相似的事件描述。
  • Result: 在基准数据集上的实验表明,TA-Prompting在密集视频描述、时刻检索和TemporalQA等时间理解任务上优于现有最先进的VideoLLMs。
  • Conclusion: TA-Prompting通过时间锚点和事件连贯性采样策略有效提升了VideoLLMs在密集视频描述和时间理解任务上的性能,解决了事件边界定位不精确的问题。

[37] Zoom-IQA: Image Quality Assessment with Reliable Region-Aware Reasoning

Guoqiang Liang,Jianyi Wang,Zhonghua Wu,Shangchen Zhou

Main category: cs.CV

TL;DR: Zoom-IQA是一个基于视觉语言模型的图像质量评估方法,通过模拟人类认知行为(不确定性感知、区域推理和迭代优化)来同时生成质量描述和分数,相比现有方法具有更好的鲁棒性和可解释性。

  • Motivation: 现有图像质量评估方法要么只预测数值分数而不提供解释,要么只提供低层次描述而缺乏精确分数。虽然最近的基于推理的视觉语言模型有潜力同时生成描述和分数,但它们往往由于视觉和文本线索整合能力有限而导致推理不可靠。
  • Method: 提出Zoom-IQA模型,模拟三个关键认知行为:不确定性感知、区域推理和迭代优化。采用两阶段训练流程:1) 在有标注的GR-IQA数据集上进行监督微调,让模型学会将评估基于关键区域;2) 使用强化学习进行动态策略探索,通过KL-Coverage正则化防止推理和评分多样性崩溃,并采用渐进重采样策略缓解标注偏差。
  • Result: 大量实验表明Zoom-IQA在鲁棒性、可解释性和泛化能力方面都有显著提升。在图像修复等下游任务中的应用进一步证明了该方法的有效性。
  • Conclusion: Zoom-IQA通过模拟人类认知过程,成功解决了现有视觉语言模型在图像质量评估中推理不可靠的问题,实现了更准确、可解释的质量评估,并在实际应用中表现出色。

[38] DCG ReID: Disentangling Collaboration and Guidance Fusion Representations for Multi-modal Vehicle Re-Identification

Aihua Zheng,Ya Gao,Shihao Li,Chenglong Li,Jin Tang

Main category: cs.CV

TL;DR: DCG-ReID提出动态置信度解耦加权机制,针对多模态车辆重识别中平衡与不平衡质量分布数据的不同需求,分别设计协作融合和引导融合策略,提升多模态联合决策性能。

  • Motivation: 多模态车辆重识别面临模态质量分布不确定性的挑战,现有方法使用单一融合模型处理所有数据,忽略了平衡与不平衡质量分布数据的不同需求,难以解耦类内一致性和模态间异质性的冲突。
  • Method: 提出动态置信度解耦加权机制动态重加权三模态贡献,基于此设计两种场景特定融合策略:针对平衡质量分布的协作融合模块挖掘成对共识特征;针对不平衡分布的引导融合模块实施模态判别差异的差异化放大。
  • Result: 在三个多模态重识别基准数据集(WMVeID863、MSVR310、RGBNT100)上的广泛实验验证了方法的有效性。
  • Conclusion: DCG-ReID通过解耦异构质量分布模态数据并设计针对性融合策略,有效解决了多模态车辆重识别中的模态质量分布不确定性问题,提升了多模态联合决策性能。

[39] PrismVAU: Prompt-Refined Inference System for Multimodal Video Anomaly Understanding

Iñaki Erregue,Kamal Nasrollahi,Sergio Escalera

Main category: cs.CV

TL;DR: PrismVAU:轻量级实时视频异常理解系统,使用单一现成MLLM进行异常评分、解释和提示优化,无需指令微调或外部模块

  • Motivation: 现有视频异常理解方法依赖微调的多模态大语言模型或外部模块(如视频字幕生成器),导致昂贵的标注成本、复杂的训练流程和高推理开销。需要更轻量高效的实时解决方案。
  • Method: PrismVAU采用两阶段互补方法:1)粗粒度异常评分模块,通过文本锚点的相似性计算帧级异常分数;2)基于MLLM的细化模块,通过系统和用户提示对异常进行上下文理解。文本锚点和提示通过弱监督自动提示工程框架优化。
  • Result: 在标准VAD基准测试中,PrismVAU实现了具有竞争力的检测性能,并提供可解释的异常解释,无需指令微调、帧级标注、外部模块或密集处理。
  • Conclusion: PrismVAU是一个高效实用的实时视频异常理解解决方案,适用于实际应用场景,通过单一现成MLLM实现了轻量级但有效的异常检测和解释能力。

[40] HybridSolarNet: A Lightweight and Explainable EfficientNet-CBAM Architecture for Real-Time Solar Panel Fault Detection

Md. Asif Hossain,G M Mota-Tahrin Tayef,Nabil Subhan

Main category: cs.CV

TL;DR: 提出HybridSolarNet模型,结合EfficientNet-B0与CBAM注意力模块,用于无人机太阳能板故障检测,在边缘设备上实现高效实时检测

  • Motivation: 太阳能板人工检测耗时耗力且易出错,现有深度学习方法要么太大不适合边缘设备,要么因无效学习技术导致准确率估计有偏差
  • Method: 集成EfficientNet-B0与CBAM注意力模块,采用分割-增强协议防止数据泄露,引入焦点损失和余弦退火,进行5折分层交叉验证
  • Result: 平均准确率达92.37%±0.41,F1分数0.9226±0.39,仅需16.3MB存储(比VGG19小32倍),GPU推理速度54.9FPS,Grad-CAM可视化显示模型关注实际故障位置
  • Conclusion: HybridSolarNet在保持高精度的同时大幅减小模型尺寸,适合边缘设备部署,是实时无人机太阳能板故障检测的成功候选方案

[41] VTONQA: A Multi-Dimensional Quality Assessment Dataset for Virtual Try-on

Xinyi Wei,Sijing Wu,Zitong Xu,Yunhao Li,Huiyu Duan,Xiongkuo Min,Guangtao Zhai

Main category: cs.CV

TL;DR: 构建首个针对虚拟试衣图像的多维质量评估数据集VTONQA,包含8,132张图像和24,396个主观评分,用于评估VTON模型和图像质量评估指标。

  • Motivation: 现有虚拟试衣模型存在服装变形和身体不一致等伪影问题,需要可靠的质量评估方法来指导模型改进。
  • Method: 构建VTONQA数据集,包含11个代表性VTON模型生成的8,132张图像,收集24,396个平均意见分数,涵盖服装合身度、身体兼容性和整体质量三个维度。
  • Result: 建立了VTON模型和图像质量评估指标的基准测试,揭示了现有方法的局限性,验证了所提数据集的价值。
  • Conclusion: VTONQA数据集和基准测试为感知对齐评估提供了坚实基础,有助于质量评估方法的发展和VTON模型的进步。

[42] LAMS-Edit: Latent and Attention Mixing with Schedulers for Improved Content Preservation in Diffusion-Based Image and Style Editing

Wingwa Fu,Takayuki Okatani

Main category: cs.CV

TL;DR: LAMS-Edit:一种基于扩散模型的文本到图像编辑框架,通过混合反演过程的潜在表示和注意力图,平衡内容保留与编辑应用

  • Motivation: 扩散模型在文本到图像编辑中面临两个主要挑战:1)平衡内容保留与编辑应用;2)处理真实图像编辑。现有方法在这两方面存在不足。
  • Method: 提出LAMS-Edit框架,利用反演过程中的中间状态(潜在表示和注意力图),在编辑图像生成时通过加权插值混合这些状态。该方法结合了Prompt-to-Prompt(P2P),支持区域掩码精确编辑和通过LoRA实现风格迁移。
  • Result: 大量实验表明,LAMS-Edit能有效平衡内容保留与编辑应用,在真实图像编辑任务中表现优异。
  • Conclusion: LAMS-Edit提供了一个可扩展的文本到图像编辑框架,通过混合反演过程的中间状态,成功解决了内容保留与编辑应用的平衡问题,并支持精确编辑和风格迁移。

[43] ULS+: Data-driven Model Adaptation Enhances Lesion Segmentation

Rianne Weber,Niels Rocholl,Max de Grauw,Mathias Prokop,Ewoud Smit,Alessa Hering

Main category: cs.CV

TL;DR: ULS+是通用病灶分割模型的增强版,通过整合新数据集和减小输入图像尺寸,实现了更高的准确性和更快的推理速度,在ULS23挑战赛中排名第一。

  • Motivation: 原始ULS模型虽然能够基于点击点对CT扫描中的全身病灶进行分割,但自发布以来出现了多个新的公开数据集,这些数据集可以进一步提升模型性能。同时,临床应用中需要更准确、更快速的病灶分割工具。
  • Method: ULS+整合了新增的公开数据集,并采用了更小的输入图像尺寸。通过数据驱动的更新和临床验证循环,对模型进行优化改进。
  • Result: 在ULS23挑战赛测试数据和Longitudinal-CT数据集子集上,ULS+在Dice分数和点击点位置鲁棒性方面均显著优于原始ULS模型。ULS+在ULS23挑战赛测试阶段排行榜上排名第一。
  • Conclusion: ULS+通过持续的数据驱动更新和临床验证,为构建鲁棒且具有临床相关性的病灶分割模型奠定了基础,展示了模型迭代改进的重要性。

[44] Towards Faithful Reasoning in Comics for Small MLLMs

Chengcheng Feng,Haojie Yin,Yucheng Jin,Kaizhu Huang

Main category: cs.CV

TL;DR: 该论文提出了一种针对漫画视觉问答(CVQA)的新型推理框架,解决了传统CoT提示在CVQA任务中性能下降的问题,特别是在小规模多模态大语言模型中。

  • Motivation: 漫画视觉问答(CVQA)依赖于符号抽象、叙事逻辑和幽默,与传统VQA任务不同。研究发现直接应用链式思维(CoT)提示在CVQA中反而会降低性能,尤其是在小规模模型中,这源于状态纠缠、虚假转换和探索效率低下等问题。
  • Method: 提出了一种新颖的漫画推理框架,结合模块化CoT生成、基于GRPO的强化微调以及新颖的结构化奖励机制,旨在为小型MLLM生成更忠实和可迁移的推理链。
  • Result: 在五个具有挑战性的基准测试中,提出的3B模型超越了最先进的方法,插件实验在不同MLLM上带来了平均12.1%的额外性能提升。
  • Conclusion: 该框架不仅提升了CVQA性能,还适用于更广泛的幽默中心和抽象视觉推理任务,如表情包理解和社论漫画解读,为小型MLLM在复杂视觉推理任务中的应用提供了有效解决方案。

[45] Towards Efficient 3D Object Detection for Vehicle-Infrastructure Collaboration via Risk-Intent Selection

Li Wang,Boqi Li,Hang Chen,Xingjian Wu,Yichen Wang,Jiewen Tan,Xinyu Zhang,Huaping Liu

Main category: cs.CV

TL;DR: RiSe框架通过风险意图选择性检测,仅传输高风险交互区域的特征,将通信量降至完整特征共享的0.71%,同时保持最先进的检测精度。

  • Motivation: 车路协同感知在自动驾驶中至关重要,但通信带宽与特征冗余之间的权衡是关键瓶颈。现有方法依赖空间压缩或静态置信度图,会低效传输非关键背景区域的空间冗余特征。
  • Method: 提出RiSe框架:1) 基于势场理论的PTCM模型定量评估运动学风险;2) IDAPM模块利用自车运动先验主动预测和过滤关键BEV区域;3) 语义选择性融合方案仅传输高交互区域的高保真特征。
  • Result: 在DeepAccident数据集上的实验表明,该方法将通信量降至完整特征共享的0.71%,同时保持最先进的检测精度,在带宽效率和感知性能之间建立了有竞争力的帕累托前沿。
  • Conclusion: RiSe框架通过从识别可见区域转向优先考虑风险关键区域,实现了语义选择性融合,有效解决了车路协同感知中的带宽-冗余权衡问题。

[46] ReCCur: A Recursive Corner-Case Curation Framework for Robust Vision-Language Understanding in Open and Edge Scenarios

Yihan Wei,Shenghai Yuan,Tianchen Deng,Boyang Lou,Enwen Hu

Main category: cs.CV

TL;DR: ReCCur是一个低计算框架,通过多智能体递归流程将噪声网络图像转化为可审计的细粒度标签,用于处理现实世界中的极端场景(corner cases)。

  • Motivation: 现实世界中的极端场景(corner cases)是导致实际故障的关键,但难以大规模收集:网络数据噪声大、标签脆弱、边缘部署限制大规模重新训练。
  • Method: 采用三阶段递归流程:1) 大规模数据获取与过滤,使用视觉语言模型扩展领域词汇、爬取网络数据,通过三模态一致性检查;2) 专家混合知识蒸馏,使用互补编码器进行kNN投票和不确定性采样;3) 区域证据VLM对抗标注,通过提议者(多粒度区域和语义线索)和验证者(全局和局部链式一致性)生成可解释标签。
  • Result: 在消费级GPU上运行,能持续提升数据纯度和可分离性,需要最少的人工监督,为资源受限条件下的下游训练和评估提供实用基础。
  • Conclusion: ReCCur提供了一个实用的框架,能够在资源受限条件下有效处理极端场景数据,代码和数据集将公开发布。

[47] SA-ResGS: Self-Augmented Residual 3D Gaussian Splatting for Next Best View Selection

Kim Jun-Seong,Tae-Hyun Oh,Eduardo Pérez-Pellitero,Youngkyoon Jang

Main category: cs.CV

TL;DR: SA-ResGS是一个用于主动场景重建中下一最佳视角选择的框架,通过自增强残差学习和物理引导的视角选择,提升不确定性量化的稳定性和监督效果。

  • Motivation: 解决主动场景重建中稀疏和宽基线视角导致的监督不足问题,提升不确定性量化的可靠性和下一最佳视角选择的鲁棒性。
  • Method: 1) 通过训练视角与光栅化外推视角之间的三角测量生成自增强点云(SA-Points);2) 引入首个针对3D高斯溅射的残差学习策略;3) 结合不确定性驱动过滤与dropout和硬负采样启发的采样方法。
  • Result: 在主动视角选择实验中,SA-ResGS在重建质量和视角选择鲁棒性方面均优于现有最先进方法。
  • Conclusion: SA-ResGS通过物理引导的视角选择和不确定性感知的残差监督,有效解决了宽基线探索和稀疏视角模糊性之间的冲突,提升了主动场景重建的性能。

[48] Flow Matching and Diffusion Models via PointNet for Generating Fluid Fields on Irregular Geometries

Ali Kashefi

Main category: cs.CV

TL;DR: 提出Flow Matching PointNet和Diffusion PointNet两种生成式几何深度学习框架,用于在非规则几何体上预测流体流动变量,直接处理点云表示,避免像素化限制,相比传统方法更准确且鲁棒。

  • Motivation: 传统方法在处理不规则几何体上的流体流动预测时,通常需要将几何体投影到均匀网格上,存在像素化限制。基于图神经网络的扩散模型会产生高频噪声,且需要额外的中间网络进行几何条件化,架构复杂。
  • Method: 将PointNet分别集成到流匹配和扩散模型中,形成两个新框架。通过反向生成过程从标准高斯噪声重建物理场,直接处理计算域的点云表示(如有限体积网格的网格顶点),仅依赖PointNet进行几何条件化,架构简单统一。
  • Result: 在圆柱绕流的稳态不可压缩流动数据集上评估,结果表明两个新框架在速度和压力场预测、升力和阻力预测方面更准确,对不完整几何体具有更强的鲁棒性,且不会产生高频噪声伪影。
  • Conclusion: Flow Matching PointNet和Diffusion PointNet为不规则几何体上的流体流动预测提供了有效的生成式深度学习方法,架构简单统一,预测精度高,鲁棒性强,优于传统PointNet和基于图神经网络的扩散模型。

[49] Motion Blur Robust Wheat Pest Damage Detection with Dynamic Fuzzy Feature Fusion

Han Zhang,Yanwei Wang,Fang Li,Hongjun Wang

Main category: cs.CV

TL;DR: DFRCP是YOLOv11的插件升级,通过动态模糊鲁棒卷积金字塔增强运动模糊下的目标检测性能,在边缘设备上实现高效部署。

  • Motivation: 相机抖动导致的运动模糊会产生重影伪影,严重影响边缘侧目标检测。现有方法要么将模糊作为噪声抑制而丢失判别性结构,要么进行全图像恢复增加延迟,难以在资源受限设备上部署。
  • Method: 提出DFRCP动态模糊鲁棒卷积金字塔,增强YOLOv11特征金字塔:结合大尺度和中尺度特征并保留原生表示;引入动态鲁棒开关单元自适应注入模糊特征以增强抖动下的全局感知。模糊特征通过旋转和非线性插值多尺度特征合成,通过透明度卷积学习内容自适应权衡。开发CUDA并行旋转和插值内核避免边界溢出,实现400倍以上加速。
  • Result: 在约3,500张图像的私有小麦害虫数据集上训练,使用两种模糊机制进行三倍增强。在模糊测试集上,YOLOv11+DFRCP比YOLOv11基线准确率提高约10.4%,仅增加适度训练时间开销,减少数据收集后的人工筛选需求。
  • Conclusion: DFRCP作为YOLOv11的插件升级,有效提升运动模糊条件下的目标检测性能,通过CUDA优化实现边缘部署的实用性,为资源受限设备上的模糊鲁棒检测提供解决方案。

[50] On the Intrinsic Limits of Transformer Image Embeddings in Non-Solvable Spatial Reasoning

Siyi Lyu,Quan Liu,Feng Yan

Main category: cs.CV

TL;DR: ViTs在空间推理任务(如心理旋转)上存在系统性失败,这源于架构内在的电路复杂度限制,而非数据规模。论文证明对于非可解群(如SO(3)),保持结构保持嵌入的计算复杂度下界为NC¹-complete,而恒定深度ViTs受限于TC⁰,存在复杂度边界。

  • Motivation: Vision Transformers在语义识别上表现出色,但在空间推理任务(如心理旋转)上存在系统性失败。传统观点常将此归因于数据规模不足,但本文认为这源于ViT架构内在的电路复杂度限制。
  • Method: 将空间理解形式化为学习群同态:将图像序列映射到保持底层变换群代数结构的潜在空间。证明对于非可解群(如3D旋转群SO(3)),保持结构保持嵌入的计算复杂度下界为Word Problem(NC¹-complete)。对比证明恒定深度ViTs受限于TC⁰。通过潜在空间探测验证复杂度差距。
  • Result: 在TC⁰ ⊊ NC¹猜想下,建立了复杂度边界:恒定深度ViTs从根本上缺乏有效捕捉非可解空间结构所需的逻辑深度。实验验证显示,随着组合深度增加,ViT表示在非可解任务上出现结构崩溃。
  • Conclusion: ViTs在空间推理任务上的失败源于架构固有的计算复杂度限制,而非数据规模。恒定深度ViTs无法有效处理非可解群的空间结构,这为理解Transformer架构的能力边界提供了理论依据。

[51] IBISAgent: Reinforcing Pixel-Level Visual Reasoning in MLLMs for Universal Biomedical Object Referring and Segmentation

Yankai Jiang,Qiaoru Li,Binlu Xu,Haoran Sun,Chao Ding,Junting Dong,Yuxiang Cai,Xuhong Zhang,Jianwei Yin

Main category: cs.CV

TL;DR: IBISAgent:一种将医学图像分割重构为多步决策过程的智能MLLM,通过文本点击动作调用分割工具,无需架构修改即可生成高质量掩码

  • Motivation: 现有医学MLLM分割方法面临两大挑战:1)引入隐式分割标记并需同时微调MLLM和外部像素解码器,导致灾难性遗忘和泛化能力受限;2)依赖单次推理,缺乏迭代优化能力,性能欠佳
  • Method: 提出IBISAgent智能MLLM,将分割重构为视觉中心的多步决策过程,通过交错推理和文本点击动作调用分割工具。采用两阶段训练框架:冷启动监督微调 + 带细粒度奖励的智能强化学习
  • Result: 在医学指代和推理分割任务中,IBISAgent在多个数据集上一致优于闭源和开源SOTA方法
  • Conclusion: IBISAgent通过将分割重构为多步决策过程,无需架构修改即可实现高质量分割,增强了像素级视觉推理能力,为医学图像分析提供了新范式

[52] Fine-Grained Generalization via Structuralizing Concept and Feature Space into Commonality, Specificity and Confounding

Zhen Wang,Jiaojiao Zhao,Qilong Wang,Yongfeng Dong,Wenlong Yu

Main category: cs.CV

TL;DR: 提出CFSG模型,通过将概念和特征空间解耦为共同、特定和混淆三个结构化组件,并引入自适应机制动态调整组件比例,以解决细粒度域泛化中的挑战。

  • Motivation: 细粒度域泛化比传统域泛化更具挑战性,因为细粒度识别任务中存在细微的类间差异和较大的类内变化。在域偏移下,模型对细粒度线索过于敏感,导致关键特征被抑制,性能显著下降。认知研究表明,人类通过利用共同和特定属性来分类物体,但当前深度学习模型尚未有效融入这一机制。
  • Method: 提出概念-特征结构化泛化(CFSG)模型,将概念和特征空间显式解耦为三个结构化组件:共同、特定和混淆部分。引入自适应机制动态调整这三个组件的比例,以减轻不同程度分布偏移的负面影响。在最终预测中,为每对组件分配显式权重。
  • Result: 在三个单源基准数据集上的广泛实验表明,CFSG相比基线模型平均性能提升9.87%,优于现有最先进方法平均3.08%。可解释性分析验证了CFSG能有效整合多粒度结构化知识,并确认特征结构化促进了概念结构化的出现。
  • Conclusion: CFSG通过模拟人类认知机制,将概念和特征空间结构化解耦,并引入自适应调整机制,有效解决了细粒度域泛化中的挑战,显著提升了模型性能,并通过可解释性分析验证了其有效性。

[53] Understanding Multi-Agent Reasoning with Large Language Models for Cartoon VQA

Tong Wu,Thanet Markchom

Main category: cs.CV

TL;DR: 提出多智能体LLM框架解决卡通图像VQA问题,通过视觉、语言和批评三个智能体协作,在Pororo和Simpsons数据集上验证效果

  • Motivation: 卡通图像VQA面临视觉抽象夸张和叙事驱动上下文等挑战,标准LLM在自然图像上训练无法充分处理这些问题
  • Method: 设计包含视觉智能体、语言智能体和批评智能体的多智能体LLM框架,通过协作整合视觉线索和叙事上下文进行结构化推理
  • Result: 在Pororo和Simpsons两个卡通VQA数据集上系统评估,详细分析各智能体对最终预测的贡献
  • Conclusion: 该框架为理解LLM多智能体在卡通VQA和多模态推理中的行为提供了深入见解

[54] LesionTABE: Equitable AI for Skin Lesion Detection

Rocio Mexia Diaz,Yasmin Greenway,Petru Manescu

Main category: cs.CV

TL;DR: LesionTABE是一个公平性导向的皮肤病AI诊断框架,通过对抗性去偏和皮肤病专用基础模型嵌入,在深色皮肤上显著提升公平性指标(超过25%),同时提高整体诊断准确性。

  • Motivation: AI在皮肤病学中的临床采用面临偏见障碍,现有诊断模型在深色皮肤上表现不佳,需要开发公平性更强的AI系统。
  • Method: LesionTABE框架结合对抗性去偏(adversarial debiasing)和皮肤病专用基础模型嵌入,通过对抗训练减少皮肤色调相关的偏见。
  • Result: 在涵盖恶性和炎症性皮肤病的多个数据集上评估,相比ResNet-152基线,LesionTABE在公平性指标上提升超过25%,优于现有去偏方法,同时提高整体诊断准确性。
  • Conclusion: 基础模型去偏是实现公平临床AI采用的重要步骤,LesionTABE展示了这一方法的潜力。

[55] Text-Guided Layer Fusion Mitigates Hallucination in Multimodal LLMs

Chenchen Lin,Sanbao Su,Rachel Luo,Yuxiao Chen,Yan Wang,Marco Pavone,Fei Miao

Main category: cs.CV

TL;DR: TGIF是一个轻量级模块,通过文本引导的跨层融合,动态结合视觉编码器不同层的特征,减少MLLM的幻觉问题并增强视觉基础。

  • Motivation: 当前多模态大语言模型通常只使用视觉编码器的最后一层特征,忽略了丰富的层级视觉线索,导致模型容易产生视觉未基础的幻觉,过度依赖语言先验而非图像证据。
  • Method: 提出TGIF(文本引导的跨层融合)模块,将视觉编码器的不同层视为深度方向的"专家",根据查询提示动态预测视觉特征的融合权重。该方法遵循直接外部融合原则,无需更新视觉编码器,计算开销小。
  • Result: 在LLaVA-1.5-7B中集成TGIF后,在幻觉检测、OCR和VQA基准测试上获得了一致的改进,同时在ScienceQA、GQA和MMBench上保持或提升了性能。
  • Conclusion: 查询条件化的、层次感知的特征融合是增强现代MLLM视觉基础和减少幻觉的有效方法。

[56] LeafLife: An Explainable Deep Learning Framework with Robustness for Grape Leaf Disease Recognition

B. M. Shahria Alam,Md. Nasim Ahmed

Main category: cs.CV

TL;DR: 该研究开发了一个基于深度学习的葡萄叶病害检测系统,使用Xception模型达到96.23%准确率,结合对抗训练增强鲁棒性,通过Grad-CAM提供可解释性,并部署为Streamlit网络应用。

  • Motivation: 植物病害会降低作物产量和产品质量,葡萄叶病害检测对农业生产力提升至关重要。传统诊断方法效率低,需要自动化、准确的检测系统来帮助农民做出管理决策。
  • Method: 使用包含9,032张图像的葡萄叶病害数据集(3类病害+1类健康叶片),经过严格预处理后按70%/20%/10%划分训练/验证/测试集。部署两个预训练模型InceptionV3和Xception,采用对抗训练增强鲁棒性,集成Grad-CAM提供可解释性,最后使用Streamlit部署网络应用。
  • Result: Xception模型表现最佳,达到96.23%的准确率,优于InceptionV3。系统成功部署为网络应用,提供热力图可视化和置信度预测,实现了鲁棒的葡萄叶病害分类。
  • Conclusion: 该研究证明了深度学习在植物病害检测中的有效性,Xception模型结合对抗训练和可解释性方法能够提供准确、鲁棒且透明的病害诊断系统,有助于提升农业管理效率。

[57] Unified Thinker: A General Reasoning Modular Core for Image Generation

Sashuai Zhou,Qiang Zhou,Jijin Hu,Hanqing Yang,Yue Cao,Junpeng Ma,Yinchao Ma,Jun Song,Tiezheng Ge,Cheng Yu,Bo Zheng,Zhou Zhao

Main category: cs.CV

TL;DR: Unified Thinker:一个任务无关的推理架构,通过解耦推理与生成模块,使用强化学习优化视觉正确性,显著提升图像生成中的逻辑推理能力。

  • Motivation: 当前生成模型在逻辑密集型指令跟随方面存在不足,开源模型与闭源系统(如Nano Banana)在推理驱动的图像生成方面存在显著差距。需要可执行的推理能力,将高级意图分解为可验证的计划来直接指导生成过程。
  • Method: 提出Unified Thinker架构,将推理模块(Thinker)与图像生成器(Generator)解耦,形成统一规划核心。采用两阶段训练:先构建结构化规划接口,然后应用强化学习,基于像素级反馈来优化策略,强调视觉正确性而非文本合理性。
  • Result: 在文本到图像生成和图像编辑任务上的广泛实验表明,Unified Thinker显著提升了图像推理和生成质量。
  • Conclusion: 通过模块化推理架构和强化学习训练范式,成功缩小了开源模型与先进闭源系统在推理驱动图像生成方面的差距,为通用图像生成提供了有效的任务无关推理解决方案。

[58] LSP-DETR: Efficient and Scalable Nuclei Segmentation in Whole Slide Images

Matěj Pekár,Vít Musil,Rudolf Nenutil,Petr Holub,Tomáš Brázdil

Main category: cs.CV

TL;DR: LSP-DETR:基于局部星形多边形检测Transformer的端到端细胞核实例分割框架,使用轻量级Transformer处理大尺寸图像,无需后处理,速度快5倍以上

  • Motivation: 全切片图像(WSI)的细胞核实例分割面临计算挑战,现有方法依赖分块处理和昂贵的后处理,牺牲了上下文信息和效率
  • Method: 使用轻量级Transformer处理大尺寸图像,将细胞核表示为星形多边形,提出新颖的径向距离损失函数,自然处理重叠细胞核,无需显式重叠标注或手工后处理
  • Result: 在PanNuke和MoNuSeg数据集上表现出强大的跨组织泛化能力和最先进的效率,比次快方法快5倍以上
  • Conclusion: LSP-DETR提供了一种精确、可扩展且高效的细胞核实例分割解决方案,解决了计算病理学中的关键挑战

[59] DiffBench Meets DiffAgent: End-to-End LLM-Driven Diffusion Acceleration Code Generation

Jiajun jiao,Haowei Zhu,Puyuan Yang,Jianghui Wang,Ji Liu,Ziqiong Liu,Dong Li,Yuejian Fang,Junhai Yong,Bin Wang,Emad Barsoum

Main category: cs.CV

TL;DR: 提出DiffBench基准和DiffAgent智能体,用于自动化生成和评估扩散模型加速代码,通过LLM驱动框架解决多种加速技术组合的挑战。

  • Motivation: 扩散模型的多步推理过程计算开销大,阻碍实际部署。现有加速技术众多,但如何有效组合这些技术是一个重大挑战,需要自动化解决方案。
  • Method: 1. DiffBench:三阶段自动化评估基准,涵盖多种扩散架构、优化组合和部署场景;2. DiffAgent:基于LLM的智能体,采用闭环工作流(规划、代码生成、调试组件),结合遗传算法从执行环境提取性能反馈指导代码优化。
  • Result: DiffBench能全面评估生成的加速代码,DiffAgent在生成有效扩散加速策略方面显著优于现有LLM方法。
  • Conclusion: 提出的LLM驱动框架能自动化生成和评估扩散模型加速代码,有效解决加速技术组合挑战,为扩散模型的实际部署提供实用解决方案。

[60] AnatomiX, an Anatomy-Aware Grounded Multimodal Large Language Model for Chest X-Ray Interpretation

Anees Ur Rehman Hashmi,Numan Saeed,Christoph Lippert

Main category: cs.CV

TL;DR: AnatomiX是一个专门为胸部X光片解剖学基础解释设计的多任务多模态大语言模型,采用两阶段方法:先识别解剖结构并提取特征,再利用LLM执行下游任务,在解剖学推理方面表现优异。

  • Motivation: 现有的多模态医学大语言模型在胸部X光片解释中虽然取得进展,但在空间推理和解剖学理解方面仍面临挑战。现有的基础技术虽然提高了整体性能,但往往无法建立真正的解剖学对应关系,导致医学领域的不正确解剖学理解。
  • Method: 受放射学工作流程启发,AnatomiX采用两阶段方法:第一阶段识别解剖结构并提取特征;第二阶段利用大语言模型执行短语定位、报告生成、视觉问答和图像理解等多种下游任务。
  • Result: 在多个基准测试中,AnatomiX实现了卓越的解剖学推理能力,在解剖学基础、短语定位、基础诊断和基础描述任务上比现有方法性能提升超过25%。
  • Conclusion: AnatomiX通过明确设计用于解剖学基础的胸部X光片解释,有效解决了现有模型在解剖学理解方面的不足,为医学影像分析提供了更准确的解剖学对应关系。

[61] UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

Ruiyan Han,Zhen Fang,XinYu Sun,Yuchen Ma,Ziheng Wang,Yu Zeng,Zehui Chen,Lin Chen,Wenxuan Huang,Wei-Jie Xu,Yi Cao,Feng Zhao

Main category: cs.CV

TL;DR: UniCorn是一个自改进框架,通过将统一多模态模型划分为三个协作角色(提议者、求解者、评判者),通过自我博弈生成高质量交互,并将潜在理解提炼为显式生成信号,显著提升文本到图像生成质量。

  • Motivation: 统一多模态模型在跨模态理解方面取得了显著成功,但在利用内部知识进行高质量生成方面存在显著差距。这种差异被形式化为"传导性失语症"现象,即模型能准确解释多模态输入,但难以将这种理解转化为忠实且可控的合成。
  • Method: 提出UniCorn自改进框架,无需外部数据或教师监督。将单个统一多模态模型划分为三个协作角色:提议者(生成初始内容)、求解者(处理内容)、评判者(评估质量)。通过自我博弈生成高质量交互,并采用认知模式重建将潜在理解提炼为显式生成信号。同时引入UniCycle基准,基于文本到图像到文本的重建循环来验证多模态一致性恢复。
  • Result: 在六个通用图像生成基准测试中,UniCorn相比基础模型实现了全面且显著的改进。在TIIF(73.8)、DPG(86.8)、CompBench(88.5)和UniCycle上达到SOTA性能,同时在WISE上提升+5.0,在OneIG上提升+6.5。这些结果表明方法显著增强了文本到图像生成能力,同时保持了强大的理解能力。
  • Conclusion: UniCorn框架通过完全自监督的细化方法,显著提升了统一多模态模型的生成能力,同时保持了强大的理解能力,证明了完全自监督细化对于统一多模态智能的可扩展性。

[62] LTX-2: Efficient Joint Audio-Visual Foundation Model

Yoav HaCohen,Benny Brazowski,Nisan Chiprut,Yaki Bitterman,Andrew Kvochko,Avishai Berkowitz,Daniel Shalem,Daphna Lifschitz,Dudu Moshe,Eitan Porat,Eitan Richardson,Guy Shiran,Itay Chachy,Jonathan Chetboun,Michael Finkelson,Michael Kupchick,Nir Zabari,Nitzan Guetta,Noa Kotler,Ofir Bibi,Ori Gordon,Poriya Panet,Roi Benita,Shahar Armon,Victor Kulikov,Yaron Inger,Yonatan Shiftan,Zeev Melumian,Zeev Farbman

Main category: cs.CV

TL;DR: LTX-2是一个开源基础模型,能够统一生成高质量、时间同步的视听内容,在视频生成方面分配更多参数,同时保持音频生成能力。

  • Motivation: 现有文本到视频扩散模型只能生成视频序列而缺少音频,缺失了音频提供的语义、情感和氛围线索,需要能够统一生成同步视听内容的模型。
  • Method: 采用非对称双流Transformer架构,包含140亿参数视频流和50亿参数音频流,通过双向音视频交叉注意力层连接,使用时间位置嵌入和跨模态AdaLN进行共享时间步调节。引入多语言文本编码器和模态感知的无分类器引导机制。
  • Result: 模型在开源系统中达到最先进的视听质量和提示遵循度,生成结果与专有模型相当,但计算成本和推理时间大幅降低。不仅能生成语音,还能产生丰富连贯的音频轨道。
  • Conclusion: LTX-2展示了统一视听生成模型的可行性,通过高效架构设计在保持高质量输出的同时降低计算需求,为开源社区提供了强大的视听生成工具。

[63] A Versatile Multimodal Agent for Multimedia Content Generation

Daoan Zhang,Wenlin Yao,Xiaoyang Wang,Yebowen Hu,Jiebo Luo,Dong Yu

Main category: cs.CV

TL;DR: 提出MultiMedia-Agent系统,通过代理架构自动化复杂多媒体内容创作,结合技能习得理论优化数据生成和训练策略

  • Motivation: 当前AIGC模型只能作为特定场景的独立组件,无法端到端处理真实应用中的多模态内容创作。真实应用中编辑专家需要处理多种图像视频输入,产生包含音频、文本等的多模态输出,现有模型难以有效实现这种跨模态整合
  • Method: 提出MultiMedia-Agent系统,包含数据生成管道、内容创作工具库和偏好对齐评估指标。引入技能习得理论建模训练数据筛选和代理训练,设计两阶段关联策略进行计划优化(自关联和模型偏好关联),通过三阶段方法训练代理(基础/成功计划微调和偏好优化)
  • Result: 比较结果表明该方法有效,MultiMedia-Agent能够生成比新颖模型更好的多媒体内容
  • Conclusion: 基于代理的系统能够利用AI工具处理复杂内容生成任务,MultiMedia-Agent系统通过自动化复杂内容创作,解决了当前AIGC模型在多模态整合和端到端处理方面的局限性

[64] InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields

Hao Yu,Haotong Lin,Jiawei Wang,Jiaxin Li,Yida Wang,Xueyang Zhang,Yue Wang,Xiaowei Zhou,Ruizhen Hu,Sida Peng

Main category: cs.CV

TL;DR: InfiniDepth使用神经隐式场表示深度,通过局部隐式解码器实现任意分辨率的连续深度估计,在合成和真实世界基准测试中达到SOTA性能。

  • Motivation: 现有深度估计方法受限于离散图像网格,限制了输出分辨率的可扩展性并阻碍了几何细节恢复。
  • Method: 将深度表示为神经隐式场,通过局部隐式解码器在连续2D坐标上查询深度,实现任意分辨率和细粒度深度估计。
  • Result: 在合成和真实世界基准测试中达到最先进性能,在相对和度量深度估计任务中表现优异,特别是在细节区域;在大视角变化下的新视角合成任务中也产生高质量结果。
  • Conclusion: InfiniDepth通过神经隐式场表示深度,克服了传统离散方法的限制,实现了任意分辨率和精细几何细节的深度估计,为深度感知任务提供了更灵活和准确的解决方案。

[65] Muses: Designing, Composing, Generating Nonexistent Fantasy 3D Creatures without Training

Hexiao Lu,Xiaokun Sun,Zeyu Cai,Hao Guo,Ying Tai,Jian Yang,Zhenyu Zhang

Main category: cs.CV

TL;DR: Muses是首个免训练的3D生物生成前馈方法,通过骨骼引导实现多样元素的合理组合,无需优化或手动装配

  • Motivation: 现有方法依赖部件感知优化、手动装配或2D图像生成,难以处理复杂的部件级操作和域外生成,导致3D资产不真实或不连贯
  • Method: 1) 通过图约束推理构建创意组合的3D骨骼;2) 在结构化潜空间中进行体素装配;3) 骨骼条件下进行图像引导的外观建模生成一致纹理
  • Result: 实验证明Muses在视觉保真度和文本描述对齐方面达到最先进水平,并展现出灵活的3D对象编辑潜力
  • Conclusion: Muses通过骨骼表示将3D内容创建形式化为结构感知的设计-组合-生成流程,实现了高质量、连贯的3D生物生成

physics.med-ph

[66] A Green Solution for Breast Region Segmentation Using Deep Active Learning

Sam Narimani,Solveig Roth Hoff,Kathinka Dæhli Kurz,Kjell-Inge Gjesdal,Jürgen Geisler,Endre Grøvik

Main category: physics.med-ph

TL;DR: 本研究提出基于乳腺解剖几何分析的新颖样本选择策略,结合深度主动学习框架,在乳腺区域分割任务中实现性能、效率和环境可持续性的最佳平衡。

  • Motivation: 医学乳腺图像标注对诊断至关重要但耗时,本研究旨在通过深度主动学习中的不同样本选择策略,降低训练计算成本并有效利用资源。
  • Method: 使用Stavanger乳腺MRI数据集(59名患者),采用FCN-ResNet50作为深度学习模型。提出基于乳腺解剖几何分析的新样本选择方法,考虑患者体位和乳腺大小作为关键标准。评估了四种选择策略:随机选择、最近点、乳腺大小以及三种策略的混合,在主动学习框架下使用10%、20%、30%、40%的训练数据比例。
  • Result: 训练数据比例从10%增加到40%改善了几乎所有策略的分割性能(随机选择除外)。最近点策略在30%和40%数据比例下始终实现最低碳足迹。综合来看,最近点策略结合30%训练数据在分割性能、效率和环境可持续性之间达到最佳平衡。
  • Conclusion: 基于乳腺解剖几何的样本选择策略能有效优化深度主动学习在乳腺区域分割中的应用,最近点策略结合30%训练数据提供了性能与资源消耗的最佳权衡。

cs.SD

[67] Omni2Sound: Towards Unified Video-Text-to-Audio Generation

Yusheng Dai,Zehua Chen,Yuxuan Jiang,Baolong Gao,Qiuhong Ke,Jun Zhu,Jianfei Cai

Main category: cs.SD

TL;DR: 提出SoundAtlas数据集和Omni2Sound统一模型,解决视频-音频-文本多模态生成中的数据稀缺和任务竞争问题,实现视频到音频、文本到音频、视频文本到音频的统一SOTA性能。

  • Motivation: 训练统一的多模态音频生成模型面临两大挑战:1)高质量音频标注数据稀缺,导致音频-视频-文本对齐不佳;2)跨任务和任务内竞争,表现为V2A和T2A性能权衡以及VT2A任务中的模态偏差。
  • Method: 1)提出SoundAtlas数据集,通过视觉到语言压缩、初级-高级代理交接、后验过滤等创新流程,提供47万对高质量音频标注;2)设计Omni2Sound统一扩散模型,采用三阶段多任务渐进训练策略,将跨任务竞争转化为联合优化,缓解模态偏差。
  • Result: Omni2Sound在标准DiT骨干网络下,在VGGSound-Omni基准测试中,实现了视频到音频、文本到音频、视频文本到音频三个任务的统一SOTA性能,展现出强大的跨基准泛化能力。
  • Conclusion: 通过高质量数据集SoundAtlas和创新的训练策略,成功解决了多模态音频生成中的数据对齐和任务竞争问题,实现了单一模型在多个音频生成任务上的统一最优性能。

cs.CL

[68] Low-Resource Heuristics for Bahnaric Optical Character Recognition Improvement

Phat Tran,Phuoc Pham,Hung Trinh,Tho Quan

Main category: cs.CL

TL;DR: 本研究针对巴拿语(Bahnar)文档数字化中的OCR识别问题,提出结合表格/非表格检测与概率后处理的综合方法,将识别准确率从72.86%提升至79.26%,为少数民族语言保护提供技术框架。

  • Motivation: 巴拿语作为越南、柬埔寨和老挝的少数民族语言,面临保存挑战,现有研究数据有限。扫描文档的图像质量退化(如破损、模糊区域)导致OCR识别错误严重,影响信息检索系统效果,亟需提高数字化准确性。
  • Method: 提出综合方法:首先应用先进的表格和非表格检测技术改善输入数据质量;然后对OCR输出采用基于概率的后处理启发式方法进行错误校正,通过检测算法与概率纠错相结合提升识别准确率。
  • Result: 实验结果显示识别准确率显著提升,从72.86%提高到79.26%,验证了所提方法的有效性。该方法为巴拿语文档数字化提供了实用解决方案。
  • Conclusion: 本研究为巴拿语保护提供了有价值的资源,所提出的框架可推广到其他少数民族语言的数字化工作中,为解决类似语言保护问题提供了技术参考。

cs.RO

[69] Loop Closure using AnyLoc Visual Place Recognition in DPV-SLAM

Wenzheng Zhang,Kazuki Adachi,Yoshitaka Hara,Sousuke Nakamura

Main category: cs.RO

TL;DR: 提出一种改进DPV-SLAM中回环检测性能的方法,用基于学习的AnyLoc替换传统BoVW,并引入自适应阈值机制

  • Motivation: 回环检测对视觉SLAM的精度和一致性至关重要,传统BoVW方法依赖手工特征,在不同视角和光照条件下鲁棒性不足,需要手动调整阈值
  • Method: 1) 用基于深度特征表示的AnyLoc视觉地点识别技术替换传统BoVW回环检测;2) 提出自适应机制,根据环境条件动态调整相似度阈值,无需手动调参
  • Result: 在室内外数据集上的实验表明,该方法在回环检测精度和鲁棒性方面显著优于原始DPV-SLAM
  • Conclusion: 该方法为现代SLAM系统提供了一种实用且可扩展的回环检测性能增强方案

q-bio.NC

[70] Transformers self-organize like newborn visual systems when trained in prenatal worlds

Lalit Pandey,Samantha M. W. Wood,Justin N. Wood

Main category: q-bio.NC

TL;DR: 研究发现,当Transformer模型暴露于模拟的产前视觉输入(视网膜波)时,会自发发展出与新生儿视觉系统相同的结构特征。

  • Motivation: 探索Transformer是否像大脑一样学习,关键挑战在于两者训练数据不同:大脑接受产前感官体验(如视网膜波),而Transformer通常使用非生物合理的大数据集。如果Transformer像大脑一样学习,那么在相同产前数据下应发展出与新生儿大脑相同的结构。
  • Method: 使用视网膜波生成器模拟产前视觉输入,通过自监督时序学习训练Transformer适应这些视网膜波,观察其结构发展。
  • Result: Transformer在训练中自发发展出与新生儿视觉系统相同的结构:早期层对边缘敏感,后期层对形状敏感,各层感受野逐渐增大。
  • Conclusion: 新生儿视觉系统的组织结构在Transformer适应产前视觉世界时自发涌现,表明大脑和Transformer以共同方式学习,遵循相同的拟合原则。

cs.NI

[71] Multi-Modal Data-Enhanced Foundation Models for Prediction and Control in Wireless Networks: A Survey

Han Zhang,Mohammad Farzanullah,Mohammad Ghassemi,Akram Bin Sediq,Ali Afana,Melike Erol-Kantarci

Main category: cs.NI

TL;DR: 该论文探讨了基础模型在无线网络中的应用,重点关注多模态基础模型如何支持预测和控制任务,并讨论了开发无线专用基础模型的挑战和未来方向。

  • Motivation: 基础模型被认为是人工智能领域的突破性进展,正在重塑学术界和工业界的未来。将基础模型集成到无线网络中,有望开发出能够处理多样化网络管理请求和复杂无线任务(涉及多模态数据)的通用人工智能代理。
  • Method: 论文首先讨论基础模型支持的多模态上下文信息理解在无线网络中的应用,然后分别解释基础模型如何应用于预测任务和控制任务。接着从两个角度介绍无线专用基础模型的开发:可用的数据集和开发方法。
  • Result: 论文提出了基础模型在无线网络管理中的应用框架,特别是针对预测和控制任务的多模态基础模型应用方法,并分析了开发无线专用基础模型所需的数据集和方法论。
  • Conclusion: 基础模型在增强无线网络方面具有巨大潜力,但仍面临挑战,需要进一步研究和发展无线专用基础模型,论文最后讨论了这些挑战和未来研究方向。

cs.LG

[72] WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks

Hao Bai,Alexey Taymanov,Tong Zhang,Aviral Kumar,Spencer Whitehead

Main category: cs.LG

TL;DR: WebGym是一个大规模开源视觉网页代理训练环境,包含近30万个任务,通过强化学习训练代理,在未见网站上取得了42.9%的成功率,显著优于GPT-4o和GPT-5-Thinking。

  • Motivation: 现有的人工或小规模任务集不足以训练鲁棒的网页代理,因为真实网站具有非平稳性和多样性。需要大规模、多样化的真实网站环境来训练能够泛化到未见网站的视觉网页代理。
  • Method: 1. 构建WebGym环境:包含近30万个任务,涵盖多样化真实网站和难度级别,使用基于规则的评估。2. 开发高吞吐量异步rollout系统:专门为网页代理设计,实现4-5倍的采样加速。3. 使用简单强化学习配方:在代理自身交互轨迹上训练,利用任务奖励作为学习反馈。4. 扩展任务集的广度、深度和规模。5. 在Qwen-3-VL-8B-Instruct基础模型上进行微调。
  • Result: 1. 异步rollout系统相比朴素实现获得4-5倍速度提升。2. 在未见网站测试集上,微调后的代理成功率从26.2%提升至42.9%。3. 显著优于基于GPT-4o(27.1%)和GPT-5-Thinking(29.8%)的代理。4. 测试集完全由训练中未见的网站任务组成,验证了泛化能力。
  • Conclusion: WebGym作为大规模开源视觉网页代理训练环境,通过强化学习训练和任务集扩展,能够显著提升代理在未见网站上的泛化性能,超越了基于专有模型的代理。这为训练鲁棒的视觉网页代理提供了有效的解决方案。

[73] Normalized Conditional Mutual Information Surrogate Loss for Deep Neural Classifiers

Linfeng Ye,Zhixiang Chi,Konstantinos N. Plataniotis,En-hui Yang

Main category: cs.LG

TL;DR: 提出归一化条件互信息(NCMI)作为交叉熵的替代损失函数,在图像识别和医学影像分类任务中显著提升模型性能

  • Motivation: 交叉熵是深度神经网络分类器训练的事实标准损失函数,但可能存在改进空间。作者观察到模型的NCMI与其准确率成反比关系,这启发了使用NCMI作为替代损失函数的想法。
  • Method: 提出归一化条件互信息(NCMI)作为新的信息论代理损失函数,开发了交替优化算法来高效最小化NCMI。该方法可以作为交叉熵的直接替代品,计算成本相当。
  • Result: 在ImageNet上,使用ResNet-50时NCMI相比交叉熵提升2.77%的top-1准确率;在CAMELYON-17医学影像数据集上,NCMI相比最强基线提升8.6%的macro-F1分数。性能提升在不同架构和批次大小下保持一致。
  • Conclusion: NCMI是交叉熵的一个实用且有竞争力的替代方案,能够在计算成本相当的情况下显著提升模型性能,在各种基准测试中都超越了现有最佳损失函数。

[74] From Memorization to Creativity: LLM as a Designer of Novel Neural-Architectures

Waleed Khalid,Dmitry Ignatov,Radu Timofte

Main category: cs.LG

TL;DR: LLM通过闭环合成框架自主设计神经网络架构,经过22轮微调后,模型能生成高性能、结构新颖的卷积网络,验证率稳定在50.6%,性能显著提升。

  • Motivation: 探索LLM在神经网络架构设计中的自主能力,特别是如何平衡语法可靠性、性能和结构新颖性,超越简单的程序合成任务。
  • Method: 将代码导向的LLM置于闭环合成框架中,通过22轮监督微调循环:模型生成PyTorch卷积网络,验证后通过低保真性能信号(单轮准确率)评估,使用MinHash-Jaccard准则过滤结构冗余,高性能新颖架构转换为提示-代码对,通过参数高效的LoRA适配进行迭代微调。
  • Result: 模型内化了经验架构先验,成为稳健的生成器:有效生成率稳定在50.6%(峰值74.5%),平均单轮准确率从28.06%提升至50.99%,超过40%准确率的候选架构比例从2.04%增至96.81%,生成了455个原始语料中不存在的高性能架构。
  • Conclusion: 通过将代码合成与执行反馈相结合,这项工作为将随机生成器转变为自主、性能驱动的神经网络设计器提供了可扩展的蓝图,证明LLM能够内化经验性、非文本的奖励来超越其训练数据。

eess.IV

[75] Expert-Guided Explainable Few-Shot Learning with Active Sample Selection for Medical Image Analysis

Longwei Wang,Ifrat Ikhtear Uddin,KC Santosh

Main category: eess.IV

TL;DR: 提出EGxFSL和xGAL双框架,结合放射科医生标注的ROI区域监督和注意力对齐机制,解决医学图像分析中数据稀缺和模型可解释性不足的问题。

  • Motivation: 医学图像分析面临两大挑战:标注数据稀缺和模型可解释性不足,阻碍临床AI部署。少样本学习解决数据限制但缺乏透明度,主动学习方法优化数据采集但忽视样本可解释性。
  • Method: 提出双框架:EGxFSL通过Grad-CAM Dice损失整合放射科医生定义的ROI作为空间监督,与原型分类联合优化;xGAL引入迭代样本采集,优先考虑预测不确定性和注意力错配,形成可解释性指导训练和样本选择的闭环框架。
  • Result: 在BraTS、VinDr-CXR和SIIM-COVID-19数据集上分别达到92%、76%和62%的准确率,均优于非指导基线。在严重数据限制下,xGAL仅用680个样本达到76%准确率,而随机采样为57%。Grad-CAM可视化显示模型聚焦于诊断相关区域,乳腺超声验证了跨模态适用性。
  • Conclusion: 提出的双框架有效解决了医学图像分析中的数据稀缺和可解释性问题,通过整合专家知识和注意力对齐机制,实现了更可靠和透明的临床AI部署。

[76] Deep Learning Superresolution for 7T Knee MR Imaging: Impact on Image Quality and Diagnostic Performance

Pinzhen Chen,Libo Xu,Boyang Pan,Jing Li,Yuting Wang,Ran Xiong,Xiaoli Gou,Long Qing,Wenjing Hou,Nan-jie Gong,Wei Chen

Main category: eess.IV

TL;DR: 深度学习超分辨率技术能提升7T膝关节MRI的主观图像质量,但诊断准确性并未优于标准低分辨率成像

  • Motivation: 虽然深度学习超分辨率技术可以增强肌肉骨骼MRI图像质量,但其在7T膝关节MRI中的诊断价值尚不明确,需要验证其临床实用性
  • Method: 前瞻性研究,42名参与者接受7T膝关节MRI扫描,获取低分辨率和高分辨率图像,使用混合注意力变换器模型从低分辨率数据生成超分辨率图像,三位放射科医生评估图像质量和解剖结构可见性,10例以关节镜检查为金标准
  • Result: 超分辨率图像整体质量优于低分辨率图像,噪声低于高分辨率图像;软骨、半月板和韧带可见性在超分辨率和高分辨率图像中均优于低分辨率;但关节内病变的检出率和诊断性能在三种图像类型间无显著差异
  • Conclusion: 深度学习超分辨率技术改善了7T膝关节MRI的主观图像质量,但并未提高诊断准确性,与标准低分辨率成像相比无诊断优势

[77] Comparative Analysis of Binarization Methods For Medical Image Hashing On Odir Dataset

Nedim Muzoglu

Main category: eess.IV

TL;DR: SDH在ODIR数据集上使用32位编码实现了最佳性能(mAP@100=0.9184),优于LSH、ITQ和KSH方法,在存储效率和检索精度间取得了良好平衡。

  • Motivation: 评估不同二值化方法在医学图像检索中的性能,寻找在存储效率、计算效率和检索精度之间取得最佳平衡的方法,以支持医疗设备库存管理和图像检索应用。
  • Method: 在ODIR数据集上使用深度特征嵌入,系统评估了四种二值化方法:局部敏感哈希(LSH)、迭代量化(ITQ)、基于核的监督哈希(KSH)和监督离散哈希(SDH)。
  • Result: SDH在32位编码下取得了最佳性能(mAP@100=0.9184),显著优于其他方法。与先前研究相比,使用更少的位数(32位 vs 48-256位)达到了接近最先进的检索精度。
  • Conclusion: SDH是测试方法中最有效的二值化方法,为医学图像检索和设备库存管理提供了准确性、存储效率和计算效率的实用平衡方案。

[78] Annealed Langevin Posterior Sampling (ALPS): A Rapid Algorithm for Image Restoration with Multiscale Energy Models

Jyothi Rikhab Chand,Mathews Jacob

Main category: eess.IV

TL;DR: 该论文提出了一种通过快速蒸馏将预训练扩散模型优势转移到多尺度能量基模型的方法,并基于此开发了ALPS算法,用于解决成像逆问题的MAP、MMSE估计和不确定性量化。

  • Motivation: 成像逆问题需要支持高效推理、不确定性量化和概率推理的模型。能量基模型具有可解释的能量景观和组合结构,但历史上存在计算成本高和训练不稳定的问题。需要克服这些缺点,同时保留EBMs的优势。
  • Method: 1. 提出快速蒸馏策略,将预训练扩散模型的优势转移到多尺度能量基模型;2. 基于EBMs的组合性,提出退火朗之万后验采样算法,用于MAP、MMSE估计和不确定性量化;3. 在静态后验分布上进行退火,而不是像扩散模型那样对潜变量使用复杂引导策略。
  • Result: 在图像修复和MRI重建实验中,该方法在准确性和效率上匹配或超越了基于扩散模型的基线方法,同时支持MAP恢复。ALPS代码已在GitHub上开源。
  • Conclusion: 该框架为成像逆问题提供了可扩展且原理性的解决方案,具有在科学和临床环境中实际部署的潜力。蒸馏后的EBMs保留了可解释性和组合性,同时实现了高效采样。

[79] Lesion Segmentation in FDG-PET/CT Using Swin Transformer U-Net 3D: A Robust Deep Learning Framework

Shovini Guha,Dwaipayan Nandi

Main category: eess.IV

TL;DR: SwinUNet3D:基于Swin Transformer的3D U-Net框架,用于PET/CT病灶分割,在AutoPET III数据集上表现优于传统3D U-Net,Dice分数达0.88,推理速度更快。

  • Motivation: PET/CT影像中准确自动的病灶分割对癌症诊断和治疗规划至关重要。传统方法在捕捉全局上下文和精细解剖细节方面存在局限,需要更先进的深度学习模型来提升分割性能。
  • Method: 提出SwinUNet3D框架,结合Swin Transformer的移位窗口自注意力机制和U-Net风格的跳跃连接,同时捕捉全局上下文和精细解剖细节。在AutoPET III FDG数据集上评估,并与基线3D U-Net进行比较。
  • Result: SwinUNet3D在AutoPET III数据集上达到Dice分数0.88和IoU 0.78,显著优于3D U-Net(Dice 0.48,IoU 0.32)。定性分析显示对小而不规则病灶检测更好,假阳性减少,PET/CT融合更准确,且推理速度更快。
  • Conclusion: SwinUNet3D为PET/CT病灶分割提供了高效稳健的方法,推动了基于Transformer的模型在肿瘤影像工作流程中的集成。虽然目前限于FDG扫描和有限GPU资源训练,但为未来多示踪剂、多中心评估和与其他Transformer架构的基准测试奠定了基础。

[80] DiT-JSCC: Rethinking Deep JSCC with Diffusion Transformers and Semantic Representations

Kailin Tan,Jincheng Dai,Sixian Wang,Guo Lu,Shuo Shao,Kai Niu,Wenjun Zhang,Ping Zhang

Main category: eess.IV

TL;DR: DiT-JSCC提出了一种新的生成式联合源信道编码框架,使用语义优先的双分支编码器和DiT解码器,在极端信道条件下实现更好的语义一致性和视觉质量。

  • Motivation: 现有基于扩散模型的生成式JSCC方法虽然能产生视觉逼真的结果,但语义一致性不足。这是因为重建导向的JSCC编码器缺乏明确的语义判别能力,无法为生成解码器提供可靠的语义条件。
  • Method: 1) 设计语义-细节双分支编码器,与粗到细的DiT解码器自然对齐;2) 提出基于Kolmogorov复杂度的免训练自适应带宽分配策略,提高传输效率。
  • Result: DiT-JSCC在极端信道条件下(超低带宽、低信噪比)在语义一致性和视觉质量方面均优于现有JSCC方法,特别是在极端场景下表现突出。
  • Conclusion: DiT-JSCC通过联合学习语义优先的表示编码器和DiT生成解码器,解决了现有GJSCC方法的语义一致性问题,并重新定义了生成解码时代的信息价值概念。