每日arXiv - 2026年2月23日 | Egg Targaryen的个人博客

以下论文的arXiv类型标签包含：cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] KPM-Bench: A Kinematic Parsing Motion Benchmark for Fine-grained Motion-centric Video Understanding

Boda Lin,Yongjie Zhu,Xiaocheng Gong,Wenyu Qin,Meng Wang

Main category: cs.CV

TL;DR: 论文提出了KPM-Bench数据集和MoPE算法，用于解决视频描述中细粒度运动细节缺失和幻觉问题，通过运动解析和提取技术提升运动中心视频描述的可靠性。

Motivation: 当前视频描述模型在准确描述细粒度运动细节方面存在严重不足，特别是在运动中心视频中，对复杂动作和肢体动态的精确描述常常被忽视，同时存在严重的幻觉问题。
Method: 1) 开发自动化标注流程，结合运动学计算和语言解析；2) 构建KPM-Bench数据集，包含细粒度视频-描述对、运动理解问答对和幻觉评估集；3) 提出MoPE算法从文本描述中提取运动属性；4) 基于MoPE设计幻觉评估指标；5) 将MoPE集成到GRPO后训练框架中。
Result: 创建了KPM-Bench开源数据集，提出了MoPE算法和相应的幻觉评估指标，通过GRPO框架有效缓解了幻觉问题，显著提升了运动中心视频描述模型的可靠性。
Conclusion: 该研究通过创新的数据集构建和算法设计，为细粒度运动理解和幻觉问题提供了系统性解决方案，推动了视频描述技术在运动中心场景下的发展。

[2] CLUTCH: Contextualized Language model for Unlocking Text-Conditioned Hand motion modelling in the wild

Balamurugan Thambiraja,Omid Taheri,Radek Danecek,Giorgio Becherini,Gerard Pons-Moll,Justus Thies

Main category: cs.CV

TL;DR: 提出了3D-HIW数据集和CLUTCH系统，用于野外环境下的手部动作建模，在文本到手部动作生成和动作描述任务上达到SOTA性能。

Motivation: 现有手部动作建模方法依赖工作室采集的有限数据集，难以扩展到野外环境，且现有模型在动画保真度和文本-动作对齐方面存在不足。
Method: 1) 构建3D-HIW数据集：结合视觉语言模型和3D手部追踪器处理大规模第一人称动作视频；2) 提出CLUTCH系统：包含SHIFT（部分模态分解的VQ-VAE架构）和几何精炼阶段来微调LLM。
Result: 在文本到手部动作生成和动作到文本描述任务上实现了最先进的性能，建立了可扩展的野外手部动作建模的首个基准。
Conclusion: 通过3D-HIW数据集和CLUTCH系统，成功解决了野外环境下手部动作建模的挑战，为可扩展的手部动画建模提供了新的解决方案。

Xinwei Ju,Rema Daher,Danail Stoyanov,Sophia Bano,Francisco Vasconcelos

Main category: cs.CV

TL;DR: PRISM是一个用于结肠镜单目深度和姿态估计的自监督学习框架，利用边缘检测和亮度解耦来指导几何学习，在多个数据集上达到SOTA性能。

Motivation: 结肠镜辅助导航中的单目深度和姿态估计对于改善筛查效果很重要，但面临纹理缺失表面、复杂光照模式、变形以及缺乏可靠地面真实数据等挑战。
Method: 提出PRISM框架，结合边缘检测和亮度解耦来提供结构指导。使用学习型边缘检测器获取边缘图，通过内在分解模块分离着色和反射率，利用着色线索进行深度估计。
Result: 在多个真实和合成数据集上实现了最先进的性能。消融研究发现：1）在真实数据上的自监督训练优于在仿真数据上的监督训练；2）视频帧率是模型性能的关键因素。
Conclusion: PRISM通过结合解剖和光照先验，有效解决了结肠镜深度和姿态估计的挑战，为实际应用提供了实用的训练数据选择指导。

[4] LGD-Net: Latent-Guided Dual-Stream Network for HER2 Scoring with Task-Specific Domain Knowledge

Peide Zhu,Linbin Lu,Zhiqin Chen,Xiong Chen

Main category: cs.CV

TL;DR: 提出LGD-Net框架，通过跨模态特征幻觉而非像素级图像生成，直接从H&E切片预测HER2表达水平，避免计算开销和重建伪影，在BCI数据集上达到SOTA性能。

Motivation: 标准IHC染色资源密集、昂贵且耗时，在许多地区不可用。现有基于H&E切片的虚拟IHC方法计算昂贵且易产生重建伪影，可能导致诊断错误。
Method: 提出Latent-Guided Dual-Stream Network (LGD-Net)，采用跨模态特征幻觉而非显式像素级图像生成。模型学习将形态学H&E特征直接映射到分子潜在空间，通过教师IHC编码器指导训练。使用轻量级辅助正则化任务，通过核分布和膜染色强度等任务特定领域知识正则化模型训练。
Result: 在公开BCI数据集上的广泛实验表明，LGD-Net达到最先进性能，显著优于基线方法，同时支持使用单模态H&E输入进行高效推理。
Conclusion: LGD-Net通过特征级幻觉而非像素级生成，有效避免了计算开销和重建伪影问题，为从H&E切片准确预测HER2表达水平提供了一种高效可靠的替代方案。

[5] Enabling Training-Free Text-Based Remote Sensing Segmentation

Jose Sosa,Danila Rukhovich,Anis Kacem,Djamila Aouada

Main category: cs.CV

TL;DR: 提出了一种无需额外训练或仅需轻量微调的遥感图像文本引导分割方法，结合对比式和生成式视觉语言模型与SAM，在19个基准测试中取得优异性能。

Motivation: 现有视觉语言模型和视觉基础模型为零样本遥感图像分割提供了新机会，但大多数方法仍依赖额外的可训练组件，限制了泛化能力和实际应用。本文探索完全基于现有基础模型、无需额外训练的文本引导遥感分割方案。
Method: 提出两种方法：1) 对比式方法使用CLIP作为SAM网格建议的掩码选择器，实现完全零样本的开放词汇语义分割；2) 生成式方法使用GPT-4V或LoRA微调的Qwen-VL模型生成点击提示给SAM，实现推理和指代分割。
Result: 在19个遥感基准测试（包括开放词汇、指代和基于推理的任务）中表现出强大能力，对比式方法在完全零样本设置下达到最先进的开放词汇语义分割性能，生成式方法中LoRA微调的Qwen-VL模型表现最佳。
Conclusion: 证明了仅使用现有基础模型、无需额外训练即可实现有效的文本引导遥感图像分割，为实际应用提供了简单而强大的解决方案。

[6] VidEoMT: Your ViT is Secretly Also a Video Segmentation Model

Narges Norouzi,Idil Esen Zulfikar,Niccol`o Cavagnero,Tommie Kerssies,Bastian Leibe,Gijs Dubbelman,Daan de Geus

Main category: cs.CV

TL;DR: VidEoMT是一个仅使用编码器的视频分割模型，通过轻量级查询传播机制实现跨帧信息传递，无需专用跟踪模块，在保持竞争力的同时达到5-10倍加速。

Motivation: 现有视频分割模型通常结合逐帧分割器和复杂的专用跟踪模块，虽然有效但带来显著的架构复杂性和计算开销。受ViT编码器在大规模预训练后无需专用模块即可进行准确图像分割的启发，作者希望开发一个简单、高效的仅编码器视频分割模型。
Method: 提出VidEoMT（Video Encoder-only Mask Transformer），采用纯编码器架构，引入轻量级查询传播机制重用前一帧的查询来传递跨帧信息，同时使用查询融合策略结合传播查询和一组与时间无关的学习查询，以平衡信息传递和新内容适应性。
Result: VidEoMT在保持竞争力的分割准确性的同时，实现了5-10倍的加速，使用ViT-L骨干网络时运行速度可达160 FPS，无需专用跟踪模块的复杂性。
Conclusion: VidEoMT证明了仅使用编码器的ViT架构通过轻量级查询传播机制可以实现高效准确的视频分割，消除了对专用跟踪模块的需求，在性能和效率之间取得了良好平衡。

[7] VQPP: Video Query Performance Prediction Benchmark

Adrian Catalin Lutu,Eduard Poesina,Radu Tudor Ionescu

Main category: cs.CV

TL;DR: 提出了首个视频查询性能预测（VQPP）基准，包含两个文本到视频检索数据集和两个CBVR系统，共56K文本查询和51K视频，探索了多种预检索和后检索性能预测器，并展示了其在查询重写任务中的应用。

Motivation: 查询性能预测（QPP）在文本和图像检索领域已有广泛研究，但在基于内容的视频检索（CBVR）中仍未被充分探索，需要建立专门的基准来推动该领域发展。
Method: 构建了包含两个文本到视频检索数据集和两个CBVR系统的VQPP基准，包含56K文本查询和51K视频，探索了多种预检索和后检索性能预测器，并使用最佳预检索预测器作为奖励模型，通过直接偏好优化（DPO）训练LLM进行查询重写。
Result: 预检索预测器获得了有竞争力的性能，能够在检索步骤之前实现应用；展示了VQPP在查询重写任务中的实际应用价值。
Conclusion: 提出了首个视频查询性能预测基准VQPP，为视频领域的QPP研究提供了标准化的评估框架，展示了预检索预测器的有效性及其在实际任务中的应用潜力。

[8] On the Evaluation Protocol of Gesture Recognition for UAV-based Rescue Operation based on Deep Learning: A Subject-Independence Perspective

Domonkos Varga

Main category: cs.CV

TL;DR: 该论文对Liu和Szirányi的手势识别方法进行方法学分析，指出其评估协议存在严重的数据泄露问题，导致报告的高准确率不反映对未见个体的泛化能力。

Motivation: 动机是揭示手势识别研究中评估协议的有效性问题，特别是针对无人机-人交互等需要识别未见个体手势的应用场景，强调主体独立数据划分的重要性。
Method: 方法包括分析已发表的混淆矩阵、学习曲线和数据集构建，展示帧级随机训练测试分割如何导致相同受试者的样本混合在训练集和测试集中，造成严重的数据泄露。
Result: 结果显示报告的高准确率指标（接近完美）是由于数据泄露造成的，评估协议未能测量对未见个体的泛化能力，混淆矩阵和学习曲线都支持这一结论。
Conclusion: 结论强调在基于视觉的手势识别研究中，特别是需要识别未见个体手势的应用中，必须采用主体独立的数据划分方法，以确保评估结果反映真实的泛化能力。

[9] Learning Compact Video Representations for Efficient Long-form Video Understanding in Large Multimodal Models

Yuxiao Chen,Jue Wang,Zhikang Zhang,Jingru Yi,Xu Zhang,Yang Zou,Zhaowei Cai,Jianbo Yuan,Xinyu Li,Hao Yang,Davide Modolo

Main category: cs.CV

TL;DR: 提出一个用于长视频理解的新框架，包含自适应视频采样器和时空视频压缩器，结合多模态大语言模型，能有效处理长时间视频并保持关键信息。

Motivation: 随着视频主干架构和大语言模型的发展，分析长达数十分钟的长视频变得可行且普遍。但视频序列固有的冗余性给现有模型带来两大挑战：1) 在内存限制下高效处理更多帧；2) 从大量输入数据中提取判别性信息。
Method: 提出端到端的长视频理解框架，包括：1) 基于信息密度的自适应视频采样器(AVS)；2) 基于自动编码器的时空视频压缩器(SVC)；3) 与多模态大语言模型(MLLM)集成。
Result: 该框架在多个基准测试中表现出色，在长视频理解任务和标准视频理解基准上都取得优异性能，证明了其处理长时间视频复杂性的有效性。
Conclusion: 提出的框架能自适应地捕获不同时长视频的关键信息，实现高压缩率的同时保持重要判别信息，在处理长视频序列复杂性方面具有多功能性和高效性。

[10] Understanding the Fine-Grained Knowledge Capabilities of Vision-Language Models

Dhruba Ghosh,Yuhui Zhang,Ludwig Schmidt

Main category: cs.CV

TL;DR: 研究发现当前视觉语言模型在细粒度图像分类任务上表现不佳，通过实验发现更好的视觉编码器能显著提升细粒度分类性能，而预训练阶段对性能至关重要。

Motivation: 虽然视觉语言模型在各种视觉问答基准上取得了显著进展，但在测试细粒度视觉知识的传统图像分类基准上表现落后。本文旨在探究这种性能差距的原因，并找出影响细粒度视觉理解的关键因素。
Method: 在多个细粒度分类基准上测试了大量最新的视觉语言模型，通过一系列消融实验分析性能差距的原因。主要考察了不同LLM、视觉编码器以及预训练策略对性能的影响。
Result: 实验发现：1）使用更好的LLM能同等提升所有基准分数；2）更好的视觉编码器能不成比例地显著提升细粒度分类性能；3）预训练阶段对细粒度性能至关重要，特别是在预训练期间语言模型权重未冻结的情况下。
Conclusion: 这些发现为增强视觉语言模型的细粒度视觉理解和视觉中心能力提供了重要见解，指出了改进方向：优化视觉编码器和预训练策略。

[11] A Single Image and Multimodality Is All You Need for Novel View Synthesis

Amirhosein Javadi,Chi-Shiang Gau,Konstantinos D. Polyzos,Tara Javidi

Main category: cs.CV

TL;DR: 提出一种利用稀疏多模态测距数据（如雷达或激光雷达）改进单图像新视角合成的扩散模型方法，通过高斯过程重建稠密深度图来替代单目深度估计，提升几何一致性和视觉质量。

Motivation: 当前基于扩散模型的单图像新视角合成方法依赖于单目深度估计，但在低纹理、恶劣天气、遮挡等真实场景中，深度估计的可靠性和一致性受限，影响合成视图质量。
Method: 提出多模态深度重建框架，利用极稀疏的测距数据（雷达/LiDAR），在角度域中使用局部高斯过程建模深度，高效推理并量化不确定性。重建的深度和不确定性可直接替代现有扩散渲染流程中的单目深度估计器。
Result: 在真实多模态驾驶场景实验中，用稀疏测距重建深度替代纯视觉深度，显著提升了单图像新视角视频生成的几何一致性和视觉质量。
Conclusion: 研究表明可靠几何先验对基于扩散的视角合成至关重要，即使极稀疏的多模态传感也能带来实际效益，为扩散模型提供了更稳健的几何条件。

[12] ZACH-ViT: Regime-Dependent Inductive Bias in Compact Vision Transformers for Medical Imaging

Athanasios Angelakis

Main category: cs.CV

TL;DR: ZACH-ViT是一种紧凑的视觉Transformer，移除了位置嵌入和CLS标记，通过全局平均池化实现排列不变性，在医学图像任务中表现出色，特别适合资源受限的临床环境。

Motivation: 传统视觉Transformer依赖位置嵌入和类别标记编码固定的空间先验，这在自然图像中有效，但在医学图像中可能阻碍泛化能力，因为医学图像的空间布局信息较弱或不一致。
Method: 提出ZACH-ViT，移除位置嵌入和CLS标记，通过全局平均池化处理补丁表示实现排列不变性，采用自适应残差投影保持训练稳定性，同时严格控制参数预算。
Result: 在7个MedMNIST数据集上的少样本评估显示：ZACH-ViT（0.25M参数）在BloodMNIST上表现最佳，在PathMNIST上与TransMIL竞争，在具有强解剖先验的数据集（OCTMNIST、OrganAMNIST）上相对优势减弱，支持架构假设。
Conclusion: 将架构归纳偏置与数据结构对齐比追求通用基准主导更重要。ZACH-ViT尽管规模小且无预训练，仍能保持竞争性能，支持在资源受限临床环境中的部署。

[13] ROCKET: Residual-Oriented Multi-Layer Alignment for Spatially-Aware Vision-Language-Action Models

Guoheng Sun,Tingting Du,Kaixi Feng,Chenxiang Luo,Xingguo Ding,Zheyu Shen,Ziyao Wang,Yexiao He,Ang Li

Main category: cs.CV

TL;DR: ROCKET提出了一种残差导向的多层表示对齐框架，通过共享投影器和层不变映射将VLA模型的多个层与3D视觉基础模型对齐，显著减少了计算需求并提升了性能。

Motivation: 现有的视觉-语言-动作模型通常在2D数据上预训练，缺乏3D空间理解能力。现有的表示对齐方法通常只在单层应用监督，无法充分利用深度分布信息，而简单的多层对齐可能导致梯度干扰。
Method: 提出ROCKET框架，将多层对齐形式化为将一个残差流与另一个残差流对齐。使用共享投影器通过层不变映射将VLA骨干的多个层与强大的3D视觉基础模型的多个层对齐，减少梯度冲突。采用Matryoshka风格的稀疏激活方案平衡多个对齐损失，并结合免训练层选择策略。
Result: 在LIBERO上仅需约4%的计算预算就达到98.5%的最先进成功率。在LIBERO-Plus和RoboTwin以及多个VLA模型上都表现出优越性能。
Conclusion: ROCKET通过残差导向的多层表示对齐框架，有效解决了VLA模型缺乏3D空间理解的问题，在显著减少计算成本的同时实现了卓越的性能表现。

[14] Image Quality Assessment: Exploring Quality Awareness via Memory-driven Distortion Patterns Matching

Xuting Lan,Mingliang Zhou,Xuekai Wei,Jielu Yan,Yueting Huang,Huayan Pu,Jun Luo,Weijia Jia

Main category: cs.CV

TL;DR: 提出基于记忆驱动的质量感知框架(MQAF)，通过建立存储失真模式的记忆库，动态切换双模式质量评估策略，减少对高质量参考图像的依赖。

Motivation: 现有全参考图像质量评估(FR-IQA)方法依赖参考图像质量，限制了在理想参考源不可用的实际应用。受人类视觉系统积累视觉记忆能力的启发，需要减少对高质量参考图像的依赖。
Method: 建立存储失真模式的记忆库，采用双模式质量评估策略：有参考图像时自适应加权参考信息并与记忆库中的失真模式比较；无参考图像时依赖记忆库中的失真模式推断图像质量。
Result: 实验结果表明，该方法在多个数据集上优于最先进方法，同时适应无参考和全参考任务。
Conclusion: 提出的记忆驱动质量感知框架通过模拟人类视觉记忆机制，有效减少了对高质量参考图像的依赖，实现了更灵活的图像质量评估。

[15] MUOT_3M: A 3 Million Frame Multimodal Underwater Benchmark and the MUTrack Tracking Method

Ahsan Baidar Bakht,Mohamad Alansari,Muhayy Ud Din,Muzammal Naseer,Sajid Javed,Irfan Hussain,Jiri Matas,Arif Mahmood

Main category: cs.CV

TL;DR: 提出了首个伪多模态水下目标跟踪基准MUOT_3M（300万帧）和基于SAM的多模态到单模态跟踪器MUTrack，在五个基准测试中达到SOTA性能。

Motivation: 水下目标跟踪对海洋机器人、生态监测和海洋探索至关重要，但现有基准规模小且仅RGB模态，限制了在颜色失真、浑浊和低能见度条件下的鲁棒性。
Method: 1) 构建MUOT_3M基准：包含3030个视频的300万帧，标注32个跟踪属性、677个细粒度类别，提供RGB、增强RGB、估计深度和语言模态；2) 提出MUTrack跟踪器：基于SAM架构，包含视觉几何对齐、视觉语言融合和四级知识蒸馏，将多模态知识转移到单模态学生模型。
Result: MUTrack在五个UOT基准测试中比最强SOTA基线高出8.40% AUC和7.80%精度，运行速度达24 FPS。MUOT_3M基准经过海洋生物学家验证。
Conclusion: MUOT_3M和MUTrack为可扩展、多模态训练但实际可部署的水下跟踪建立了新基础，解决了现有基准规模小、模态单一的问题。

[16] Towards LLM-centric Affective Visual Customization via Efficient and Precise Emotion Manipulating

Jiamin Luo,Xuqian Gu,Jingjing Wang,Jiahong Lu

Main category: cs.CV

TL;DR: 本文提出L-AVC任务，专注于通过多模态LLM生成图像并修改其主观情感，并提出EPEM方法，包含EIC模块高效对齐情感语义转换和PER模块精确保留情感无关内容。

Motivation: 现有视觉定制研究主要依赖控制信号与编辑图像的客观对齐，忽视了主观情感内容，且缺乏面向情感视觉定制的通用基础模型。
Method: 提出EPEM方法：1) EIC模块使LLM高效对齐编辑前后的情感语义转换；2) PER模块精确保留情感无关内容。
Result: 在构建的L-AVC数据集上的综合实验评估表明，EPEM方法在L-AVC任务上优于多个最先进的基线方法。
Conclusion: 情感信息对L-AVC任务至关重要，EPEM方法能高效精确地操作此类信息。

[17] DeepSVU: Towards In-depth Security-oriented Video Understanding via Unified Physical-world Regularized MoE

Yujie Jin,Wenxin Zhang,Jingjing Wang,Guodong Zhou

Main category: cs.CV

TL;DR: 本文提出了一种新的深度安全导向视频理解任务DeepSVU，旨在不仅检测威胁，还能归因和评估威胁原因，并提出了UPRM方法来解决物理世界信息建模和权衡的挑战。

Motivation: 现有安全导向视频理解研究主要关注威胁检测和定位，缺乏生成和评估威胁原因的有效能力。本文旨在填补这一空白，提出更深入的视频理解任务。
Method: 提出统一物理世界正则化MoE方法UPRM，包含两个关键组件：统一物理世界增强MoE块和物理世界权衡正则化器，分别解决物理世界信息建模和因素权衡的挑战。
Result: 在DeepSVU指令数据集上的实验表明，UPRM优于多个先进的视频LLM和非VLM方法，验证了粗到细物理世界信息的重要性以及UPRM捕获此类信息的有效性。
Conclusion: DeepSVU任务扩展了传统安全视频理解的能力，UPRM方法通过有效建模物理世界信息并自适应权衡相关因素，在该任务上取得了显著性能提升。

[18] UAOR: Uncertainty-aware Observation Reinjection for Vision-Language-Action Models

Jiabing Yang,Yixiang Chen,Yuan Xu,Peiyan Li,Xiangnan Wu,Zichen Wen,Bowen Fang,Tao Yu,Zhengbo Zhang,Yingda Li,Kai Wang,Jing Liu,Nianfeng Liu,Yan Huang,Liang Wang

Main category: cs.CV

TL;DR: 提出UAOR模块，通过不确定性感知的观察信息重注入，无需训练即可提升VLA模型的性能

Motivation: 现有VLA模型通常需要额外的观察线索（如深度图）或辅助模块来提高性能，但这些方法需要昂贵的数据收集和额外训练。作者希望找到一种无需训练、即插即用的方法来增强VLA模型的观察注意力
Method: 提出不确定性感知观察重注入(UAOR)模块，当语言模型层表现出高不确定性（通过动作熵衡量）时，通过注意力检索将关键观察信息重新注入到下一层的FFN中，帮助VLA模型在推理过程中更好地关注观察信息
Result: 实验表明，该方法能持续改进各种VLA模型在仿真和真实世界任务中的表现，且开销极小。UAOR无需额外观察线索或模块，成为现有VLA管道的通用实用插件
Conclusion: UAOR是一种有效、无需训练、即插即用的VLA增强模块，通过不确定性驱动的观察信息重注入机制，显著提升模型性能而不需要额外数据或训练

[19] Dual-Channel Attention Guidance for Training-Free Image Editing Control in Diffusion Transformers

Guandong Li,Mengxia Ye

Main category: cs.CV

TL;DR: 提出DCAG框架，通过同时操纵DiT中Key和Value通道实现训练自由的编辑强度控制，相比仅操作Key的方法在编辑保真度上有显著提升。

Motivation: 现有基于DiT架构的扩散图像编辑模型需要训练自由的编辑强度控制。现有注意力操纵方法只关注Key空间来调节注意力路由，完全忽略了控制特征聚合的Value空间。
Method: 首先发现DiT多模态注意力层中Key和Value投影都表现出明显的偏置-增量结构。基于此提出DCAG框架，同时操纵Key通道（控制注意力位置）和Value通道（控制聚合内容）。理论分析显示Key通道通过非线性softmax函数作为粗粒度控制，Value通道通过线性加权求和作为细粒度补充。
Result: 在PIE-Bench基准测试（700张图像，10个编辑类别）上，DCAG在所有保真度指标上都优于仅使用Key的引导方法。在局部编辑任务中改进最显著：对象删除（LPIPS降低4.9%）和对象添加（LPIPS降低3.2%）。
Conclusion: DCAG通过同时操纵Key和Value通道，在二维参数空间(δ_k, δ_v)上实现了比任何单通道方法更精确的编辑-保真度权衡，为扩散模型的训练自由编辑控制提供了更精细的调节机制。

[20] Spatio-temporal Decoupled Knowledge Compensator for Few-Shot Action Recognition

Hongyu Qu,Xiangbo Shu,Rui Yan,Hailiang Gao,Wenguan Wang,Jinhui Tang

Main category: cs.CV

TL;DR: DiST提出了一种基于分解-融合的少样本动作识别框架，利用大语言模型提供的解耦空间和时间知识来学习表达性多粒度原型，在五个标准数据集上达到SOTA。

Motivation: 现有FSAR方法通常使用语义粗糙的类别名称作为辅助上下文，但这种上下文过于有限，无法为捕捉动作中的新颖空间和时间概念提供足够的背景知识。
Method: 提出分解-融合框架：1) 分解阶段：将原始动作名称解耦为多样化的时空属性描述；2) 融合阶段：提出空间/时间知识补偿器(SKC/TKC)，分别发现判别性的对象级和帧级原型，SKC在空间知识指导下自适应聚合重要补丁标记，TKC利用时间属性辅助帧间时间关系建模。
Result: 在五个标准FSAR数据集上实现了最先进的结果。
Conclusion: DiST通过利用大语言模型提供的解耦空间和时间知识，能够学习表达性多粒度原型，为捕捉细粒度空间细节和多样化时间模式提供透明度，有效提升了少样本动作识别性能。

[21] CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras

Rong Fu,Wenxin Zhang,Yibo Meng,Jia Yee Tan,Jiaxuan Lu,Rui Lu,Jiekai Wu,Zhaolu Kang,Simon Fong

Main category: cs.CV

TL;DR: CityGuard：一种用于分散式监控的拓扑感知Transformer框架，通过自适应度量学习、空间条件注意力和差分隐私嵌入映射，在保护隐私的同时实现城市尺度的人员重识别。

Motivation: 解决城市尺度人员重识别中的挑战：分布式摄像头带来的视角变化、遮挡和域偏移，同时遵守数据保护规则，防止原始图像共享。
Method: 1. 分散自适应度量学习器根据特征分布调整实例级边界；2. 空间条件注意力将粗略几何信息（如GPS或部署平面图）注入基于图的自注意力机制；3. 差分隐私嵌入映射与紧凑近似索引结合。
Result: 在Market-1501和其他公共基准测试中，检索精度和查询吞吐量均优于强基线，验证了框架在隐私关键型城市身份匹配中的实用性。
Conclusion: CityGuard框架能够生成对视角变化、遮挡和域偏移鲁棒的描述符，在严格的差分隐私核算下实现隐私与效用的可调平衡，适用于隐私关键的城市身份匹配应用。

[22] Temporal Consistency-Aware Text-to-Motion Generation

Hongsong Wang,Wenjing Yan,Qiuxia Lai,Xin Geng

Main category: cs.CV

TL;DR: TCA-T2M：一种时序一致性感知的文本到动作生成框架，通过跨序列时序对齐和运动约束提升动作生成的语义对齐和物理合理性。

Motivation: 现有两阶段文本到动作生成框架通常忽视跨序列的时序一致性，导致语义错位和物理上不合理的动作。需要解决跨序列共享时序结构的问题。
Method: 提出TCA-T2M框架：1）时序一致性感知的空间VQ-VAE（TCaS-VQ-VAE）实现跨序列时序对齐；2）掩码运动Transformer用于文本条件动作生成；3）运动学约束块减轻离散化伪影确保物理合理性。
Result: 在HumanML3D和KIT-ML基准测试中达到最先进性能，证明了时序一致性对鲁棒和连贯文本到动作生成的重要性。
Conclusion: TCA-T2M通过引入时序一致性感知机制有效解决了现有文本到动作生成中的语义对齐和物理合理性问题，显著提升了生成质量。

[23] 3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis

Ziyue Wang,Linghan Cai,Chang Han Low,Haofeng Liu,Junde Wu,Jingyu Wang,Rui Wang,Lei Song,Jiang Bian,Jingjing Fu,Yueming Jin

Main category: cs.CV

TL;DR: 3DMedAgent：一种统一代理，使2D多模态大语言模型能够执行通用3D CT分析，无需3D特定微调，通过协调异构工具逐步分解复杂3D任务，在40多个任务上表现优于现有方法。

Motivation: 现有3D分析方法采用孤立的任务特定建模或任务无关的端到端范式，阻碍了感知证据的系统积累；而当前多模态大语言模型主要面向2D设计，无法有效感知和分析体积医学数据。
Method: 提出3DMedAgent统一代理，通过灵活的MLLM代理协调异构视觉和文本工具，将复杂3D分析逐步分解为可处理的子任务：从全局到局部视图、从3D体积到信息丰富的2D切片、从视觉证据到结构化文本表示。核心设计包括维护长期结构化记忆，聚合中间工具输出，支持查询自适应、证据驱动的多步推理。
Result: 在40多个任务上的实验表明，3DMedAgent在3D胸部成像的统一感知到理解能力评估中，始终优于通用、医学和3D特定的MLLMs，展示了向通用3D临床助手扩展的可行路径。
Conclusion: 3DMedAgent为2D MLLMs执行通用3D CT分析提供了一种无需3D特定微调的解决方案，通过工具协调和结构化记忆实现了从低层感知到高层临床理解的连续分析，在DeepChestVQA基准测试中表现出色，为通用3D临床助手提供了可扩展路径。

[24] Faster Training, Fewer Labels: Self-Supervised Pretraining for Fine-Grained BEV Segmentation

Daniel Busch,Christian Bohn,Thomas Kurbiel,Klaus Friedrichs,Richard Meyes,Tobias Meisen

Main category: cs.CV

TL;DR: 提出两阶段训练策略用于BEV语义地图分割，通过自监督预训练减少对标注数据的依赖，在仅使用50%标注数据的情况下性能超越全监督基线

Motivation: 当前多摄像头BEV语义地图方法依赖昂贵且标注不一致的地面真值，需要减少对标注数据的依赖并降低训练成本
Method: 两阶段训练：1）自监督预训练：将BEVFormer预测可微分重投影到图像平面，使用Mask2Former生成的多视角语义伪标签训练，加入时序一致性损失；2）监督微调：仅使用50%数据集进行微调
Result: 在nuScenes数据集上性能提升达+2.5pp mIoU，同时减少50%标注数据使用，总训练时间减少三分之二
Conclusion: 可微分重投影加相机视角伪标签能产生可迁移的BEV特征，为减少标注的自动驾驶感知提供了可扩展路径

[25] Comparative Assessment of Multimodal Earth Observation Data for Soil Moisture Estimation

Ioannis Kontogiorgakis,Athanasios Askitopoulos,Iason Tsardanidis,Dimitrios Bormpoudakis,Ilias Tsoumas,Fotios Balampanis,Charalampos Kontoes

Main category: cs.CV

TL;DR: 提出一个10米高分辨率土壤湿度估算框架，结合Sentinel-1 SAR、Sentinel-2光学影像和ERA-5再分析数据，通过机器学习为欧洲植被区域提供农场级应用。

Motivation: 现有卫星土壤湿度产品分辨率太低（>1公里），无法满足农场级应用需求，需要开发高分辨率估算方法。
Method: 结合Sentinel-1 SAR、Sentinel-2光学影像和ERA-5再分析数据，使用机器学习方法，通过空间交叉验证评估不同模态组合和时间参数化策略，并比较传统手工特征与IBM-NASA Prithvi基础模型嵌入的性能。
Result: 混合时间匹配策略（Sentinel-2当天获取+Sentinel-1下降轨道）达到R²=0.514，10天ERA5回溯窗口提升至R²=0.518。基础模型嵌入相比传统手工特征改进有限（R²=0.515 vs. 0.514）。
Conclusion: 领域特定的光谱指数结合基于树的集成方法为泛欧洲田间尺度土壤湿度监测提供了实用且计算高效的解决方案，传统特征工程在稀疏数据回归任务中仍具竞争力。

[26] DohaScript: A Large-Scale Multi-Writer Dataset for Continuous Handwritten Hindi Text

Kunwar Arpit Singh,Ankush Prakash,Haroon R Lone

Main category: cs.CV

TL;DR: DohaScript是一个大规模、多作者的手写印地语数据集，包含531位作者抄写的相同六首传统对句，旨在解决德文纳格里文字手写数据稀缺问题，支持手写识别、作者识别等任务。

Motivation: 尽管德文纳格里文字有数亿使用者，但公开的手写基准数据集严重不足。现有资源规模有限，主要关注孤立字符或短词，缺乏受控词汇内容和作者多样性，无法捕捉德文纳格里手写体连续、融合和结构复杂的特性。
Method: 收集531位独特贡献者的手写印地语文本，设计为平行风格语料库，所有作者抄写相同的六首传统印地语对句。数据集包含去标识化的人口统计元数据，基于客观清晰度和分辨率标准的严格质量筛选，以及页面级布局难度标注。
Result: 基线实验显示清晰的质量分离和对未见作者的强泛化能力，突显了数据集的可靠性和实用价值。数据集支持手写识别、作者识别、风格分析和生成建模等任务。
Conclusion: DohaScript旨在作为标准化、可复现的基准，推动低资源脚本环境下连续手写德文纳格里文本的研究进展。

[27] Predict to Skip: Linear Multistep Feature Forecasting for Efficient Diffusion Transformers

Hanshuai Cui,Zhiqing Tang,Qianli Ma,Zhi Yao,Weijia Jia

Main category: cs.CV

TL;DR: PrediT：一种无需训练的DiT加速框架，通过线性多步预测和动态步长调制，实现高达5.54倍加速，同时保持生成质量

Motivation: DiT在图像和视频生成中计算成本高，现有基于特征缓存的加速方法可能导致潜在漂移和视觉退化，需要更智能的预测方法而非简单重用
Method: 将特征预测建模为线性多步问题，使用经典线性多步方法从历史信息预测未来输出，结合高动态区域激活的校正器防止误差累积，以及动态步长调制机制自适应调整预测范围
Result: 在各种基于DiT的图像和视频生成模型中实现高达5.54倍的延迟减少，同时质量下降可忽略不计
Conclusion: PrediT提供了一种有效且无需训练的DiT加速解决方案，通过智能预测而非简单特征重用，在保持生成质量的同时显著提升推理效率

[28] OODBench: Out-of-Distribution Benchmark for Large Vision-Language Models

Ling Lin,Yang Bai,Heng Su,Congcong Zhu,Yaoxing Wang,Yang Zhou,Huazhu Fu,Jingrun Chen

Main category: cs.CV

TL;DR: OODBench：首个全面评估视觉语言模型处理分布外数据能力的基准，包含4万实例级OOD对，发现现有VLM在常见类别上仍表现显著下降，并提出自动化评估指标。

Motivation: 现有视觉语言模型通常在IID数据假设下训练，但现实应用中常遇到分布外数据，处理不当可能带来安全风险（如自动驾驶、医疗辅助）。目前缺乏全面评估VLM处理OOD数据能力的有效基准。
Method: 提出OODBench方法：1）自动化构建基准，最小化人工验证；2）包含40K实例级OOD实例-类别对；3）提出可靠自动化评估指标，采用从基础到高级的渐进式提示问题，更全面评估OOD数据对不同难度问题的影响。
Result: 当前VLM在OODBench上表现出显著性能下降，即使底层图像类别是常见的。提出的自动化评估指标能有效评估OOD数据影响。
Conclusion: OODBench填补了VLM处理分布外数据评估的空白，总结了重要发现和见解，为未来OOD数据获取和评估研究提供基础。

[29] Evaluating Graphical Perception Capabilities of Vision Transformers

Poonam Poonam,Pere-Pau Vázquez,Timo Ropinski

Main category: cs.CV

TL;DR: ViTs在可视化图形感知任务中表现不如人类，与CNNs相比也存在感知差距

Motivation: 虽然ViTs在各种图像任务中表现出色，但它们在图形感知任务（可视化理解的关键）中的能力尚未被充分探索，而CNNs在这方面已有评估
Method: 基于Cleveland和McGill的经典研究，设计了一系列受控的图形感知任务，将ViTs与CNNs和人类参与者进行对比基准测试
Result: ViTs在通用视觉任务中表现强劲，但在可视化领域的类人图形感知能力有限，与人类感知存在明显差距
Conclusion: ViTs在可视化系统和图形感知建模中的应用需要谨慎考虑，研究揭示了重要的感知差距

[30] BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards

Yiran Yang,Zhaowei Liu,Yuan Yuan,Yukun Song,Xiong Ma,Yinghao Song,Xiangji Zeng,Lu Sun,Yulu Wang,Hai Zhou,Shuai Cui,Zhaohan Gong,Jiefei Zhang

Main category: cs.CV

TL;DR: BLM-Guard是一个用于短视频广告内容审核的框架，结合了思维链推理、规则策略原则和批评引导奖励，通过强化学习优化模型，在多模态操纵检测方面表现优异。

Motivation: 短视频平台上的多模态广告包含欺骗性的视觉、语音和字幕内容，需要比社区安全过滤器更细粒度、基于策略的审核机制。
Method: 1) 使用规则驱动的ICoT数据合成管道生成结构化场景描述、推理链和标签；2) 通过强化学习使用平衡因果一致性和策略遵循的复合奖励优化模型；3) 多任务架构同时建模模态内操纵和跨模态不匹配。
Result: 在真实短视频广告上的实验表明，BLM-Guard在准确性、一致性和泛化能力方面超越了强基线模型。
Conclusion: BLM-Guard框架为商业广告内容审核提供了一种有效的解决方案，通过结合思维链推理和强化学习，实现了细粒度的多模态内容分析。

[31] A Self-Supervised Approach on Motion Calibration for Enhancing Physical Plausibility in Text-to-Motion

Gahyeon Shim,Soogeun Park,Hyemin Ahn

Main category: cs.CV

TL;DR: DMC是一个后处理模块，通过自监督数据驱动方法改进文本生成动作的物理合理性，同时保持语义一致性

Motivation: 当前文本生成动作方法在语义对齐方面进展迅速，但难以同时保证语义和物理合理性（如脚部漂浮等问题），需要一种能同时优化这两方面的方法
Method: 提出Distortion-aware Motion Calibrator (DMC)后处理模块，采用自监督数据驱动方法，通过故意扭曲的动作和原始文本描述作为输入，学习生成物理合理的动作
Result: DMC在多个文本生成动作模型上显著提升物理合理性：T2M上FID降低42.74%，T2M-GPT上降低13.20%，R-Precision最高；在MoMask上穿透减少33.0%，漂浮伪影更接近真实参考
Conclusion: DMC作为一个有前景的后处理框架，能够为各种文本生成动作模型同时优化语义一致性和物理合理性，提升生成动作的质量

[32] On the Adversarial Robustness of Discrete Image Tokenizers

Rishika Bhagwatkar,Irina Rish,Nicolas Flammarion,Francesco Croce

Main category: cs.CV

TL;DR: 首次研究离散图像分词器的对抗攻击脆弱性，提出高效攻击方法，并通过无监督对抗训练提升其鲁棒性。

Motivation: 离散图像分词器在多模态系统中日益流行，但其对抗攻击脆弱性尚未被探索。与CLIP编码器不同，这些分词器的安全性研究存在空白，需要填补这一研究空白。
Method: 1. 提出针对离散分词器的对抗攻击方法，旨在扰动特征提取并改变生成的token；2. 受鲁棒CLIP编码器研究启发，采用无监督对抗训练微调流行分词器，保持其他组件不变。
Result: 攻击方法计算高效、应用无关，在分类、多模态检索和字幕生成任务中均有效。防御方法显著提升对无监督和端到端监督攻击的鲁棒性，并能泛化到未见任务和数据。
Conclusion: 研究揭示了分词器鲁棒性在下游任务中的关键作用，为开发安全的多模态基础模型迈出了重要一步。无监督方法比监督对抗训练更灵活，可利用未标记图像。

[33] DEIG: Detail-Enhanced Instance Generation with Fine-Grained Semantic Control

Shiyan Du,Conghan Yue,Xinyu Cheng,Dongyu Zhang

Main category: cs.CV

TL;DR: DEIG是一个用于细粒度可控多实例生成的新框架，通过实例细节提取器和细节融合模块解决现有方法在复杂文本描述下的语义理解问题，在空间一致性、语义准确性和组合泛化方面优于现有方法。

Motivation: 现有多实例生成方法在空间布局和属性绑定方面已有进展，但在处理复杂文本描述时仍面临细粒度语义理解的挑战，特别是在防止实例间属性泄漏和精确匹配局部化文本描述方面存在局限。
Method: 提出DEIG框架，包含两个核心组件：1) 实例细节提取器(IDE)，将文本编码器嵌入转换为紧凑的实例感知表示；2) 细节融合模块(DFM)，应用基于实例的掩码注意力机制防止实例间属性泄漏。同时构建了高质量数据集和DEIG-Bench基准。
Result: DEIG在多个基准测试中一致优于现有方法，在空间一致性、语义准确性和组合泛化方面表现优异。此外，DEIG可作为即插即用模块，易于集成到标准基于扩散的生成流程中。
Conclusion: DEIG通过创新的实例细节提取和融合机制，实现了细粒度可控的多实例生成，能够精确匹配丰富的局部化文本描述，为复杂场景生成提供了有效解决方案。

[34] Multi-Level Conditioning by Pairing Localized Text and Sketch for Fashion Image Generation

Ziyue Liu,Davide Talon,Federico Girella,Zanxi Ruan,Mattia Mondo,Loris Bazzani,Yiming Wang,Marco Cristani

Main category: cs.CV

TL;DR: LOTS框架通过多级条件引导，结合全局草图结构和局部文本-草图对，提升时尚图像生成质量，并发布了首个多文本-草图对的时尚数据集Sketchy。

Motivation: 在时尚设计中，草图能表达结构、轮廓和空间关系，而文本描述能补充材料、颜色和风格细节。现有方法难以有效结合文本和视觉模态，需要在遵循草图视觉结构的同时利用文本的局部属性指导。
Method: 提出LOTS框架：1) 多级条件阶段：在共享潜在空间中独立编码局部特征，同时保持全局结构协调；2) 扩散对引导阶段：通过基于注意力的引导，在扩散模型的多步去噪过程中整合局部和全局条件。
Result: 方法在全局结构遵循和局部语义引导方面均优于现有技术，并发布了首个包含多文本-草图对的时尚数据集Sketchy，包含专业草图和非专家草图两个版本。
Conclusion: LOTS框架通过结合全局草图引导和多个局部草图-文本对，显著提升了时尚图像生成的质量，在保持结构一致性的同时实现了更丰富的语义控制。

[35] Diff2DGS: Reliable Reconstruction of Occluded Surgical Scenes via 2D Gaussian Splatting

Tianyi Song,Danail Stoyanov,Evangelos Mazomenos,Francisco Vasconcelos

Main category: cs.CV

TL;DR: Diff2DGS：两阶段框架，通过扩散模型修复手术器械遮挡区域，结合2D高斯泼溅与可学习变形模型，实现实时高质量手术场景3D重建

Motivation: 现有手术场景重建方法在遮挡区域质量有限，且缺乏深度精度评估，因为EndoNeRF和StereoMIS等基准缺乏3D真值数据
Method: 1. 第一阶段：基于扩散的视频模块利用时序先验修复被器械遮挡的组织，保持时空一致性

第二阶段：采用2D高斯泼溅结合可学习变形模型，捕捉动态组织变形和解剖几何结构

Result: 在EndoNeRF上达到38.02 dB PSNR，StereoMIS上达到34.40 dB PSNR，优于现有方法；实验表明仅优化图像质量不一定能获得最佳3D重建精度
Conclusion: Diff2DGS通过两阶段框架实现了高质量的手术场景3D重建，在SCARED数据集上进行深度精度评估，并优化深度质量以确保几何保真度

[36] Unifying Color and Lightness Correction with View-Adaptive Curve Adjustment for Robust 3D Novel View Synthesis

Ziteng Cui,Shuhong Liu,Xiaoyu Dong,Xuangeng Chu,Lin Gu,Ming-Hsuan Yang,Tatsuya Harada

Main category: cs.CV

TL;DR: Luminance-GS++：基于3D高斯泼溅的鲁棒新视角合成框架，通过全局自适应亮度调整和局部像素级残差细化解决多视角光照不一致问题，保持实时渲染效率。

Motivation: 现实环境中多视角图像采集面临复杂光照变化和相机成像管道限制，导致光度不一致性，违反光度一致性假设，降低NeRF和3DGS等3D新视角合成方法的重建和渲染质量。
Method: 结合全局视角自适应亮度调整与局部像素级残差细化进行精确色彩校正，设计无监督目标联合执行亮度校正和多视角几何与光度一致性约束，保持显式3DGS表示不变。
Result: 在低光照、过曝光和复杂亮度色彩变化等挑战性场景中实现最先进性能，提高重建保真度同时保持实时渲染效率。
Conclusion: Luminance-GS++通过创新的光度校正方法有效解决多视角光照不一致问题，在保持3DGS实时渲染优势的同时显著提升复杂光照条件下的新视角合成质量。

[37] G-LoG Bi-filtration for Medical Image Classification

Qingsong Wang,Jiaxing He,Bingzhe Hou,Tieru Wu,Yang Cao,Cailing Yao

Main category: cs.CV

TL;DR: 提出基于高斯-拉普拉斯算子(G-LoG)的双参数过滤方法，用于医学图像拓扑特征提取，在MedMNIST数据集上表现优于单参数过滤，且MLP模型在拓扑特征上能达到复杂深度学习模型的性能。

Motivation: 在拓扑数据分析中，构建实用的过滤方法来检测拓扑和几何特征很重要。本文旨在利用拉普拉斯高斯算子增强医学图像边界的能力，定义更适合多参数持久性模块的特征。
Method: 提出G-LoG双参数过滤方法：1) 利用拉普拉斯高斯算子增强医学图像边界；2) 将体数据图像建模为有界函数；3) 证明从双参数过滤获得的持久性模块的交错距离相对于有界函数的最大范数是稳定的。
Result: 在MedMNIST数据集上的实验表明：1) 双参数过滤显著优于单参数过滤；2) 基于双参数过滤生成的拓扑特征训练的简单MLP模型，性能可与在原始数据集上训练的复杂深度学习模型（Google AutoML Vision、ResNet、AutoKeras、auto-sklearn）相媲美。
Conclusion: 提出的G-LoG双参数过滤方法能有效提取医学图像的拓扑特征，不仅优于传统单参数方法，而且基于这些特征训练的简单模型能达到复杂深度学习模型的性能，为医学图像分析提供了有效的拓扑特征提取方案。

[38] Self-Aware Object Detection via Degradation Manifolds

Stefan Becker,Simon Weiss,Wolfgang Hübner,Michael Arens

Main category: cs.CV

TL;DR: 提出基于退化流形的退化感知自感知框架，通过对比学习在特征空间中显式结构化图像退化信息，实现无需退化标签的检测器自感知能力

Motivation: 目标检测器在正常成像条件下表现良好，但在模糊、噪声、压缩、恶劣天气或分辨率变化等退化条件下可能无声失败。在安全关键应用中，仅生成预测而不评估输入是否处于检测器正常操作范围是不够的，因此需要自感知目标检测能力
Method: 基于退化流形的退化感知自感知框架：1) 在标准检测骨干网络上添加轻量级嵌入头，通过多层对比学习训练；2) 相同退化构成的图像被拉近，不同退化配置被推远，形成几何组织的表示；3) 从干净训练嵌入中估计原始原型，定义表示空间中的正常操作点；4) 自感知表现为与该参考点的几何偏差
Result: 在合成损坏基准、跨数据集零样本迁移和自然天气引起的分布偏移上进行了广泛实验，展示了：1) 原始-退化图像的良好可分离性；2) 跨多个检测器架构的一致行为；3) 在语义偏移下的鲁棒泛化能力
Conclusion: 退化感知表示几何为检测器自感知提供了实用且与检测器无关的基础，能够独立于检测置信度提供图像级退化诱导偏移的内在信号

[39] Latent Equivariant Operators for Robust Object Recognition: Promise and Challenges

Minh Dinh,Stéphane Deny

Main category: cs.CV

TL;DR: 该论文提出了一种学习潜在空间中等变算子的架构，用于处理训练中罕见的群对称变换，在旋转和平移的MNIST数据集上实现了超出分布的分类性能。

Motivation: 深度学习在计算机视觉中虽然成功，但在处理训练中罕见的群对称变换（如特殊姿态、尺度、位置等）时仍存在困难。等变神经网络需要先验知识，因此需要一种能从对称变换示例中学习等变算子的替代方案。
Method: 使用旋转和平移的噪声MNIST数据集，构建能够从对称变换示例中学习潜在空间等变算子的架构。这种方法不需要先验的变换知识，而是通过学习来获得等变性。
Result: 该架构在超出分布的分类任务上成功克服了传统网络和等变网络的局限性，在旋转和平移的MNIST数据集上取得了良好效果。
Conclusion: 虽然概念上有吸引力，但将这种架构扩展到更复杂的数据集仍面临挑战。该方法为处理罕见对称变换提供了一种有前景的替代方案。

[40] Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

Linxi Xie,Lisong C. Sun,Ashley Neall,Tong Wu,Shengqu Cai,Gordon Wetzstein

Main category: cs.CV

TL;DR: 提出一种基于头部和手部姿态控制的人本视频世界模型，用于扩展现实(XR)中的交互式虚拟环境生成

Motivation: 当前视频世界模型仅接受文本或键盘等粗略控制信号，无法响应用户真实运动跟踪，限制了在具身交互中的实用性
Method: 评估现有扩散变换器条件策略，提出有效的3D头部和手部控制机制；训练双向视频扩散模型教师，并蒸馏为因果交互系统生成第一人称虚拟环境
Result: 通过人类受试者评估显示，相比基线方法，该系统能提高任务性能，并显著提升用户对执行动作的控制感知水平
Conclusion: 提出的人本视频世界模型能有效响应真实运动跟踪，为XR中的具身交互提供了更自然的控制方式

Xia Su,Ruiqi Chen,Benlin Liu,Jingwei Ma,Zonglin Di,Ranjay Krishna,Jon Froehlich

Main category: cs.CV

TL;DR: CapNav是一个评估视觉语言模型在考虑智能体物理能力约束下进行室内导航的新基准，包含5种代表性智能体、45个真实室内场景、473个导航任务和2365个问答对，发现现有VLM在严格移动约束下性能显著下降。

Motivation: 真实世界导航需要考虑智能体的物理移动约束（如扫地机器人不能爬楼梯，四足机器人可以），但现有视觉语言导航研究缺乏对智能体具体能力的考虑，需要评估VLM在能力约束下的导航表现。
Method: 定义了5种代表性人类和机器人智能体，描述其物理尺寸、移动能力和环境交互能力；构建了包含45个真实室内场景、473个导航任务和2365个问答对的CapNav基准；评估了13个现代VLM模型。
Result: 当前VLM的导航性能随着移动约束收紧而急剧下降；即使最先进的模型也难以处理需要空间维度推理的障碍类型；模型在考虑智能体能力约束的导航任务上表现不佳。
Conclusion: 需要开发能力感知的导航系统，未来VLM需要增强具身空间推理能力；CapNav基准为评估和改进VLM在现实约束下的导航能力提供了重要工具。

[42] SARAH: Spatially Aware Real-time Agentic Humans

Evonne Ng,Siwei Zhang,Zhang Chen,Michael Zollhoefer,Alexander Richard

Main category: cs.CV

TL;DR: 提出了首个实时、完全因果的空间感知对话动作生成方法，可在流式VR头显上部署，结合用户位置和音频生成全身动作，同时根据用户方向调整代理姿态。

Motivation: 当前方法缺乏空间意识，无法让代理转向用户、响应用户动作并保持自然凝视。随着具身代理在VR、远程呈现和数字人应用中变得重要，需要超越语音对齐手势的动作生成方法。
Method: 结合因果transformer-based VAE与交错潜在token进行流式推理，使用基于用户轨迹和音频的流匹配模型。引入凝视评分机制和分类器自由引导，解耦学习与控制。
Result: 在Embody 3D数据集上达到最先进的动作质量，超过300 FPS（比非因果基线快3倍），同时捕捉自然对话的细微空间动态。在实时VR系统上验证了该方法。
Conclusion: 该方法首次实现了实时、完全因果的空间感知对话动作生成，可部署在流式VR头显上，为空间感知对话代理的实际应用铺平了道路。

[43] Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory

Vatsal Agarwal,Saksham Suri,Matthew Gwilliam,Pulkit Kumar,Abhinav Shrivastava

Main category: cs.CV

TL;DR: MemStream通过增加token预算、自适应选择策略和无训练检索专家混合，显著提升流式视频问答性能

Motivation: 现有流式视频理解方法使用有限的每帧token数，导致细粒度视觉细节丢失，且在处理密集视频流时存在查询-帧相似度随时间增加的问题，偏向检索后期帧
Method: 1) 增加token预算以实现更细粒度的时空理解；2) 引入自适应选择策略减少token冗余同时保留局部时空信息；3) 提出无训练检索专家混合，利用外部模型更好识别相关帧
Result: 在CG-Bench上提升8.0%，LVBench上提升8.5%，VideoMME(Long)上提升2.4%（相比ReKV with Qwen2.5-VL-7B）
Conclusion: MemStream通过增加token预算、自适应token选择和检索专家混合，显著提升了流式视频问答的性能，解决了现有方法在处理密集视频流时的局限性

cs.RO

[44] RoEL: Robust Event-based 3D Line Reconstruction

Gwangtak Bae,Jaeho Shin,Seunggu Kang,Junho Kim,Ayoung Kim,Young Min Kim

Main category: cs.RO

TL;DR: 提出一种基于事件相机的稳健线特征提取与跟踪方法，通过多时间切片观测补偿事件数据中的噪声，并利用几何代价函数优化3D线地图和相机位姿，适用于多模态场景。

Motivation: 事件相机在运动中主要检测物体边界或纹理边缘，产生亮度变化的线条。虽然线条可以作为稳健的中间表示，但其稀疏性可能导致微小估计误差下的性能急剧下降。现有方法很少利用线条来补偿事件传感器的严重域差异和不可预测的噪声特性。
Method: 1) 通过观察事件数据多个时间切片的多种表示，使用巧妙的算法过程稳定提取不同外观的线条轨迹；2) 提出几何代价函数来优化3D线地图和相机位姿，消除投影畸变和深度模糊；3) 3D线地图高度紧凑，可适应任何能检测和提取线条结构或其投影的观测数据。
Result: 该方法在多个数据集上显著提升了基于事件的地图构建和位姿优化性能，可灵活应用于多模态场景。结果表明线基表示是事件感知模块实际部署的稳健有效方法。
Conclusion: 提出的基于线条的公式化方法是事件相机实际部署的稳健有效方法，能够补偿事件数据中的噪声和域差异，在多种数据集上表现出显著性能提升，并具有多模态适应性。

cs.GR

[45] DesignAsCode: Bridging Structural Editability and Visual Fidelity in Graphic Design Generation

Ziyuan Liu,Shizhao Sun,Danqing Huang,Yingdong Shi,Meisheng Zhang,Ji Li,Jingsong Yu,Jiang Bian

Main category: cs.GR

TL;DR: DesignAsCode：将平面设计重新构想为HTML/CSS编程合成任务的新框架，通过Plan-Implement-Reflect流程实现高视觉保真度和细粒度结构可编辑性。

Motivation: 现有平面设计生成方法要么生成不可编辑的栅格图像，要么生成缺乏视觉内容的抽象布局。近期结合两者的尝试存在构图模式僵化和视觉不协调（如文字背景冲突）等问题，主要原因是表达力不足和开环性质。
Method: 提出DesignAsCode框架，将平面设计视为HTML/CSS编程合成任务。采用Plan-Implement-Reflect流程：1) Semantic Planner构建动态、可变深度的元素层次结构；2) Visual-Aware Reflection机制迭代优化代码以修正渲染伪影。
Result: 实验表明DesignAsCode在结构有效性和美学质量上显著优于现有基线方法。代码原生表示还解锁了自动布局重定向、复杂文档生成（如简历）和基于CSS的动画等高级功能。
Conclusion: DesignAsCode通过将平面设计重新构想为编程合成任务，成功解决了现有方法在视觉保真度和结构可编辑性之间的平衡问题，为设计生成提供了更灵活、可编辑的解决方案。

cs.LG

[46] Probabilistic NDVI Forecasting from Sparse Satellite Time Series and Weather Covariates

Irene Iele,Giulia Romoli,Daniele Molino,Elena Mulero Ayllón,Filippo Ruffini,Paolo Soda,Matteo Tortora

Main category: cs.LG

TL;DR: 提出基于Transformer的概率预测框架，用于农田NDVI短期预测，通过分离历史植被动态与未来外生信息建模，结合时间距离加权分位数损失处理不规则采样，在卫星数据上优于多种基线方法。

Motivation: 植被动态的准确短期预测是精准农业数据驱动决策的关键。但卫星观测的NDVI预测面临挑战：云层覆盖导致采样稀疏不规则，作物生长的异质性气候条件复杂。
Method: 提出概率预测框架，采用Transformer架构明确分离历史植被动态与未来外生信息建模。整合历史NDVI观测与历史/未来气象协变量。引入时间距离加权分位数损失处理不规则重访模式，加入累积和极端天气特征工程捕捉延迟气象效应。
Result: 在欧洲卫星数据上的广泛实验表明，该方法在点预测和概率评估指标上均优于统计、深度学习和近期时间序列基线。消融研究显示目标历史起核心作用，气象协变量联合利用时提供互补增益。
Conclusion: 提出的框架专门针对晴空采集约束下的农田级NDVI预测，通过分离建模策略和专门损失函数有效处理不规则采样问题，为精准农业提供可靠的植被动态预测工具。

Melika Filvantorkaman,Mohsen Piri

Main category: cs.LG

TL;DR: Robust-MMR：一种自监督预训练框架，通过非对称扰动感知掩码、领域一致性正则化和模态弹性约束，在医学视觉语言模型中显式建模鲁棒性，提升跨域性能。

Motivation: 医学视觉语言模型在成像设备、采集协议和报告风格变化导致的领域偏移下性能下降。现有多模态预训练方法大多忽视鲁棒性，将其视为下游适应问题。
Method: 提出Robust-MMR自监督预训练框架，整合非对称扰动感知掩码、领域一致性正则化和模态弹性约束，鼓励领域不变表示。
Result: 在VQA-RAD上达到78.9%跨域准确率（比最强基线高3.8%），SLAKE和VQA-2019分别达到74.6%和77.0%。扰动评估下VQA-RAD准确率从69.1%提升至75.6%，MELINDA跨域准确率从70.3%提升至75.2%，检索任务中平均排名退化从超过16降至4.1。
Conclusion: 在预训练阶段显式建模鲁棒性能够产生更可靠、可迁移的医学视觉语言表示，适用于真实世界部署。

[48] Neural Prior Estimation: Learning Class Priors from Latent Representations

Masoud Yavari,Payman Moallem

Main category: cs.LG

TL;DR: 提出NPE框架，通过特征条件化的对数先验估计解决类别不平衡问题，无需显式类别计数或分布特定超参数

Motivation: 类别不平衡会导致深度神经网络产生系统性偏差，因为倾斜的有效类别先验会影响模型学习
Method: 提出神经先验估计器(NPE)，从潜在表示中学习特征条件化的对数先验估计，使用先验估计模块与主干网络联合训练，通过单向逻辑损失优化
Result: 在长尾CIFAR和不平衡语义分割基准测试(STARE, ADE20K)上取得一致改进，特别是对代表性不足的类别效果显著
Conclusion: NPE提供了一种轻量级且理论合理的先验估计方法，通过NPE-LA实现偏差感知预测，有效缓解类别不平衡问题

[49] The Geometry of Noise: Why Diffusion Models Don't Need Noise Conditioning

Mojtaba Sahraee-Ardakan,Mauricio Delbracio,Peyman Milanfar

Main category: cs.LG

TL;DR: 论文揭示了自主生成模型（如均衡匹配和盲扩散）通过边际能量梯度流进行生成，而非简单的盲去噪，并解释了其稳定性的几何机制。

Motivation: 自主生成模型（无需噪声级别条件）存在一个根本性悖论：当噪声级别被视为随机变量时，优化的是什么底层景观？有界、噪声无关的网络如何在梯度通常发散的数据流形附近保持稳定？
Method: 形式化边际能量概念，证明自主模型的生成是边际能量上的黎曼梯度流。通过相对能量分解，展示学习的时间不变场隐含地包含局部共形度量，抵消几何奇异性。分析不同参数化方法的稳定性条件。
Result: 揭示了自主模型通过局部共形度量将无限深势阱转化为稳定吸引子的机制。证明了基于速度的参数化具有内在稳定性，而噪声预测参数化存在"Jensen Gap"会导致确定性盲模型的灾难性失败。
Conclusion: 自主生成模型不是简单的盲去噪，而是边际能量上的特定黎曼梯度流。其稳定性源于学习场隐含的几何结构，这为设计更稳定、高效的生成模型提供了理论基础。

astro-ph.GA

[50] Spatio-Spectroscopic Representation Learning using Unsupervised Convolutional Long-Short Term Memory Networks

Kameswara Bharadwaj Mantha,Lucy Fortson,Ramanakumar Sankar,Claudia Scarlata,Chris Lintott,Sandor Kruk,Mike Walmsley,Hugh Dickinson,Karen Masters,Brooke Simmons,Rebecca Smethurst

Main category: astro-ph.GA

TL;DR: 提出基于卷积LSTM自编码器的无监督深度学习框架，用于分析MaNGA积分场光谱数据，在空间和光谱维度上学习特征表示，并应用于AGN异常检测

Motivation: 积分场光谱(IFS)调查提供了在空间和光谱维度学习的新机会，可能揭示星系演化中先前未知的见解。需要开发能够同时处理空间和光谱信息的无监督学习方法。
Method: 使用卷积长短期记忆网络自编码器构建无监督深度学习框架，编码跨越19条光学发射线(3800-8000Å)的空间和光谱维度特征表示。基于MaNGA IFS调查的约9000个星系样本进行训练。
Result: 作为演示性应用，在290个活动星系核(AGN)样本上评估模型，并突出显示了一些高度异常AGN的科学有趣特征。
Conclusion: 该框架为IFS数据提供了一种新的无监督学习方法，能够同时学习空间和光谱特征，在AGN异常检测中显示出应用潜力。

eess.AS

[51] Detection and Classification of Cetacean Echolocation Clicks using Image-based Object Detection Methods applied to Advanced Wavelet-based Transformations

Christopher Hauer

Main category: eess.AS

TL;DR: 该论文探讨了使用小波变换替代传统STFT频谱图进行海洋生物声学信号检测，以解决复杂环境下信号检测的挑战，并在挪威虎鲸水下录音上验证了CLICK-SPOT方法的有效性。

Motivation: 海洋生物声学分析中，手动标记动物信号（如叫声、哨声和咔嗒声）耗时过长，而传统数学模型在复杂场景（如低信噪比信号区分、咔嗒声与回声辨别）中表现不佳，需要更有效的自动检测解决方案。
Method: 采用深度神经网络（如ANIMAL-SPOT），但使用小波变换替代传统的短时傅里叶变换频谱图进行音频信号表示。小波变换能提供更好的高频时间分辨率和低频频率分辨率，更适合复杂生物声学环境下的特征提取。
Result: 在挪威虎鲸水下录音数据集上验证了CLICK-SPOT方法的有效性，该数据集由鲸类生物学家Dr. Vester提供。
Conclusion: 小波变换作为音频信号表示方法在复杂海洋生物声学环境中的特征提取方面具有优势，能够改善深度神经网络对动物信号的自动检测性能。

quant-ph

[52] Quantum-enhanced satellite image classification

Qi Zhang,Anton Simen,Carlos Flores-Garrigós,Gabriel Alvarado Barrios,Paolo A. Erdman,Enrique Solano,Aaron C. Kemp,Vincent Beltrani,Vedangi Pathak,Hamed Mohammadbagherpoor

Main category: quant-ph

TL;DR: 量子特征提取方法应用于太空图像分类，通过量子-经典混合方法将准确率从83%提升至87%，在IBM量子处理器上实现2-3%的绝对准确率提升

Motivation: 探索量子计算在太空应用中的实际潜力，特别是在卫星成像和遥感等高风险数据驱动领域，验证量子处理器在现实世界机器学习任务中的适用性
Method: 采用量子-经典混合方法：利用多体自旋哈密顿量动力学生成表达性量子特征，结合经典处理（ResNet50基准和迁移学习）进行多类图像分类
Result: 经典方法最高准确率83%，迁移学习提升至84%，而量子-经典混合方法达到87%准确率，在IBM量子处理器上实现2-3%的绝对准确率提升
Conclusion: 量子特征提取方法能显著提升图像分类性能，证明了当前和近期量子处理器在高风险数据驱动领域的实际应用潜力，并暗示在更广泛现实世界机器学习任务中的适用性

cs.IR

[53] When & How to Write for Personalized Demand-aware Query Rewriting in Video Search

Cheng cheng,Chenxing Wang,Aolin Li,Haijun Wu,Huiyun Hu,Juyuan Wang

Main category: cs.IR

TL;DR: WeWrite是一个个性化需求感知查询重写框架，通过自动化挖掘策略、混合训练范式和低延迟部署架构，解决视频搜索中用户历史行为利用的挑战，显著提升点击率和降低查询重构率。

Motivation: 在视频搜索系统中，用户历史行为为识别搜索意图和消除歧义提供了丰富上下文，但传统使用隐式历史特征的方法存在信号稀释和延迟反馈问题，需要更有效的个性化查询重写方案。
Method: 提出WeWrite框架，包含三个关键技术：(1) 基于后验的自动化挖掘策略从用户日志中提取高质量样本，识别严格需要个性化的场景；(2) 结合监督微调和组相对策略优化的混合训练范式，使LLM输出风格与检索系统对齐；(3) 采用并行"伪召回"架构确保低延迟部署。
Result: 在大规模视频平台上的在线A/B测试显示，WeWrite将点击率（观看时长>10秒的视频量）提升了1.07%，并将查询重构率降低了2.97%。
Conclusion: WeWrite通过系统性地解决个性化查询重写中的关键挑战，有效提升了视频搜索系统的性能，证明了其在真实场景中的实用价值。

eess.IV

[54] Deep Learning for Dermatology: An Innovative Framework for Approaching Precise Skin Cancer Detection

Mohammad Tahmid Noor,B. M. Shahria Alam,Tasmiah Rahman Orpa,Shaila Afroz Anika,Mahjabin Tasnim Samiha,Fahad Ahammed

Main category: eess.IV

TL;DR: 该研究比较了VGG16和DenseNet201两种深度学习模型在皮肤癌良恶性分类中的性能，DenseNet201取得了93.79%的最佳准确率。

Motivation: 皮肤癌若不及早诊断可能危及生命，是全球普遍但可预防的疾病。每年数百万人被诊断出皮肤癌，因此需要有效的自动诊断方法来协助早期检测和诊断，改善皮肤病学工作流程。
Method: 使用两种深度学习模型VGG16和DenseNet201对包含3297张图像的二元分类数据集进行分析。所有图像被调整为224x224大小并进行重新缩放。通过比较两种卷积神经网络架构在皮肤癌良恶性分类中的性能。
Result: DenseNet201模型取得了最佳性能，准确率达到93.79%。两种模型都表现出优异的准确率，但仍存在改进空间。
Conclusion: 深度学习模型在皮肤癌诊断中具有应用潜力，DenseNet201表现优于VGG16。未来可通过使用新数据集进一步提高准确率，改进皮肤癌检测的自动诊断系统。

[55] Promptable segmentation with region exploration enables minimal-effort expert-level prostate cancer delineation

Junqing Yang,Natasha Thorley,Ahmed Nadeem Abbasi,Shonit Punwani,Zion Tse,Yipeng Hu,Shaheer U. Saeed

Main category: eess.IV

TL;DR: 提出结合强化学习与区域生长的交互式前列腺癌MRI分割框架，通过用户点提示实现高精度分割，大幅减少标注工作量

Motivation: 前列腺癌MRI分割对靶向活检、冷冻消融和放疗等介入治疗规划至关重要，但肿瘤外观细微多变、成像协议差异以及专家资源有限导致一致解释困难。现有自动方法依赖大量不一致的专家标注数据，而手动分割又耗时费力，需要一种能平衡自动与手动分割优势的解决方案。
Method: 提出强化学习驱动的交互式分割框架：1) 从用户提供的初始点提示开始，通过区域生长生成初步分割；2) 强化学习智能体观察图像和当前分割，预测新的点位置；3) 从新点进行区域生长更新分割掩码；4) 设计奖励函数平衡分割精度和体素级不确定性，鼓励探索模糊区域，避免局部最优；5) 虽然需要全监督训练，但在推理时大幅减少用户工作量。
Result: 在两个公开前列腺MRI数据集（PROMIS 566例，PICAI 1090例）上评估：1) 分别超越先前最佳自动方法9.9%和8.9%；2) 性能与放射科医生手动分割相当；3) 将标注时间减少十倍。
Conclusion: 该框架成功填补了自动与手动分割之间的空白，通过用户点提示实现高精度前列腺癌MRI分割，在保持与手动分割相当性能的同时，显著降低了标注工作量，为临床实践提供了实用解决方案。

[56] TopoGate: Quality-Aware Topology-Stabilized Gated Fusion for Longitudinal Low-Dose CT New-Lesion Prediction

Seungik Cho

Main category: eess.IV

TL;DR: TopoGate：一种轻量级模型，结合随访CT外观视图和减影视图，通过学习的质量感知门控机制控制两者影响，用于纵向低剂量CT随访中的新病灶检测。

Motivation: 纵向低剂量CT随访存在噪声、重建核和配准质量差异，这些差异会破坏减影图像的稳定性并可能触发假阳性新病灶警报，需要更可靠的检测方法。
Method: TopoGate模型结合随访外观视图和减影视图，通过学习的质量感知门控机制控制两者影响。门控由三个病例特定信号驱动：CT外观质量、配准一致性和拓扑稳定性（使用拓扑度量测量）。
Result: 在NLST-New-Lesion-LongCT队列（152对来自122名患者）上，TopoGate相比单视图基线提高了区分度和校准度，ROC曲线下面积为0.65±0.05，Brier评分为0.14。去除低质量对后，AUC从0.62提升至0.68，Brier评分从0.14降至0.12。
Conclusion: TopoGate方法简单、可解释且实用，能够可靠地进行纵向低剂量CT分流，门控机制可预测地响应质量退化，在噪声增加时更依赖外观视图，这与放射科医生的实践一致。

[57] MeDUET: Disentangled Unified Pretraining for 3D Medical Image Synthesis and Analysis

Junkai Liu,Ling Shao,Le Zhang

Main category: eess.IV

TL;DR: MeDUET：一个统一的3D医学图像预训练框架，通过VAE潜在空间中的自监督学习，显式解耦领域不变内容与领域特定风格，同时支持合成与分析任务。

Motivation: 当前3D医学影像中，自监督学习和扩散模型分别用于分析和合成任务，缺乏统一框架。多中心数据集存在显著风格偏移，而下游任务依赖解剖结构，风格与解剖结构在切片间共变，使得因素解耦困难。
Method: 提出MeDUET框架：在VAE潜在空间进行自监督学习，通过token解混机制将解耦从建模假设转化为可经验识别的属性。设计两个代理任务：混合因子token蒸馏（MFTD）和交换不变四元组对比（SiQC），协同增强解耦。
Result: 预训练后，MeDUET能够：（1）为合成任务提供更高保真度、更快收敛和更好可控性；（2）在多样医学基准测试中展示强大的领域泛化能力和显著的标签效率。
Conclusion: MeDUET将多源异质性从障碍转化为学习信号，实现了3D医学图像合成与分析的统一预训练，代码已开源。

[58] From Global Radiomics to Parametric Maps: A Unified Workflow Fusing Radiomics and Deep Learning for PDAC Detection

Zengtian Deng,Yimeng He,Yu Shi,Lixia Wang,Touseef Ahmad Qureshi,Xiuzhen Huang,Debiao Li

Main category: eess.IV

TL;DR: 提出一个统一框架，将放射组学特征以全局和体素级别注入nnUNet，用于胰腺导管腺癌检测，在内外数据集上均优于基线方法。

Motivation: 现有融合方法大多只利用全局放射组学特征，忽略了空间分辨的放射组学参数图的互补价值。需要一种能同时利用全局和局部放射组学信息的统一框架来提升胰腺导管腺癌检测性能。
Method: 首先选择有区分度的放射组学特征，然后将这些特征以全局和体素级别注入放射组学增强的nnUNet中，构建一个统一的深度学习框架。
Result: 在PANORAMA数据集上获得AUC=0.96和AP=0.84；在外部内部队列上获得AUC=0.95和AP=0.78，优于基线nnUNet；在PANORAMA Grand Challenge中排名第二。
Conclusion: 手工放射组学特征在全局和体素级别注入时，能为深度学习模型提供互补信号，显著提升胰腺导管腺癌检测性能。该方法展示了放射组学与深度学习融合的有效性。

[59] RamanSeg: Interpretability-driven Deep Learning on Raman Spectra for Cancer Diagnosis

Chris Tomy,Mo Vali,David Pertzborn,Tammam Alamatouri,Anna Mühlig,Orlando Guntinas-Lichius,Anna Xylander,Eric Michele Fantuzzi,Matteo Negro,Francesco Crisafi,Pietro Lio,Tiago Azevedo

Main category: eess.IV

TL;DR: 使用nnU-Net和新型RamanSeg架构在空间拉曼光谱数据上进行肿瘤分割，在可解释性和性能之间取得平衡

Motivation: 传统组织病理学诊断耗时且需要专家分析，拉曼光谱提供了一种无染色的替代方法，但需要有效的自动分割技术来提取肿瘤信息
Method: 1) 使用nnU-Net在空间拉曼光谱与肿瘤标注对齐的新数据集上训练分割模型；2) 提出新型可解释的原型架构RamanSeg，基于训练集发现的区域对像素分类；3) 提供两种变体：原型投影版本（侧重可解释性）和无投影版本（侧重性能）
Result: nnU-Net达到80.9%的平均前景Dice分数，优于先前工作；无投影RamanSeg以67.3%的Dice分数超越U-Net基线，在黑盒训练方法基础上提供有意义的改进
Conclusion: 拉曼光谱结合深度学习可实现有效的肿瘤分割，RamanSeg架构在保持可解释性的同时提供有竞争力的性能，为无染色癌症诊断提供了有前景的替代方案

[60] Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

Junkai Liu,Nay Aung,Theodoros N. Arvanitis,Joao A. C. Lima,Steffen E. Petersen,Daniel C. Alexander,Le Zhang

Main category: eess.IV

TL;DR: CoPeDiT是一个具有完整性感知的潜在扩散模型，用于统一合成3D MRI，无需外部缺失状态指导，通过自感知方式推断缺失状态，在三个大规模MRI数据集上显著优于现有方法。

Motivation: 临床实践中多模态脑MRI和心脏MRI的缺失数据问题具有挑战性。现有方法依赖外部指导来提供缺失状态信息，但手动指示器在真实临床环境中并不总是可用或可靠，且这些显式掩码不足以提供语义一致性的指导。
Method: 提出CoPeDiT，一个具有完整性感知的通用潜在扩散模型。包括：1) CoPeVAE分词器，通过专门的前置任务学习完整性感知的判别性提示；2) MDiT3D，专门为3D MRI合成设计的扩散transformer架构，有效利用学习到的提示作为指导来增强3D空间的语义一致性。
Result: 在三个大规模MRI数据集上的综合评估表明，CoPeDiT显著优于最先进的方法，实现了卓越的鲁棒性、泛化能力和灵活性。
Conclusion: 生成模型应该以自感知的方式推断和识别缺失状态，以更好地捕捉细微的解剖和病理变化。CoPeDiT通过完整性感知机制实现了这一目标，为3D MRI合成提供了统一的解决方案。

cs.CV ​

[1] KPM-Bench: A Kinematic Parsing Motion Benchmark for Fine-grained Motion-centric Video Understanding ​

[2] CLUTCH: Contextualized Language model for Unlocking Text-Conditioned Hand motion modelling in the wild ​

[3] Multi-Modal Monocular Endoscopic Depth and Pose Estimation with Edge-Guided Self-Supervision ​

[4] LGD-Net: Latent-Guided Dual-Stream Network for HER2 Scoring with Task-Specific Domain Knowledge ​

[5] Enabling Training-Free Text-Based Remote Sensing Segmentation ​

[6] VidEoMT: Your ViT is Secretly Also a Video Segmentation Model ​

[7] VQPP: Video Query Performance Prediction Benchmark ​

[8] On the Evaluation Protocol of Gesture Recognition for UAV-based Rescue Operation based on Deep Learning: A Subject-Independence Perspective ​

[9] Learning Compact Video Representations for Efficient Long-form Video Understanding in Large Multimodal Models ​

[10] Understanding the Fine-Grained Knowledge Capabilities of Vision-Language Models ​

[11] A Single Image and Multimodality Is All You Need for Novel View Synthesis ​

[12] ZACH-ViT: Regime-Dependent Inductive Bias in Compact Vision Transformers for Medical Imaging ​

[13] ROCKET: Residual-Oriented Multi-Layer Alignment for Spatially-Aware Vision-Language-Action Models ​

[14] Image Quality Assessment: Exploring Quality Awareness via Memory-driven Distortion Patterns Matching ​

[15] MUOT_3M: A 3 Million Frame Multimodal Underwater Benchmark and the MUTrack Tracking Method ​

[16] Towards LLM-centric Affective Visual Customization via Efficient and Precise Emotion Manipulating ​

[17] DeepSVU: Towards In-depth Security-oriented Video Understanding via Unified Physical-world Regularized MoE ​

[18] UAOR: Uncertainty-aware Observation Reinjection for Vision-Language-Action Models ​

[19] Dual-Channel Attention Guidance for Training-Free Image Editing Control in Diffusion Transformers ​

[20] Spatio-temporal Decoupled Knowledge Compensator for Few-Shot Action Recognition ​

[21] CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras ​

[22] Temporal Consistency-Aware Text-to-Motion Generation ​

[23] 3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis ​

[24] Faster Training, Fewer Labels: Self-Supervised Pretraining for Fine-Grained BEV Segmentation ​

[25] Comparative Assessment of Multimodal Earth Observation Data for Soil Moisture Estimation ​

[26] DohaScript: A Large-Scale Multi-Writer Dataset for Continuous Handwritten Hindi Text ​

[27] Predict to Skip: Linear Multistep Feature Forecasting for Efficient Diffusion Transformers ​

[28] OODBench: Out-of-Distribution Benchmark for Large Vision-Language Models ​

[29] Evaluating Graphical Perception Capabilities of Vision Transformers ​

[30] BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards ​

[31] A Self-Supervised Approach on Motion Calibration for Enhancing Physical Plausibility in Text-to-Motion ​

[32] On the Adversarial Robustness of Discrete Image Tokenizers ​

[33] DEIG: Detail-Enhanced Instance Generation with Fine-Grained Semantic Control ​

[34] Multi-Level Conditioning by Pairing Localized Text and Sketch for Fashion Image Generation ​

[35] Diff2DGS: Reliable Reconstruction of Occluded Surgical Scenes via 2D Gaussian Splatting ​

[36] Unifying Color and Lightness Correction with View-Adaptive Curve Adjustment for Robust 3D Novel View Synthesis ​

[37] G-LoG Bi-filtration for Medical Image Classification ​

[38] Self-Aware Object Detection via Degradation Manifolds ​

[39] Latent Equivariant Operators for Robust Object Recognition: Promise and Challenges ​

[40] Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control ​

[41] CapNav: Benchmarking Vision Language Models on Capability-conditioned Indoor Navigation ​

[42] SARAH: Spatially Aware Real-time Agentic Humans ​

[43] Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory ​

cs.RO ​

[44] RoEL: Robust Event-based 3D Line Reconstruction ​

cs.GR ​

[45] DesignAsCode: Bridging Structural Editability and Visual Fidelity in Graphic Design Generation ​

cs.LG ​

[46] Probabilistic NDVI Forecasting from Sparse Satellite Time Series and Weather Covariates ​

[47] Robust Pre-Training of Medical Vision-and-Language Models with Domain-Invariant Multi-Modal Masked Reconstruction ​

[48] Neural Prior Estimation: Learning Class Priors from Latent Representations ​

[49] The Geometry of Noise: Why Diffusion Models Don't Need Noise Conditioning ​

astro-ph.GA ​

[50] Spatio-Spectroscopic Representation Learning using Unsupervised Convolutional Long-Short Term Memory Networks ​

eess.AS ​

[51] Detection and Classification of Cetacean Echolocation Clicks using Image-based Object Detection Methods applied to Advanced Wavelet-based Transformations ​

quant-ph ​

[52] Quantum-enhanced satellite image classification ​

cs.IR ​

[53] When & How to Write for Personalized Demand-aware Query Rewriting in Video Search ​

eess.IV ​

[54] Deep Learning for Dermatology: An Innovative Framework for Approaching Precise Skin Cancer Detection ​

[55] Promptable segmentation with region exploration enables minimal-effort expert-level prostate cancer delineation ​

[56] TopoGate: Quality-Aware Topology-Stabilized Gated Fusion for Longitudinal Low-Dose CT New-Lesion Prediction ​

[57] MeDUET: Disentangled Unified Pretraining for 3D Medical Image Synthesis and Analysis ​

[58] From Global Radiomics to Parametric Maps: A Unified Workflow Fusing Radiomics and Deep Learning for PDAC Detection ​

[59] RamanSeg: Interpretability-driven Deep Learning on Raman Spectra for Cancer Diagnosis ​

[60] Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis ​

cs.CV

[1] KPM-Bench: A Kinematic Parsing Motion Benchmark for Fine-grained Motion-centric Video Understanding

[2] CLUTCH: Contextualized Language model for Unlocking Text-Conditioned Hand motion modelling in the wild

[3] Multi-Modal Monocular Endoscopic Depth and Pose Estimation with Edge-Guided Self-Supervision

[4] LGD-Net: Latent-Guided Dual-Stream Network for HER2 Scoring with Task-Specific Domain Knowledge

[5] Enabling Training-Free Text-Based Remote Sensing Segmentation

[6] VidEoMT: Your ViT is Secretly Also a Video Segmentation Model

[7] VQPP: Video Query Performance Prediction Benchmark

[8] On the Evaluation Protocol of Gesture Recognition for UAV-based Rescue Operation based on Deep Learning: A Subject-Independence Perspective

[9] Learning Compact Video Representations for Efficient Long-form Video Understanding in Large Multimodal Models

[10] Understanding the Fine-Grained Knowledge Capabilities of Vision-Language Models

[11] A Single Image and Multimodality Is All You Need for Novel View Synthesis

[12] ZACH-ViT: Regime-Dependent Inductive Bias in Compact Vision Transformers for Medical Imaging

[13] ROCKET: Residual-Oriented Multi-Layer Alignment for Spatially-Aware Vision-Language-Action Models

[14] Image Quality Assessment: Exploring Quality Awareness via Memory-driven Distortion Patterns Matching

[15] MUOT_3M: A 3 Million Frame Multimodal Underwater Benchmark and the MUTrack Tracking Method

[16] Towards LLM-centric Affective Visual Customization via Efficient and Precise Emotion Manipulating

[17] DeepSVU: Towards In-depth Security-oriented Video Understanding via Unified Physical-world Regularized MoE

[18] UAOR: Uncertainty-aware Observation Reinjection for Vision-Language-Action Models

[19] Dual-Channel Attention Guidance for Training-Free Image Editing Control in Diffusion Transformers

[20] Spatio-temporal Decoupled Knowledge Compensator for Few-Shot Action Recognition

[21] CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras

[22] Temporal Consistency-Aware Text-to-Motion Generation

[23] 3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis

[24] Faster Training, Fewer Labels: Self-Supervised Pretraining for Fine-Grained BEV Segmentation

[25] Comparative Assessment of Multimodal Earth Observation Data for Soil Moisture Estimation

[26] DohaScript: A Large-Scale Multi-Writer Dataset for Continuous Handwritten Hindi Text

[27] Predict to Skip: Linear Multistep Feature Forecasting for Efficient Diffusion Transformers

[28] OODBench: Out-of-Distribution Benchmark for Large Vision-Language Models

[29] Evaluating Graphical Perception Capabilities of Vision Transformers

[30] BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards

[31] A Self-Supervised Approach on Motion Calibration for Enhancing Physical Plausibility in Text-to-Motion

[32] On the Adversarial Robustness of Discrete Image Tokenizers

[33] DEIG: Detail-Enhanced Instance Generation with Fine-Grained Semantic Control

[34] Multi-Level Conditioning by Pairing Localized Text and Sketch for Fashion Image Generation

[35] Diff2DGS: Reliable Reconstruction of Occluded Surgical Scenes via 2D Gaussian Splatting

[36] Unifying Color and Lightness Correction with View-Adaptive Curve Adjustment for Robust 3D Novel View Synthesis

[37] G-LoG Bi-filtration for Medical Image Classification

[38] Self-Aware Object Detection via Degradation Manifolds

[39] Latent Equivariant Operators for Robust Object Recognition: Promise and Challenges

[40] Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

[41] CapNav: Benchmarking Vision Language Models on Capability-conditioned Indoor Navigation

[42] SARAH: Spatially Aware Real-time Agentic Humans

[43] Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory

cs.RO

[44] RoEL: Robust Event-based 3D Line Reconstruction

cs.GR

[45] DesignAsCode: Bridging Structural Editability and Visual Fidelity in Graphic Design Generation

cs.LG

[46] Probabilistic NDVI Forecasting from Sparse Satellite Time Series and Weather Covariates

[47] Robust Pre-Training of Medical Vision-and-Language Models with Domain-Invariant Multi-Modal Masked Reconstruction

[48] Neural Prior Estimation: Learning Class Priors from Latent Representations

[49] The Geometry of Noise: Why Diffusion Models Don't Need Noise Conditioning

astro-ph.GA

[50] Spatio-Spectroscopic Representation Learning using Unsupervised Convolutional Long-Short Term Memory Networks

eess.AS

[51] Detection and Classification of Cetacean Echolocation Clicks using Image-based Object Detection Methods applied to Advanced Wavelet-based Transformations

quant-ph

[52] Quantum-enhanced satellite image classification

cs.IR

[53] When & How to Write for Personalized Demand-aware Query Rewriting in Video Search

eess.IV

[54] Deep Learning for Dermatology: An Innovative Framework for Approaching Precise Skin Cancer Detection

[55] Promptable segmentation with region exploration enables minimal-effort expert-level prostate cancer delineation

[56] TopoGate: Quality-Aware Topology-Stabilized Gated Fusion for Longitudinal Low-Dose CT New-Lesion Prediction

[57] MeDUET: Disentangled Unified Pretraining for 3D Medical Image Synthesis and Analysis

[58] From Global Radiomics to Parametric Maps: A Unified Workflow Fusing Radiomics and Deep Learning for PDAC Detection

[59] RamanSeg: Interpretability-driven Deep Learning on Raman Spectra for Cancer Diagnosis

[60] Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis