每日arXiv - 2026年2月20日 | Egg Targaryen的个人博客

以下论文的arXiv类型标签包含：cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Three-dimensional Damage Visualization of Civil Structures via Gaussian Splatting-enabled Digital Twins

Shuo Wang,Shuo Wang,Xin Nie,Yasutaka Narazaki,Thomas Matiki,Billie F. Spencer

Main category: cs.CV

TL;DR: 该研究提出了一种基于高斯溅射的数字孪生方法，用于土木基础设施的3D损伤可视化，相比传统2D图像和神经辐射场方法，在效率和细节平衡方面具有优势。

Motivation: 土木基础设施检测需要超越传统2D图像损伤识别的精确3D损伤可视化，现有方法如神经辐射场在特征稀疏区域表现不佳，需要更高效、精确的3D重建技术。
Method: 采用高斯溅射技术进行3D重建，开发多尺度重建策略平衡效率与损伤细节，支持随时间演变的数字孪生更新，并将2D损伤分割结果映射到3D空间。
Result: 在开源合成地震后检测数据集上验证，该方法能有效可视化2D损伤分割结果，减少分割误差，实现高效的3D损伤可视化。
Conclusion: 基于高斯溅射的数字孪生方法为土木基础设施提供了全面的3D损伤可视化解决方案，在场景表示、渲染质量和处理特征稀疏区域方面优于传统方法。

[2] Analytic Score Optimization for Multi Dimension Video Quality Assessment

Boda Lin,Yongjie Zhu,Wenyu Qin,Meng Wang,Pengfei Wan

Main category: cs.CV

TL;DR: 提出UltraVQA多维度视频质量评估数据集和Analytic Score Optimization方法，通过多维标注和理论驱动的后训练目标提升视频质量评估性能。

Motivation: 视频质量评估正在从单一分数向多维度评估演进，需要更丰富、可解释的标注来支持更全面的质量分析。
Method: 1) 构建UltraVQA大规模多维度VQA数据集，包含5个关键质量维度标注；2) 提出Analytic Score Optimization理论驱动的后训练目标，将质量评估重构为正则化决策过程。
Result: 方法在实验中优于大多数基线（包括闭源API和开源模型），降低了质量预测的平均绝对误差。
Conclusion: 多维可解释标注和基于强化对齐的方法对推进视频质量评估具有重要意义，ASO方法能自然捕捉人类评级的序数性质。

[3] DODO: Discrete OCR Diffusion Models

Sean Man,Roy Ganz,Roi Ronen,Shahar Tsiper,Shai Mazor,Niv Nayman

Main category: cs.CV

TL;DR: DODO是首个利用块离散扩散的视觉语言模型，用于光学字符识别，相比自回归方法实现3倍加速，同时保持接近SOTA的准确率。

Motivation: 当前基于自回归解码的视觉语言模型在OCR任务中计算成本高、速度慢，特别是处理长文档时需要逐个token顺序生成。OCR是高度确定性的任务，理论上可以通过扩散模型实现高效并行解码，但现有掩码扩散模型存在结构不稳定问题。
Method: 提出DODO模型，采用块离散扩散方法，将生成过程分解为块，缓解全局扩散中的同步错误问题，从而利用扩散模型的并行解码优势。
Result: DODO在保持接近最先进准确率的同时，相比自回归基线实现了高达3倍的推理加速。
Conclusion: 块离散扩散方法成功克服了现有扩散模型在OCR任务中的结构不稳定问题，为确定性视觉语言任务提供了高效并行解码的新途径。

[4] StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation

Zeyu Ren,Xiang Li,Yiran Wang,Zeyu Zhang,Hao Tang

Main category: cs.CV

TL;DR: StereoAdapter-2 提出了一种基于选择性状态空间模型的新型 ConvSS2D 算子，替代传统的 ConvGRU 进行水下立体深度估计，结合大规模合成数据集 UW-StereoDepth-80K，在零样本水下基准测试中取得 SOTA 性能。

Motivation: 水下立体深度估计面临波长相关光衰减、散射和折射导致的严重域偏移问题。现有基于 GRU 的迭代细化方法需要多次迭代进行长距离视差传播，在大视差和无纹理水下区域性能受限。
Method: 1) 提出 ConvSS2D 算子，基于选择性状态空间模型，采用四向扫描策略，与极线几何自然对齐同时捕捉垂直结构一致性；2) 构建 UW-StereoDepth-80K 大规模合成水下立体数据集，通过语义感知风格迁移和几何一致新视角合成的两阶段生成流程；3) 结合 StereoAdapter 的动态 LoRA 适应。
Result: 在零样本水下基准测试中取得 SOTA 性能：TartanAir-UW 提升 17%，SQUID 提升 7.2%。在 BlueROV2 平台上的真实世界验证证明了方法的鲁棒性。
Conclusion: StereoAdapter-2 通过 ConvSS2D 算子实现了高效的长距离空间传播，结合大规模合成数据集和动态适应机制，显著提升了水下立体深度估计的性能和鲁棒性。

[5] SemCovNet: Towards Fair and Semantic Coverage-Aware Learning for Underrepresented Visual Concepts

Sakib Ahammed,Xia Cui,Xinqi Fan,Wenqi Lu,Moi Hoon Yap

Main category: cs.CV

TL;DR: 论文提出语义覆盖不平衡(SCI)问题，并设计SemCovNet模型通过语义描述符映射、注意力调制和对齐损失来纠正语义层面的不平衡，显著降低覆盖差异指数。

Motivation: 现有视觉模型依赖丰富的语义表示，但数据集存在语义覆盖不平衡(SCI)问题，这是一种在语义层面的长尾分布偏差，影响模型对罕见语义的学习和推理能力。
Method: 提出SemCovNet模型，包含：1) 语义描述符映射(SDM)学习语义表示；2) 描述符注意力调制(DAM)动态加权视觉和概念特征；3) 描述符-视觉对齐(DVA)损失对齐视觉特征与语义描述符。
Result: 在多个数据集上的实验表明，SemCovNet显著降低了覆盖差异指数(CDI)，增强了模型可靠性，实现了更公平和均衡的性能表现。
Conclusion: SCI是一种可测量和可纠正的偏差，这项工作为推进语义公平性和可解释视觉学习奠定了基础。

[6] Xray-Visual Models: Scaling Vision models on Industry Scale Data

Shlok Mishra,Tsung-Yu Lin,Linda Wang,Hongli Xu,Yimin Liu,Michael Hsu,Chaitanya Ahuja,Hao Yuan,Jianpeng Cheng,Hong-You Chen,Haoyuan Xu,Chao Li,Abhijeet Awasthi,Jihye Moon,Don Husa,Michael Ge,Sumedha Singla,Arkabandhu Chowdhury,Phong Dingh,Satya Narayan Shukla,Yonghuan Yang,David Jacobs,Qi Guo,Jun Xiao,Xiangjun Fan,Aashu Singh

Main category: cs.CV

TL;DR: Xray-Visual是一个统一的大规模图像视频理解视觉模型，基于15亿图像-文本对和100亿视频-标签对训练，采用三阶段训练策略，在多个基准测试中达到SOTA性能。

Motivation: 构建一个能够统一处理大规模图像和视频理解任务的视觉模型，利用社交媒体海量数据，同时保持计算效率和鲁棒性。
Method: 基于Vision Transformer架构，采用EViT提升计算效率；三阶段训练：自监督MAE、半监督标签分类、CLIP风格对比学习；使用LLM作为文本编码器增强检索能力。
Result: 在ImageNet图像分类、Kinetics和HMDB51视频理解、MSCOCO跨模态检索等基准测试中达到SOTA；对领域偏移和对抗扰动表现出强鲁棒性；LLM2CLIP显著提升检索性能和泛化能力。
Conclusion: Xray-Visual为可扩展的多模态视觉模型设立了新基准，在保持高准确率和计算效率的同时，展示了大规模社交媒体数据训练的潜力。

[7] HS-3D-NeRF: 3D Surface and Hyperspectral Reconstruction From Stationary Hyperspectral Images Using Multi-Channel NeRFs

Kibon Ku,Talukder Z. Jubery,Adarsh Krishnamurthy,Baskar Ganapathysubramanian

Main category: cs.CV

TL;DR: 提出HSI-SC-NeRF框架，使用固定相机和多通道NeRF实现高光谱3D重建，用于农产品采后检测

Motivation: 高光谱成像和3D重建对农产品质量评估和植物表型分析很重要，但现有方法硬件复杂且与自动化系统不兼容。传统NeRF需要移动相机，在室内农业环境中通量低、可重复性差。
Method: HSI-SC-NeRF：固定相机多通道NeRF框架。使用特氟龙成像室提供均匀漫射照明，物体旋转时固定相机采集多视角高光谱数据。通过ArUco标记估计物体姿态并转换到相机坐标系，采用多通道NeRF联合优化所有高光谱波段重建，使用复合光谱损失和两阶段训练协议（几何初始化与辐射度细化分离）。
Result: 在三个农产品样本上的实验显示，该方法具有高空间重建精度和强光谱保真度（覆盖可见光和近红外光谱），适合集成到自动化农业工作流程中。
Conclusion: HSI-SC-NeRF成功解决了固定相机高光谱3D重建的挑战，为自动化农产品检测提供了可行的解决方案。

[8] DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

Dahye Kim,Deepti Ghadiyaram,Raghudeep Gadde

Main category: cs.CV

TL;DR: 提出动态分词方法，根据内容复杂度和去噪时间步动态调整补丁大小，显著降低DiTs的计算成本而不损失生成质量

Motivation: 扩散变换器(DiTs)在图像和视频生成中表现出色，但计算成本高昂。现有方法在整个去噪过程中使用固定大小的补丁，不考虑内容复杂度和时间步的需求差异，导致计算效率低下。
Method: 提出动态分词策略，根据内容复杂度和去噪时间步动态调整补丁大小。早期时间步使用较粗的补丁捕捉全局结构，后期使用较细的补丁优化局部细节。在推理时动态重新分配补丁大小。
Result: 在FLUX-1.Dev上实现3.52倍加速，在Wan 2.1上实现3.2倍加速，同时保持生成质量和提示遵循性不变。显著降低了计算成本。
Conclusion: 动态分词是一种高效的测试时策略，通过根据内容复杂度和去噪时间步动态调整补丁大小，显著降低了扩散变换器的计算成本，同时保持了生成质量，为高效生成模型提供了新思路。

[9] Characterizing the Predictive Impact of Modalities with Supervised Latent-Variable Modeling

Divyam Madaan,Sumit Chopra,Kyunghyun Cho

Main category: cs.CV

TL;DR: PRIMO是一个监督潜在变量插补模型，用于处理多模态学习中缺失模态的问题，通过量化缺失模态对预测的影响，并利用所有可用训练样本（包括部分模态样本）进行学习。

Motivation: 现有MLLMs通常假设训练和推理时所有模态都可用，但实践中多模态数据往往不完整（模态缺失、异步收集或仅部分样本有完整模态）。需要一种能处理模态缺失并量化缺失模态预测影响的方法。
Method: PRIMO将缺失模态建模为潜在变量，捕捉其与观测模态在预测上下文中的关系。训练时使用所有可用样本（完整和部分模态）。推理时从缺失模态的分布中采样多次，获得边际预测分布并分析缺失模态对预测的影响。
Result: 在合成XOR数据集、Audio-Vision MNIST和MIMIC-III（死亡率和ICD-9预测）上评估，PRIMO在模态完全缺失时性能与单模态基线相当，在所有模态可用时与多模态基线相当。能通过基于方差的指标量化实例级模态预测影响。
Conclusion: PRIMO能有效处理多模态学习中的模态缺失问题，量化缺失模态的预测影响，为理解多模态预测中不同模态的贡献提供工具，同时保持与现有基线相当的性能。

[10] Patch-Based Spatial Authorship Attribution in Human-Robot Collaborative Paintings

Eric Chen,Patricia Alves-Oliveira

Main category: cs.CV

TL;DR: 提出基于图像块的框架，用于人机协作绘画中的空间作者归属，通过15幅抽象画的案例研究，实现88.8%的块级准确率，并能量化风格重叠的不确定性。

Motivation: 随着智能体AI越来越多地参与创意生产，记录作者身份对艺术家、收藏家和法律环境变得至关重要。特别是在人机协作绘画中，需要明确区分人类和机器各自的贡献。
Method: 提出基于图像块的框架，使用普通平板扫描仪采集绘画数据，采用留一绘画交叉验证方法。对于协作作品，使用条件香农熵来量化风格重叠的不确定性。
Result: 在15幅抽象画的案例研究中，块级准确率达到88.8%，绘画级准确率（通过多数投票）达到86.7%，优于基于纹理和预训练特征的基线方法（68.0%-84.7%）。手动标注的混合区域显示出比纯绘画高64%的不确定性。
Conclusion: 该模型虽然针对特定的人机组合，但为数据稀缺的人机创意工作流提供了样本高效的归属方法基础，未来有潜力扩展到任何人机协作绘画的作者归属。

[11] PartRAG: Retrieval-Augmented Part-Level 3D Generation and Editing

Peize Li,Zeyu Zhang,Hao Tang

Main category: cs.CV

TL;DR: PartRAG：基于检索增强的单图像3D生成框架，通过外部部件数据库和扩散变换器实现部件级结构编辑，提升生成质量和编辑灵活性。

Motivation: 现有单图像3D生成方法在部件级结构方面面临挑战：学习先验难以覆盖部件几何的长尾分布并保持多视角一致性，现有系统对精确局部编辑支持有限。
Method: 提出PartRAG框架，结合外部部件数据库与扩散变换器。包含：1）分层对比检索模块，将密集图像块与3D部件潜在表示对齐；2）掩码部件级编辑器，在共享规范空间中实现部件交换、属性细化和组合更新。
Result: 在Objaverse、ShapeNet和ABO数据集上取得竞争性结果：Chamfer距离从0.1726降至0.1528，F-Score从0.7472提升至0.844（Objaverse）。推理时间38秒，交互编辑5-8秒，生成更清晰的部件边界和更好的薄结构保真度。
Conclusion: PartRAG通过检索增强方法有效解决了单图像3D生成中的部件级结构挑战，实现了高质量生成和灵活的局部编辑能力，为3D内容创作提供了新工具。

[12] Amber-Image: Efficient Compression of Large-Scale Diffusion Transformers

Chaojie Yang,Tian Li,Yue Zhang,Jun Gao

Main category: cs.CV

TL;DR: 提出Amber-Image压缩框架，将60层MMDiT-based Qwen-Image压缩为轻量模型，无需从头训练，参数减少70%，训练成本极低（<2000 GPU小时），性能媲美大模型。

Motivation: 解决Diffusion Transformer (DiT)架构在文本到图像生成中计算成本高、部署困难的问题，特别是针对60层双流MMDiT-based Qwen-Image模型的效率优化。
Method: 1) 时间步敏感深度剪枝策略，保留层通过局部权重平均重新初始化，结合层间蒸馏和全参数微调得到Amber-Image-10B；2) 混合流架构将深层双流转换为单流（从图像分支初始化），通过渐进蒸馏和轻量微调得到Amber-Image-6B。
Result: 参数减少70%，无需大规模数据工程，整个压缩训练流程仅需<2000 GPU小时。在DPG-Bench和LongText-Bench等基准测试中实现高保真合成和优越文本渲染，性能匹配更大模型。
Conclusion: 提出的压缩框架能高效将大型DiT模型压缩为轻量版本，显著降低计算成本和部署门槛，同时保持高质量生成能力，为T2I模型的实用化部署提供了有效解决方案。

[13] StructCore: Structure-Aware Image-Level Scoring for Training-Free Unsupervised Anomaly Detection

Joongwon Chae,Lihui Luo,Yang Liu,Runming Wang,Dongmei Yu,Zeming Liang,Xi Yuan,Dayan Zhang,Zhenglin Chen,Peiwu Qin,Ilmoon Chae

Main category: cs.CV

TL;DR: StructCore：一种无需训练、结构感知的图像级异常评分方法，通过捕捉异常分数图的结构特征来改进传统最大池化的缺陷

Motivation: 传统基于最大池化的方法仅依赖单个极端响应，丢弃了异常证据在图像中的分布和结构信息，导致正常和异常分数重叠，检测效果受限
Method: StructCore计算异常分数图的低维结构描述符φ(S)，捕捉分布和空间特征，然后通过从正常训练样本估计的对角马氏距离校准来细化图像级评分，不修改像素级定位
Result: 在MVTec AD上达到99.6%的图像级AUROC，在VisA上达到98.4%，通过利用最大池化忽略的结构特征实现了鲁棒的异常检测
Conclusion: StructCore超越了传统最大池化方法，通过结构感知的评分机制显著提升了基于内存库的无监督异常检测性能

[14] Cholec80-port: A Geometrically Consistent Trocar Port Segmentation Dataset for Robust Surgical Scene Understanding

Shunsuke Kikuchi,Atsushi Kouno,Hiroki Matsuzaki

Main category: cs.CV

TL;DR: 提出了Cholec80-port数据集，包含高质量套管端口分割标注，采用排除中心开口的端口套筒掩码定义，并统一了现有公共数据集标注标准，显著提升了几何一致性并增强了跨数据集鲁棒性。

Motivation: 腹腔镜手术中套管端口会持续遮挡视野并吸引过多特征点，对图像拼接、3D重建和视觉SLAM等几何处理流程造成干扰。现有数据集缺乏高质量端口标注，且标注方法（如掩码中心开口）违反几何一致性。
Method: 从Cholec80数据集衍生出Cholec80-port数据集，制定严格的标准操作程序（SOP）定义端口套筒掩码（排除中心开口），并按照相同SOP清理和统一现有公共数据集。
Result: 实验表明，几何一致的标注显著提高了跨数据集鲁棒性，这种改进效果超越了单纯增加数据集规模所能带来的提升。
Conclusion: 几何一致的端口标注对于提升手术视觉算法的鲁棒性至关重要，Cholec80-port数据集和统一SOP为相关研究提供了高质量基准。

[15] Cross Pseudo Labeling For Weakly Supervised Video Anomaly Detection

Lee Dayeon,Kim Dongheyong,Park Chaewon,Woo Sungmin,Lee Sangyoun

Main category: cs.CV

TL;DR: CPL-VAD是一个用于弱监督视频异常检测的双分支框架，通过交叉伪标签交换结合异常定位和类别分类能力，在XD-Violence和UCF-Crime数据集上达到SOTA性能。

Motivation: 弱监督视频异常检测需要在仅有视频级标签的情况下检测异常并识别异常类别。现有方法往往难以同时实现精确的时序异常定位和准确的语义类别识别。
Method: 提出CPL-VAD双分支框架：1）二元异常检测分支专注于片段级异常定位；2）类别分类分支利用视觉-语言对齐识别异常事件类别。两个分支通过交叉伪标签交换互补优势，将时序精度与语义判别能力相结合。
Result: 在XD-Violence和UCF-Crime数据集上的实验表明，CPL-VAD在异常检测和异常类别分类任务上均达到了最先进的性能。
Conclusion: CPL-VAD通过双分支结构和交叉伪标签机制，有效解决了弱监督视频异常检测中异常定位与类别识别的联合优化问题，为实际应用提供了有力工具。

[16] ComptonUNet: A Deep Learning Model for GRB Localization with Compton Cameras under Noisy and Low-Statistic Conditions

Shogo Sato,Kazuo Tanaka,Shojun Ogasawara,Kazuki Yamamoto,Kazuhiko Murasaki,Ryuichi Tanida,Jun Kataoka

Main category: cs.CV

TL;DR: ComptonUNet是一种混合深度学习框架，用于在光子统计有限和背景噪声强的条件下，对伽马射线暴进行鲁棒定位，显著优于现有方法。

Motivation: 微弱伽马射线暴（GRBs）能提供早期恒星形成的独特见解，但由于光子统计量低和背景噪声大，检测和定位这些弱源具有挑战性。现有机器学习模型难以在统计鲁棒性和噪声抑制之间取得平衡。
Method: 提出ComptonUNet混合深度学习框架，联合处理原始数据并重建图像，结合直接重建模型的统计效率和基于图像架构的去噪能力，专门针对低光子统计和高背景污染条件设计。
Result: 在模拟低地球轨道任务中GRB类事件的实验中，ComptonUNet显著优于现有方法，在广泛的低统计量和高背景场景下实现了改进的定位精度。
Conclusion: ComptonUNet为解决微弱伽马射线暴定位的挑战提供了一种有效的混合深度学习方法，平衡了统计鲁棒性和噪声抑制，有望推动高能天体物理研究。

[17] 3D Scene Rendering with Multimodal Gaussian Splatting

Chi-Shiang Gau,Konstantinos D. Polyzos,Athanasios Bacharis,Saketh Madhuvarasu,Tara Javidi

Main category: cs.CV

TL;DR: 提出一种将射频感知与3D高斯泼溅相结合的多模态框架，利用射频信号对天气、光照和遮挡的鲁棒性，实现更高效和稳健的3D场景渲染。

Motivation: 传统基于视觉的3D高斯泼溅方法需要大量相机视角进行初始化，在恶劣天气、低光照或部分遮挡等视觉线索不可靠的条件下表现不佳。射频信号对这些条件具有鲁棒性，因此提出将射频感知与高斯泼溅结合，作为视觉方法的替代方案。
Method: 提出多模态框架，集成射频感知（如汽车雷达）与高斯泼溅渲染。利用稀疏的射频深度测量高效预测深度，生成高质量3D点云用于初始化高斯函数，适用于多种高斯泼溅架构。
Result: 数值测试表明，将射频感知合理整合到高斯泼溅流程中，能够实现高质量的3D场景渲染，射频信息提供的结构准确性驱动了高保真度的渲染效果。
Conclusion: 射频感知与高斯泼溅的结合提供了一种更高效、更稳健的3D场景渲染替代方案，特别适用于视觉线索不可靠的环境条件。

[18] B $^{3}$ -Seg: Camera-Free, Training-Free 3DGS Segmentation via Analytic EIG and Beta-Bernoulli Bayesian Updates

Hiromichi Kamata,Samuel Arthur Munro,Fuminori Homma

Main category: cs.CV

TL;DR: B³-Seg：一种基于Beta-Bernoulli贝叶斯更新的快速、免训练、免相机视角的3D高斯泼溅开放词汇分割方法，通过分析性期望信息增益实现高效视图采样。

Motivation: 现有3D高斯泼溅分割方法依赖预定义相机视角、真实标签或昂贵重训练，难以满足影视游戏制作中实时编辑的低延迟需求。
Method: 将分割问题重新表述为顺序Beta-Bernoulli贝叶斯更新，通过分析性期望信息增益主动选择下一个视图，贝叶斯公式保证了EIG的自适应单调性和子模性。
Result: 在多个数据集上，B³-Seg达到与高成本监督方法竞争的结果，同时能在几秒内完成端到端分割，实现了实用的交互式3DGS分割。
Conclusion: B³-Seg提供了一种理论严谨、信息高效且实用的交互式3D高斯泼溅分割解决方案，无需相机视角、训练或重训练。

[19] BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning

Siyuan Liang,Yongcheng Jing,Yingjie Wang,Jiaxing Huang,Ee-chien Chang,Dacheng Tao

Main category: cs.CV

TL;DR: BadCLIP++提出了一种针对多模态对比学习模型的后门攻击框架，通过语义融合QR微触发器和目标对齐子集选择提高隐蔽性，通过半径收缩、质心对齐、曲率控制和弹性权重巩固增强持久性，在仅0.3%投毒率下达到99.99%攻击成功率。

Motivation: 现有针对多模态对比学习模型的后门攻击方法在强检测或持续微调下容易失效，主要原因是跨模态不一致性暴露触发模式，以及低投毒率下的梯度稀释加速后门遗忘。这些耦合原因尚未得到充分建模和解决。
Method: 1. 隐蔽性：引入语义融合QR微触发器，将难以察觉的模式嵌入任务相关区域附近，保持干净数据统计特性；采用目标对齐子集选择增强低注入率下的信号强度。2. 持久性：通过半径收缩和质心对齐稳定触发器嵌入；通过曲率控制和弹性权重巩固稳定模型参数，使解保持在低曲率宽盆地中抵抗微调。3. 理论分析：首次证明在信任区域内，干净微梯度和后门目标梯度同向，攻击成功率下降有非递增上界。
Result: 仅0.3%投毒率下，BadCLIP++在数字场景中达到99.99%攻击成功率，比基线高11.4个百分点。在19种防御方法下，攻击成功率仍高于99.90%，干净准确率下降小于0.8%。物理攻击成功率达65.03%，对水印去除防御具有鲁棒性。
Conclusion: BadCLIP++成功解决了多模态对比学习后门攻击的隐蔽性和持久性挑战，通过统一的框架设计实现了高效且鲁棒的攻击，为模型安全评估提供了新的基准。

[20] NRGS-SLAM: Monocular Non-Rigid SLAM for Endoscopy via Deformation-Aware 3D Gaussian Splatting

Jiwei Shan,Zeyu Cai,Yirui Li,Yongbo Chen,Lijun Han,Yun-hui Liu,Hesheng Wang,Shing Shin Cheng

Main category: cs.CV

TL;DR: NRGS-SLAM：基于3D高斯泼溅的内窥镜单目非刚性SLAM系统，通过变形感知高斯地图和贝叶斯自监督解决相机运动与组织变形的耦合问题，显著提升姿态估计精度和重建质量。

Motivation: 内窥镜场景因软组织持续变形而违反刚性假设，导致相机自身运动与内在变形之间存在强耦合模糊性。现有单目非刚性SLAM方法缺乏有效的解耦机制，依赖稀疏或低保真场景表示，导致跟踪漂移和重建质量受限。
Method: 提出基于3D高斯泼溅的NRGS-SLAM系统：1）引入变形感知3D高斯地图，为每个高斯基元添加可学习的变形概率，通过贝叶斯自监督策略优化；2）设计可变形跟踪模块，优先处理低变形区域进行粗到精姿态估计，然后进行逐帧变形更新；3）精心设计的可变形建图模块平衡表示能力和计算效率；4）统一鲁棒几何损失结合外部几何先验缓解单目非刚性SLAM的病态性。
Result: 在多个公共内窥镜数据集上的实验表明，NRGS-SLAM相比现有最优方法，实现了更准确的相机姿态估计（RMSE降低达50%）和更高质量的照片级真实重建。全面的消融研究验证了关键设计选择的有效性。
Conclusion: NRGS-SLAM通过变形感知3D高斯表示和贝叶斯自监督策略，有效解决了内窥镜场景中相机运动与组织变形的耦合问题，显著提升了单目非刚性SLAM的性能，为内窥镜自主感知和导航提供了更可靠的基础能力。

[21] Selective Training for Large Vision Language Models via Visual Information Gain

Seulbi Lee,Sangheum Hwang

Main category: cs.CV

TL;DR: 提出VIG指标量化视觉信息增益，并基于此设计选择性训练方案，提升LVLMs的视觉基础能力，减少语言偏见

Motivation: 现有大型视觉语言模型存在语言偏见问题，经常不依赖视觉证据就生成答案。先前工作缺乏量化指标来衡量训练样本或token从图像中实际获益的程度。
Method: 提出视觉信息增益(VIG)指标，基于困惑度衡量视觉输入提供的预测不确定性减少。利用VIG设计选择性训练方案，优先训练高VIG的样本和token。
Result: VIG能够细粒度分析样本和token级别，有效突出颜色、空间关系和属性等视觉基础元素。选择性训练方案改善了视觉基础能力，减少了语言偏见，在显著减少监督的情况下实现了更好的性能。
Conclusion: VIG为量化视觉信息增益提供了有效指标，基于VIG的选择性训练方案能够高效提升LVLMs的视觉基础能力，为解决语言偏见问题提供了新思路。

[22] EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

Yahong Wang,Juncheng Wu,Zhangkai Ni,Chengmei Yang,Yihang Liu,Longzhen Yang,Yuyin Zhou,Ying Wen,Lianghua He

Main category: cs.CV

TL;DR: 提出基于矩阵熵的视觉token剪枝框架EntropyPrune，通过识别"熵崩溃层"确定剪枝时机，无需注意力图即可量化token信息价值，实现高效MLLM推理加速。

Motivation: 多模态大语言模型处理图像时产生大量视觉token导致推理成本高昂。现有token剪枝方法依赖启发式静态层选择，缺乏可解释性和跨模型可迁移性。
Method: 提出矩阵熵视角识别"熵崩溃层"作为剪枝时机；设计EntropyPrune框架，通过双Gram矩阵谱等价性高效计算token信息熵，剪枝冗余token而不依赖注意力图。
Result: 在LLaVA-1.5-7B上实现68.2%的FLOPs减少，保持96.0%原始性能；在多样化多模态基准测试中优于现有剪枝方法；可泛化到高分辨率和视频模型。
Conclusion: 矩阵熵为视觉token剪枝提供了原则性标准，EntropyPrune在准确性和效率上均优于现有方法，具有强鲁棒性和可扩展性，适用于实际MLLM加速。

[23] GASS: Geometry-Aware Spherical Sampling for Disentangled Diversity Enhancement in Text-to-Image Generation

Ye Zhu,Kaleb S. Newman,Johannes F. Lutzeyer,Adriana Romero-Soriano,Michal Drozdzal,Olga Russakovsky

Main category: cs.CV

TL;DR: 提出GASS方法，通过几何视角增强文本到图像生成的多样性，分解CLIP嵌入中的变化源，分别控制提示相关和提示无关的多样性

Motivation: 现代文本到图像生成模型虽然语义对齐度高，但缺乏多样性，这不仅限制了用户选择，还可能放大社会偏见。现有方法主要依赖基于熵的引导来增加样本差异，但需要更系统的方法来增强多样性。
Method: 提出几何感知球形采样(GASS)：1) 将CLIP嵌入中的多样性度量分解为两个正交方向：文本嵌入（捕获与提示相关的语义变化）和识别的正交方向（捕获提示无关的变化，如背景）；2) 增加生成图像嵌入沿两个轴的几何投影分布；3) 通过沿生成轨迹的扩展预测来引导T2I采样过程。
Result: 在不同冻结的T2I骨干网络（U-Net和DiT，扩散和流模型）和基准测试上，GASS有效增强了分离的多样性，同时对图像保真度和语义对齐的影响最小。
Conclusion: 通过几何视角增强文本到图像生成的多样性是有效的，GASS方法能够系统控制提示相关和提示无关的变化源，在保持图像质量和语义对齐的同时显著提升生成多样性。

[24] HiMAP: History-aware Map-occupancy Prediction with Fallback

Yiming Xu,Yi Yang,Hao Cheng,Monika Sester

Main category: cs.CV

TL;DR: HiMAP是一种无需跟踪的轨迹预测框架，通过将历史检测转换为时空不变的历史占据地图，并引入历史查询模块来检索特定智能体的历史信息，从而在MOT失败时仍能保持可靠的预测性能。

Motivation: 当前大多数运动预测方法依赖多目标跟踪（MOT）的身份关联，假设目标被正确连续跟踪。但当跟踪因遮挡、身份切换或漏检而失败时，预测质量会下降，安全风险增加。需要一种不依赖跟踪的鲁棒预测框架。
Method: 将过去检测转换为时空不变的历史占据地图；引入历史查询模块，基于当前智能体状态迭代地从无标签的占据表示中检索智能体特定历史；使用DETR风格解码器结合检索到的历史、最终查询和地图上下文生成多模态未来轨迹。
Result: 在Argoverse 2数据集上，HiMAP在不使用ID的情况下达到与基于跟踪方法相当的性能；在无跟踪设置下显著优于强基线，FDE相对提升11%，ADE提升12%，MR降低4%；能够同时为所有智能体提供稳定预测，无需等待跟踪恢复。
Conclusion: HiMAP提供了一种不依赖身份关联的鲁棒轨迹预测框架，在跟踪失败时仍能保持可靠性能，可作为跟踪不可用时的稳健后备方案，对安全关键自动驾驶具有实际价值。

[25] Inferring Height from Earth Embeddings: First insights using Google AlphaEarth

Alireza Hamoudzadeh,Valeria Belloni,Roberta Ravanelli

Main category: cs.CV

TL;DR: AlphaEarth Embeddings的10米分辨率地理空间和多模态特征可以有效指导深度学习回归模型进行区域地表高度映射，U-Net++架构在泛化能力上表现更优。

Motivation: 研究旨在验证AlphaEarth Embeddings中编码的地理空间和多模态特征是否能够有效指导深度学习模型进行区域地表高度映射，探索预训练地理嵌入在高度推断任务中的潜力。
Method: 使用10米空间分辨率的AlphaEarth Embeddings作为输入，以高质量数字表面模型(DSM)作为参考，采用U-Net和U-Net++作为轻量级卷积解码器架构，评估地理空间信息转化为准确地表高度估计的能力。
Result: 两种架构在训练集上都表现出色(R²=0.97)，证实嵌入编码了可解码的高度相关信号。在测试集上，由于训练和测试区域高度频率分布偏移，性能有所下降，但U-Net++表现更好(R²=0.84，中位差=-2.62m)，相比标准U-Net(R²=0.78，中位差=-7.22m)具有更强的泛化能力。
Conclusion: AlphaEarth Embeddings在指导基于深度学习的高度映射工作流程方面具有良好潜力，特别是与空间感知卷积架构结合时，但需要解决偏差问题以提高区域可迁移性。

Ziyan Zhang,Chuheng Wei,Xuanpeng Zhao,Siyan Li,Will Snyder,Mike Stas,Peng Hao,Kanok Boriboonsomsin,Guoyuan Wu

Main category: cs.CV

TL;DR: 本文设计并部署了一个基于基础设施的多模态货运车辆检测系统，集成LiDAR和摄像头传感器，用于支持货运信号优先控制。

Motivation: 货运车辆在信号交叉口需要可靠的检测和运动估计，以支持基于基础设施的货运信号优先。准确及时地感知车辆类型、位置和速度对于实现有效的优先控制策略至关重要。
Method: 采用混合传感架构，包括交叉口安装子系统和路段中间子系统，通过无线通信连接实现同步数据传输。感知管道结合了基于聚类和基于深度学习的检测方法，并使用卡尔曼滤波跟踪实现稳定的实时性能。LiDAR测量被配准到地理参考框架中，以支持车道级定位和一致的车辆跟踪。
Result: 现场评估表明，该系统能够以高时空分辨率可靠地监测货运车辆运动。设计和部署为开发支持货运信号优先应用的基于基础设施的传感系统提供了实用见解。
Conclusion: 该研究成功开发了一个实用的多模态货运车辆检测系统，能够为货运信号优先提供可靠的车辆感知数据，为智能交通基础设施的发展提供了有价值的实践经验。

[27] EA-Swin: An Embedding-Agnostic Swin Transformer for AI-Generated Video Detection

Hung Mai,Loi Dinh,Duc Hai Nguyen,Dat Do,Luong Doan,Khanh Nguyen Quoc,Huan Vu,Phong Ho,Naeem Ul Islam,Tuan Do

Main category: cs.CV

TL;DR: EA-Swin：一种嵌入无关的Swin Transformer模型，通过因子化窗口注意力设计直接在预训练视频嵌入上建模时空依赖，用于AI生成视频检测，在主要生成器上达到0.97-0.99准确率，比现有方法提升5-20%。

Motivation: 现有Sora2、Veo3等基础视频生成器能产生高度逼真的合成视频，暴露了现有检测方法的局限性：依赖浅层嵌入轨迹、基于图像的适应或计算量大的MLLMs。
Method: 提出EA-Swin（嵌入无关的Swin Transformer），通过因子化窗口注意力设计直接在预训练视频嵌入上建模时空依赖，兼容通用的ViT风格基于补丁的编码器。同时构建EA-Video数据集，包含13万视频，整合新收集样本和现有数据集，涵盖多样商业和开源生成器，包含未见生成器分割用于严格的跨分布评估。
Result: EA-Swin在主要生成器上达到0.97-0.99准确率，比现有SoTA方法（通常0.8-0.9）提升5-20%，同时对未见分布保持强大的泛化能力。
Conclusion: EA-Swin为现代AI生成视频检测提供了一个可扩展且鲁棒的解决方案，通过嵌入无关的架构和全面的数据集基准，显著提升了检测性能。

[28] Physics Encoded Spatial and Temporal Generative Adversarial Network for Tropical Cyclone Image Super-resolution

Ruoyi Zhang,Jiawei Yuan,Lujia Ye,Runling Yu,Liling Zhao

Main category: cs.CV

TL;DR: 提出PESTGAN模型，通过物理编码的时空生成对抗网络提升热带气旋卫星图像超分辨率，将物理规律与视觉纹理分离，实现更好的结构保真度和气象合理性。

Motivation: 现有深度学习方法将卫星图像序列视为普通视频，忽略了云层运动的大气物理规律，导致超分辨率结果缺乏物理保真度和气象合理性。
Method: 提出PESTGAN模型：1）设计解耦生成器架构，包含PhyCell模块，通过约束卷积近似涡度方程，将物理动态编码为隐式表示；2）引入双判别器框架，包含时间判别器确保运动一致性和空间真实性。
Result: 在Digital Typhoon数据集上进行4倍超分辨率实验，PESTGAN在结构保真度和感知质量上表现更好，在保持像素级精度竞争力的同时，显著提升了云层结构的气象合理性和物理保真度。
Conclusion: PESTGAN通过编码物理规律，实现了更符合大气物理的热带气旋卫星图像超分辨率，为气象应用提供了更可靠的高分辨率数据。

[29] Attachment Anchors: A Novel Framework for Laparoscopic Grasping Point Prediction in Colorectal Surgery

Dennis N. Schneider,Lars Wagner,Daniel Rueckert,Dirk Wilhelm

Main category: cs.CV

TL;DR: 提出attachment anchors作为结直肠手术中组织与解剖附着点之间几何和力学关系的结构化表示，用于改善自主组织操作中的抓取点预测

Motivation: 结直肠手术复杂且持续时间长，在当前研究中代表性不足，但其重复的组织操作特性使其成为机器学习驱动自主支持的理想切入点。准确抓取点预测是微创手术中自主组织操作的关键挑战。
Method: 引入attachment anchors作为结构化表示，编码组织与其解剖附着点之间的局部几何和力学关系。该表示通过将手术场景归一化到一致的局部参考框架来减少抓取点预测的不确定性。从腹腔镜图像预测attachment anchors，并将其整合到基于机器学习的抓取框架中。
Result: 在90例结直肠手术数据集上的实验表明，attachment anchors相比仅使用图像的基线方法改善了抓取点预测。在分布外设置（包括未见过的程序和外科医生）中表现尤其突出。
Conclusion: attachment anchors是基于学习的结直肠手术组织操作的有效中间表示，特别适用于分布外泛化场景。

[30] Leveraging Contrastive Learning for a Similarity-Guided Tampered Document Data Generation Pipeline

Mohamed Dhouib,Davide Buscaldi,Sonia Vanier,Aymen Shabou

Main category: cs.CV

TL;DR: 提出一种生成高质量篡改文档图像的新方法，通过两个辅助网络和精心设计的生成流程，解决了现有方法生成数据质量差、多样性不足的问题，显著提升了篡改文本检测模型的性能。

Motivation: 现有篡改文档生成方法通常基于规则，导致生成的文档多样性有限、视觉质量差，且存在明显的人工痕迹，这使得训练出的模型难以学习到鲁棒、可泛化的特征，在真实世界数据上表现不佳。
Method: 1) 训练第一个辅助网络进行文本裁剪对比，采用对比学习和新颖的正负对定义策略；2) 训练第二个辅助网络评估裁剪是否紧密包围目标字符，避免切割字符或包含相邻字符部分；3) 设计精心设计的生成流程，结合两个网络生成高质量篡改文档图像。
Result: 在相同源图像和训练协议下，使用本方法生成的数据集训练的模型，在多个开源数据集上评估时，相比现有方法生成的数据集，实现了跨架构和跨数据集的一致性能提升。
Conclusion: 提出的高质量篡改文档图像生成方法有效解决了数据稀缺问题，生成的多样化、高质量数据显著提升了篡改文本检测模型的性能，为文档图像篡改检测领域提供了更可靠的数据生成解决方案。

[31] Polaffini: A feature-based approach for robust affine and polyaffine image registration

Antoine Legouhy,Cosimo Campo,Ross Callaghan,Hojjat Azadbakht,Hui Zhang

Main category: cs.CV

TL;DR: Polaffini是一个基于解剖特征的医学图像配准框架，利用深度学习分割模型提取解剖区域质心作为特征点，通过闭式解实现全局和局部仿射匹配，生成从仿射到多仿射的可调平滑变换。

Motivation: 传统的基于强度的配准方法依赖于对齐质量的替代度量，而基于解剖特征的方法理论上更理想但难以可靠提取特征。深度学习分割模型的进步使得能够即时提供可靠、细粒度的解剖分割，为创建新的解剖基础配准算法提供了机会。
Method: 从分割区域提取质心作为解剖基础特征点，通过闭式解实现高效的全局和局部仿射匹配，生成从仿射到多仿射的可调平滑变换，嵌入对数欧几里得框架确保微分同胚特性。
Result: Polaffini在结构对齐方面优于竞争方法，为后续非线性配准提供更好的初始化，具有快速、鲁棒和准确的特点，适合集成到医学图像处理流程中。
Conclusion: Polaffini展示了利用深度学习分割模型创建解剖基础配准算法的可行性，提供了一种快速、鲁棒且准确的配准方法，特别适合医学图像处理流程的集成。

[32] Tree crop mapping of South America reveals links to deforestation and conservation

Yuchang Jiang,Anton Raichuk,Xiaoye Tong,Vivien Sainte Fare Garnot,Daniel Ortiz-Gonzalo,Dan Morris,Konrad Schindler,Jan Dirk Wegner,Maxim Neumann

Main category: cs.CV

TL;DR: 研究人员开发了首个南美洲10米分辨率树木作物地图，使用多模态时空深度学习模型分析卫星影像，发现现有监管地图常将小农农林系统误判为森林，可能导致不公平的处罚。

Motivation: 欧盟《零毁林产品条例》等政策需要监测树木作物扩张，但缺乏高分辨率数据来区分不同农业系统和森林，现有监管地图存在误判风险。
Method: 使用Sentinel-1和Sentinel-2卫星影像时间序列，训练多模态时空深度学习模型，生成南美洲首个10米分辨率的树木作物地图。
Result: 识别出约1100万公顷树木作物，其中23%与2000-2020年森林覆盖损失相关；发现现有监管地图常将已建立的农业（特别是小农农林系统）误判为"森林"。
Conclusion: 提供高分辨率基准地图可减少误判风险，支持更有效、包容和公平的保护政策，避免对小农的不公平处罚。

[33] DRetHTR: Linear-Time Decoder-Only Retentive Network for Handwritten Text Recognition

Changhun Kim,Martin Mayr,Thomas Gorges,Fei Wu,Mathias Seuret,Andreas Maier,Vincent Christlein

Main category: cs.CV

TL;DR: DRetHTR：基于RetNet的解码器模型，用于手写文本识别，相比Transformer实现1.6-1.9倍加速和38-42%内存节省，无需KV缓存，保持同等精度。

Motivation: 现有基于Transformer的手写文本识别系统存在KV缓存增长问题，导致解码速度慢、内存占用高，需要更高效的架构。
Method: 采用Retentive Networks替代Transformer，使用softmax-free retention机制和多尺度序列先验，避免KV缓存增长；提出层间gamma缩放策略，使浅层关注短程依赖、深层关注长程上下文。
Result: 在多个数据集上取得最佳字符错误率：IAM-A 2.26%、RIMES 1.81%、Bentham 3.46%，READ-2016 4.21%；相比同等规模Transformer基线，推理速度提升1.6-1.9倍，内存减少38-42%。
Conclusion: 基于RetNet的解码器模型能够在保持Transformer级别准确率的同时，显著提升解码速度和内存效率，为手写文本识别提供了更高效的解决方案。

Lorenzo Caselli,Marco Mistretta,Simone Magistri,Andrew D. Bagdanov

Main category: cs.CV

TL;DR: SpectralGCD是一种高效的多模态广义类别发现方法，利用CLIP跨模态相似性作为统一表示，通过谱过滤保留相关语义概念，实现与SOTA相当或更好的性能但计算成本大幅降低。

Motivation: 现有GCD方法存在两个主要问题：1）仅使用图像特征的参数化分类器容易对已知类别过拟合；2）最近的多模态方法虽然通过引入文本信息提升了性能，但独立处理不同模态且计算成本高昂。
Method: 提出SpectralGCD方法：1）使用CLIP跨模态图像-概念相似性作为统一表示，将图像表示为大型任务无关字典中语义概念的混合；2）引入谱过滤技术，利用强教师模型的跨模态协方差矩阵自动保留字典中的相关概念；3）采用前向和反向知识蒸馏确保学生模型的跨模态表示既语义充分又对齐良好。
Result: 在六个基准测试中，SpectralGCD实现了与最先进方法相当或显著更优的准确率，同时计算成本仅为其他方法的一小部分。
Conclusion: SpectralGCD通过统一的跨模态表示和谱过滤技术，提供了一种高效且有效的GCD解决方案，在保持语义质量的同时大幅降低计算成本，为多模态广义类别发现提供了新思路。

[35] A High-Level Survey of Optical Remote Sensing

Panagiotis Koletsis,Vasilis Efthymiou,Maria Vakalopoulou,Nikos Komodakis,Anastasios Doulamis,Georgios Th. Papadopoulos

Main category: cs.CV

TL;DR: 本文是一篇关于无人机RGB光学遥感研究的综合性综述，旨在为领域新研究者提供全面指导，涵盖能力、数据集和关键见解。

Motivation: 近年来计算机视觉的进步推动了遥感领域发展，无人机应用日益广泛，而大多数无人机默认配备RGB相机。光学遥感文献庞大且分散，缺乏从整体视角出发的综述来指导新研究者。
Method: 通过系统性文献回顾，对光学遥感领域进行全面梳理，涵盖不同任务、能力和方法，同时整合关键数据集和领域见解，构建一个结构化的知识框架。
Result: 创建了一个全面的光学遥感能力概览，提供了领域的关键信息、数据集和见解，填补了现有文献中缺乏整体视角综述的空白。
Conclusion: 该综述为进入光学遥感领域的研究者提供了有价值的指导，帮助他们快速了解领域全貌并聚焦于最相关的方向，促进了该领域的可访问性和进一步发展。

[36] EAGLE: Expert-Augmented Attention Guidance for Tuning-Free Industrial Anomaly Detection in Multimodal Large Language Models

Xiaomeng Peng,Xilang Huang,Seon Han Choi

Main category: cs.CV

TL;DR: EAGLE：无需微调的多模态大语言模型工业异常检测框架，通过专家模型输出引导MLLMs实现准确检测和可解释异常描述

Motivation: 工业异常检测对智能制造很重要，但现有深度学习方法通常只提供二元决策且语义解释有限。多模态大语言模型（MLLMs）能生成细粒度语言分析，但现有方法需要昂贵微调，且相比轻量级专业检测器并未持续提升检测精度。
Method: 提出EAGLE（专家增强注意力引导）框架，无需微调，通过集成专家模型输出来引导MLLMs实现准确检测和可解释异常描述。同时研究EAGLE如何影响MLLMs内部机制，通过检查中间层对异常图像区域的注意力分布。
Result: 在MVTec-AD和VisA数据集上的实验表明，EAGLE无需参数更新即可提升多个MLLMs的异常检测性能，达到与基于微调方法相当的结果。成功异常检测与异常区域注意力集中度增加相关，EAGLE倾向于促进这种对齐。
Conclusion: EAGLE是一种有效的无需微调框架，能够提升MLLMs在工业异常检测中的性能，同时提供可解释的异常描述，为MLLMs在工业检测中的应用提供了新思路。

[37] 4D Monocular Surgical Reconstruction under Arbitrary Camera Motions

Jiwei Shan,Zeyu Cai,Cheng-Tai Hsieh,Yirui Li,Hao Liu,Lijun Han,Hesheng Wang,Shing Shin Cheng

Main category: cs.CV

TL;DR: Local-EndoGS：用于单目内窥镜序列的4D重建框架，通过窗口化局部表示处理大相机运动，无需立体深度或准确SfM初始化

Motivation: 现有方法大多针对固定视角的可变形手术场景，依赖立体深度或准确SfM初始化，难以处理真实临床环境中单目序列的大相机运动
Method: 提出渐进式窗口化全局表示，为每个观测窗口分配局部可变形场景模型；设计从粗到精策略整合多视图几何、跨窗口信息和单目深度先验；引入长距离2D像素轨迹约束和物理运动先验
Result: 在三个公开内窥镜数据集上，Local-EndoGS在表观质量和几何重建方面持续优于现有方法，消融研究验证了关键设计的有效性
Conclusion: Local-EndoGS能够处理任意相机运动的单目内窥镜序列，实现高质量4D重建，为临床环境中的可变形手术场景重建提供了有效解决方案

[38] QuPAINT: Physics-Aware Instruction Tuning Approach to Quantum Material Discovery

Xuan-Bac Nguyen,Hoang-Quan Nguyen,Sankalp Pandey,Tim Faltermeier,Nicholas Borys,Hugh Churchill,Khoa Luu

Main category: cs.CV

TL;DR: 该论文提出了一个物理感知的多模态框架，用于从光学显微镜图像中表征二维量子材料，包括合成数据生成器、指令数据集、物理感知指令调优架构和标准化基准。

Motivation: 二维量子材料的光学显微镜图像表征面临三大挑战：层依赖对比度微妙、标记数据有限、不同实验室和成像设置间差异显著。现有视觉模型因缺乏物理先验且无法泛化到新材料或硬件条件而表现不佳。
Method: 1. Synthia：基于物理的合成数据生成器，模拟量子材料薄片在薄膜干涉下的光学响应；2. QMat-Instruct：首个量子材料大规模指令数据集，包含多模态、物理信息的问题-答案对；3. QuPAINT：物理感知指令调优架构，包含物理信息注意力模块，融合视觉嵌入和光学先验；4. QF-Bench：涵盖多种材料、基底和成像设置的综合基准。
Result: 该框架通过合成数据减少对专家手动标注的依赖，通过物理感知多模态架构获得更鲁棒和区分性的薄片表征，并通过标准化基准实现公平可重复的评估。
Conclusion: 该研究提出的物理感知多模态框架有效解决了二维量子材料光学表征的挑战，通过结合物理先验、合成数据和专门设计的架构，显著提升了模型在新材料和不同成像条件下的泛化能力。

[39] Tracing Copied Pixels and Regularizing Patch Affinity in Copy Detection

Yichen Lu,Siwei Nie,Minlong Lu,Xudong Yang,Xiaobo Zhang,Peng Zhang

Main category: cs.CV

TL;DR: 提出PixTrace像素坐标跟踪模块和CopyNCE几何引导对比损失，通过利用编辑内容的几何可追踪性来改进图像复制检测，在DISC21数据集上达到SOTA性能

Motivation: 现有基于自监督学习的图像复制检测方法在处理复杂编辑时存在困难，因为视图级对比方法缺乏细粒度对应学习。需要利用编辑内容固有的几何可追踪性来解决这一限制。
Method: 1. PixTrace像素坐标跟踪模块：保持跨编辑变换的显式空间映射；2. CopyNCE几何引导对比损失：使用PixTrace验证映射的重叠比率来正则化补丁亲和力，将像素级可追踪性与补丁级相似性学习相结合。
Result: 在DISC21数据集上取得SOTA性能：匹配器达到88.7% uAP / 83.9% RP90，描述符达到72.6% uAP / 68.4% RP90。相比现有方法具有更好的可解释性。
Conclusion: 通过利用编辑内容的几何可追踪性，提出的PixTrace和CopyNCE方法有效解决了自监督学习中监督噪声问题，显著提升了图像复制检测性能，同时增强了模型的可解释性。

[40] FoundationPose-Initialized 3D-2D Liver Registration for Surgical Augmented Reality

Hanyuan Zhang,Lucas He,Runlong He,Abdolrahim Kadkhodamohammadi,Danail Stoyanov,Brian R. Davidson,Evangelos B. Mazomenos,Matthew J. Clarkson

Main category: cs.CV

TL;DR: 提出一种用于腹腔镜肝脏手术的增强现实肿瘤定位新方法，使用深度增强基础姿态估计和NICP非刚性配准，替代传统有限元模型，降低工程复杂度

Motivation: 现有腹腔镜肝脏手术中的增强现实肿瘤定位方法通常依赖器官轮廓和复杂的有限元模型，需要大量工程建模和专业经验，限制了临床应用的普及
Method: 1) 整合腹腔镜深度图与基础姿态估计器进行相机-肝脏姿态估计；2) 使用非刚性迭代最近点(NICP)替代有限元模型处理变形配准；3) 结合刚性-NICP配准流程
Result: 在真实患者数据上，深度增强基础姿态方法在3个病例中实现9.91毫米平均配准误差，刚性-NICP配准优于仅刚性配准，NICP能有效替代有限元变形模型
Conclusion: 该流程在保持临床相关精度的同时，提供了轻量级、工程友好的有限元变形模型替代方案，降低了技术门槛和复杂度

[41] LATA: Laplacian-Assisted Transductive Adaptation for Conformal Uncertainty in Medical VLMs

Behzad Bozorgtabar,Dwarikanath Mahapatra,Sudipta Roy,Muzammal Naseer,Imran Razzak,Zongyuan Ge

Main category: cs.CV

TL;DR: LATA：一种无需训练和标签的Laplacian辅助转导适应方法，通过图像-图像k-NN图平滑零样本概率，结合故障感知的conformal评分，在保持SCP有效性的同时提高医学视觉语言模型在域转移下的预测集效率和类别平衡性。

Motivation: 医学视觉语言模型在零样本识别方面表现良好，但在域转移下的可靠性依赖于具有保证的校准不确定性。传统分割conformal预测在少样本、不平衡场景中预测集过大且类别覆盖不平衡，而直接使用校准标签会破坏可交换性。
Method: 提出LATA方法：1）在联合校准和测试池上操作，通过图像-图像k-NN图使用少量CCCP平均场更新平滑零样本概率；2）引入故障感知conformal评分，结合视觉语言不确定性框架，提供实例级难度和标签合理性；3）保持SCP有效性的确定性变换，无需VLM更新，计算轻量。
Result: 在三个医学VLM和九个下游任务中，LATA一致减少预测集大小和类别覆盖差距，同时匹配或收紧目标覆盖率，优于先前的转导基线，缩小与使用标签方法的差距，且计算量更少。
Conclusion: LATA能够在不破坏可交换性的前提下锐化零样本预测，提供了一种无需训练和标签的高效方法来提高医学视觉语言模型在域转移下的不确定性校准性能。

[42] GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking

Zixu Cheng,Da Li,Jian Hu,Ziquan Liu,Wei Li,Shaogang Gong

Main category: cs.CV

TL;DR: GraphThinker通过构建事件级场景图和强化微调来减少视频推理中的幻觉问题，在RexTime和VidHalluc数据集上表现优于现有方法

Motivation: 视频推理需要理解事件间的因果关系，但这些关系通常是隐式且标注成本高。现有的多模态大语言模型通过密集描述或视频摘要进行推理，但缺乏因果结构建模，容易产生幻觉
Method: 提出GraphThinker方法：1) 使用MLLM构建事件级视频场景图(EVSG)，显式建模事件内和事件间关系；2) 将场景图作为中间思考过程融入MLLM；3) 在强化微调中引入视觉注意力奖励，增强视频定位能力
Result: 在RexTime和VidHalluc数据集上评估，GraphThinker在捕捉对象和事件关系方面表现优越，具有更精确的事件定位能力，相比先前方法减少了视频推理中的幻觉
Conclusion: 通过显式建模事件级场景图和强化视觉注意力，GraphThinker有效减少了视频推理中的幻觉问题，提升了因果理解能力

[43] RetouchIQ: MLLM Agents for Instruction-Based Image Retouching with Generalist Reward

Qiucheng Wu,Jing Shi,Simon Jenni,Kushal Kafle,Tianyu Wang,Shiyu Chang,Handong Zhao

Main category: cs.CV

TL;DR: RetouchIQ是一个基于多模态大语言模型的图像编辑框架，通过强化学习和通用奖励模型实现指令驱动的专业图像编辑，显著提升了语义一致性和感知质量。

Motivation: 现有基于MLLM的专业图像编辑系统面临训练挑战，因为缺乏能够反映创造性编辑主观性的可靠奖励信号。传统基于规则的奖励方法使用固定参考图像和手工指标计算相似度，无法适应多样化的编辑需求。
Method: 提出RetouchIQ框架：1) MLLM代理解释用户编辑意图并生成可执行图像调整；2) 提出通用奖励模型（RL微调的MLLM），通过多模态推理生成针对具体案例的评估指标；3) 奖励模型提供标量反馈，实现高质量、指令一致的强化学习；4) 构建包含19万指令-推理对的数据集。
Result: 实验表明，RetouchIQ在语义一致性和感知质量方面显著优于之前的MLLM基和扩散基编辑系统。建立了基于指令的图像编辑新基准。
Conclusion: 通用奖励驱动的MLLM代理具有作为专业图像编辑灵活、可解释、可执行助手的潜力，能够桥接高级美学目标与精确参数控制。

Ivan Rinaldi,Matteo Mendula,Nicola Fanelli,Florence Levé,Matteo Testi,Giovanna Castellano,Gennaro Vessio

Main category: cs.CV

TL;DR: ArtToMus：首个直接基于艺术品生成音乐的框架，无需图像到文本转换，使用视觉嵌入指导潜在扩散模型生成音乐

Motivation: 现有图像条件音乐生成系统存在两个根本限制：1）通常基于自然照片训练，无法捕捉艺术品更丰富的语义、风格和文化内容；2）依赖图像到文本转换阶段，使用语言作为语义捷径，阻碍了直接视觉到音频的学习
Method: 1）构建ArtSound大规模多模态数据集（105,884个艺术品-音乐对，含双模态描述）；2）提出ArtToMus框架，将视觉嵌入投影到潜在扩散模型的调节空间，实现无需图像到文本转换或语言监督的直接艺术品到音乐生成
Result: ArtToMus生成音乐连贯且风格一致，能反映源艺术品的显著视觉线索。虽然绝对对齐分数低于文本条件系统（考虑到去除语言监督的难度），但在感知质量和有意义的跨模态对应方面具有竞争力
Conclusion: 这项工作确立了直接视觉到音乐生成作为一个独特且具有挑战性的研究方向，为多媒体艺术、文化遗产和AI辅助创意实践提供了资源支持

[45] Adapting Actively on the Fly: Relevance-Guided Online Meta-Learning with Latent Concepts for Geospatial Discovery

Jowaria Khan,Anindya Sarkar,Yevgeniy Vorobeychik,Elizabeth Bondi-Kelly

Main category: cs.CV

TL;DR: 提出一个统一的地理空间发现框架，结合主动学习、在线元学习和概念引导推理，通过概念相关性加权采样和语义多样性元批处理，在数据有限、环境动态的地理空间目标发现任务中实现高效探索。

Motivation: 在环境监测、灾害响应、公共卫生等实际应用中，数据收集成本高且困难，环境动态变化，需要在资源约束下高效发现隐藏目标。现有基于学习的方法（如强化学习）受限于稀疏且有偏差的地理空间地面真值数据。
Method: 提出统一地理空间发现框架，基于共享的"概念相关性"概念（捕捉领域特定因素对目标存在的影响）。包含两个关键创新：1）概念加权不确定性采样策略，基于现成可用的领域特定概念（如土地覆盖、源距离）学习相关性来调节不确定性；2）相关性感知元批处理形成策略，在在线元更新中促进语义多样性，提高动态环境下的泛化能力。
Result: 在真实世界致癌PFAS污染数据集上进行测试，展示了该方法在有限数据和变化环境下可靠发现目标的能力。
Conclusion: 该框架通过整合主动学习、在线元学习和概念引导推理，有效解决了地理空间目标发现中的数据稀缺和环境动态问题，为环境监测等实际应用提供了可靠解决方案。

[46] CORAL: Correspondence Alignment for Improved Virtual Try-On

Jiyoung Kim,Youngjin Shin,Siyoon Jin,Dahyun Chung,Jisu Nam,Tongmin Kim,Jongjae Park,Hyeonwoo Kang,Seungryong Kim

Main category: cs.CV

TL;DR: 提出CORAL框架，通过显式对齐查询-键匹配来改进虚拟试衣，提升服装细节保留效果

Motivation: 现有虚拟试衣方法在非配对设置下难以保持精细服装细节，缺乏显式的人-服装对齐机制，且无法解释DiT中对应关系如何形成
Method: 分析DiT中的完整3D注意力机制，发现人-服装对应关系依赖于查询-键精确匹配；提出CORAL框架，包含对应关系蒸馏损失和熵最小化损失两个互补组件
Result: CORAL相比基线方法持续改进，增强了全局形状转移和局部细节保留；大量消融实验验证了设计选择的有效性
Conclusion: 通过显式对齐查询-键匹配与外部对应关系，CORAL框架有效解决了虚拟试衣中的细节保留问题，并提出了基于VLM的评估协议来更好反映人类偏好

Pourya Shamsolmoali,Masoumeh Zareapoor,Eric Granger,Yue Lu

Main category: cs.CV

TL;DR: IntRec是一个交互式物体检索框架，通过用户反馈来精炼预测，在复杂场景中准确检索用户指定的物体

Motivation: 现有开放词汇检测器以一次性方式操作，缺乏基于用户反馈精炼预测的能力，特别是在查询模糊或涉及多个相似物体时存在挑战
Method: 提出交互式物体检索框架IntRec，核心是意图状态(IS)，维护正锚点(确认线索)和负约束(拒绝假设)的双重记忆集，通过对比对齐函数对候选物体进行排序
Result: 在LVIS上达到35.4 AP，优于OVMR、CoDet和CAKE；在LVIS-Ambiguous基准上，单次纠正反馈后性能提升+7.9 AP，每次交互增加延迟小于30毫秒
Conclusion: IntRec通过交互式反馈机制显著提高了复杂场景中物体检索的准确性，无需额外监督，具有实际应用价值

[48] Human-level 3D shape perception emerges from multi-view learning

Tyler Bonnen,Jitendra Malik,Angjoo Kanazawa

Main category: cs.CV

TL;DR: 该研究开发了一个能够预测人类3D形状推断的神经网络框架，通过多视角视觉-空间目标训练，无需任务特定训练即可达到人类水平的3D感知能力。

Motivation: 人类能够从2D视觉输入推断3D物体结构，但几十年的计算方法一直未能达到人类水平。研究旨在开发能够预测人类3D形状推断的计算模型。
Method: 开发新型神经网络，使用视觉-空间目标在自然场景数据上训练。模型从不同视角的图像中学习预测相机位置和视觉深度等空间信息，无需物体相关的归纳偏置。采用零样本评估方法在3D感知任务上测试模型。
Result: 该框架首次在3D形状推断任务上达到人类准确率，无需任务特定训练。模型响应能够预测人类行为的细粒度测量，包括错误模式和反应时间，揭示了模型动态与人类感知之间的自然对应关系。
Conclusion: 人类水平的3D感知可以从简单、可扩展的自然视觉-空间数据学习目标中涌现。研究提供了代码、人类行为数据和实验刺激，支持结果复现。

[49] When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs

Yu Fang,Yuchun Feng,Dong Jing,Jiaqi Liu,Yue Yang,Zhenyu Wei,Daniel Szafir,Mingyu Ding

Main category: cs.CV

TL;DR: 提出LIBERO-CF基准测试评估VLA模型的语言跟随能力，发现反事实失败普遍存在，并提出无需额外训练即可提升性能的CAG方法

Motivation: 当前视觉-语言-动作模型在实际应用中经常无法忠实跟随语言指令，当遇到缺乏场景特定监督的指令时，会产生反事实失败——基于数据集偏见导致的视觉捷径采取行动，重复执行训练中常见的行为而忽略语言意图
Method: 提出Counterfactual Action Guidance方法：采用双分支推理架构，结合标准VLA策略和语言无关的视觉-动作模块，在动作选择时进行反事实比较，减少对视觉捷径的依赖
Result: 在LIBERO-CF基准上，CAG将语言跟随准确率提升9.7%，任务成功率提升3.6%；结合VA模型后分别提升15.5%和8.5%。真实世界评估中减少9.4%的反事实失败，平均任务成功率提升17.2%
Conclusion: 反事实失败是VLA模型中被忽视但普遍存在的问题，提出的CAG方法无需额外演示或修改现有架构，即可有效提升模型的语言跟随能力和任务成功率

[50] OpenEarthAgent: A Unified Framework for Tool-Augmented Geospatial Agents

Akashah Shabbir,Muhammad Umer Sheikh,Muhammad Akhtar Munir,Hiyam Debary,Mustansar Fiaz,Muhammad Zaigham Zaheer,Paolo Fraccaro,Fahad Shahbaz Khan,Muhammad Haris Khan,Xiao Xiang Zhu,Salman Khan

Main category: cs.CV

TL;DR: OpenEarthAgent是一个用于地理空间分析的多模态智能体框架，通过工具增强和监督微调在卫星影像和自然语言查询上进行训练，实现结构化地理空间推理。

Motivation: 将多模态推理能力扩展到遥感领域面临挑战，因为模型需要在空间尺度、地理结构和多光谱指数上进行推理，同时保持连贯的多步逻辑。现有方法难以处理这些复杂的地理空间分析任务。
Method: 提出统一的工具增强地理空间智能体框架，基于监督微调在结构化推理轨迹上进行训练。训练数据包含卫星影像、自然语言查询和详细推理轨迹，涵盖GIS操作和NDVI、NBR、NDBI等指数分析。
Result: 构建了包含14,538个训练实例和1,169个评估实例的数据集，训练集有超过100K推理步骤，评估集有超过7K推理步骤。智能体表现出结构化推理、稳定的空间理解和可解释的行为，在多个基准测试中优于强基线模型。
Conclusion: OpenEarthAgent成功地将多模态推理能力扩展到遥感领域，通过工具增强和监督微调实现了复杂地理空间分析任务的结构化推理，为地理空间智能体开发提供了统一框架。

cs.RO

[51] MALLVI: a multi agent framework for integrated generalized robotics manipulation

Iman Ahmadi,Mehrshad Taji,Arad Mahdinezhad Kashani,AmirHossein Jadidi,Saina Kashani,Babak Khalaj

Main category: cs.RO

TL;DR: MALLVi是一个多智能体大语言视觉框架，通过闭环反馈驱动的机器人操作，使用专门智能体协调感知、定位、推理和规划，提高零样本操作任务的成功率。

Motivation: 现有基于大语言模型的机器人任务规划方法通常依赖专用模型、微调或提示调优，且以开环方式运行，缺乏鲁棒的环境反馈，在动态环境中表现脆弱。
Method: MALLVi采用多智能体架构，包括分解器、定位器、思考器、反射器和可选的描述器。给定自然语言指令和环境图像，生成可执行的原子动作，执行后通过视觉语言模型评估环境反馈，决定重复过程或进入下一步。反射器支持针对性错误检测和恢复，仅重新激活相关智能体，避免完全重新规划。
Result: 在仿真和真实世界环境中的实验表明，迭代闭环多智能体协调提高了泛化能力，并增加了零样本操作任务的成功率。
Conclusion: MALLVi通过多智能体协调和闭环反馈机制，为动态环境中的机器人操作任务提供了更鲁棒的解决方案，代码已开源。

[52] Benchmarking the Effects of Object Pose Estimation and Reconstruction on Robotic Grasping Success

Varun Burde,Pavel Burget,Torsten Sattler

Main category: cs.RO

TL;DR: 该论文提出了一个基于物理的大规模基准测试，用于评估6D姿态估计器和3D网格模型在机器人抓取任务中的功能效果，分析重建质量对下游操作性能的影响。

Motivation: 当前3D重建方法虽然能产生视觉和几何上令人印象深刻的网格，但标准的几何评估无法反映重建质量如何影响机器人操作等下游任务性能。需要填补这一空白。
Method: 引入大规模物理基准测试，通过在重建的3D网格上生成抓取姿态并在真实模型上执行，模拟不完美模型对真实物体交互的影响，评估姿态误差、抓取鲁棒性和几何不准确性。
Result: 重建伪影显著减少抓取姿态候选数量，但在姿态准确估计时对抓取性能影响可忽略。抓取成功与姿态误差的关系主要由空间误差主导，简单的平移误差也能反映对称物体抓取姿态的成功率。
Conclusion: 该工作揭示了感知系统与机器人物体操作之间的关系，为评估3D重建和姿态估计在功能性机器人任务中的效果提供了新视角。

[53] FR-GESTURE: An RGBD Dataset For Gesture-based Human-Robot Interaction In First Responder Operations

Konstantinos Foteinos,Georgios Angelidis,Aggelos Psiris,Vasileios Argyriou,Panagiotis Sarigiannidis,Georgios Th. Papadopoulos

Main category: cs.RO

TL;DR: 本文提出了首个专门为急救人员手势控制无人地面车辆设计的数据集FR-GESTURE，包含12种手势命令、3312个RGBD图像对，并提供了评估协议和基线实验。

Motivation: 灾难日益频繁和严重，增加了急救人员的工作难度。人工智能和机器人解决方案可以辅助急救人员操作，但缺乏专门为急救人员手势控制无人地面车辆设计的数据集。
Method: 1) 设计12种手势命令，参考现有急救人员手势和战术手语，并融入经验丰富的急救人员反馈；2) 从2个视角和7个距离收集3312个RGBD图像对；3) 定义评估协议并进行基线实验。
Result: 创建了首个专门用于急救人员手势控制UGV的数据集FR-GESTURE，包含12种手势命令、3312个RGBD图像对，数据已公开可用。基线实验结果为后续研究提供了改进基础。
Conclusion: FR-GESTURE数据集填补了急救人员手势控制UGV领域的数据空白，为未来研究提供了基准，有望促进人工智能和机器人技术在急救场景中的应用。

cs.AI

[54] Texo: Formula Recognition within 20M Parameters

Sicheng Mao

Main category: cs.AI

TL;DR: Texo是一个仅2000万参数的轻量级公式识别模型，通过精心设计、蒸馏和词汇迁移，性能媲美SOTA模型，但模型大小减少65-80%，支持消费级硬件实时推理和浏览器部署。

Motivation: 现有公式识别模型通常参数量大，需要高性能硬件，限制了在消费级设备和浏览器中的部署。需要开发轻量级但高性能的模型，实现实时推理和广泛可访问性。
Method: 采用注意力机制设计、知识蒸馏技术，并迁移词汇表和分词器。通过精心设计的架构优化，将模型参数控制在2000万以内，同时保持高性能。
Result: Texo在性能上可与UniMERNet-T和PPFormulaNet-S等SOTA模型相媲美，同时模型大小分别减少了80%和65%。实现了消费级硬件上的实时推理，并可部署在浏览器中。
Conclusion: Texo证明了通过精心设计和优化，可以创建极小但高性能的公式识别模型，为消费级设备和浏览器部署提供了可行方案，并通过Web应用展示了其实用性。

math.NA

[55] Application and Evaluation of the Common Circles Method

Michael Quellmalz,Mia Kvåle Løvmo,Simon Moser,Franziska Strasser,Monika Ritsch-Marte

Main category: math.NA

TL;DR: 该论文研究了在亚毫米级生物组织光学衍射层析成像中，应用公共圆方法估计样本运动，通过傅里叶空间中Ewald球面交点识别旋转运动，结合时间一致性约束实现稳定重建。

Motivation: 在光学衍射层析成像中，当样本通过无接触声学力场约束时，需要从捕获的图像中估计样本的运动。传统方法计算成本高，需要更高效的替代方案。
Method: 采用公共圆方法，通过识别傅里叶空间中Ewald球面的交点来确定旋转运动。实现了一个实用框架，加入了时间一致性约束以提高重建稳定性。
Result: 在模拟和真实数据上的结果表明，公共圆方法为运动检测提供了计算效率高的替代方案，相比完整优化方法具有显著优势。
Conclusion: 公共圆方法是一种实用且计算高效的样本运动估计技术，特别适用于声学力场约束下的生物组织光学衍射层析成像。

cs.LG

[56] Sign Lock-In: Randomly Initialized Weight Signs Persist and Bottleneck Sub-Bit Model Compression

Akira Sakai,Yuma Ichikawa

Main category: cs.LG

TL;DR: 论文提出"符号锁定"理论，解释为什么神经网络权重符号在训练中很少翻转，并基于此开发了减少符号翻转率的方法。

Motivation: 在亚比特模型压缩中，权重大小被高度压缩时，符号位成为固定成本瓶颈。研究发现神经网络权重的符号矩阵难以低秩近似，且与随机符号矩阵难以区分，但大多数权重保持初始化时的符号，符号翻转主要通过接近零值的边界交叉发生。
Method: 提出符号锁定理论，通过停止时间分析SGD噪声下的符号翻转行为。基于此机制，引入了基于间隔的初始化和轻量级向外漂移正则化器，以减少有效翻转率。
Result: 提出的方法将有效翻转率降低到约10^{-3}，同时困惑度仅增加约1个点。
Conclusion: 神经网络权重符号的随机性主要继承自初始化，通过理解符号锁定机制可以设计有效的初始化方法和正则化策略，显著减少符号翻转，这对模型压缩具有重要意义。

[57] Unified Latents (UL): How to train your latents

Jonathan Heek,Emiel Hoogeboom,Thomas Mensink,Tim Salimans

Main category: cs.LG

TL;DR: UL框架通过扩散先验和扩散解码器联合正则化学习潜在表示，在ImageNet-512上达到FID 1.4，在Kinetics-600上创下FVD 1.3的新SOTA

Motivation: 提出一种学习潜在表示的新框架，旨在通过联合正则化获得紧凑的潜在表示，同时保持高质量的重建能力，减少训练计算成本
Method: Unified Latents框架：将编码器输出噪声与先验的最小噪声水平连接，获得简单的训练目标，为潜在比特率提供严格上界；使用扩散先验进行联合正则化，扩散模型进行解码
Result: ImageNet-512上FID达到1.4，具有高重建质量（PSNR），比在Stable Diffusion潜在空间训练的模型需要更少训练FLOPs；Kinetics-600上创下FVD 1.3的新SOTA
Conclusion: UL框架通过联合正则化有效学习潜在表示，在图像和视频生成任务上都取得优异性能，同时计算效率更高

[58] The Sound of Death: Deep Learning Reveals Vascular Damage from Carotid Ultrasound

Christoph Balada,Aida Romano-Martinez,Payal Varshney,Vincent ten Cate,Katharina Geschke,Jonas Tesarz,Paul Claßen,Alexander K. Schuster,Dativa Tibyampansha,Karl-Patrik Kresoja,Philipp S. Wild,Sheraz Ahmed,Andreas Dengel

Main category: cs.LG

TL;DR: 利用机器学习从颈动脉超声视频中提取血管损伤表征，作为心血管风险评估工具，性能优于传统风险模型

Motivation: 心血管疾病是全球主要死因，但早期风险检测受限于现有诊断方法。颈动脉超声作为非侵入性、广泛可及的检查，蕴含大量未充分利用的结构和血流动力学信息
Method: 提出机器学习框架，从颈动脉超声视频中提取血管损伤的临床意义表征，使用高血压作为弱代理标签。模型学习具有生物学合理性、可解释性的稳健特征
Result: 高血管损伤评分能有效分层心肌梗死、心源性死亡和全因死亡风险，匹配或优于SCORE2等传统风险模型。可解释AI分析显示模型依赖血管形态和血管周围组织特征
Conclusion: 常规颈动脉超声包含比先前认识更多的预后信息。该方法为人群心血管风险评估提供了可扩展、非侵入性、成本效益高的工具，无需依赖实验室检查或复杂临床输入

[59] Pushing the Frontier of Black-Box LVLM Attacks via Fine-Grained Detail Targeting

Xiaohan Zhao,Zhaoyi Li,Yaxin Luo,Jiacheng Cui,Zhiqiang Shen

Main category: cs.LG

TL;DR: M-Attack-V2通过多裁剪对齐、辅助目标对齐和补丁动量等模块，显著提升了针对大型视觉语言模型的黑盒对抗攻击成功率。

Motivation: 现有基于迁移的攻击方法（如M-Attack）在源图像和目标图像的局部裁剪匹配中会产生高方差、近乎正交的梯度，破坏了局部对齐的连贯性并导致优化不稳定。这源于ViT的平移敏感性和源目标裁剪之间的结构不对称性。
Method: 1. 多裁剪对齐（MCA）：在每次迭代中从多个独立采样的局部视角平均梯度以降低方差；2. 辅助目标对齐（ATA）：用语义相关分布的小型辅助集替换激进的目标增强，产生更平滑、低方差的目标流形；3. 补丁动量：重放历史裁剪梯度；4. 改进的补丁大小集成（PE+）。这些模块共同构成了M-Attack-V2。
Result: 在多个前沿LVLM上显著提升了攻击成功率：Claude-4.0从8%提升到30%，Gemini-2.5-Pro从83%提升到97%，GPT-5从98%提升到100%，超越了先前的黑盒LVLM攻击方法。
Conclusion: M-Attack-V2作为M-Attack的简单模块化增强，通过解决梯度方差和结构不对称问题，有效提升了针对大型视觉语言模型的黑盒对抗攻击性能，为LVLM的安全性评估提供了更强大的工具。

q-bio.NC

[60] Probability-Invariant Random Walk Learning on Gyral Folding-Based Cortical Similarity Networks for Alzheimer's and Lewy Body Dementia Diagnosis

Minheng Chen,Jing Zhang,Tong Chen,Chao Cao,Tianming Liu,Li Su,Dajiang Zhu

Main category: q-bio.NC

TL;DR: 提出概率不变随机游走框架，用于分类个体化脑回折叠网络，无需显式节点对齐，在阿尔茨海默病和路易体痴呆诊断中优于现有方法

Motivation: 阿尔茨海默病和路易体痴呆有重叠临床特征但需要不同诊断策略。基于图谱的脑网络分析可能掩盖个体解剖差异，而基于脑回折叠的网络（特别是三铰回）虽然提供生物学基础，但个体间皮层折叠变异导致节点对应不一致和网络大小不规则，违反现有图学习方法对固定拓扑和节点对齐的假设，在临床数据集中病理变化进一步放大解剖异质性
Method: 提出概率不变随机游走框架：1）从局部形态特征构建皮层相似性网络；2）用匿名随机游走分布表示网络；3）采用保持排列不变性的解剖感知编码；4）无需显式节点对齐即可分类个体化脑回折叠网络
Result: 在大型AD和LBD临床队列实验中，该方法相比现有脑回折叠和基于图谱的模型表现出一致的改进，展示了在痴呆诊断中的鲁棒性和潜力
Conclusion: 提出的概率不变随机游走框架能够有效处理个体化脑回折叠网络的异质性，无需节点对齐，在痴呆诊断中优于传统方法，为神经退行性疾病诊断提供了有前景的新方法

eess.SP

[61] Neural Implicit Representations for 3D Synthetic Aperture Radar Imaging

Nithin Sugavanam,Emre Ertin

Main category: eess.SP

TL;DR: 该论文提出使用神经隐式表示（如符号距离函数）来建模SAR图像中的表面散射，通过正则化方法从稀疏散射数据中学习平滑表面，在3D SAR成像中取得先进结果。

Motivation: 传统SAR成像中，由于3D傅里叶空间采样不完整，导致重建图像存在显著伪影。传统方法使用简单的图像域稀疏性先验进行正则化，但效果有限。需要更先进的模型来处理表面散射占主导的SAR回波。
Method: 采用神经结构（神经隐式表示）来建模表面散射，将物体表面编码为从稀疏散射数据中学习的符号距离函数。通过训练过程中从隐式表面表示中采样点来正则化表面估计，解决从稀疏噪声点云估计平滑表面的不适定问题。
Result: 在单个车辆和包含大量车辆的大场景的实测和模拟数据上，证明了该模型能够有效表示目标散射，在3D SAR成像中取得了最先进的结果。
Conclusion: 未来研究方向是学习复值神经表示，以便从体积神经隐式表示中合成新的采集数据，进一步提升SAR成像能力。

cs.CV ​

[1] Three-dimensional Damage Visualization of Civil Structures via Gaussian Splatting-enabled Digital Twins ​

[2] Analytic Score Optimization for Multi Dimension Video Quality Assessment ​

[3] DODO: Discrete OCR Diffusion Models ​

[4] StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation ​

[5] SemCovNet: Towards Fair and Semantic Coverage-Aware Learning for Underrepresented Visual Concepts ​

[6] Xray-Visual Models: Scaling Vision models on Industry Scale Data ​

[7] HS-3D-NeRF: 3D Surface and Hyperspectral Reconstruction From Stationary Hyperspectral Images Using Multi-Channel NeRFs ​

[8] DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers ​

[9] Characterizing the Predictive Impact of Modalities with Supervised Latent-Variable Modeling ​

[10] Patch-Based Spatial Authorship Attribution in Human-Robot Collaborative Paintings ​

[11] PartRAG: Retrieval-Augmented Part-Level 3D Generation and Editing ​

[12] Amber-Image: Efficient Compression of Large-Scale Diffusion Transformers ​

[13] StructCore: Structure-Aware Image-Level Scoring for Training-Free Unsupervised Anomaly Detection ​

[14] Cholec80-port: A Geometrically Consistent Trocar Port Segmentation Dataset for Robust Surgical Scene Understanding ​

[15] Cross Pseudo Labeling For Weakly Supervised Video Anomaly Detection ​

[16] ComptonUNet: A Deep Learning Model for GRB Localization with Compton Cameras under Noisy and Low-Statistic Conditions ​

[17] 3D Scene Rendering with Multimodal Gaussian Splatting ​

[18] B3-Seg: Camera-Free, Training-Free 3DGS Segmentation via Analytic EIG and Beta-Bernoulli Bayesian Updates ​

[19] BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning ​

[20] NRGS-SLAM: Monocular Non-Rigid SLAM for Endoscopy via Deformation-Aware 3D Gaussian Splatting ​

[21] Selective Training for Large Vision Language Models via Visual Information Gain ​

[22] EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models ​

[23] GASS: Geometry-Aware Spherical Sampling for Disentangled Diversity Enhancement in Text-to-Image Generation ​

[24] HiMAP: History-aware Map-occupancy Prediction with Fallback ​

[25] Inferring Height from Earth Embeddings: First insights using Google AlphaEarth ​

[26] A Multi-modal Detection System for Infrastructure-based Freight Signal Priority ​

[27] EA-Swin: An Embedding-Agnostic Swin Transformer for AI-Generated Video Detection ​

[28] Physics Encoded Spatial and Temporal Generative Adversarial Network for Tropical Cyclone Image Super-resolution ​

[29] Attachment Anchors: A Novel Framework for Laparoscopic Grasping Point Prediction in Colorectal Surgery ​

[30] Leveraging Contrastive Learning for a Similarity-Guided Tampered Document Data Generation Pipeline ​

[31] Polaffini: A feature-based approach for robust affine and polyaffine image registration ​

[32] Tree crop mapping of South America reveals links to deforestation and conservation ​

[33] DRetHTR: Linear-Time Decoder-Only Retentive Network for Handwritten Text Recognition ​

[34] SpectralGCD: Spectral Concept Selection and Cross-modal Representation Learning for Generalized Category Discovery ​

[35] A High-Level Survey of Optical Remote Sensing ​

[36] EAGLE: Expert-Augmented Attention Guidance for Tuning-Free Industrial Anomaly Detection in Multimodal Large Language Models ​

[37] 4D Monocular Surgical Reconstruction under Arbitrary Camera Motions ​

[38] QuPAINT: Physics-Aware Instruction Tuning Approach to Quantum Material Discovery ​

[39] Tracing Copied Pixels and Regularizing Patch Affinity in Copy Detection ​

[40] FoundationPose-Initialized 3D-2D Liver Registration for Surgical Augmented Reality ​

[41] LATA: Laplacian-Assisted Transductive Adaptation for Conformal Uncertainty in Medical VLMs ​

[42] GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking ​

[43] RetouchIQ: MLLM Agents for Instruction-Based Image Retouching with Generalist Reward ​

[44] Art2Mus: Artwork-to-Music Generation via Visual Conditioning and Large-Scale Cross-Modal Alignment ​

[45] Adapting Actively on the Fly: Relevance-Guided Online Meta-Learning with Latent Concepts for Geospatial Discovery ​

[46] CORAL: Correspondence Alignment for Improved Virtual Try-On ​

[47] IntRec: Intent-based Retrieval with Contrastive Refinement ​

[48] Human-level 3D shape perception emerges from multi-view learning ​

[49] When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs ​

[50] OpenEarthAgent: A Unified Framework for Tool-Augmented Geospatial Agents ​

cs.RO ​

[51] MALLVI: a multi agent framework for integrated generalized robotics manipulation ​

[52] Benchmarking the Effects of Object Pose Estimation and Reconstruction on Robotic Grasping Success ​

[53] FR-GESTURE: An RGBD Dataset For Gesture-based Human-Robot Interaction In First Responder Operations ​

cs.AI ​

[54] Texo: Formula Recognition within 20M Parameters ​

math.NA ​

[55] Application and Evaluation of the Common Circles Method ​

cs.LG ​

[56] Sign Lock-In: Randomly Initialized Weight Signs Persist and Bottleneck Sub-Bit Model Compression ​

[57] Unified Latents (UL): How to train your latents ​

[58] The Sound of Death: Deep Learning Reveals Vascular Damage from Carotid Ultrasound ​

[59] Pushing the Frontier of Black-Box LVLM Attacks via Fine-Grained Detail Targeting ​

q-bio.NC ​

[60] Probability-Invariant Random Walk Learning on Gyral Folding-Based Cortical Similarity Networks for Alzheimer's and Lewy Body Dementia Diagnosis ​

eess.SP ​

[61] Neural Implicit Representations for 3D Synthetic Aperture Radar Imaging ​

cs.CV

[1] Three-dimensional Damage Visualization of Civil Structures via Gaussian Splatting-enabled Digital Twins

[2] Analytic Score Optimization for Multi Dimension Video Quality Assessment

[3] DODO: Discrete OCR Diffusion Models

[4] StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation

[5] SemCovNet: Towards Fair and Semantic Coverage-Aware Learning for Underrepresented Visual Concepts

[6] Xray-Visual Models: Scaling Vision models on Industry Scale Data

[7] HS-3D-NeRF: 3D Surface and Hyperspectral Reconstruction From Stationary Hyperspectral Images Using Multi-Channel NeRFs

[8] DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

[9] Characterizing the Predictive Impact of Modalities with Supervised Latent-Variable Modeling

[10] Patch-Based Spatial Authorship Attribution in Human-Robot Collaborative Paintings

[11] PartRAG: Retrieval-Augmented Part-Level 3D Generation and Editing

[12] Amber-Image: Efficient Compression of Large-Scale Diffusion Transformers

[13] StructCore: Structure-Aware Image-Level Scoring for Training-Free Unsupervised Anomaly Detection

[14] Cholec80-port: A Geometrically Consistent Trocar Port Segmentation Dataset for Robust Surgical Scene Understanding

[15] Cross Pseudo Labeling For Weakly Supervised Video Anomaly Detection

[16] ComptonUNet: A Deep Learning Model for GRB Localization with Compton Cameras under Noisy and Low-Statistic Conditions

[17] 3D Scene Rendering with Multimodal Gaussian Splatting

[18] B $^{3}$ -Seg: Camera-Free, Training-Free 3DGS Segmentation via Analytic EIG and Beta-Bernoulli Bayesian Updates

[19] BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning

[20] NRGS-SLAM: Monocular Non-Rigid SLAM for Endoscopy via Deformation-Aware 3D Gaussian Splatting

[21] Selective Training for Large Vision Language Models via Visual Information Gain

[22] EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

[23] GASS: Geometry-Aware Spherical Sampling for Disentangled Diversity Enhancement in Text-to-Image Generation

[24] HiMAP: History-aware Map-occupancy Prediction with Fallback

[25] Inferring Height from Earth Embeddings: First insights using Google AlphaEarth

[26] A Multi-modal Detection System for Infrastructure-based Freight Signal Priority

[27] EA-Swin: An Embedding-Agnostic Swin Transformer for AI-Generated Video Detection

[28] Physics Encoded Spatial and Temporal Generative Adversarial Network for Tropical Cyclone Image Super-resolution

[29] Attachment Anchors: A Novel Framework for Laparoscopic Grasping Point Prediction in Colorectal Surgery

[30] Leveraging Contrastive Learning for a Similarity-Guided Tampered Document Data Generation Pipeline

[31] Polaffini: A feature-based approach for robust affine and polyaffine image registration

[32] Tree crop mapping of South America reveals links to deforestation and conservation

[33] DRetHTR: Linear-Time Decoder-Only Retentive Network for Handwritten Text Recognition

[34] SpectralGCD: Spectral Concept Selection and Cross-modal Representation Learning for Generalized Category Discovery

[35] A High-Level Survey of Optical Remote Sensing

[36] EAGLE: Expert-Augmented Attention Guidance for Tuning-Free Industrial Anomaly Detection in Multimodal Large Language Models

[37] 4D Monocular Surgical Reconstruction under Arbitrary Camera Motions

[38] QuPAINT: Physics-Aware Instruction Tuning Approach to Quantum Material Discovery

[39] Tracing Copied Pixels and Regularizing Patch Affinity in Copy Detection

[40] FoundationPose-Initialized 3D-2D Liver Registration for Surgical Augmented Reality

[41] LATA: Laplacian-Assisted Transductive Adaptation for Conformal Uncertainty in Medical VLMs

[42] GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking

[43] RetouchIQ: MLLM Agents for Instruction-Based Image Retouching with Generalist Reward

[44] Art2Mus: Artwork-to-Music Generation via Visual Conditioning and Large-Scale Cross-Modal Alignment

[45] Adapting Actively on the Fly: Relevance-Guided Online Meta-Learning with Latent Concepts for Geospatial Discovery

[46] CORAL: Correspondence Alignment for Improved Virtual Try-On

[47] IntRec: Intent-based Retrieval with Contrastive Refinement

[48] Human-level 3D shape perception emerges from multi-view learning

[49] When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs

[50] OpenEarthAgent: A Unified Framework for Tool-Augmented Geospatial Agents

cs.RO

[51] MALLVI: a multi agent framework for integrated generalized robotics manipulation

[52] Benchmarking the Effects of Object Pose Estimation and Reconstruction on Robotic Grasping Success

[53] FR-GESTURE: An RGBD Dataset For Gesture-based Human-Robot Interaction In First Responder Operations

cs.AI

[54] Texo: Formula Recognition within 20M Parameters

math.NA

[55] Application and Evaluation of the Common Circles Method

cs.LG

[56] Sign Lock-In: Randomly Initialized Weight Signs Persist and Bottleneck Sub-Bit Model Compression

[57] Unified Latents (UL): How to train your latents

[58] The Sound of Death: Deep Learning Reveals Vascular Damage from Carotid Ultrasound

[59] Pushing the Frontier of Black-Box LVLM Attacks via Fine-Grained Detail Targeting

q-bio.NC

[60] Probability-Invariant Random Walk Learning on Gyral Folding-Based Cortical Similarity Networks for Alzheimer's and Lewy Body Dementia Diagnosis

eess.SP

[61] Neural Implicit Representations for 3D Synthetic Aperture Radar Imaging