每日arXiv - 2026年2月19日 | Egg Targaryen的个人博客

以下论文的arXiv类型标签包含：cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Egocentric Bias in Vision-Language Models

Maijunxian Wang,Yijiang Li,Bingyang Wang,Tianwei Zhao,Ran Ji,Qingying Gao,Emmy Liu,Hokin Deng,Dezhi Luo

Main category: cs.CV

TL;DR: FlipSet是一个用于评估视觉语言模型(L2 VPT)能力的诊断基准，要求模拟2D字符串的180度旋转。测试发现大多数模型存在系统性自我中心偏差，表现低于随机水平。

Motivation: 视觉视角采择是社会认知的基础，但当前视觉语言模型在这方面的能力尚不清楚。需要建立一个诊断性基准来评估模型的空间推理和社会认知整合能力。
Method: 开发FlipSet基准，要求模型从另一个智能体的视角模拟2D字符字符串的180度旋转，将空间变换与3D场景复杂性分离。评估了103个视觉语言模型，并进行控制实验分析。
Result: 大多数模型表现出系统性自我中心偏差：约四分之三的错误复制了相机视角，表现低于随机水平。模型在单独的心智理论和心理旋转任务中表现良好，但在需要整合时却失败，显示出组合性缺陷。
Conclusion: 当前视觉语言模型缺乏将社会意识与空间操作结合的机制，存在基于模型的空间推理的根本限制。FlipSet为诊断多模态系统的视角采择能力提供了认知基础测试平台。

[2] Detecting Deepfakes with Multivariate Soft Blending and CLIP-based Image-Text Alignment

Jingwei Li,Jiaxin Tong,Pengfei Wu

Main category: cs.CV

TL;DR: 提出MSBA-CLIP框架，通过CLIP引导的伪造强度估计和多变量软混合增强，提升深度伪造检测的准确性和泛化能力。

Motivation: 现有深度伪造检测方法面临准确率有限和泛化能力差的问题，主要原因是不同伪造技术生成的样本存在显著分布偏移。
Method: 1. 利用CLIP的多模态对齐能力捕捉细微伪造痕迹；2. 提出多变量软混合增强(MSBA)策略，通过随机权重混合多种伪造方法生成的图像，迫使模型学习泛化模式；3. 设计多变量伪造强度估计(MFIE)模块，显式指导模型学习不同伪造模式和强度的特征。
Result: 在域内测试中，准确率和AUC分别比最佳基线提升3.32%和4.02%；在跨五个数据集的域外评估中，平均AUC提升3.27%；消融研究证实了两个组件的有效性。
Conclusion: 虽然依赖大型视觉语言模型带来更高计算成本，但该工作为实现更泛化和鲁棒的深度伪造检测迈出了重要一步。

[3] A Comprehensive Survey on Deep Learning-Based LiDAR Super-Resolution for Autonomous Driving

June Moh Goo,Zichao Zeng,Jan Boehm

Main category: cs.CV

TL;DR: 激光雷达超分辨率技术通过深度学习增强稀疏点云，填补不同传感器之间的性能差距，实现自动驾驶中的跨传感器兼容性。

Motivation: 高分辨率激光雷达成本高昂，而低成本低分辨率传感器产生的稀疏点云会丢失关键细节。激光雷达超分辨率技术旨在解决这一挑战，实现不同传感器类型之间的兼容性，促进自动驾驶的实际部署。
Method: 将现有方法分为四类：基于CNN的架构、基于模型的深度展开方法、隐式表示方法，以及基于Transformer和Mamba的方法。建立了包括数据表示、问题公式化、基准数据集和评估指标在内的基本概念。
Result: 当前趋势包括采用距离图像表示以提高处理效率、极端模型压缩以及开发分辨率灵活的架构。最新研究优先考虑实时推理和跨传感器泛化能力，以促进实际部署。
Conclusion: 这是首个针对自动驾驶激光雷达超分辨率方法的全面综述。文章识别了开放挑战和未来研究方向，以推动激光雷达超分辨率技术的发展。

[4] MaS-VQA: A Mask-and-Select Framework for Knowledge-Based Visual Question Answering

Xianwei Mao,Kai Ye,Sheng Zhou,Nan Zhang,Haikuan Huang,Bin Li,Jiajun Bu

Main category: cs.CV

TL;DR: MaS-VQA提出选择驱动框架，通过Mask-and-Select机制过滤噪声知识，在受限语义空间中激活内部知识，提升KB-VQA性能。

Motivation: KB-VQA中检索的外部知识通常包含噪声、部分不相关或与视觉内容不对齐，而内部模型知识难以控制和解释，简单的知识聚合限制了推理效果和答案准确性。
Method: 提出MaS-VQA框架：1）检索候选段落；2）应用Mask-and-Select机制联合修剪不相关图像区域和弱相关知识片段，生成紧凑的高信号多模态知识；3）在受限语义空间中用过滤知识引导内部知识激活，实现显式和隐式知识的互补协同建模。
Result: 在Encyclopedic-VQA和InfoSeek数据集上的实验显示，该方法在多个MLLM骨干网络上取得一致的性能提升，消融实验验证选择机制有效减少噪声并增强知识利用。
Conclusion: MaS-VQA通过紧密耦合显式知识过滤和隐式知识推理，解决了KB-VQA中的知识噪声和对齐问题，提高了知识利用效率和答案准确性。

[5] EarthSpatialBench: Benchmarking Spatial Reasoning Capabilities of Multimodal LLMs on Earth Imagery

Zelin Xu,Yupu Zhang,Saugat Adhikari,Saiful Islam,Tingsong Xiao,Zibo Liu,Shigang Chen,Da Yan,Zhe Jiang

Main category: cs.CV

TL;DR: 提出了EarthSpatialBench，一个用于评估多模态大语言模型在地球影像上空间推理能力的综合基准，包含超过32.5万个问答对，涵盖距离方向推理、拓扑关系、复杂几何对象等维度。

Motivation: 现有地球影像基准主要关注2D空间定位、图像描述和粗略空间关系，缺乏对定量方向距离推理、系统拓扑关系和复杂几何对象（如多边形、折线）的支持。由于空间推理对具身AI和智能体系统与物理世界精确交互至关重要，需要填补这一空白。
Method: 构建了EarthSpatialBench基准，包含超过325K个问答对，涵盖四个维度：1）空间距离和方向的定性与定量推理；2）系统拓扑关系；3）单对象查询、对象对查询和组合聚合组查询；4）通过文本描述、视觉叠加和显式几何坐标（包括2D边界框、折线和多边形）的对象引用。
Result: 通过对开源和专有模型进行广泛实验，识别了MLLMs在空间推理方面的局限性，为评估和改进模型在地球影像上的空间推理能力提供了基准。
Conclusion: EarthSpatialBench填补了地球影像空间推理评估的空白，为MLLMs在地球影像上的空间推理能力提供了全面评估框架，有助于推动具身AI和智能体系统的发展。

[6] A Study on Real-time Object Detection using Deep Learning

Ankita Bose,Jayasravani Bhumireddy,Naveen N

Main category: cs.CV

TL;DR: 本文综述了深度学习在实时目标检测中的应用，介绍了主流算法（如Faster R-CNN、YOLO、SSD等）、基准数据集、应用领域，并通过对比研究提供见解，最后提出未来研究方向。

Motivation: 目标检测在众多领域（人机交互、安防监控、自动驾驶、医疗健康、AR/VR等）有广泛应用，实时目标检测能提供动态视觉信息分析以支持即时决策。深度学习算法的发展为目标检测提供了更准确高效的解决方案，需要系统综述其应用现状和未来方向。
Method: 文章采用综述研究方法，详细探讨深度学习算法在实时目标检测中的应用，包括：1）介绍主流目标检测模型（Faster R-CNN、Mask R-CNN、Cascade R-CNN、YOLO、SSD、RetinaNet等）；2）分析公开基准数据集；3）研究目标检测模型在不同领域的应用案例；4）通过对照研究比较不同策略。
Result: 文章提供了深度学习在实时目标检测领域的全面综述，包括各种模型的性能特点、应用场景分析，以及通过对照研究得出的有启发性的发现。这些结果为研究人员和实践者提供了有价值的参考。
Conclusion: 深度学习显著提升了实时目标检测的性能，但该领域仍面临挑战。文章最后提出了未来研究方向，包括改进相关深度学习方法和目标识别技术，为后续研究提供了指导。

[7] Visual Memory Injection Attacks for Multi-Turn Conversations

Christian Schlarmann,Matthias Hein

Main category: cs.CV

TL;DR: 提出一种新型的视觉记忆注入攻击，通过操纵图像在长上下文多轮对话中操控大型视觉语言模型，使其在特定触发提示下输出预设的目标信息

Motivation: 虽然生成式大型视觉语言模型性能显著提升且用户快速增长，但其在多轮长上下文对话中的安全性研究不足。攻击者可通过上传被操纵图像到网络/社交媒体，当良性用户下载并使用该图像作为输入时，模型在正常提示下表现正常，但在特定触发提示下会输出预设的操控信息
Method: 提出视觉记忆注入攻击方法，攻击者上传经过特殊设计的扰动图像到网络，用户下载后作为LVLM输入。攻击设计使得模型在正常提示下表现正常，但在特定触发提示下输出预设的目标信息，用于对抗性营销或政治说服等目的
Result: 在多个最新的开源权重LVLM上验证了攻击的有效性，证明即使在长时间多轮对话后攻击仍然有效，展示了通过扰动图像在大规模多轮对话场景中操控用户的可行性
Conclusion: 研究表明通过扰动图像在多轮对话场景中进行大规模用户操控是可行的，呼吁提高LVLM对这些攻击的鲁棒性，并开源了相关代码

[8] Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

Yuval Levental

Main category: cs.CV

TL;DR: 视觉语言模型在识别二进制网格中无文本标识的填充单元格时存在根本性缺陷，当单元格缺乏文本标识时，模型的空间定位能力严重下降。

Motivation: 揭示视觉语言模型在空间推理中的一个基本限制：当视觉元素缺乏文本标识时，模型无法准确识别和定位二进制网格中的填充单元格。
Method: 生成15个15x15的二进制网格（填充密度10.7%-41.8%），以两种图像类型呈现：文本符号（.和#）和无网格线的填充方块。使用三种前沿VLM（Claude Opus、ChatGPT 5.2、Gemini 3 Thinking）进行转录测试。
Result: 文本符号条件下，Claude和ChatGPT达到约91%单元格准确率和84% F1，Gemini为84%准确率和63% F1。填充方块条件下，所有模型准确率降至60-73%，F1降至29-39%。文本vs方块的F1差距达34-54个百分点。
Conclusion: 视觉语言模型似乎拥有用于空间推理的高保真文本识别通路，其性能远超原生视觉通路。所有模型在非文本视觉元素的空间定位上都存在严重缺陷，但表现出不同的失败模式。

[9] Position-Aware Scene-Appearance Disentanglement for Bidirectional Photoacoustic Microscopy Registration

Yiwen Wang,Jiahao Qin

Main category: cs.CV

TL;DR: GPEReg-Net：一种用于高速光学分辨率光声显微镜的双向扫描图像配准框架，通过场景-外观解耦和全局位置编码实现高精度配准，无需显式形变场估计。

Motivation: 高速光学分辨率光声显微镜的双向扫描虽然提高成像速度，但会引入域偏移和几何错位问题。现有方法受限于亮度恒定假设，配准质量有限；而生成方法虽然处理域偏移但缺乏跨帧的时间感知能力。
Method: 提出GPEReg-Net框架：1）通过自适应实例归一化（AdaIN）将域不变场景特征与域特定外观代码解耦，实现无需显式形变场估计的直接图像配准；2）引入全局位置编码模块，结合可学习位置嵌入、正弦编码和跨帧注意力，利用相邻帧的上下文信息提升时间一致性。
Result: 在OR-PAM-Reg-4K基准测试（432个测试样本）上，GPEReg-Net达到NCC 0.953、SSIM 0.932、PSNR 34.49dB，SSIM比现有最佳方法提升3.8%，PSNR提升1.99dB，同时保持有竞争力的NCC。
Conclusion: GPEReg-Net通过场景-外观解耦和全局位置编码，有效解决了高速光学分辨率光声显微镜双向扫描中的域偏移和几何错位问题，在配准精度和时间一致性方面显著优于现有方法。

[10] Automated Re-Identification of Holstein-Friesian Cattle in Dense Crowds

Phoenix Yu,Tilo Burghardt,Andrew W Dowsey,Neill W Campbell

Main category: cs.CV

TL;DR: 提出新的检测-分割-识别流水线，解决奶牛密集群聚时的检测失效问题，在真实农场数据上达到98.93%准确率

Motivation: 现有方法（包括YOLO）在奶牛密集群聚时检测失效，特别是对于具有轮廓破坏性斑纹的物种。需要提升在拥挤场景下的检测效果和可迁移性。
Method: 提出检测-分割-识别流水线，利用Open-Vocabulary Weight-free Localisation和Segment Anything模型作为预处理阶段，结合Re-ID网络。使用无监督对比学习进行重识别。
Result: 在真实农场9天CCTV数据上达到98.93%检测准确率，比现有方法提升47.52%和27.13%。重识别准确率达到94.82%，证明在拥挤场景下无需人工干预的可行性。
Conclusion: 提出的方法有效解决了密集动物群聚时的检测失效问题，在真实农场环境中实现了可靠的重识别，具有实用性和可重复性。

[11] Non-Contact Physiological Monitoring in Pediatric Intensive Care Units via Adaptive Masking and Self-Supervised Learning

Mohamed Khalil Ben Salah,Philippe Jouvet,Rita Noumeir

Main category: cs.CV

TL;DR: 提出基于VisionMamba的自监督预训练框架，用于PICU中的远程光电容积描记术，通过渐进课程策略和师生蒸馏，在临床遮挡和噪声下实现稳健的心率监测。

Motivation: PICU中传统接触式传感器可能导致皮肤刺激、感染风险增加和患者不适，而现有的远程光电容积描记术在PICU中应用受限，主要面临运动伪影、遮挡、光照变化以及实验室与临床数据之间的领域偏移等问题。
Method: 采用基于VisionMamba架构的自监督预训练框架，集成自适应掩码机制，通过轻量级Mamba控制器分配时空重要性分数来指导概率性补丁采样。采用师生蒸馏设置，利用在公共数据集上训练的监督专家模型提供潜在生理指导。课程分为三个阶段：清洁公共视频、合成遮挡场景和500名儿科患者的未标记视频。
Result: 与标准掩码自编码器相比，平均绝对误差降低42%，优于PhysFormer 31%，最终MAE达到3.2 bpm。无需显式提取感兴趣区域，模型能持续关注脉搏丰富区域，在临床遮挡和噪声下表现出稳健性。
Conclusion: 该自监督预训练框架通过渐进课程策略和师生蒸馏，有效解决了PICU中远程光电容积描记术的应用挑战，为儿科重症监护提供了无接触、稳健的生命体征监测方案。

[12] LAND: A Longitudinal Analysis of Neuromorphic Datasets

Gregory Cohen,Alexandre Marcireau

Main category: cs.CV

TL;DR: 本文综述了神经形态计算领域的数据集现状，分析了423个数据集存在的问题，包括缺乏标准化、访问困难、数据集规模增长过快以及合成数据集的潜在风险，并提出了元数据集的概念作为解决方案。

Motivation: 尽管神经形态数据集数量在过去十年快速增长，但许多研究仍指出需要更多更大规模的数据集。这种需求不仅源于深度学习对大量数据的要求，也由于现有数据集存在查找困难、目的不明确、任务定义不清、下载使用不便等问题。
Method: 本文首先对423个现有神经形态数据集进行系统性综述，分析其任务性质和数据结构。然后探讨数据集规模、标准化程度和访问难度等问题，特别关注合成数据集（通过模拟或视频转换方法创建）的增长趋势及其潜在风险。
Result: 分析显示神经形态数据集面临三大主要问题：1）数据集规模过大且缺乏标准化；2）实际数据访问困难；3）合成数据集快速增长可能带来算法测试偏差。同时发现数据集规模呈指数增长趋势，工作复杂度不断增加。
Conclusion: 本文提出元数据集的概念，通过从现有数据集构建新数据集，既能减少对新数据的需求，又能避免因同时定义数据集和任务而产生的潜在偏差。这为解决神经形态工程的数据问题提供了新思路。

[13] SAM 3D Body: Robust Full-Body Human Mesh Recovery

Xitong Yang,Devansh Kukreja,Don Pinkus,Anushka Sagar,Taosha Fan,Jinhyung Park,Soyong Shin,Jinkun Cao,Jiawei Liu,Nicolas Ugrinovic,Matt Feiszli,Jitendra Malik,Piotr Dollar,Kris Kitani

Main category: cs.CV

TL;DR: SAM 3D Body (3DB) 是一个基于提示的单图像全身3D人体网格恢复模型，采用新的参数化网格表示MHR，在野外条件下表现出最先进的性能和强大的泛化能力。

Motivation: 现有3D人体网格恢复方法在多样化的野外条件下泛化能力有限，需要更好的模型来处理复杂姿态和罕见成像条件，同时支持用户引导的推理。
Method: 使用新的参数化网格表示MHR（动量人体骨架），解耦骨骼结构和表面形状；采用编码器-解码器架构；支持2D关键点和掩码等辅助提示；通过多阶段标注流程获取高质量标注数据；构建数据引擎确保数据多样性。
Result: 在用户偏好研究和传统定量分析中都优于先前方法，表现出卓越的泛化能力；提供了按姿态和外观类别组织的新评估数据集；模型和数据表示均已开源。
Conclusion: 3DB是第一个使用MHR表示的单图像全身3D人体网格恢复模型，在多样化野外条件下实现了最先进的性能，支持提示式用户引导推理，具有良好的泛化能力。

[14] BTReport: A Framework for Brain Tumor Radiology Report Generation with Clinically Relevant Features

Juampablo E. Heras Rivera,Dickson T. Chen,Tianyi Ren,Daniel K. Low,Asma Ben Abacha,Alberto Santamaria-Pang,Mehmet Kurt

Main category: cs.CV

TL;DR: BTReport是一个用于脑肿瘤放射学报告生成的开源框架，通过确定性特征提取和LLM报告生成，避免幻觉并提高可解释性

Motivation: 神经肿瘤学领域缺乏开放的配对图像-报告数据集，限制了放射学报告生成的发展。现有方法依赖大型视觉语言模型，容易产生幻觉且缺乏可解释性。
Method: 将报告生成分为两个步骤：1）确定性特征提取进行图像分析；2）使用大型语言模型仅进行句法结构和叙事格式化。还创建了BTReport-BraTS数据集，为BraTS图像生成合成报告。
Result: 生成的特征能够预测关键临床结果（生存率和IDH突变状态），生成的报告比现有基线更接近参考临床报告。框架完全可解释且减少幻觉。
Conclusion: BTReport通过分离特征提取和报告生成，为脑肿瘤放射学报告生成提供了可解释、可靠的解决方案，并提供了开源框架和数据集促进该领域发展。

[15] MedProbCLIP: Probabilistic Adaptation of Vision-Language Foundation Model for Reliable Radiograph-Report Retrieval

Ahmad Elallaf,Yu Zhang,Yuktha Priya Masupalli,Jeong Yang,Young Lee,Zechun Cao,Gongbo Liang

Main category: cs.CV

TL;DR: MedProbCLIP是一个用于胸部X光和放射学报告的概率视觉语言学习框架，通过高斯嵌入建模不确定性，在检索和零样本分类方面优于现有方法，提高了放射学图像-文本检索系统的可信度和安全性。

Motivation: 现有的视觉语言基础模型虽然强大，但其确定性嵌入无法提供高风险生物医学应用所需的可靠性。放射学图像和临床叙述之间存在不确定性和多对多对应关系，需要能够明确捕捉这些特性的概率建模方法。
Method: 1. 使用高斯嵌入建模图像和文本表示；2. 采用概率对比目标捕捉不确定性和多对多对应关系；3. 引入变分信息瓶颈缓解过度自信预测；4. 训练时使用多视图X光编码和多部分报告编码提供细粒度监督；5. 推理时仅需单个X光和单个报告。
Result: 在MIMIC-CXR数据集上，MedProbCLIP在检索和零样本分类方面优于CLIP、CXR-CLIP和PCME++等确定性和概率基线方法。此外，模型表现出更好的校准性、风险覆盖行为、选择性检索可靠性以及对临床相关损坏的鲁棒性。
Conclusion: 概率视觉语言建模对于提高放射学图像-文本检索系统的可信度和安全性具有重要价值。MedProbCLIP通过明确建模不确定性，为高风险生物医学应用提供了更可靠的解决方案。

[16] LGQ: Learning Discretization Geometry for Scalable and Stable Image Tokenization

Idil Bilge Altun,Mert Onur Cakiroglu,Elham Buxton,Mehmet Dalkilic,Hasan Kurban

Main category: cs.CV

TL;DR: LGQ是一种可学习的几何量化方法，通过软分配和温度控制实现端到端训练，解决了现有量化器在几何灵活性和代码利用率之间的权衡问题。

Motivation: 现有图像离散化方法面临权衡：向量量化器几何灵活但存在优化偏差、代码利用率低和表示崩溃问题；结构化量化器利用率稳定但几何固定，无法适应异质潜在统计分布。
Method: LGQ用温度控制的软分配替代硬最近邻查找，实现完全可微分训练。结合token级峰值正则化和全局使用正则化，鼓励自信且平衡的代码利用，不依赖刚性网格。
Result: 在ImageNet上，16K代码本大小下，LGQ相比FSQ提升rFID 11.88%且使用代码减少49.96%；相比SimVQ提升rFID 6.06%且有效表示率降低49.45%，用更少活跃条目实现可比保真度。
Conclusion: LGQ通过学习离散化几何实现了稳定优化和平衡利用，在保持语义结构的同时有效利用离散容量，为可扩展视觉生成提供了更好的图像标记化方案。

[17] OmniCT: Towards a Unified Slice-Volume LVLM for Comprehensive CT Analysis

Tianwei Lin,Zhongwei Qiu,Wenqiao Zhang,Jiang Liu,Yihan Xie,Mingjian Gao,Zhenxuan Fan,Zhaocheng Li,Sijing Li,Zhongle Xie,Peng LU,Yueting Zhuang,Yingda Xia,Ling Zhang,Beng Chin Ooi

Main category: cs.CV

TL;DR: OmniCT是一个统一的切片-体积大型视觉语言模型，通过空间一致性增强和器官级语义增强技术，解决了现有CT分析中切片驱动与体积驱动模型分离的问题，在临床任务中表现优异。

Motivation: 现有大型视觉语言模型在CT分析中存在碎片化问题：切片驱动模型缺乏跨切片空间一致性，而体积驱动模型粒度粗糙且与切片输入兼容性差。这种缺乏统一建模范式的问题阻碍了医学LVLMs的临床转化。
Method: 提出了三个核心技术：(1) 空间一致性增强：结合体积切片组合与三轴位置嵌入引入体积一致性，使用MoE混合投影实现高效切片-体积适配；(2) 器官级语义增强：通过分割和ROI定位显式对齐解剖区域，强调病变和器官级语义；(3) MedEval-CT：最大的切片-体积CT数据集和混合基准，集成全面评估指标。
Result: OmniCT在多样化临床任务中始终大幅优于现有方法，同时满足微观细节敏感性和宏观空间推理需求，为跨模态医学影像理解建立了新范式。
Conclusion: OmniCT解决了CT分析中切片与体积理解的分离问题，通过统一建模实现了卓越的临床性能，为医学影像理解建立了新的跨模态范式。

[18] CHAI: CacHe Attention Inference for text2video

Joel Mathew Cherian,Ashutosh Muralidhara Bharadwaj,Vima Gupta,Anand Padmanabha Iyer

Main category: cs.CV

TL;DR: CHAI通过跨推理缓存和Cache Attention机制，在保持视频质量的同时将文本到视频生成速度提升1.65-3.35倍

Motivation: 现有文本到视频扩散模型推理速度慢，因为需要顺序去噪3D潜在表示。现有加速方法要么需要昂贵的模型重训练，要么使用启发式步骤跳过，在减少去噪步骤时难以保持视频质量。
Method: 提出CHAI框架，采用跨推理缓存减少延迟。引入Cache Attention机制，有效关注跨推理潜在表示中的共享对象/场景。这种选择性注意力机制能够在语义相关提示间有效重用缓存潜在表示，实现高缓存命中率。
Result: 使用Cache Attention只需8个去噪步骤即可生成高质量视频。集成到完整系统中，CHAI比基线OpenSora 1.2快1.65-3.35倍，同时保持视频质量。
Conclusion: CHAI通过跨推理缓存和Cache Attention机制，在显著加速文本到视频生成的同时保持了视频质量，解决了现有加速方法的质量损失问题。

[19] IRIS: Intent Resolution via Inference-time Saccades for Open-Ended VQA in Large Vision-Language Models

Parsa Madinei,Srijita Karmakar,Russell Cohen Hoffing,Felix Gervitz,Miguel P. Eckstein

Main category: cs.CV

TL;DR: IRIS利用实时眼动追踪数据解决开放视觉问答中的歧义问题，无需训练，通过注视点分析将模糊问题的回答准确率从35.2%提升至77.2%

Motivation: 开放视觉问答中存在大量模糊问题，传统视觉语言模型难以准确理解用户意图。眼动数据包含丰富的认知信息，可用于解决这种歧义性。
Method: 提出IRIS方法：在推理时利用眼动追踪数据（扫视运动），分析参与者开始提问时的注视点，这些注视点对消歧最有效。无需额外训练，可应用于各种视觉语言模型。
Result: 在500个图像-问题对的研究中，IRIS将模糊问题的回答准确率从35.2%提升至77.2%，同时保持清晰问题的性能。在不同架构的先进视觉语言模型上都表现出稳定改进。
Conclusion: 实时眼动数据能有效解决视觉问答中的歧义问题，IRIS方法具有普适性。研究还发布了新的基准数据集、实时交互协议和评估套件。

[20] Evaluating Demographic Misrepresentation in Image-to-Image Portrait Editing

Huichan Seo,Minki Hong,Sieun Choi,Jihie Kim,Jean Oh

Main category: cs.CV

TL;DR: 研究发现图像编辑系统存在人口统计学偏见：相同编辑指令对不同人口群体产生不同结果，表现为软擦除和刻板印象替换两种失败模式，可通过身份约束缓解偏见。

Motivation: 虽然文本到图像生成的人口偏见已有研究，但指令引导的图像到图像编辑中的人口条件化失败尚未充分探索。研究者希望探究相同编辑指令是否会对不同人口群体产生系统性差异结果。
Method: 构建受控基准测试，基于种族、性别和年龄生成和编辑肖像，使用诊断提示集评估多个编辑器。采用视觉语言模型评分和人工评估分析编辑结果，并测试了无需模型更新的提示级身份约束方法。
Result: 研究发现身份保留失败普遍存在且人口分布不均，受隐含社会先验影响（如职业驱动的性别推断）。提示级身份约束能显著减少少数群体的人口变化，而对多数群体肖像影响较小，揭示了当前编辑器中存在不对称的身份先验。
Conclusion: 身份保留是图像到图像编辑中的核心且人口分布不均的失败模式，研究结果支持开发人口鲁棒的编辑系统，通过简单干预即可减少偏见。

[21] Uncertainty-Guided Inference-Time Depth Adaptation for Transformer-Based Visual Tracking

Patrick Poggi,Divake Kumar,Theja Tulabandhula,Amit Ranjan Trivedi

Main category: cs.CV

TL;DR: UncL-STARK：基于不确定性的动态深度自适应Transformer跟踪器，通过随机深度训练和知识蒸馏实现运行时深度调整，显著降低计算成本同时保持跟踪精度。

Motivation: 现有Transformer单目标跟踪器采用固定深度推理，即使面对视觉复杂度低的连续帧也执行完整编码器-解码器堆栈，导致不必要的计算开销，特别是在时间连贯性强的长视频序列中。
Method: 提出UncL-STARK方法：1）通过随机深度训练和知识蒸馏微调模型，使其在多个中间深度保持预测鲁棒性；2）运行时从角点定位热图直接计算轻量级不确定性估计；3）基于反馈驱动策略，利用视频时间连贯性，根据预测置信度动态选择下一帧的编码器和解码器深度。
Result: 在GOT-10k和LaSOT数据集上实验表明：计算量减少达12%，延迟降低8.9%，能耗节省10.8%，同时跟踪精度保持在完整深度基线的0.2%范围内，适用于短期和长期序列。
Conclusion: UncL-STARK提供了一种架构保持的动态深度自适应方法，无需修改底层网络或添加辅助头，即可在Transformer跟踪器中实现显著的计算效率提升，同时维持高精度跟踪性能。

[22] DataCube: A Video Retrieval Platform via Natural Language Semantic Profiling

Yiming Ju,Hanyu Zhao,Quanyue Ma,Donglin Hao,Chengwei Wu,Ming Li,Songjing Wang,Tengfei Pan

Main category: cs.CV

TL;DR: DataCube是一个智能视频处理平台，通过自动处理、多维分析和查询驱动检索，帮助用户从大规模视频库中高效构建定制化视频数据集。

Motivation: 大规模视频库日益增多，但将原始视频转化为高质量、任务特定的数据集仍然成本高昂且效率低下，需要更智能的视频处理和管理工具。
Method: DataCube平台通过自动视频处理、多维语义分析构建结构化视频表示，支持混合检索（神经重排序和深度语义匹配），并提供交互式Web界面。
Result: 开发了一个公开可访问的平台（https://datacube.baai.ac.cn/），用户可以从海量视频库中高效构建定制化视频子集，并在私有视频集合上构建可搜索系统。
Conclusion: DataCube为视频理解和生成任务提供了高效的数据集构建解决方案，显著降低了视频数据处理成本，提升了大规模视频库的管理和利用效率。

[23] EasyControlEdge: A Foundation-Model Fine-Tuning for Edge Detection

Hiroki Nakamura,Hiroto Iino,Masashi Okada,Tadahiro Taniguchi

Main category: cs.CV

TL;DR: EasyControlEdge：通过适配图像生成基础模型进行边缘检测，在有限训练数据下实现清晰边缘检测，通过边缘导向目标和无条件动态引导控制边缘密度

Motivation: 现实世界边缘检测（如平面图墙壁、卫星道路/建筑、医学器官边界）需要清晰度和数据效率，但在有限训练样本下生成清晰原始边缘图仍然具有挑战性。图像生成基础模型在下游任务中表现良好，但其用于数据高效迁移的预训练先验和用于高频细节保留的迭代细化在边缘检测中尚未得到充分利用。
Method: 1. 引入图像生成基础模型的边缘专用适配；2. 结合边缘导向目标与高效像素空间损失，使基础模型更好地专门化于边缘检测；3. 在推理阶段引入基于无条件动态的引导，使单个模型能够通过引导尺度控制边缘密度。
Result: 在BSDS500、NYUDv2、BIPED和CubiCasa数据集上的实验表明，与最先进方法相比，EasyControlEdge在无后处理清晰度评估和有限训练数据情况下均取得一致增益。
Conclusion: EasyControlEdge成功利用图像生成基础模型的预训练先验和迭代细化能力，实现了清晰且数据高效的边缘检测，通过边缘专用适配和动态引导机制在多个数据集上超越了现有方法。

[24] HyPCA-Net: Advancing Multimodal Fusion in Medical Image Analysis

J. Dhar,M. K. Pandey,D. Chakladar,M. Haghighat,A. Alavi,S. Mistry,N. Zaidi

Main category: cs.CV

TL;DR: 提出HyPCA-Net，一种用于医学图像多模态融合的高效网络，通过残差自适应学习注意力块和双视图级联注意力块，在降低计算成本的同时提升多疾病分析性能。

Motivation: 现有多模态融合方法存在两个主要问题：1) 计算成本高，难以在资源受限环境中应用；2) 使用级联注意力模块可能导致信息丢失，限制了在多疾病分析任务中的泛化能力。
Method: 提出HyPCA-Net，包含两个核心创新模块：1) 计算高效的残差自适应学习注意力块，用于捕获精细的模态特定表示；2) 双视图级联注意力块，旨在学习跨不同模态的鲁棒共享表示。
Result: 在10个公开数据集上的实验表明，HyPCA-Net显著优于现有领先方法，性能提升高达5.2%，计算成本降低高达73.1%。
Conclusion: HyPCA-Net通过创新的并行融合级联注意力架构，有效解决了多模态融合中的计算效率和信息保留问题，为医学图像分析提供了高效且泛化能力强的解决方案。

[25] AFFMAE: Scalable and Efficient Vision Pretraining for Desktop Graphics Cards

David Smerkous,Zian Wang,Behzad Najafian

Main category: cs.CV

TL;DR: AFFMAE是一种用于高分辨率图像的自监督预训练框架，通过自适应离网格token合并技术，在保持分层可扩展性的同时显著降低计算和内存需求。

Motivation: 当前自监督预训练需要服务器级基础设施，限制了研究实验室开发领域特定基础模型。MAE虽然减少了计算量，但与分层下采样架构结合存在结构挑战。
Method: 提出AFFMAE框架，丢弃掩码token并对可见token进行动态合并，消除密集网格假设；开发数值稳定的混合精度Flash风格集群注意力核；通过深度监督缓解稀疏阶段表示崩溃。
Result: 在高分辨率电子显微镜分割任务中，AFFMAE在相同参数量下匹配ViT-MAE性能，同时减少7倍FLOPs，内存使用减半，在单张RTX 5090上实现更快训练。
Conclusion: AFFMAE为研究实验室提供了高效的高分辨率自监督预训练解决方案，通过创新的token合并策略和优化技术，在有限硬件资源下实现高性能模型训练。

[26] Breaking the Sub-Millimeter Barrier: Eyeframe Acquisition from Color Images

Manel Guzmán,Antonio Agudo

Main category: cs.CV

TL;DR: 提出基于计算机视觉的多视角眼框追踪算法，替代传统机械追踪设备，简化验光师工作流程

Motivation: 传统眼框追踪依赖机械工具，需要精确定位和校准，耗时且需要额外设备，导致验光师工作流程效率低下
Method: 基于InVision系统采集图像，采用完整处理流程：图像采集、框架分割、深度估计、多视角处理，将分割的RGB图像与深度数据结合进行精确轮廓测量
Result: 在真实数据上分析不同配置和变体，从静态彩色图像获得具有竞争力的测量结果，无需专用追踪设备
Conclusion: 提出的计算机视觉方法能有效替代传统机械眼框追踪，减少工作流程复杂性，为光学技术人员提供更高效的解决方案

[27] A Self-Supervised Approach for Enhanced Feature Representations in Object Detection Tasks

Santiago C. Vilabella,Pablo Pérez-Núñez,Beatriz Remeseiro

Main category: cs.CV

TL;DR: 使用自监督学习增强特征提取器，在少量标注数据下提升目标检测性能，超越ImageNet预训练模型

Motivation: 随着AI模型复杂度增加，获取标注数据成为重大挑战。目标检测等复杂问题需要大量时间和资源进行数据标注，给企业带来高昂成本。需要寻找方法减少对标注数据的依赖。
Method: 采用自监督学习策略，在未标注数据上训练模型，增强特征提取器能力，使模型能够学习更有效的特征表示。
Result: 提出的模型在目标检测任务上超越了基于ImageNet预训练的最先进特征提取器，并且能够关注物体的最相关特征，获得更好的特征表示，增强了模型的可靠性和鲁棒性。
Conclusion: 增强特征提取器可以显著缓解标注数据不足的挑战，使模型能够用更少的标注数据学习更有效的表示，自监督学习是实现这一目标的有效策略。

[28] Subtractive Modulative Network with Learnable Periodic Activations

Tiou Wang,Zhuoqian Yang,Markus Flierl,Mathieu Salzmann,Sabine Süsstrunk

Main category: cs.CV

TL;DR: 提出SMN网络，一种受减法合成启发的参数高效隐式神经表示架构，在图像重建和NeRF任务上表现优异

Motivation: 受经典减法合成启发，设计参数高效的隐式神经表示架构，旨在提高重建精度和参数效率
Method: 采用可学习的周期性激活层（振荡器）生成多频基，通过一系列调制掩码模块（滤波器）主动生成高阶谐波
Result: 在两个图像数据集上达到40+ dB PSNR，在重建精度和参数效率上优于SOTA方法，在3D NeRF新视角合成任务上也表现一致优势
Conclusion: SMN是一种有效的参数高效INR架构，在图像重建和3D场景表示任务上具有优越性能

[29] SCAR: Satellite Imagery-Based Calibration for Aerial Recordings

Henry Hölzemann,Michael Schleiss

Main category: cs.CV

TL;DR: SCAR是一种利用卫星影像作为全局参考的空中视觉惯性系统长期自动校准方法，无需专用校准动作或人工控制点，通过比对航拍图像与公开地理数据实现内外参校准。

Motivation: 现有空中视觉惯性系统校准方法依赖专用校准动作或人工地面控制点，难以在长期野外部署中维持校准精度。需要一种能利用外部地理空间数据自动检测和修正校准退化的方法。
Method: SCAR通过将航拍图像与公开的正射影像和高程模型进行对齐，建立2D-3D对应关系，同时估计相机内外参数。利用地理参考卫星影像作为持久全局参考，在野外部署条件下自动检测和修正校准退化。
Result: 在两年内六个大规模空中任务中，SCAR在多种季节和环境条件下均优于现有基准方法（Kalibr、COLMAP、VINS-Mono），大幅降低中值重投影误差，显著提高视觉定位旋转精度和姿态准确性。
Conclusion: SCAR能够在长期空中操作中提供准确、鲁棒且可重复的校准，无需人工干预，为野外部署的视觉惯性系统提供了一种有效的自动校准解决方案。

[30] Parameter-Free Adaptive Multi-Scale Channel-Spatial Attention Aggregation framework for 3D Indoor Semantic Scene Completion Toward Assisting Visually Impaired

Qi He,XiangXiang Wang,Jingtao Zhang,Yongbin Yu,Hongxiang Chu,Manping Fan,JingYe Cai,Zhenglin Yang

Main category: cs.CV

TL;DR: AMAA框架通过并行通道-空间注意力聚合和分层自适应特征门控策略，提升单目3D语义场景补全的可靠性和结构稳定性，在嵌入式硬件上实现稳定部署。

Motivation: 针对室内辅助视觉障碍用户的感知需求，现有单目3D语义场景补全方法缺乏对体素特征可靠性的显式建模和跨尺度信息传播的调控，容易受到投影扩散和特征纠缠的影响，限制了结构稳定性。
Method: 基于MonoScene管道构建自适应多尺度注意力聚合框架，通过并行通道-空间注意力聚合联合校准语义和空间维度的体素特征，采用分层自适应特征门控策略稳定多尺度编码器-解码器融合。
Result: 在NYUv2基准测试中，AMAA达到27.25% SSC mIoU（提升0.31）和43.10% SC IoU（提升0.59），系统复杂度未显著增加，并在NVIDIA Jetson嵌入式平台上验证了稳定执行能力。
Conclusion: AMAA提高了单目3D语义场景补全的质量，为面向视觉障碍用户的室内辅助系统提供了一个可靠且可部署的感知框架。

[31] ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding

Daichi Yashima,Shuhei Kurita,Yusuke Oda,Komei Sugiura

Main category: cs.CV

TL;DR: ReMoRa是一个处理压缩视频表示的多模态大语言模型，通过关键帧保留外观信息，运动表示编码时间动态，实现线性复杂度的长视频理解

Motivation: 当前多模态大语言模型在处理长视频时面临计算复杂度高的问题，因为RGB帧序列处理计算量大且冗余，自注意力机制具有二次复杂度
Method: 提出ReMoRa模型，直接处理压缩视频表示：保留稀疏RGB关键帧用于外观，将时间动态编码为运动表示，无需解码完整RGB帧序列；引入去噪模块优化块状运动表示；特征压缩实现线性复杂度
Result: 在多个长视频理解基准测试中表现出色，包括LongVideoBench、NExT-QA和MLVU，超越了基线方法
Conclusion: ReMoRa通过压缩视频表示和线性复杂度特征处理，有效解决了长视频理解的计算挑战，在多任务基准测试中验证了其优越性能

[32] Designing Production-Scale OCR for India: Multilingual and Domain-Specific Systems

Ali Faraz,Raja Kolla,Ashish Kulkarni,Shubham Agarwal

Main category: cs.CV

TL;DR: 该论文研究了两种构建多语言OCR系统的训练策略，通过Chitrapathak系列在印度语境下实现最佳精度-延迟权衡，并提出了专门用于印度政府文档的Parichay模型系列。

Motivation: 为印度设计OCR系统需要平衡语言多样性、文档异质性和部署约束，需要找到适合印度多语言环境的实用OCR解决方案。
Method: 研究了两种训练策略：1）将通用视觉编码器与强大的多语言语言模型配对进行端到端训练；2）微调现有的OCR模型（即使未针对目标语言训练）。此外，还开发了专门用于9种印度政府文档的Parichay模型系列。
Result: 第二种策略（微调现有OCR模型）在精度-延迟权衡上表现更优。Chitrapathak-2比前代快3-6倍，在泰卢固语上达到SOTA（6.69字符ANLS），其他语言排名第二。Parichay在结构化关键字段提取上达到89.8%的精确匹配分数，推理速度更快。
Conclusion: 微调现有OCR模型比端到端训练多模态系统在印度多语言OCR场景中更有效，Chitrapathak和Parichay系列为印度生产级OCR管道提供了实用指导，实现了SOTA性能。

[33] Visual Self-Refine: A Pixel-Guided Paradigm for Accurate Chart Parsing

Jinsong Li,Xiaoyi Dong,Yuhang Zang,Yuhang Cao,Jiaqi Wang,Dahua Lin

Main category: cs.CV

TL;DR: 提出视觉自精炼(VSR)范式，通过像素级定位可视化反馈让模型自我检查和纠正视觉感知错误，在图表解析任务中实现显著性能提升

Motivation: 现有大型视觉语言模型在文本推理和自校正方面表现出色，但在视觉密集的图表解析等复杂视觉感知任务中表现不佳，容易出现数据遗漏、错位和幻觉等问题。受人类使用手指作为"视觉锚点"确保准确性的启发，需要一种新的视觉反馈机制来提升模型在视觉中心任务中的准确性。
Method: 提出视觉自精炼(VSR)范式，让模型生成像素级定位输出并可视化，然后将这些可视化反馈给自身，使其能够直观检查和纠正视觉感知错误。在图表解析领域具体实现为ChartVSR模型，将解析过程分为两个阶段：精炼阶段通过视觉反馈迭代确保所有数据点的像素级定位准确性；解码阶段使用这些已验证的定位作为精确视觉锚点来解析最终结构化数据。还构建了新的挑战性基准测试ChartP-Bench。
Result: ChartVSR在图表解析任务中表现出显著性能提升，验证了VSR作为通用视觉反馈机制的有效性。该方法为提升各种视觉中心任务的准确性提供了有前景的新方向。
Conclusion: 视觉自精炼(VSR)是一种有效的视觉反馈范式，通过让模型可视化并检查自己的像素级定位输出，能够显著提升在图表解析等复杂视觉感知任务中的准确性。该方法具有通用性，可应用于广泛的视觉中心任务。

[34] MMA: Multimodal Memory Agent

Yihao Lu,Wanru Cheng,Zeyu Zhang,Hao Tang

Main category: cs.CV

TL;DR: 提出MMA多模态记忆代理，通过动态可靠性评分解决检索记忆的陈旧、低可信度问题，并引入MMA-Bench基准测试，揭示了视觉安慰剂效应。

Motivation: 长视野多模态代理依赖外部记忆，但基于相似性的检索常返回陈旧、低可信度或冲突的记忆项，导致过度自信的错误。
Method: 提出MMA多模态记忆代理，为每个检索的记忆项分配动态可靠性评分，结合来源可信度、时间衰减和冲突感知网络共识，用此信号重新加权证据并在支持不足时弃权。
Result: 在FEVER上匹配基线准确率同时减少方差35.2%；在LoCoMo上提高可操作准确率；在MMA-Bench上，视觉模式下达到41.18% Type-B准确率，而基线在相同协议下崩溃至0.0%。
Conclusion: MMA通过动态可靠性评分有效解决记忆检索中的可信度问题，并揭示了RAG代理从基础模型中继承潜在视觉偏见的"视觉安慰剂效应"。

[35] Benchmarking Adversarial Robustness and Adversarial Training Strategies for Object Detection

Alexis Winter,Jean-Vincent Martini,Romaric Audigier,Angelique Loesch,Bertrand Luvison

Main category: cs.CV

TL;DR: 提出统一基准框架评估目标检测模型的对抗攻击，发现攻击对Transformer架构迁移性差，混合攻击的对抗训练策略最有效

Motivation: 目标检测模型对对抗攻击敏感，但缺乏标准化评估基准，难以公平比较攻击和防御方法
Method: 提出统一基准框架，专注于数字非补丁攻击，引入特定指标分离定位和分类错误，使用多种感知指标评估攻击成本
Result: 现代对抗攻击对Transformer架构迁移性差；混合高扰动攻击（空间和语义目标）的对抗训练策略效果最佳
Conclusion: 建立了公平评估目标检测对抗攻击的基准，揭示了攻击迁移性限制，并确定了最有效的对抗训练策略

[36] DressWild: Feed-Forward Pose-Agnostic Garment Sewing Pattern Generation from In-the-Wild Images

Zeng Tao,Ying Jiang,Yunuo Chen,Tianyi Xie,Huamin Wang,Yingnian Wu,Yin Yang,Abishek Sampath Kumar,Kenji Tashiro,Chenfanfu Jiang

Main category: cs.CV

TL;DR: DressWild：从单张真实图像重建物理一致的可编辑2D缝纫图案和3D服装的端到端方法

Motivation: 现有服装图案生成方法存在局限性：前馈方法难以处理多样姿态和视角，优化方法计算昂贵且难以扩展。需要为服装建模和制造应用提供可编辑、可分离、可模拟的解决方案。
Method: 使用视觉语言模型（VLMs）在图像层面归一化姿态变化，提取姿态感知的3D感知服装特征，通过transformer编码器融合特征，预测可直接用于物理模拟、纹理合成和虚拟试穿的缝纫图案参数。
Result: 方法能够从单张真实图像稳健地恢复多样缝纫图案和对应的3D服装，无需多视角输入或迭代优化，为真实服装模拟和动画提供高效可扩展方案。
Conclusion: DressWild提出了一种新颖的前馈流程，能够从单张真实图像重建物理一致的2D缝纫图案和3D服装，在可编辑性、可分离性和模拟就绪性方面优于现有方法。

[37] Let's Split Up: Zero-Shot Classifier Edits for Fine-Grained Video Understanding

Kaiting Liu,Hazel Doughty

Main category: cs.CV

TL;DR: 提出视频分类器的类别分割任务，通过零样本编辑方法将粗粒度类别细分为更精细的子类别，无需额外数据

Motivation: 现有视频识别模型通常在固定分类体系上训练，分类过于粗糙，将对象、方式或结果的差异合并到单一标签中。随着任务和定义演变，这些模型无法适应新的区分，而重新收集标注和训练成本高昂
Method: 提出类别分割任务，开发零样本编辑方法，利用视频分类器的潜在组合结构来揭示细粒度区分，无需额外数据。同时展示低样本微调方法简单有效，并能从零样本初始化中受益
Result: 在新构建的视频类别分割基准测试中，该方法显著优于视觉语言基线，在新增分割类别上提高准确性，同时不影响其他类别的性能
Conclusion: 类别分割任务和提出的编辑方法能够有效解决视频分类模型分类粗糙的问题，使模型能够适应不断演变的细粒度区分需求，无需昂贵的重新训练

[38] Arc2Morph: Identity-Preserving Facial Morphing with Arc2Face

Nicolò Di Domenico,Annalisa Franco,Matteo Ferrara,Davide Maltoni

Main category: cs.CV

TL;DR: 提出基于Arc2Face身份条件化基础模型的新型人脸融合攻击技术，在多个数据集上验证其攻击潜力与传统地标方法相当

Motivation: 人脸融合攻击是电子身份文档人脸识别系统面临的最严峻威胁之一，利用护照申请过程中非监督式人脸采集的漏洞。现有方法存在局限性，需要更有效的融合技术来评估系统安全性。
Method: 基于Arc2Face身份条件化人脸基础模型，从紧凑身份表示合成逼真人脸图像。利用深度学习方法进行人脸融合，有效保持和管理身份信息。
Result: 在两个大规模人脸融合攻击检测数据集上，提出的深度学习方法达到与传统地标方法相当的融合攻击潜力。在FEI和ONOT数据集上也验证了有效性。
Conclusion: 基于Arc2Face的深度学习方法能有效进行人脸融合攻击，其攻击潜力与传统最挑战的地标方法相当，证实了该方法在身份信息保持和管理方面的能力。

[39] A Contrastive Learning Framework Empowered by Attention-based Feature Adaptation for Street-View Image Classification

Qi You,Yitai Cheng,Zichao Zeng,James Haworth

Main category: cs.CV

TL;DR: 提出CLIP-MHAdapter，一种轻量级CLIP适配器，通过多头自注意力增强对街景图像细粒度属性的分类能力，在保持低计算成本的同时达到SOTA性能。

Motivation: 街景图像属性分类是自动驾驶、城市分析等应用的关键任务，但现有方法计算成本高。虽然CLIP等预训练视觉语言模型提供丰富图像表示，但现有适配方法主要依赖全局图像嵌入，难以捕捉复杂街景中细粒度的局部属性。
Method: 提出CLIP-MHAdapter，在当前轻量级CLIP适配范式基础上，添加配备多头自注意力的瓶颈MLP，作用于patch tokens以建模patch间依赖关系。仅需约140万可训练参数。
Result: 在Global StreetScapes数据集的8个属性分类任务上取得优越或竞争性准确率，达到新的SOTA结果，同时保持低计算成本。
Conclusion: CLIP-MHAdapter通过多头自注意力机制有效捕捉街景图像中的细粒度局部属性，在保持轻量级设计的同时显著提升分类性能，为街景分析提供高效解决方案。

[40] Unpaired Image-to-Image Translation via a Self-Supervised Semantic Bridge

Jiaming Liu,Felix Petersen,Yunhe Gao,Yabin Zhang,Hyojin Kim,Akshay S. Chaudhari,Yu Sun,Stefano Ermon,Sergios Gatidis

Main category: cs.CV

TL;DR: 提出SSB框架，通过自监督语义桥接将外部语义先验融入扩散桥模型，实现无需跨域监督的空间保真图像翻译

Motivation: 对抗扩散方法需要目标域对抗损失，限制了未见数据的泛化能力；扩散反演方法由于不完美的噪声潜在表示反演，常产生低保真度翻译
Method: 利用自监督视觉编码器学习对外观变化不变但捕捉几何结构的表示，形成共享潜在空间来条件化扩散桥，集成外部语义先验
Result: 在挑战性医学图像合成任务中，在域内和域外设置下均优于现有方法，并能轻松扩展到高质量文本引导编辑
Conclusion: SSB框架通过自监督语义桥接实现了无需跨域监督的空间保真图像翻译，在医学图像合成和文本引导编辑中表现出色

[41] PredMapNet: Future and Historical Reasoning for Consistent Online HD Vectorized Map Construction

Bo Lang,Nirav Savaliya,Zhihao Zheng,Jinglun Feng,Zheng-Hang Yeh,Mooi Choo Chuah

Main category: cs.CV

TL;DR: 提出一种用于在线高清向量化地图构建的端到端框架，通过联合执行地图实例跟踪和短期预测来解决现有方法的时间不一致性问题。

Motivation: 现有基于查询的方法通常采用随机查询初始化并依赖隐式时间建模，导致构建全局地图时出现时间不一致和不稳定问题。需要克服这些挑战以实现一致的在线高清地图构建。
Method: 1) 语义感知查询生成器：用空间对齐的语义掩码初始化查询以全局捕获场景级上下文；2) 历史栅格化地图记忆：为每个跟踪实例存储细粒度实例级地图；3) 历史地图引导模块：将栅格化地图信息集成到跟踪查询中；4) 短期未来引导模块：基于存储的历史轨迹预测地图实例的即时运动。
Result: 在nuScenes和Argoverse2数据集上的大量实验表明，该方法在保持良好效率的同时优于最先进的方法。
Conclusion: 提出的框架通过显式历史先验和短期预测引导，有效解决了高清地图构建中的时间一致性问题，实现了更稳定和准确的在线地图构建。

[42] VETime: Vision Enhanced Zero-Shot Time Series Anomaly Detection

Yingyuan Yang,Tian Lan,Yifei Gao,Yimeng Lu,Wenjun He,Meng Wang,Chenghao Liu,Chen Zhang

Main category: cs.CV

TL;DR: VETime是一个统一时间和视觉模态的时间序列异常检测框架，通过细粒度视觉-时间对齐和动态融合解决现有基础模型在点异常和上下文异常检测中的权衡问题。

Motivation: 现有基础模型面临根本性权衡：1D时间模型提供细粒度点定位但缺乏全局上下文视角，而2D视觉模型捕获全局模式但存在信息瓶颈（缺乏时间对齐和粗粒度点检测）。需要解决这一困境。
Method: 提出VETime框架，包含可逆图像转换和补丁级时间对齐模块建立共享视觉-时间时间线；设计异常窗口对比学习机制和任务自适应多模态融合，自适应整合两种模态的互补感知优势。
Result: 在零样本场景下显著优于最先进模型，在保持较低计算开销的同时实现优越的定位精度。
Conclusion: VETime通过统一时间和视觉模态，解决了时间序列异常检测中细粒度定位与全局上下文感知的权衡问题，为TSAD提供了有效的多模态解决方案。

[43] Learning Situated Awareness in the Real World

Chuhan Li,Ruilin Han,Joy Hsu,Yongyuan Liang,Rajiv Dhawan,Jiajun Wu,Ming-Hsuan Yang,Xin Eric Wang

Main category: cs.CV

TL;DR: SAW-Bench是一个评估多模态基础模型在真实世界视频中自我中心空间感知能力的新基准，包含786个智能眼镜拍摄视频和2071个问答对，揭示了37.66%的人机性能差距。

Motivation: 现有多模态基础模型基准主要关注环境中心的空间关系（物体间关系），而忽视了需要从观察者视角、姿态和运动进行推理的观察者中心关系。为了填补这一空白，需要评估模型在真实世界中的自我中心空间感知能力。
Method: 开发了SAW-Bench基准，包含786个使用Ray-Ban Meta智能眼镜自录的真实世界视频，涵盖多样室内外环境，以及2071个人工标注的问答对。设计了6种不同的感知任务来探测模型的观察者中心理解能力。
Result: 评估显示即使最佳模型Gemini 3 Flash也存在37.66%的人机性能差距。深入分析发现：模型虽然能利用自我中心视频中的部分几何线索，但经常无法推断一致的相机几何，导致系统性空间推理错误。
Conclusion: SAW-Bench作为空间智能基准，超越了被动观察，转向理解物理基础的、观察者中心的动态关系，为评估多模态基础模型的自我中心空间感知能力提供了重要工具。

[44] Are Object-Centric Representations Better At Compositional Generalization?

Ferdinand Kapl,Amir Mohammad Karimi Mamaghan,Maximilian Seitzer,Karl Henrik Johansson,Carsten Marr,Stefan Bauer,Andrea Dittadi

Main category: cs.CV

TL;DR: 研究比较了密集视觉编码器与物体中心表示在组合泛化能力上的表现，发现物体中心表示在困难组合泛化任务中表现更优，且对数据量、多样性和计算资源要求更低。

Motivation: 组合泛化是人类认知的关键能力，也是机器学习的挑战。物体中心表示被认为能支持这种泛化，但在视觉丰富环境中的系统证据有限，需要建立基准来公平比较不同视觉编码器的组合泛化能力。
Method: 在三个受控视觉世界（CLEVRTex、Super-CLEVR、MOVi-C）上建立视觉问答基准，使用DINOv2和SigLIP2作为基础模型及其物体中心对应版本，严格控制训练数据多样性、样本量、表示大小、下游模型容量和计算资源。
Result: 1) 物体中心方法在困难组合泛化设置中表现更优；2) 原始密集表示仅在简单设置中超越物体中心表示，且通常需要更多下游计算；3) 物体中心模型样本效率更高，用更少图像实现更强泛化。
Conclusion: 当数据集大小、训练数据多样性或下游计算任一受限时，物体中心表示能提供更强的组合泛化能力，是资源受限场景下的优选方案。

[45] Saliency-Aware Multi-Route Thinking: Revisiting Vision-Language Reasoning

Mingjia Shi,Yinhan He,Yaochen Zhu,Jundong Li

Main category: cs.CV

TL;DR: 提出SAP方法，通过基于显著性的原则选择，让视觉语言模型在推理过程中能够重新参考视觉证据，减少早期视觉基础错误累积，实现更稳定的多模态推理。

Motivation: 当前视觉语言模型推理时，视觉输入只在生成开始时提供一次，导致推理过程逐渐被文本主导，早期视觉基础错误会不断累积。同时，推理过程中的视觉引导通常粗糙且噪声大，难以在长文本推理中进行有效控制。
Method: 提出SAP（显著性感知原则选择）方法，该方法基于高层次推理原则而非词元级轨迹进行操作，能够在噪声反馈下稳定控制离散生成，并允许后续推理步骤重新参考视觉证据。SAP还支持多路径推理，能够并行探索不同的推理行为。
Result: SAP在可比较的词元生成预算下取得了有竞争力的性能，特别是在减少物体幻觉方面表现突出。相比CoT风格的顺序推理，SAP产生了更稳定的推理过程和更低的响应延迟。
Conclusion: SAP是一种无需额外训练、模型无关且无需数据的推理方法，通过允许推理过程重新参考视觉证据，有效解决了视觉语言模型中视觉基础错误累积的问题，实现了更稳定、更高效的多模态推理。

[46] TeCoNeRV: Leveraging Temporal Coherence for Compressible Neural Representations for Videos

Namitha Padmanabhan,Matthew Gwilliam,Abhinav Shrivastava

Main category: cs.CV

TL;DR: TeCoNeRV提出了一种基于超网络的隐式神经表示视频压缩方法，通过空间-时间分解、残差存储和时间一致性正则化，显著降低了内存开销并提升了压缩性能。

Motivation: 现有基于隐式神经表示(INR)的视频压缩方法存在扩展性问题：每个视频需要单独训练INR，高分辨率视频编码效率低；超网络方法虽然速度快但质量差、压缩率低、内存需求大。
Method: 1) 空间-时间分解：将视频片段分解为补丁管(patch tubelets)，减少预训练内存开销20倍；2) 残差存储：仅存储连续片段表示之间的差异，降低比特流大小；3) 时间一致性正则化：使权重空间变化与视频内容相关。
Result: 在UVG数据集上，480p和720p分辨率下PSNR分别提升2.47dB和5.35dB，比特率降低36%，编码速度提升1.5-3倍。首次在480p、720p和1080p分辨率下展示超网络方法在UVG、HEVC和MCL-JCV数据集上的结果。
Conclusion: TeCoNeRV通过创新的分解策略、存储方案和正则化框架，解决了超网络视频压缩的内存和性能瓶颈，实现了高效的高分辨率视频压缩。

cs.LG

[47] B-DENSE: Branching For Dense Ensemble Network Learning

Cherish Puniani,Tushar Kumar,Arnav Bendre,Gaurav Kumar,Shree Singhi

Main category: cs.LG

TL;DR: B-DENSE：通过多分支轨迹对齐解决扩散模型蒸馏中的稀疏监督问题，提高图像生成质量

Motivation: 扩散模型在生成建模中表现出色，但其迭代采样特性导致推理延迟高。现有的蒸馏技术虽然加速采样，但丢弃了中间轨迹步骤，导致结构信息丢失和显著的离散化误差。
Method: 提出B-DENSE框架，采用多分支轨迹对齐。修改学生架构使其输出K倍扩展通道，每个子集对应教师轨迹中的特定离散中间步骤。训练这些分支同时映射到教师目标时间步的整个序列，实现密集中间轨迹对齐。
Result: 学生模型从训练早期就能学习在解空间中导航，相比基线蒸馏框架展现出更优的图像生成质量。
Conclusion: B-DENSE通过密集中间轨迹对齐有效解决了扩散模型蒸馏中的稀疏监督问题，提高了生成质量，为加速扩散模型采样提供了更有效的解决方案。

[48] Extracting and Analyzing Rail Crossing Behavior Signatures from Videos using Tensor Methods

Dawon Ahn,Het Patel,Aemal Khattak,Jia Chen,Evangelos E. Papalexakis

Main category: cs.LG

TL;DR: 提出多视角张量分解框架分析铁路道口行为模式，发现道口位置比时间对行为影响更大，接近阶段行为最具区分性

Motivation: 传统方法单独分析每个铁路道口，无法识别跨地点的共享行为模式。铁路道口安全挑战复杂，驾驶员行为随地点、时间和条件变化，需要可扩展的跨道口模式发现方法
Method: 使用多视角张量分解框架，将行为分为三个时间阶段：接近阶段（警告激活到栏杆下降）、等待阶段（栏杆下降到火车通过）、清空阶段（火车通过到栏杆升起）。使用TimeSformer嵌入表示每个阶段，构建阶段特定相似性矩阵，应用非负对称CP分解发现具有不同时间特征的潜在行为成分
Result: 张量分析显示道口位置比时间对行为模式的影响更强，接近阶段行为提供特别有区分性的特征。学习到的成分空间可视化确认了基于位置的聚类，某些道口形成独特的行为集群
Conclusion: 该自动化框架支持跨多个道口的可扩展模式发现，为按行为相似性分组道口提供基础，有助于制定有针对性的安全干预措施

[49] Graph neural network for colliding particles with an application to sea ice floe modeling

Ruibiao Zhu

Main category: cs.LG

TL;DR: 提出基于图神经网络的海冰建模新方法，利用海冰自然图结构（节点代表冰片，边建模物理相互作用），在一维框架中开发碰撞捕获网络，结合数据同化技术学习预测海冰动力学，验证显示能加速模拟而不损失精度。

Motivation: 传统数值方法计算密集且扩展性差，需要更高效的海冰建模工具，特别是在边缘冰区预测方面。利用海冰自然图结构特性，结合机器学习与数据同化技术，可提高建模效率和效果。
Method: 开发碰撞捕获网络（CN），基于图神经网络架构，节点代表单个冰片，边建模物理相互作用（包括碰撞）。在一维框架中实现，结合数据同化技术学习海冰动力学。使用合成数据进行验证，包括有观测数据点和无观测数据点的情况。
Result: 模型能有效学习和预测不同条件下的海冰动力学，加速轨迹模拟而不影响精度。在边缘冰区预测中提供更高效工具，展示了机器学习与数据同化结合的有效性。
Conclusion: 该方法为海冰建模提供了更高效的新途径，特别适用于边缘冰区预测。证明了图神经网络与数据同化结合在物理系统建模中的潜力，为更有效和高效的海冰动力学建模开辟了新方向。

[50] Guide-Guard: Off-Target Predicting in CRISPR Applications

Joseph Bingham,Netanel Arussy,Saman Zonouz

Main category: cs.LG

TL;DR: 提出名为Guide-Guard的机器学习解决方案，用于预测CRISPR基因编辑过程中给定gRNA的系统行为，准确率达到84%，能够同时训练多个不同基因并保持准确性。

Motivation: 随着CRISPR等网络物理基因组测序和编辑技术的引入，研究人员更容易获得工具来研究和创建遗传学和健康科学领域的解决方案。随着该领域的发展，预测脱靶行为的能力成为新的关注点。
Method: 从数据驱动的角度探索潜在的生物和化学模型，并提出基于机器学习的解决方案Guide-Guard，用于预测CRISPR基因编辑过程中给定gRNA的系统行为。
Result: Guide-Guard系统在预测CRISPR基因编辑行为方面达到84%的准确率，并且能够同时训练多个不同基因而保持准确性。
Conclusion: 该研究提出的机器学习方法能够有效预测CRISPR基因编辑的脱靶行为，为基因编辑技术的安全性和精确性提供了数据驱动的解决方案。

cs.CL

[51] DocSplit: A Comprehensive Benchmark Dataset and Evaluation Approach for Document Packet Recognition and Splitting

Md Mofijul Islam,Md Sirajus Salekin,Nivedha Balakrishnan,Vincil C. Bishop,Niharika Jain,Spencer Romo,Bob Strahan,Boyi Xie,Diego A. Socolinsky

Main category: cs.CL

TL;DR: 本文提出了首个文档包分割综合基准数据集DocSplit，用于评估大语言模型在分离多文档包中的能力，包含五个不同复杂度的数据集，并设计了新的评估指标。

Motivation: 现实应用中经常需要处理包含多个文档拼接而成的异构多页文档包，但文档包分割这一基础任务在视觉文档理解领域尚未得到充分解决，缺乏系统性的评估框架。
Method: 构建了DocSplit基准数据集，包含五个不同复杂度的数据集，涵盖多种文档类型、布局和多模态设置。定义了DocSplit任务，要求模型识别文档边界、分类文档类型并保持正确的页面顺序。设计了新的评估指标来系统评估模型性能。
Result: 通过在多模态大语言模型上进行广泛实验，发现当前模型在处理复杂文档分割任务时存在显著的性能差距，表明现有模型在这方面的能力有限。
Conclusion: DocSplit基准数据集和提出的新评估指标为推进文档理解能力提供了系统性框架，对法律、金融、医疗等文档密集型领域至关重要。已发布数据集以促进未来文档包处理研究。

[52] Explainable AI: Context-Aware Layer-Wise Integrated Gradients for Explaining Transformer Models

Melkamu Abay Mersha,Jugal Kalita

Main category: cs.CL

TL;DR: 提出CA-LIG框架，通过层间集成梯度与注意力梯度融合，为Transformer模型提供上下文感知的分层归因解释。

Motivation: 现有Transformer解释方法存在局限：依赖最终层归因、缺乏局部与全局归因的统一、缺少上下文感知、无法捕捉跨层相关性演化以及结构组件对决策的影响。
Method: 提出上下文感知分层集成梯度框架，在每个Transformer块内计算层间集成梯度，并将这些token级归因与类别特定注意力梯度融合，生成带符号的上下文敏感归因图。
Result: 在情感分析、多类文档分类、低资源语言仇恨检测、图像分类等任务上，CA-LIG相比现有方法提供更忠实归因、更强上下文敏感性、更清晰语义可视化。
Conclusion: CA-LIG为Transformer决策提供更全面、上下文感知且可靠的解释，推进了深度神经模型的实用可解释性和概念理解。

eess.IV

[53] Foundation Models for Medical Imaging: Status, Challenges, and Directions

Chuang Niu,Pengwei Wu,Bruno De Man,Ge Wang

Main category: eess.IV

TL;DR: 这篇综述文章探讨了基础模型如何重塑医学影像领域，从特定任务网络转向可跨模态、解剖结构和临床任务适应的通用大模型，并沿三个主要轴线分析了医学影像基础模型的设计原则、应用以及未来挑战与机遇。

Motivation: 医学影像领域正在经历从狭窄训练、任务特定网络向大型通用基础模型的转变，这些模型能够跨模态、解剖结构和临床任务进行适应。作者旨在为这一新兴领域提供技术基础、临床意识和面向未来的路线图。
Method: 通过综述分析的方法，沿着三个主要轴线综合医学影像基础模型的新兴格局：基础模型设计原则、基础模型应用、以及前瞻性挑战与机遇。
Result: 文章提供了一个技术基础扎实、临床意识强且面向未来的路线图，用于开发不仅功能强大且通用，而且值得信赖并准备负责任地转化为临床实践的基础模型。
Conclusion: 基础模型正在快速重塑医学影像领域，需要开发既强大通用又值得信赖的模型，以确保其能够负责任地转化为临床实践。这篇综述为这一目标提供了全面的路线图。

[54] ROIX-Comp: Optimizing X-ray Computed Tomography Imaging Strategy for Data Reduction and Reconstruction

Amarjit Singh,Kento Sato,Kohei Yoshida,Kentaro Uesugi,Yasumasa Joti,Takaki Hatsui,Andrès Rubio Proaño

Main category: eess.IV

TL;DR: 提出ROIX-Comp框架，通过ROI驱动提取和智能压缩技术，显著减少X-CT数据量同时保留关键信息，实现12.34倍压缩比提升。

Motivation: 在高性能计算环境特别是同步辐射设施中，大规模X射线CT数据集面临计算和存储挑战，传统方法需要大量存储容量和传输带宽，限制了实时处理能力和工作流效率。
Method: 提出ROI驱动的提取框架(ROIX-Comp)：1)预处理阶段使用误差有界量化减少数据量；2)压缩阶段结合对象提取与多种最先进的无损和有损压缩器，智能识别和保留关键特征。
Result: 在7个X-CT数据集上评估，相比标准压缩方法实现了12.34倍的相对压缩比提升，显著减少数据量同时保持下游处理任务所需的关键信息。
Conclusion: ROIX-Comp框架有效解决了大规模X-CT数据的存储和传输瓶颈，通过智能压缩技术提高了计算效率，为实时处理和工作流优化提供了可行解决方案。

[55] Automated Assessment of Kidney Ureteroscopy Exploration for Training

Fangjie Li,Nicholas Kavoussi,Charan Mohan,Matthieu Chabanas,Jie Ying Wu

Main category: eess.IV

TL;DR: 提出基于输尿管镜视频的肾模型探索自动反馈系统，通过参考重建视频定位训练者探索视频，识别遗漏肾盏，实现无需专家监督的体外训练。

Motivation: 肾输尿管镜导航学习曲线陡峭，当前临床训练依赖专家一对一反馈且只能在手术室进行，需要能够提供自动反馈的模型训练系统来扩大训练机会。
Method: 提出纯输尿管镜视频的镜体定位框架，使用缓慢、彻底的先验探索视频生成参考重建，然后用该参考重建定位同一模型的其他探索视频，自动识别训练者遗漏的肾盏。
Result: 在15个探索视频中，74个肾盏中有69个被正确分类，相机姿态定位误差小于4mm，系统处理1-2分钟探索视频需要10分钟生成结果。
Conclusion: 展示了一种新颖的相机定位框架，能够为肾模型探索提供准确自动的反馈，证明其作为有效工具可实现无需专家监督的手术室外训练。

[56] RefineFormer3D: Efficient 3D Medical Image Segmentation via Adaptive Multi-Scale Transformer with Cross Attention Fusion

Kavyansh Tyagi,Vishwas Rathi,Puneet Goyal

Main category: eess.IV

TL;DR: RefineFormer3D：轻量级分层Transformer架构，用于3D医学图像分割，在保持高精度的同时大幅减少参数和内存需求

Motivation: 当前基于Transformer的3D医学图像分割模型虽然具有优秀的全局上下文建模能力，但参数过多、内存需求大，限制了临床部署。需要平衡分割精度和计算效率的解决方案。
Method: 提出RefineFormer3D架构，包含三个关键组件：1) GhostConv3D-based patch embedding用于高效特征提取；2) MixFFN3D模块采用低秩投影和深度卷积实现参数高效特征提取；3) 交叉注意力融合解码器实现自适应多尺度跳跃连接集成。
Result: 模型仅含2.94M参数，在ACDC和BraTS基准测试中分别达到93.44%和85.9%的平均Dice分数，优于或匹配最先进方法。推理速度快（GPU上每体积8.35ms），内存需求低。
Conclusion: RefineFormer3D是一种有效且可扩展的解决方案，能够在资源受限的临床环境中实现高效准确的3D医学图像分割。

[57] Automated Histopathology Report Generation via Pyramidal Feature Extraction and the UNI Foundation Model

Ahmet Halici,Ece Tugba Cebeci,Musa Balci,Mustafa Cini,Serkan Sokmen

Main category: eess.IV

TL;DR: 提出分层视觉语言框架，结合冻结病理学基础模型和Transformer解码器，从组织病理学全切片图像生成诊断文本，并通过检索验证提高可靠性

Motivation: 组织病理学全切片图像（WSI）具有千兆像素规模，需要精确的领域特定语言，生成诊断文本具有挑战性
Method: 1. 多分辨率金字塔补丁选择（下采样因子2^3到2^6）和背景去除；2. 使用UNI Vision Transformer提取补丁特征；3. 6层Transformer解码器通过交叉注意力生成文本；4. 使用BioGPT进行标记化；5. 基于检索的验证步骤使用Sentence BERT嵌入比较生成报告与参考语料库
Result: 提出了一个完整的框架，能够处理千兆像素WSI并生成准确的诊断文本，通过检索验证机制提高了报告的可靠性
Conclusion: 该方法有效解决了从大规模组织病理学图像生成精确诊断文本的挑战，结合了视觉特征提取、语言生成和检索验证，提高了诊断报告的质量和可靠性

cs.GR

[58] Style-Aware Gloss Control for Generative Non-Photorealistic Rendering

Santiago Jimenez-Navarro,Belen Masia,Ana Serrano

Main category: cs.GR

TL;DR: 论文提出了一种无监督生成模型，能够解耦艺术风格与光泽度感知，并通过轻量级适配器实现可控的非真实感图像合成。

Motivation: 人类能够从视觉外观推断物体材质特性，这种能力延伸到艺术描绘中。光泽度是定义材质外观的重要因素之一，研究表明人类能够独立于艺术风格感知光泽度。研究旨在探索学习模型中如何表示光泽度和艺术风格。
Method: 1. 在新构建的绘画物体数据集上训练无监督生成模型；2. 分析发现分层潜在空间，其中光泽度与其他外观因素解耦；3. 引入轻量级适配器，将风格和光泽感知的潜在空间连接到潜在扩散模型。
Result: 模型实现了光泽度与艺术风格的有效解耦，能够合成具有细粒度控制的非真实感图像。与先前模型相比，在解耦性和可控性方面有显著改进。
Conclusion: 该方法成功实现了艺术风格与光泽度的解耦表示，为可控的非真实感图像合成提供了有效框架，在解耦性和可控性方面优于现有方法。

cs.RO

Yuzhuo Ao,Anbang Wang,Yu-Wing Tai,Chi-Keung Tang

Main category: cs.RO

TL;DR: ReasonNavi是一个受人类启发的导航框架，通过多模态大语言模型进行全局推理，然后使用确定性规划器执行局部动作，实现零样本导航，无需模型微调。

Motivation: 现有具身智能体主要依赖局部自我中心观察，缺乏全局预见性，导致探索效率低下。而人类使用地图进行规划：先全局推理，再局部行动。
Method: 将俯视地图转换为离散推理空间（房间分割和候选目标节点采样），通过多阶段查询MLLM选择与指令最一致的候选目标，然后使用确定性动作规划器在在线构建的占据地图上生成可执行轨迹。
Result: 在三个导航任务中，ReasonNavi持续优于需要大量训练或复杂场景建模的先前方法，提供了可扩展、可解释且全局基础的导航解决方案。
Conclusion: ReasonNavi通过结合MLLM的语义推理能力和确定性规划器，实现了无需微调、可扩展的零样本导航框架，为具身导航提供了全局推理与局部执行的有效范式。

[60] MARVL: Multi-Stage Guidance for Robotic Manipulation via Vision-Language Models

Xunlan Zhou,Xuanlin Chen,Shaowei Zhang,Xiangkun Li,ShengHua Wan,Xiaohai Hu,Yuan Lei,Le Gan,De-chuan Zhan

Main category: cs.RO

TL;DR: MARVL使用多阶段视觉语言模型指导，通过空间语义一致性微调和任务分解，显著提升机器人强化学习的奖励函数设计效果

Motivation: 当前密集奖励函数主要依赖人工设计，这限制了强化学习的可扩展性和自动化。虽然视觉语言模型为奖励设计提供了有前景的路径，但简单的VLM奖励常常与任务进展不匹配，在空间定位和任务语义理解方面存在局限。
Method: MARVL通过两个主要创新：1）对VLM进行空间和语义一致性微调；2）将任务分解为多阶段子任务，并通过任务方向投影实现轨迹敏感性。这种方法使VLM奖励能够更好地反映任务进展。
Result: 在Meta-World基准测试中，MARVL显著优于现有的VLM奖励方法，在稀疏奖励操作任务上表现出卓越的样本效率和鲁棒性。
Conclusion: MARVL通过改进VLM奖励的空间语义一致性和任务分解能力，为机器人强化学习的自动化奖励设计提供了有效解决方案，克服了传统VLM奖励的局限性。

[61] Adaptive Illumination Control for Robot Perception

Yash Turkar,Shekoufeh Sadeghi,Karthik Dantu

Main category: cs.RO

TL;DR: Lightning是一个用于视觉SLAM的闭环光照控制框架，通过重光照、离线优化和模仿学习来优化机器人感知

Motivation: 在低光照或高动态范围环境下，传统机器人感知方法（如特征提取、图像增强、曝光控制）受限于捕获的图像质量。可编程机载照明可以改善图像，但难以预测其对图像形成的影响，因为光照与深度、表面反射率和场景几何存在非线性交互
Method: 采用三阶段方法：1) 训练CLID重光照模型，将机器人观测分解为环境分量和光照贡献场；2) 离线优化光照强度调度，权衡SLAM相关的图像效用、功耗和时间平滑性；3) 通过行为克隆将理想解蒸馏为实时控制器，生成可在线运行的光照控制策略
Result: Lightning显著提高了SLAM轨迹的鲁棒性，同时减少了不必要的照明功耗
Conclusion: 该框架通过智能光照控制有效解决了低光照环境下的机器人感知问题，实现了感知质量与能耗的平衡

[62] World Action Models are Zero-shot Policies

Seonghyeon Ye,Yunhao Ge,Kaiyuan Zheng,Shenyuan Gao,Sihyun Yu,George Kurian,Suneel Indupuru,You Liang Tan,Chuning Zhu,Jiannan Xiang,Ayaan Malik,Kyungmin Lee,William Liang,Nadun Ranawaka,Jiasheng Gu,Yinzhen Xu,Guanzhi Wang,Fengyuan Hu,Avnish Narayan,Johan Bjorck,Jing Wang,Gwanghyun Kim,Dantong Niu,Ruijie Zheng,Yuqi Xie,Jimmy Wu,Qi Wang,Ryan Julian,Danfei Xu,Yilun Du,Yevgen Chebotar,Scott Reed,Jan Kautz,Yuke Zhu,Linxi "Jim" Fan,Joel Jang

Main category: cs.RO

TL;DR: DreamZero是一个基于视频扩散模型的世界动作模型，通过联合建模视频和动作来学习物理动力学，在未见任务和环境上相比现有VLA模型有2倍以上的泛化提升，并能实现实时闭环控制和跨具身迁移。

Motivation: 现有的视觉-语言-动作模型在语义泛化方面表现良好，但在新环境中面对未见物理运动时泛化能力不足。需要一种能够学习物理动力学并实现更好泛化的模型。
Method: 基于预训练视频扩散主干构建世界动作模型，通过预测未来世界状态和动作来学习物理动力学，使用视频作为世界演变的密集表示。联合建模视频和动作，从异构机器人数据中学习多样化技能，无需重复演示。
Result: 在真实机器人实验中，相比最先进的VLA模型，在新任务和环境上的泛化能力提升超过2倍。通过模型和系统优化，使140亿参数的自动回归视频扩散模型能够以7Hz频率进行实时闭环控制。跨具身迁移方面：仅使用其他机器人或人类的视频演示，在未见任务上相对提升超过42%；仅用30分钟的玩耍数据就能适应新具身，同时保持零样本泛化能力。
Conclusion: DreamZero通过世界动作模型框架有效学习物理动力学，实现了显著的泛化提升、实时控制和跨具身迁移能力，为机器人学习提供了新的有效途径。

[63] Articulated 3D Scene Graphs for Open-World Mobile Manipulation

Martin Büchner,Adrian Röfer,Tim Engelbracht,Tim Welschehold,Zuria Bauer,Hermann Blum,Marc Pollefeys,Abhinav Valada

Main category: cs.RO

TL;DR: MoMa-SG框架从RGB-D序列构建语义-运动学3D场景图，通过点跟踪和统一扭转估计来推断物体关节参数，支持机器人对铰接物体的鲁棒操作。

Motivation: 机器人在真实环境中操作时无法预测物体如何运动，需要弥合语义、几何和运动学之间的差距，以实现长时程移动操作。
Method: 使用RGB-D序列，通过时间分割和抗遮挡点跟踪推断物体运动，将点轨迹提升到3D，采用统一扭转估计公式同时估计旋转和平移关节参数，关联物体与关节，并通过父子关系检测包含物体。
Result: 在Arti4D-Semantic数据集（62个真实RGB-D序列，600个物体交互）上评估，MoMa-SG在两个数据集上表现良好，并在四足机器人和移动操作器上展示了真实世界中的鲁棒操作能力。
Conclusion: MoMa-SG构建的语义-运动学场景图能够支持机器人在日常家庭环境中对铰接物体进行鲁棒操作，弥合了语义、几何和运动学之间的差距。

[64] Markerless 6D Pose Estimation and Position-Based Visual Servoing for Endoscopic Continuum Manipulators

Junhyun Park,Chunggil An,Myeongbo Park,Ihsan Ullah,Sihyeong Park,Minho Hwang

Main category: cs.RO

TL;DR: 提出首个完全无标记的连续体机械臂6D位姿估计与视觉伺服框架，通过立体视觉实现精确闭环控制

Motivation: 连续体机械臂在柔性内窥镜手术中具有高灵活性，但由于迟滞、柔顺性和末端传感有限，精确位姿估计和闭环控制仍具挑战。现有视觉方法受限于几何可观测性和计算复杂度，难以实现实时闭环应用。
Method: 1) 构建照片级真实仿真管道进行大规模自动训练；2) 立体感知多特征融合网络联合利用分割掩码、关键点、热图和边界框；3) 前馈渲染细化模块单次预测残差位姿校正；4) 自监督仿真到真实适应策略使用未标记数据提升实际性能
Result: 在1000个真实样本上达到平均平移误差0.83mm和平均旋转误差2.76°。无标记闭环视觉伺服实现平均平移误差2.07mm和旋转误差7.41°，相比开环控制分别减少85%和59%，在重复点到达任务中表现出高重复性
Conclusion: 这是首个完全无标记的连续体机械臂位姿估计驱动的基于位置的视觉伺服框架，无需物理标记或嵌入式传感即可实现精确闭环控制，为柔性内窥镜手术系统提供了实用的解决方案

[65] Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

Runpei Dong,Ziyan Li,Xialin He,Saurabh Gupta

Main category: cs.RO

TL;DR: HERO：一种结合大型视觉模型泛化能力与仿真训练控制性能的人形机器人物体定位操作新范式，通过残差感知末端执行器跟踪策略实现精确控制

Motivation: 现有基于真实世界模仿学习的方法由于难以收集大规模训练数据而泛化能力有限，需要一种能在多样化真实环境中可靠操作日常物体的解决方案
Method: 设计残差感知末端执行器跟踪策略，结合逆运动学、学习型神经前向模型、目标调整和重规划；构建模块化系统，利用开放词汇大型视觉模型实现视觉泛化
Result: 末端执行器跟踪误差降低3.2倍，系统能在办公室、咖啡店等多样化真实环境中可靠操作各种日常物体（杯子、苹果、玩具等），操作表面高度范围43-92厘米
Conclusion: HERO范式结合了大型视觉模型的泛化能力和仿真训练的控制性能，为人形机器人日常物体交互训练开辟了新途径

cs.CV ​

[1] Egocentric Bias in Vision-Language Models ​

[2] Detecting Deepfakes with Multivariate Soft Blending and CLIP-based Image-Text Alignment ​

[3] A Comprehensive Survey on Deep Learning-Based LiDAR Super-Resolution for Autonomous Driving ​

[4] MaS-VQA: A Mask-and-Select Framework for Knowledge-Based Visual Question Answering ​

[5] EarthSpatialBench: Benchmarking Spatial Reasoning Capabilities of Multimodal LLMs on Earth Imagery ​

[6] A Study on Real-time Object Detection using Deep Learning ​

[7] Visual Memory Injection Attacks for Multi-Turn Conversations ​

[8] Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families ​

[9] Position-Aware Scene-Appearance Disentanglement for Bidirectional Photoacoustic Microscopy Registration ​

[10] Automated Re-Identification of Holstein-Friesian Cattle in Dense Crowds ​

[11] Non-Contact Physiological Monitoring in Pediatric Intensive Care Units via Adaptive Masking and Self-Supervised Learning ​

[12] LAND: A Longitudinal Analysis of Neuromorphic Datasets ​

[13] SAM 3D Body: Robust Full-Body Human Mesh Recovery ​

[14] BTReport: A Framework for Brain Tumor Radiology Report Generation with Clinically Relevant Features ​

[15] MedProbCLIP: Probabilistic Adaptation of Vision-Language Foundation Model for Reliable Radiograph-Report Retrieval ​

[16] LGQ: Learning Discretization Geometry for Scalable and Stable Image Tokenization ​

[17] OmniCT: Towards a Unified Slice-Volume LVLM for Comprehensive CT Analysis ​

[18] CHAI: CacHe Attention Inference for text2video ​

[19] IRIS: Intent Resolution via Inference-time Saccades for Open-Ended VQA in Large Vision-Language Models ​

[20] Evaluating Demographic Misrepresentation in Image-to-Image Portrait Editing ​

[21] Uncertainty-Guided Inference-Time Depth Adaptation for Transformer-Based Visual Tracking ​

[22] DataCube: A Video Retrieval Platform via Natural Language Semantic Profiling ​

[23] EasyControlEdge: A Foundation-Model Fine-Tuning for Edge Detection ​

[24] HyPCA-Net: Advancing Multimodal Fusion in Medical Image Analysis ​

[25] AFFMAE: Scalable and Efficient Vision Pretraining for Desktop Graphics Cards ​

[26] Breaking the Sub-Millimeter Barrier: Eyeframe Acquisition from Color Images ​

[27] A Self-Supervised Approach for Enhanced Feature Representations in Object Detection Tasks ​

[28] Subtractive Modulative Network with Learnable Periodic Activations ​

[29] SCAR: Satellite Imagery-Based Calibration for Aerial Recordings ​

[30] Parameter-Free Adaptive Multi-Scale Channel-Spatial Attention Aggregation framework for 3D Indoor Semantic Scene Completion Toward Assisting Visually Impaired ​

[31] ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding ​

[32] Designing Production-Scale OCR for India: Multilingual and Domain-Specific Systems ​

[33] Visual Self-Refine: A Pixel-Guided Paradigm for Accurate Chart Parsing ​

[34] MMA: Multimodal Memory Agent ​

[35] Benchmarking Adversarial Robustness and Adversarial Training Strategies for Object Detection ​

[36] DressWild: Feed-Forward Pose-Agnostic Garment Sewing Pattern Generation from In-the-Wild Images ​

[37] Let's Split Up: Zero-Shot Classifier Edits for Fine-Grained Video Understanding ​

[38] Arc2Morph: Identity-Preserving Facial Morphing with Arc2Face ​

[39] A Contrastive Learning Framework Empowered by Attention-based Feature Adaptation for Street-View Image Classification ​

[40] Unpaired Image-to-Image Translation via a Self-Supervised Semantic Bridge ​

[41] PredMapNet: Future and Historical Reasoning for Consistent Online HD Vectorized Map Construction ​

[42] VETime: Vision Enhanced Zero-Shot Time Series Anomaly Detection ​

[43] Learning Situated Awareness in the Real World ​

[44] Are Object-Centric Representations Better At Compositional Generalization? ​

[45] Saliency-Aware Multi-Route Thinking: Revisiting Vision-Language Reasoning ​

[46] TeCoNeRV: Leveraging Temporal Coherence for Compressible Neural Representations for Videos ​

cs.LG ​

[47] B-DENSE: Branching For Dense Ensemble Network Learning ​

[48] Extracting and Analyzing Rail Crossing Behavior Signatures from Videos using Tensor Methods ​

[49] Graph neural network for colliding particles with an application to sea ice floe modeling ​

[50] Guide-Guard: Off-Target Predicting in CRISPR Applications ​

cs.CL ​

[51] DocSplit: A Comprehensive Benchmark Dataset and Evaluation Approach for Document Packet Recognition and Splitting ​

[52] Explainable AI: Context-Aware Layer-Wise Integrated Gradients for Explaining Transformer Models ​

eess.IV ​

[53] Foundation Models for Medical Imaging: Status, Challenges, and Directions ​

[54] ROIX-Comp: Optimizing X-ray Computed Tomography Imaging Strategy for Data Reduction and Reconstruction ​

[55] Automated Assessment of Kidney Ureteroscopy Exploration for Training ​

[56] RefineFormer3D: Efficient 3D Medical Image Segmentation via Adaptive Multi-Scale Transformer with Cross Attention Fusion ​

[57] Automated Histopathology Report Generation via Pyramidal Feature Extraction and the UNI Foundation Model ​

cs.GR ​

[58] Style-Aware Gloss Control for Generative Non-Photorealistic Rendering ​

cs.RO ​

[59] ReasonNavi: Human-Inspired Global Map Reasoning for Zero-Shot Embodied Navigation ​

[60] MARVL: Multi-Stage Guidance for Robotic Manipulation via Vision-Language Models ​

[61] Adaptive Illumination Control for Robot Perception ​

[62] World Action Models are Zero-shot Policies ​

[63] Articulated 3D Scene Graphs for Open-World Mobile Manipulation ​

[64] Markerless 6D Pose Estimation and Position-Based Visual Servoing for Endoscopic Continuum Manipulators ​

[65] Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation ​

cs.CV

[1] Egocentric Bias in Vision-Language Models

[2] Detecting Deepfakes with Multivariate Soft Blending and CLIP-based Image-Text Alignment

[3] A Comprehensive Survey on Deep Learning-Based LiDAR Super-Resolution for Autonomous Driving

[4] MaS-VQA: A Mask-and-Select Framework for Knowledge-Based Visual Question Answering

[5] EarthSpatialBench: Benchmarking Spatial Reasoning Capabilities of Multimodal LLMs on Earth Imagery

[6] A Study on Real-time Object Detection using Deep Learning

[7] Visual Memory Injection Attacks for Multi-Turn Conversations

[8] Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

[9] Position-Aware Scene-Appearance Disentanglement for Bidirectional Photoacoustic Microscopy Registration

[10] Automated Re-Identification of Holstein-Friesian Cattle in Dense Crowds

[11] Non-Contact Physiological Monitoring in Pediatric Intensive Care Units via Adaptive Masking and Self-Supervised Learning

[12] LAND: A Longitudinal Analysis of Neuromorphic Datasets

[13] SAM 3D Body: Robust Full-Body Human Mesh Recovery

[14] BTReport: A Framework for Brain Tumor Radiology Report Generation with Clinically Relevant Features

[15] MedProbCLIP: Probabilistic Adaptation of Vision-Language Foundation Model for Reliable Radiograph-Report Retrieval

[16] LGQ: Learning Discretization Geometry for Scalable and Stable Image Tokenization

[17] OmniCT: Towards a Unified Slice-Volume LVLM for Comprehensive CT Analysis

[18] CHAI: CacHe Attention Inference for text2video

[19] IRIS: Intent Resolution via Inference-time Saccades for Open-Ended VQA in Large Vision-Language Models

[20] Evaluating Demographic Misrepresentation in Image-to-Image Portrait Editing

[21] Uncertainty-Guided Inference-Time Depth Adaptation for Transformer-Based Visual Tracking

[22] DataCube: A Video Retrieval Platform via Natural Language Semantic Profiling

[23] EasyControlEdge: A Foundation-Model Fine-Tuning for Edge Detection

[24] HyPCA-Net: Advancing Multimodal Fusion in Medical Image Analysis

[25] AFFMAE: Scalable and Efficient Vision Pretraining for Desktop Graphics Cards

[26] Breaking the Sub-Millimeter Barrier: Eyeframe Acquisition from Color Images

[27] A Self-Supervised Approach for Enhanced Feature Representations in Object Detection Tasks

[28] Subtractive Modulative Network with Learnable Periodic Activations

[29] SCAR: Satellite Imagery-Based Calibration for Aerial Recordings

[30] Parameter-Free Adaptive Multi-Scale Channel-Spatial Attention Aggregation framework for 3D Indoor Semantic Scene Completion Toward Assisting Visually Impaired

[31] ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding

[32] Designing Production-Scale OCR for India: Multilingual and Domain-Specific Systems

[33] Visual Self-Refine: A Pixel-Guided Paradigm for Accurate Chart Parsing

[34] MMA: Multimodal Memory Agent

[35] Benchmarking Adversarial Robustness and Adversarial Training Strategies for Object Detection

[36] DressWild: Feed-Forward Pose-Agnostic Garment Sewing Pattern Generation from In-the-Wild Images

[37] Let's Split Up: Zero-Shot Classifier Edits for Fine-Grained Video Understanding

[38] Arc2Morph: Identity-Preserving Facial Morphing with Arc2Face

[39] A Contrastive Learning Framework Empowered by Attention-based Feature Adaptation for Street-View Image Classification

[40] Unpaired Image-to-Image Translation via a Self-Supervised Semantic Bridge

[41] PredMapNet: Future and Historical Reasoning for Consistent Online HD Vectorized Map Construction

[42] VETime: Vision Enhanced Zero-Shot Time Series Anomaly Detection

[43] Learning Situated Awareness in the Real World

[44] Are Object-Centric Representations Better At Compositional Generalization?

[45] Saliency-Aware Multi-Route Thinking: Revisiting Vision-Language Reasoning

[46] TeCoNeRV: Leveraging Temporal Coherence for Compressible Neural Representations for Videos

cs.LG

[47] B-DENSE: Branching For Dense Ensemble Network Learning

[48] Extracting and Analyzing Rail Crossing Behavior Signatures from Videos using Tensor Methods

[49] Graph neural network for colliding particles with an application to sea ice floe modeling

[50] Guide-Guard: Off-Target Predicting in CRISPR Applications

cs.CL

[51] DocSplit: A Comprehensive Benchmark Dataset and Evaluation Approach for Document Packet Recognition and Splitting

[52] Explainable AI: Context-Aware Layer-Wise Integrated Gradients for Explaining Transformer Models

eess.IV

[53] Foundation Models for Medical Imaging: Status, Challenges, and Directions

[54] ROIX-Comp: Optimizing X-ray Computed Tomography Imaging Strategy for Data Reduction and Reconstruction

[55] Automated Assessment of Kidney Ureteroscopy Exploration for Training

[56] RefineFormer3D: Efficient 3D Medical Image Segmentation via Adaptive Multi-Scale Transformer with Cross Attention Fusion

[57] Automated Histopathology Report Generation via Pyramidal Feature Extraction and the UNI Foundation Model

cs.GR

[58] Style-Aware Gloss Control for Generative Non-Photorealistic Rendering

cs.RO

[59] ReasonNavi: Human-Inspired Global Map Reasoning for Zero-Shot Embodied Navigation

[60] MARVL: Multi-Stage Guidance for Robotic Manipulation via Vision-Language Models

[61] Adaptive Illumination Control for Robot Perception

[62] World Action Models are Zero-shot Policies

[63] Articulated 3D Scene Graphs for Open-World Mobile Manipulation

[64] Markerless 6D Pose Estimation and Position-Based Visual Servoing for Endoscopic Continuum Manipulators

[65] Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation