Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] EDU-CIRCUIT-HW: Evaluating Multimodal Large Language Models on Real-World University-Level STEM Student Handwritten Solutions
Weiyu Sun,Liangliang Chen,Yongnuo Cai,Huiru Xie,Yi Zeng,Ying Zhang
Main category: cs.CV
TL;DR: 本文提出了EDU-CIRCUIT-HW数据集,包含1300+份大学STEM课程学生手写解答,用于评估多模态大语言模型在手写内容识别和自动评分中的表现,发现模型存在大量潜在错误,并提出通过识别错误模式来提升AI评分系统鲁棒性的方法。
- Motivation: 多模态大语言模型在教育领域有巨大潜力,但当前缺乏真实、领域特定的基准来评估模型对复杂手写STEM解答(包含数学公式、图表和文本推理)的理解能力。现有评估主要依赖下游任务(如自动评分),无法全面衡量模型对复杂手写逻辑的整体理解。
- Method: 1. 发布EDU-CIRCUIT-HW数据集,包含1300+份大学STEM课程真实学生手写解答;2. 利用专家验证的逐字转录和评分报告,同时评估多种MLLM的上游识别保真度和下游自动评分性能;3. 通过案例研究展示如何利用识别出的错误模式,以最少人工干预(约4%的解答)预先检测和纠正识别错误,提升AI评分系统的鲁棒性。
- Result: 评估揭示了MLLM在学生手写内容识别中存在惊人的潜在失败规模,表明模型在高风险教育环境中用于自动评分和其他理解导向应用的可靠性不足。案例研究表明,通过识别错误模式并仅需少量人工干预,可以显著提升AI评分系统在未见学生解答上的鲁棒性。
- Conclusion: 当前MLLM对复杂学生手写STEM解答的理解能力仍不足,需要更全面的评估方法和改进策略。通过主动检测和纠正识别错误,可以显著提升AI教育应用的可靠性,但模型在高风险教育环境中的部署仍需谨慎。
[2] Mirage2Matter: A Physically Grounded Gaussian World Model from Video
Zhengqing Gao,Ziwen Li,Xin Wang,Jiaxin Huang,Zhenyang Ren,Mingkai Shao,Hanlue Zhang,Tianyu Huang,Yongkang Cheng,Yandong Guo,Runqi Lin,Yuanyuan Wang,Tongliang Liu,Kun Zhang,Mingming Gong
Main category: cs.CV
TL;DR: Simulate Anything:一个基于图形驱动的世界建模与仿真框架,仅使用多视角环境视频和现成资产,就能高效生成高保真具身训练数据,其训练出的VLA模型在零样本下游任务中表现优异。
- Motivation: 具身智能的可扩展性受到真实世界交互数据稀缺的根本限制。现有仿真平台存在视觉和物理差距,依赖昂贵传感器、精确机器人校准或深度测量,限制了大规模实用性。
- Method: 使用3D高斯泼溅(3DGS)从视频重建真实环境为逼真场景表示;利用生成模型恢复物理真实表示;通过精度校准目标集成到仿真环境,实现重建场景与真实世界的精确尺度对齐。
- Result: 基于仿真数据训练的视觉语言动作(VLA)模型在下游任务中表现出强大的零样本性能,匹配甚至超越了使用真实世界数据获得的结果。
- Conclusion: 重建驱动的世界建模为可扩展且实用的具身智能训练提供了潜力,能够生成高质量仿真数据以弥补真实交互数据的不足。
[3] R3G: A Reasoning--Retrieval--Reranking Framework for Vision-Centric Answer Generation
Zhuohong Chen,Zhengxian Wu,Zirui Liao,Shenao Jiang,Hangrui Xu,Yang Chen,Chaokui Su,Xiaoyu Liu,Haoqian Wang
Main category: cs.CV
TL;DR: R3G是一个模块化的推理-检索-重排序框架,通过生成推理计划指导视觉检索,采用两阶段策略(粗检索+细粒度重排序)为VQA任务选择证据图像,在MRAG-Bench上取得SOTA性能。
- Motivation: 视觉中心检索在VQA任务中需要检索图像来提供缺失的视觉线索,但如何选择正确的图像并有效整合到推理过程中仍然具有挑战性。
- Method: 提出R3G框架:1)首先生成简要推理计划,明确所需视觉线索;2)采用两阶段策略:粗检索后接细粒度重排序来选择证据图像;3)包含充分性感知的重排序和推理步骤。
- Result: 在MRAG-Bench上,R3G提升了六个MLLM骨干网络和九个子场景的准确率,实现了整体最先进的性能。消融实验表明充分性感知重排序和推理步骤是互补的。
- Conclusion: R3G框架通过模块化的推理-检索-重排序方法,有效解决了VQA中视觉检索的挑战,帮助模型既选择正确的图像又能良好地使用它们。
[4] HYPE-EDIT-1: Benchmark for Measuring Reliability in Frontier Image Editing Models
Wing Chan,Richard Allen
Main category: cs.CV
TL;DR: HYPE-EDIT-1是一个包含100个任务的基准测试,用于评估基于参考的图像编辑模型在实际营销/设计工作流中的表现,通过多次尝试和人工审核来计算真实成本。
- Motivation: 当前图像编辑模型的公开演示通常展示最佳案例,但实际工作流需要多次尝试和人工审核,导致真实成本被低估。需要一种能反映实际工作成本的评估方法。
- Method: 创建100个营销/设计编辑任务,每个任务生成10个独立输出,使用二元通过/失败判断。计算单次尝试通过率、pass@10、重试次数期望值,以及结合模型价格和人工审核时间的有效成功成本。
- Result: 评估的模型中,单次尝试通过率在34-83%之间,每个成功编辑的有效成本在0.66-1.42美元之间。低单图像定价的模型在考虑重试和人工审核后总成本更高。
- Conclusion: 仅考虑单图像定价会误导成本评估,必须结合通过率和人工审核时间来计算真实工作流成本。HYPE-EDIT-1基准提供了更全面的评估框架。
[5] Efficient UAV trajectory prediction: A multi-modal deep diffusion framework
Yuan Gao,Xinyu Guo,Wenjing Xie,Zifan Wang,Hongwen Yu,Gongyang Li,Shugong Xu
Main category: cs.CV
TL;DR: 提出一种基于激光雷达与毫米波雷达信息融合的多模态无人机轨迹预测方法,通过双向交叉注意力机制实现模态互补,在MMAUD数据集上相比基线模型提升40%准确率。
- Motivation: 为满足低空经济中管理未经授权无人机的需求,需要更准确的轨迹预测方法。激光雷达和毫米波雷达在空间几何结构和动态反射特性上具有互补信息,融合两者可提升预测性能。
- Method: 设计多模态深度融合框架,包含两个模态特定特征提取网络和双向交叉注意力融合模块。特征提取阶段使用独立但结构相同的编码器处理激光雷达和雷达点云,然后通过双向交叉注意力机制实现信息互补和语义对齐。
- Result: 在CVPR 2024 UG2+无人机跟踪与姿态估计挑战赛的MMAUD数据集上测试,多模态融合模型显著提升轨迹预测准确率,相比基线模型提高40%。消融实验验证了不同损失函数和后处理策略的有效性。
- Conclusion: 提出的多模态融合模型能有效利用激光雷达和毫米波雷达的互补信息,为低空经济中未经授权无人机的轨迹预测提供了高效解决方案,显著提升了预测准确性。
[6] SITUATE -- Synthetic Object Counting Dataset for VLM training
René Peinl,Vincent Tischler,Patrick Schröder,Christian Groth
Main category: cs.CV
TL;DR: SITUATE是一个用于训练和评估视觉语言模型在空间约束计数任务上的新数据集,填补了简单2D数据集和模糊真实数据集之间的空白。
- Motivation: 现有数据集存在局限性:VLMCountBench等简单2D数据集缺乏真实感,而TallyQA等真实数据集在遮挡和空间组合方面缺乏控制,导致模型在空间约束计数任务上表现不佳。
- Method: 创建SITUATE数据集,专门针对空间约束计数任务设计。通过在Qwen VL 2.5 7B模型上进行微调实验,并与Pixmo count数据集进行交叉验证比较。
- Result: 在SITUATE上微调的模型在Pixmo count测试数据上准确率提升,但反向微调(Pixmo count到SITUATE)无效。与其他计数基准测试相比,SITUATE能更好地提升模型在分布外图像上的泛化能力。
- Conclusion: SITUATE数据集能有效提升视觉语言模型在空间约束计数任务上的性能,特别是在处理分布外图像时表现出更好的泛化能力。
[7] Robustness of Presentation Attack Detection in Remote Identity Validation Scenarios
John J. Howard,Richard O. Plesh,Yevgeniy B. Sirotin,Jerry L. Tipton,Arun R. Vemury
Main category: cs.CV
TL;DR: 商业PAD系统在低光照和自动采集场景下性能显著下降,仅一个系统能保持稳定表现
- Motivation: 远程身份验证系统中,演示攻击检测子系统需要在各种环境条件下保持鲁棒性,但低光照和自动图像采集对商业PAD系统的影响尚未充分研究
- Method: 通过远程身份验证场景测试,评估商业PAD系统在低光照条件和自动采集工作流程下的性能表现
- Result: 低光照条件下错误率增加约4倍,自动采集工作流程下错误率翻倍;仅一个测试系统在所有场景下保持最大真实演示分类错误率低于3%
- Conclusion: 为确保PAD系统在实际应用中的鲁棒性和可靠性,必须在多样化环境条件下进行测试
[8] Observing Health Outcomes Using Remote Sensing Imagery and Geo-Context Guided Visual Transformer
Yu Li,Guilherme N. DeSouza,Praveen Rao,Chi-Ren Shyu
Main category: cs.CV
TL;DR: 提出一种新型遥感图像处理模型,通过地理空间嵌入机制和引导注意力模块,将辅助地理空间数据与图像数据对齐,提升多模态地理空间理解能力。
- Motivation: 现有的视觉语言和多模态模型主要优化视觉与文本内容的语义对齐,缺乏对结构化地理空间层的理解和推理能力,不适合处理需要地理空间理解的任务。
- Method: 1) 地理空间嵌入机制:将多样化的地理空间数据转换为与图像块空间对齐的嵌入块;2) 引导注意力模块:基于与辅助数据的相关性动态计算注意力权重,引导模型关注最相关区域;3) 为注意力头分配不同角色,捕捉辅助信息的互补方面。
- Result: 实验结果表明,该框架在预测疾病流行率方面优于现有的预训练地理空间基础模型,证明了其在多模态地理空间理解方面的有效性。
- Conclusion: 提出的模型通过整合辅助地理空间信息,增强了遥感图像处理能力,为地理空间理解任务提供了更有效的解决方案。
[9] From Manual Observation to Automated Monitoring: Space Allowance Effects on Play Behaviour in Group-Housed Dairy Calves
Haiyu Yang,Heidi Lesscher,Enhong Liu,Miel Hostens
Main category: cs.CV
TL;DR: 研究通过计算机视觉自动监测发现,奶牛犊在8-10平方米/头的空间分配下玩耍行为最多,为商业养殖提供了兼顾福利与经济的空间目标
- Motivation: 虽然玩耍行为是奶牛犊积极福利的重要指标,但在商业条件下,特别是中等至高空间分配(6-20平方米/头)对玩耍行为的影响尚不明确,需要量化研究
- Method: 在荷兰14个商业农场对60头群养奶牛犊进行视频观察,使用详细行为谱分析玩耍行为;开发计算机视觉自动监测管道,在6个农场108小时手动标注数据上训练,并在测试集上验证
- Result: 计算机视觉分类器在主动玩耍检测上达到97.6%准确率和99.4%召回率;犊牛平均花费1.0%观察时间玩耍(约17小时中10分钟);空间与玩耍关系呈非线性,8-10平方米/头时玩耍最多(1.6%),6-8和12-14平方米时最少(<0.6%)
- Conclusion: 8-10平方米/头的空间分配是兼顾福利效益与经济可行性的实用目标;自动监测系统可将小规模标注项目扩展为连续福利评估系统
[10] AI-Driven Three-Dimensional Reconstruction and Quantitative Analysis for Burn Injury Assessment
S. Kalaycioglu,C. Hong,K. Zhai,H. Xie,J. N. Wong
Main category: cs.CV
TL;DR: 开发AI烧伤评估平台,通过多视角摄影测量和3D重建,结合深度学习分割,实现客观、可重复的烧伤面积、深度和愈合过程量化分析
- Motivation: 传统烧伤评估依赖主观视觉检查和2D照片,缺乏客观性、可重复性和纵向比较能力,需要更精确的评估方法来支持治疗规划、愈合监测和医疗法律记录
- Method: 整合多视角摄影测量、3D表面重建和深度学习分割技术,使用消费级相机采集多角度图像,重建患者特异性3D烧伤表面,将烧伤区域映射到解剖结构上,计算客观指标(表面积、TBSA、深度相关几何代理、体积变化),并通过空间对齐连续重建来量化愈合进展
- Result: 模拟评估显示系统能够稳定重建、一致计算指标,并呈现临床合理的纵向趋势,支持可扩展、非侵入性的几何感知烧伤评估和决策支持
- Conclusion: 该AI烧伤评估平台为急性和门诊护理提供了客观、几何感知的烧伤评估方法,通过标准化工作流程和自动化报告生成,有望改善烧伤管理的临床决策支持
[11] 1S-DAug: One-Shot Data Augmentation for Robust Few-Shot Generalization
Yunwei Bai,Ying Kiat Tan,Yao Shu,Tsuhan Chen
Main category: cs.CV
TL;DR: 1S-DAug:一种单样本生成式增强算子,通过结合几何扰动、可控噪声注入和去噪扩散过程,从单个测试图像生成多样且忠实的变化,提升小样本学习性能。
- Motivation: 传统测试时增强在小样本学习中效果不佳,因为只有少量标注样本。需要一种方法能够在测试时仅基于单个样本生成多样且忠实的增强图像,以提升小样本学习的泛化能力。
- Method: 1S-DAug结合几何扰动、可控噪声注入和条件去噪扩散过程,从单个测试图像生成多样增强。生成的图像与原始图像一起编码并聚合为组合表示,用于更鲁棒的小样本学习预测。
- Result: 在4个标准数据集上一致提升小样本学习性能,无需模型参数更新。在miniImagenet 5-way-1-shot基准上实现了超过10%的比例精度提升。
- Conclusion: 1S-DAug作为一种无需训练、模型无关的插件,有效解决了小样本学习中测试时增强的挑战,显著提升了模型泛化能力。
[12] Event Driven Clustering Algorithm
David El-Chai Ben-Ezra,Adar Tal,Daniel Brisk
Main category: cs.CV
TL;DR: 提出了一种用于事件相机数据实时检测小事件簇的异步事件驱动算法,具有线性复杂度O(n)且运行时间与像素阵列维度无关。
- Motivation: 事件相机产生异步事件流数据,传统聚类算法在处理这种数据时效率不高,需要开发专门针对事件相机数据特性的实时聚类算法。
- Method: 采用异步事件驱动的层次凝聚聚类方法,基于事件的时间-空间距离进行聚类,利用事件相机的特殊异步数据结构,通过复杂但高效简单的决策机制实现。
- Result: 算法具有线性复杂度O(n),其中n为事件数量,运行时间与像素阵列维度无关,能够实时检测小事件簇。
- Conclusion: 该算法专门针对事件相机数据设计,在保持简单高效的同时实现了实时性能,为事件相机数据处理提供了有效的聚类解决方案。
[13] IC-EO: Interpretable Code-based assistant for Earth Observation
Lamia Lahouel,Laurynas Lopata,Simon Gruening,Gabriele Meoni,Gaetan Petit,Sylvain Lobry
Main category: cs.CV
TL;DR: 提出基于工具LLM的对话式代码生成代理,将自然语言查询转换为可执行、可审计的Python工作流,用于地球观测分析,提高透明度和可重复性。
- Motivation: 地球观测分析对非专业人士困难,需要专业知识和技术能力,现有系统多为黑盒预测难以审计或复现,需要透明可解释的解决方案。
- Method: 开发对话式代码生成代理,基于统一可扩展API(分类、分割、检测、光谱指数、地理空间操作),将自然语言查询转换为Python工作流,支持三级控制:工具级性能、代理级代码生成质量、任务级用例评估。
- Result: 在土地组成制图和野火后损害评估两个用例中,代理优于通用LLM/VLM基线(GPT-4o、LLaVA),准确率分别为64.2% vs. 51.7%和50% vs. 0%,同时生成透明易解释的结果。
- Conclusion: 通过输出可验证代码,该方法将地球观测分析转变为透明、可重复的过程,为非专业人士提供可审计的工作流,解决了黑盒预测问题。
[14] VDE Bench: Evaluating The Capability of Image Editing Models to Modify Visual Documents
Hongzhu Yi,Yujia Yang,Yuanxiang Wang,Zhenyu Guan,Jiahuan Chen,Chenxi Bao,Tiankun Yang,Yixuan Yuan,Tianyu Zong,Xinming Wang,Tao Yu,Ruiwen Tao,Haijin Liang,Jin Ma,Jinwen Luo,Yeshani Xinyu Zuo,Jungang Xu
Main category: cs.CV
TL;DR: 提出了VDE Bench基准测试,专门评估多语言密集文本视觉文档编辑任务,填补了现有方法主要关注英文和稀疏布局文档的不足。
- Motivation: 现有多模态图像编辑模型主要关注英文场景和稀疏文本布局,无法充分处理密集、结构复杂的文档或非拉丁文字(如中文),缺乏系统评估多语言密集文本视觉文档编辑的基准。
- Method: 提出了VDE Bench基准,包含高质量英文和中文密集文本文档数据集(学术论文、海报、演示文稿、考试材料、报纸),并引入解耦评估框架,在OCR解析层面系统量化编辑性能。
- Result: 人工验证显示人工判断与自动评估指标具有强一致性,VDE Bench是首个系统评估多语言密集文本视觉文档编辑模型的基准。
- Conclusion: VDE Bench填补了视觉文档图像编辑评估的空白,为多语言密集文本编辑任务提供了系统评估框架,有助于推动该领域的发展。
[15] Context-Aware Autoencoders for Anomaly Detection in Maritime Surveillance
Divya Acharya,Pierre Bernab'e,Antoine Chevrot,Helge Spieker,Arnaud Gotlieb,Bruno Legeard
Main category: cs.CV
TL;DR: 提出基于上下文感知的自动编码器,通过整合上下文特定阈值来改进海事异常检测,相比传统方法在时间序列数据上表现更优
- Motivation: 海事船舶交通监控中的异常检测对安全至关重要。传统自动编码器在检测集体和上下文异常方面效果有限,特别是在海事领域,异常检测依赖于船舶特定的上下文信息(来自AIS消息)。
- Method: 提出上下文感知自动编码器,整合上下文特定阈值。比较了四种上下文感知自动编码器变体和一种传统自动编码器,以海事监控中的捕鱼状态异常为案例研究。
- Result: 结果显示上下文对重构损失和异常检测有显著影响。上下文感知自动编码器在时间序列数据异常检测方面优于其他方法,提高了检测准确性并降低了计算成本。
- Conclusion: 通过整合上下文特定阈值并认识到上下文在异常检测中的重要性,该方法为提高海事船舶交通监控系统的准确性提供了有前景的解决方案。
[16] D3R-Net: Dual-Domain Denoising Reconstruction Network for Robust Industrial Anomaly Detection
Dmytro Filatov,Valentyn Fedorov,Vira Filatova,Andrii Zelenchuk
Main category: cs.CV
TL;DR: D3R-Net:一种用于无监督异常检测的双域去噪重建框架,通过自监督"修复"任务和频率感知正则化,改善高频细节重建,提升缺陷分割精度。
- Motivation: 现有基于重建的无监督异常检测方法存在高频细节过度平滑问题,导致细微缺陷被部分重建而非突出显示,限制了分割精度。需要一种能更好处理高频细节的方法。
- Method: 提出D3R-Net双域去噪重建框架:1)自监督"修复"任务:用合成损坏的正常图像训练网络重建干净目标,防止平凡恒等映射;2)频率感知正则化:在空间MSE损失基础上增加FFT幅度损失,确保频域一致性;3)可选SSIM损失项。
- Result: 在MVTec AD Hazelnut基准上,FFT损失将PRO AUC从0.603提升至0.687;在15个MVTec类别上,平均像素ROC AUC从0.733提升至0.751,PRO AUC从0.417提升至0.468,单GPU约20FPS。
- Conclusion: D3R-Net通过双域(空间+频率)重建框架有效改善高频细节处理,提升异常检测性能,提供了一种轻量级、实用的替代方案,无需依赖重型预训练特征嵌入方法。
[17] PovNet+: A Deep Learning Architecture for Socially Assistive Robots to Learn and Assist with Multiple Activities of Daily Living
Fraser Robinson,Souren Pashangpour,Matthew Lisondra,Goldie Nejat
Main category: cs.CV
TL;DR: POVNet+:首个用于社交辅助机器人的多模态深度学习架构,通过ADL和运动嵌入空间识别已知/未知/非典型ADL,并主动发起辅助交互
- Motivation: 长期部署自主社交辅助机器人的主要障碍是它们无法同时感知和协助多种日常生活活动(ADL),需要能够识别已知ADL、新ADL和非典型ADL以提供主动辅助
- Method: 提出POVNet+多模态深度学习架构,引入ADL和运动双重嵌入空间来区分已知ADL、新ADL和非典型ADL,应用新颖的用户状态估计方法识别新ADL并监控用户表现
- Result: 与最先进的人类活动识别方法相比,POVNet+具有更高的ADL分类准确率;在杂乱生活环境中与社交辅助机器人Leia进行的人机交互实验表明,系统能成功识别已知/未知ADL和非典型ADL,并启动适当的辅助交互
- Conclusion: POVNet+架构通过多模态ADL感知和主动辅助交互,有效解决了社交辅助机器人在长期部署中的关键障碍,为实际场景中的个性化辅助提供了可行方案
[18] Shedding the Facades, Connecting the Domains: Detecting Shifting Multimodal Hate Video with Test-Time Adaptation
Jiao Li,Jian Lang,Xikai Tang,Wenzheng Shu,Ting Zhong,Qiang Gao,Yong Wang,Leiting Chen,Fan Zhou
Main category: cs.CV
TL;DR: SCANNER是一个专门针对仇恨视频检测的测试时自适应框架,通过利用仇恨内容中稳定的核心特征作为源域和目标域的桥梁,解决语义漂移问题。
- Motivation: 仇恨内容不断演变为不规则和模糊的形式以逃避审查,导致严重的语义漂移,使现有训练模型失效。传统测试时自适应方法针对温和的分布偏移,难以处理仇恨视频检测中的严重语义漂移。
- Method: 1) 通过基于质心的对齐机制从模糊布局中揭示稳定核心;2) 引入样本级自适应质心对齐策略处理异常样本;3) 添加簇内多样性正则化防止语义塌缩。
- Result: SCANNER在所有基线方法中表现最佳,平均Macro-F1分数比最佳基线高出4.69%。
- Conclusion: SCANNER是首个专门针对仇恨视频检测的测试时自适应框架,通过利用仇恨内容中稳定的核心特征作为桥梁,有效解决了语义漂移问题,显著提升了模型性能。
[19] LLaVA-FA: Learning Fourier Approximation for Compressing Large Multimodal Models
Pengcheng Zheng,Chaoning Zhang,Jiarong Mo,GuoHui Li,Jiaquan Zhang,Jiahao Zhang,Sihan Cao,Sheng Zheng,Caiyan Qin,Guoqing Wang,Yang Yang
Main category: cs.CV
TL;DR: LLaVA-FA:一种在频域进行联合低秩+量化近似的高效多模态模型,通过傅里叶变换的去相关性和共轭对称性实现更紧凑准确的权重表示,显著降低计算和内存成本。
- Motivation: 现有大型多模态模型(LMMs)计算和内存成本过高,阻碍实际部署。现有压缩方法通常将低秩分解和量化解耦,导致重建误差累积,特别是在存在跨模态冗余的多模态架构中。
- Method: 提出LLaVA-FA:1)在频域进行联合低秩加量化近似;2)利用傅里叶变换的去相关性和共轭对称性;3)提出PolarQuant,针对复数矩阵的极坐标量化方法;4)引入可选对角校准(ODC)方案,无需大规模校准数据。
- Result: LLaVA-FA在多个基准测试中优于现有高效多模态模型,同时保持最少的激活参数和低计算成本,验证了其作为LMMs压缩方案的有效性。
- Conclusion: LLaVA-FA通过频域联合近似和专门设计的量化方法,为大型多模态模型压缩提供了高效解决方案,在保持性能的同时显著降低了计算和内存需求。
[20] Scalable Analytic Classifiers with Associative Drift Compensation for Class-Incremental Learning of Vision Transformers
Xuan Rao,Mingming Ha,Bo Zhao,Derong Liu,Cesare Alippi
Main category: cs.CV
TL;DR: 提出LR-RGDA和HopDC框架,解决ViT在类增量学习中分类器重建的计算瓶颈问题,通过低秩分解降低推理复杂度,并利用Hopfield网络补偿表示漂移。
- Motivation: ViT在类增量学习中面临分类器重建阶段的高计算成本问题,现有方法依赖昂贵的迭代SGD。虽然分析性RGDA提供了贝叶斯最优替代方案,但其二次推理复杂度限制了在大规模CIL场景中的应用。
- Method: 提出LR-RGDA(低秩分解RGDA),利用Woodbury矩阵恒等式分解协方差矩阵的低秩结构,将判别函数分解为全局仿射项和低秩二次扰动项。同时引入HopDC(Hopfield分布补偿器),使用现代连续Hopfield网络通过关联记忆动态重新校准历史类统计量。
- Result: 将推理复杂度从O(Cd²)降低到O(d² + Crd²),其中r≪d。在多个CIL基准测试中实现了最先进的性能,为大规模类增量学习提供了可扩展的解决方案。
- Conclusion: 提出的LR-RGDA和HopDC框架有效解决了ViT在类增量学习中的计算瓶颈问题,通过低秩分解和表示漂移补偿机制,实现了高效且高性能的大规模CIL解决方案。
[21] DensiThAI, A Multi-View Deep Learning Framework for Breast Density Estimation using Infrared Images
Siva Teja Kakileti,Geetha Manjunath
Main category: cs.CV
TL;DR: 使用AI分析红外热像图评估乳腺密度,提出DensiThAI多视角深度学习框架,在3500名女性数据上达到平均AUROC 0.73,为无辐射乳腺密度评估提供新方法。
- Motivation: 乳腺密度是乳腺癌风险的重要生物标志物,但目前主要依赖有辐射的X线钼靶检查。本研究旨在探索使用无辐射的红外热成像技术结合AI来评估乳腺密度的可行性。
- Method: 提出DensiThAI多视角深度学习框架,利用乳腺纤维腺体和脂肪组织不同的热物理和生理特性导致的表面温度差异,通过五个标准热像视角进行乳腺密度分类。
- Result: 在3500名女性的多中心数据集上,以钼靶密度标签为参考,DensiThAI在10次随机分割中平均AUROC达到0.73,所有分割中密度类别间均有显著统计学差异(p << 0.05)。
- Conclusion: 热成像技术作为无辐射乳腺密度评估方法具有潜力,可改善患者体验和工作流程优化,在不同年龄组中表现一致。
[22] Learning Physics-Grounded 4D Dynamics with Neural Gaussian Force Fields
Shiqian Li,Ruihong Shen,Junfeng Ni,Chang Pan,Chi Zhang,Yixin Zhu
Main category: cs.CV
TL;DR: NGFF是一个端到端神经框架,结合3D高斯感知与物理动力学建模,从多视角RGB输入生成交互式、物理真实的4D视频,速度比现有高斯模拟器快两个数量级。
- Motivation: 现有视频生成模型虽然视觉质量高,但缺乏物理定律建模,无法生成物理合理的视频;而结合3D高斯溅射和物理引擎的方法计算成本高,在复杂现实场景中缺乏鲁棒性。
- Method: 提出神经高斯力场(NGFF)框架,整合3D高斯感知与物理动力学建模;同时创建GSCollision数据集,包含超过64万渲染物理视频(~4TB),涵盖多种材料、多物体交互和复杂场景。
- Result: 在合成和真实3D场景评估中,NGFF展现出强大的泛化能力和物理推理鲁棒性,速度比现有高斯模拟器快两个数量级。
- Conclusion: NGFF通过整合感知与物理建模,推动了视频预测向物理基础世界模型的发展,为生成交互式、物理真实的4D视频提供了高效解决方案。
[23] SDCM: Simulated Densifying and Compensatory Modeling Fusion for Radar-Vision 3-D Object Detection in Internet of Vehicles
Shucong Li,Xiaoluo Zhou,Yuqian He,Zhenyu Liu
Main category: cs.CV
TL;DR: SDCM框架通过模拟密度化、雷达补偿映射和Mamba建模交互融合,解决4D雷达点云稀疏和视觉数据退化问题,实现高效的车联网3D目标检测。
- Motivation: 车联网中4D雷达-视觉3D目标检测面临两个挑战:1)4D雷达点云稀疏导致3D表示能力差;2)视觉数据在低光照、远距离和密集遮挡场景下存在表示退化,在融合阶段提供不可靠的纹理信息。
- Method: 提出SDCM框架,包含三个模块:1)SimDen模块:基于3D核密度估计的关键点高斯模拟生成点云,基于曲率模拟生成轮廓,实现雷达点云密度化;2)RCM模块:利用4D雷达的全天候特性,通过雷达补偿映射减少视觉数据退化影响;3)MMIF模块:通过提取特征张量差异值中的有效信息,进行异质性减少和模态交互融合。
- Result: 在VoD、TJ4DRadSet和Astyx HiRes 2019数据集上的实验表明,SDCM在参数数量更少、推理速度更快的情况下取得了最佳性能。
- Conclusion: SDCM框架有效解决了4D雷达点云稀疏和视觉数据退化问题,通过模拟密度化、雷达补偿和交互融合实现了高效的车联网3D目标检测,代码将开源。
[24] Investigating the Impact of Histopathological Foundation Models on Regressive Prediction of Homologous Recombination Deficiency
Alexander Blezinger,Wolfgang Nejdl,Ming Tang
Main category: cs.CV
TL;DR: 系统评估了五种病理学基础模型在回归任务(预测HRD评分)中的表现,发现基础模型特征优于对比学习基线,并提出分布上采样策略改善数据不平衡问题。
- Motivation: 尽管大规模病理学基础模型在各种计算病理学领域取得了成功,但它们在回归性生物标志物预测方面的影响尚未充分探索。HRD评分作为个性化癌症治疗的关键生物标志物,需要更精确的预测方法。
- Method: 在多实例学习框架下,从全切片图像中提取五种最先进基础模型的patch级特征,并与对比学习特征进行比较。模型在乳腺癌、子宫内膜癌和肺癌队列上预测连续HRD评分。提出分布上采样策略缓解目标不平衡,并通过消融研究分析不同采样策略和实例包大小的影响。
- Result: 基础模型特征训练的模型在预测准确性和泛化能力上持续优于基线,不同基础模型间存在系统性差异。分布上采样策略显著提高了对临床重要但代表性不足患者群体的召回率和平衡准确率。
- Conclusion: 大规模病理学预训练能够实现更精确和可转移的回归性生物标志物预测,展示了其在推进AI驱动的精准肿瘤学方面的潜力。
[25] Real-Time Human Activity Recognition on Edge Microcontrollers: Dynamic Hierarchical Inference with Multi-Spectral Sensor Fusion
Boyu Li,Kuangji Zuo,Lincong Li,Yonghui Wu
Main category: cs.CV
TL;DR: 提出HPPI-Net用于边缘设备上的人体活动识别,在ARM Cortex-M4微控制器上实现96.70%准确率,仅需22.3 KiB RAM和439.5 KiB ROM,比MobileNetV3准确率提升1.22%,内存使用减少71.2%。
- Motivation: 边缘应用中对精确的端上模式识别需求日益增长,但现有方法难以在准确性和计算约束之间取得平衡。需要为内存受限的边缘平台提供实用的可穿戴、工业和智能家居人体活动识别解决方案。
- Method: 提出分层并行伪图像增强融合网络(HPPI-Net),采用两层架构:第一层使用FFT频谱图提取初步特征;第二层根据活动类型选择性激活专用模块:静态活动识别模块或并行LSTM-MobileNet网络(PLMN)。PLMN通过三个并行LSTM编码器融合FFT、小波和Gabor频谱图,并使用高效通道注意力(ECA)和深度可分离卷积(DSC)优化特征,提供通道级可解释性并大幅减少乘累加操作。
- Result: 在ARM Cortex-M4微控制器上实现96.70%准确率,仅需22.3 KiB RAM和439.5 KiB ROM。相比MobileNetV3,准确率提升1.22%,RAM使用减少71.2%,ROM使用减少42.1%。
- Conclusion: HPPI-Net实现了良好的准确率-效率权衡,提供可解释的预测,为内存受限的边缘平台上的可穿戴、工业和智能家居人体活动识别建立了实用解决方案。
[26] See Without Decoding: Motion-Vector-Based Tracking in Compressed Video
Axel Duché,Clément Chatelain,Gilles Gasso
Main category: cs.CV
TL;DR: 提出轻量级压缩域跟踪模型,直接在视频流上操作,无需完整RGB解码,利用运动向量和变换系数实现高效目标跟踪
- Motivation: 为大规模监控系统提供实时分析能力,避免完整视频解码的计算开销,直接在压缩域进行目标跟踪
- Method: 使用压缩数据中的运动向量和变换系数,通过深度模型在帧间传播目标边界框,无需完整RGB视频解码
- Result: 在MOTS15/17/20数据集上,相比RGB基线仅下降4% mAP@0.5,但计算速度提升最高达3.7倍
- Conclusion: 压缩域运动建模在大规模监控系统中具有高效性,为实时分析提供了可行的解决方案
[27] Deep Learning Pose Estimation for Multi-Label Recognition of Combined Hyperkinetic Movement Disorders
Laura Cif,Diane Demailly,Gabriella A. Horvàth,Juan Dario Ortigoza Escobar,Nathalie Dorison,Mayté Castro Jiménez,Cécile A. Hubsch,Thomas Wirth,Gun-Marie Hariz,Sophie Huby,Morgan Dornadic,Zohra Souei,Muhammad Mushhood Ur Rehman,Simone Hemm,Mehdi Boulayme,Eduardo M. Moraud,Jocelyne Bloch,Xavier Vasques
Main category: cs.CV
TL;DR: 开发基于姿态估计的机器学习框架,从常规门诊视频中提取关键点时间序列和运动学特征,用于客观识别和监测多种运动障碍
- Motivation: 运动障碍(如肌张力障碍、震颤、舞蹈症等)的表现波动、间歇且常同时出现,导致临床识别和长期监测困难,现有方法主观性强且易受评估者间差异影响,缺乏客观、可扩展的方法从常规临床视频中区分重叠的运动障碍表型
- Method: 开发基于姿态估计的机器学习框架,将标准门诊视频转换为解剖学有意义的关键点时间序列,计算涵盖统计、时域、频域以及高阶不规则性-复杂性特征的运动学描述符
- Result: 论文摘要未提供具体结果数据,但描述了方法的开发
- Conclusion: 该框架为从常规临床视频中客观、可扩展地区分重叠运动障碍表型提供了新的技术途径
[28] YOLOE-26: Integrating YOLO26 with YOLOE for Real-Time Open-Vocabulary Instance Segmentation
Ranjan Sapkota,Manoj Karkee
Main category: cs.CV
TL;DR: YOLOE-26是一个统一框架,将YOLOv26的部署优化架构与YOLOE的开放词汇学习范式结合,实现实时开放词汇实例分割,支持文本提示、视觉提示和无提示推理。
- Motivation: 现有YOLO模型主要针对封闭集识别,无法适应动态现实环境中新类别的识别需求。需要将YOLO的高效实时特性与开放词汇学习能力结合,实现更灵活的实例分割。
- Method: 采用YOLOv26的NMS-free端到端设计,用卷积骨干网络和PAN/FPN多尺度特征聚合。关键创新是用对象嵌入头替换固定类别logits,将分类重新定义为与提示嵌入的相似度匹配。引入RepRTA实现零开销文本提示、SAVPE进行示例引导分割、Lazy Region Prompt Contrast实现无提示推理。
- Result: 实验显示在不同模型尺寸下都表现出良好的缩放行为和准确率-效率权衡。支持文本提示、视觉提示和无提示三种模式,在动态现实环境中提供实用可扩展的解决方案。
- Conclusion: YOLOE-26为实时开放词汇实例分割提供了实用且可扩展的解决方案,保持了YOLO家族的高效性和确定性,同时扩展了其能力,完全兼容Ultralytics生态系统。
[29] Intra-Class Subdivision for Pixel Contrastive Learning: Application to Semi-supervised Cardiac Image Segmentation
Jiajun Zhao,Xuan Yang
Main category: cs.CV
TL;DR: 提出SPCL框架用于心脏图像分割,通过"不关心样本"概念区分同一类别内的内部和边界区域像素表示,并使用边界对比损失增强边界表示区分度,显著提升分割性能。
- Motivation: 解决心脏图像分割中边界区域表示污染的问题。传统方法在处理同一类别内部和边界像素时,其表示容易相互污染,影响分割精度,特别是边界区域的精确度。
- Method: 提出SPCL框架:1)引入"不关心样本"概念,区分同一类别内的内部区域和边界区域像素表示;2)设计边界对比损失,专门增强边界表示在不同类别间的区分度;3)理论分析不关心样本和边界对比损失的优势。
- Result: 在公开心脏数据集上的实验表明,SPCL显著提升了分割性能,在分割质量和边界精度方面优于现有方法。
- Conclusion: SPCL框架通过处理边界表示污染问题,有效提升了心脏图像分割的精度,特别是在边界区域。提出的不关心样本概念和边界对比损失为医学图像分割提供了新思路。
[30] Stabilizing Diffusion Posterior Sampling by Noise--Frequency Continuation
Feng Tian,Yixuan Li,Weili Zeng,Weitian Zhang,Yichao Yan,Xiaokang Yang
Main category: cs.CV
TL;DR: 提出噪声-频率延续框架,通过构建中间后验分布家族,在噪声依赖的频率带内实施测量一致性,解决了扩散后验采样中细节恢复不足的问题。
- Motivation: 扩散后验采样在解决逆问题时,由于测量项与扩散噪声水平弱耦合,经常无法恢复精细细节。在高噪声下,从不准确估计计算的数据一致性梯度可能与后验几何形状不一致,导致早期漂移、伪高频伪影以及对调度和病态算子的敏感性。
- Method: 提出噪声-频率延续框架,构建中间后验分布家族,其似然仅在噪声依赖的频率带内强制执行测量一致性。具体实现包括:扩散预测器、带限似然引导和多分辨率一致性策略,该策略积极采用可靠的粗粒度校正,同时保守地仅在可识别时采用高频细节。
- Result: 在超分辨率、修复和去模糊任务中达到最先进性能,运动去模糊的PSNR比强基线提升高达5 dB。
- Conclusion: 提出的噪声-频率延续框架通过带限似然引导和多分辨率一致性策略,有效解决了扩散后验采样中的细节恢复问题,显著提升了逆问题求解的性能。
[31] CamReasoner: Reinforcing Camera Movement Understanding via Structured Spatial Reasoning
Hang Wu,Yujun Cai,Zehao Li,Haonan Ge,Bowen Sun,Junsong Yuan,Yiwei Wang
Main category: cs.CV
TL;DR: CamReasoner:通过结构化推理范式(观察-思考-回答)理解相机运动,结合强化学习实现几何感知而非表面模式识别,在多个基准上达到SOTA性能。
- Motivation: 现有多模态模型将相机运动理解视为黑盒分类任务,往往混淆物理上不同的运动,因为它们依赖表面视觉模式而非几何线索。需要弥合感知与电影逻辑之间的差距。
- Method: 提出CamReasoner框架,采用观察-思考-回答(O-T-A)结构化推理范式,迫使模型在显式推理块中解码轨迹和视锥等时空线索。构建大规模推理轨迹套件(18k SFT推理链和38k RL反馈样本),首次在该领域使用强化学习进行逻辑对齐。
- Result: CamReasoner有效抑制幻觉,在多个基准测试中达到最先进的性能,确保运动推断基于物理几何而非上下文猜测。
- Conclusion: 通过将相机运动理解重新构建为结构化推理过程,并结合强化学习进行逻辑对齐,CamReasoner成功弥合了感知与电影逻辑之间的差距,实现了基于几何的相机运动理解。
[32] AI-Generated Image Detectors Overrely on Global Artifacts: Evidence from Inpainting Exchange
Elif Nebioglu,Emirhan Bilgiç,Adrian Popescu
Main category: cs.CV
TL;DR: 研究发现当前图像修复检测器主要依赖全局伪影而非局部合成内容,通过INP-X操作揭示了VAE重建导致的频谱偏移问题,现有检测器在此干预下准确率大幅下降。
- Motivation: 现代基于深度学习的图像修复技术实现了逼真的局部图像编辑,这对可靠检测提出了挑战。作者观察到当前检测器主要依赖作为修复副作用的全局伪影,而不是局部合成内容。
- Method: 引入Inpainting Exchange (INP-X)操作,在保留所有合成内容的同时恢复编辑区域外的原始像素。创建包含9万张真实、修复和交换图像的测试数据集,并提供了理论分析,将检测器行为与VAE信息瓶颈导致的高频衰减联系起来。
- Result: 在INP-X干预下,预训练的最先进检测器(包括商业检测器)准确率大幅下降(如从91%降至55%),经常接近随机水平。使用该数据集训练的检测器比标准修复检测具有更好的泛化能力和定位能力。
- Conclusion: 研究揭示了当前修复检测器对全局伪影的依赖而非局部合成内容,强调了内容感知检测的必要性。INP-X数据集和代码已公开,为开发更鲁棒的检测方法提供了基础。
[33] Vision-Language Model Purified Semi-Supervised Semantic Segmentation for Remote Sensing Images
Shanwen Wang,Xin Sun,Danfeng Hong,Fei Zhou
Main category: cs.CV
TL;DR: 提出SemiEarth模型,通过引入视觉语言模型(VLMs)来提升遥感图像半监督语义分割中的伪标签质量,特别是通过VLM伪标签净化模块改善多类边界区域的分割效果。
- Motivation: 传统半监督语义分割方法面临伪标签质量低的问题,特别是在教师-学生框架中。遥感图像的多类边界区域分割尤为困难,需要提升伪标签质量来正确指导学生模型学习。
- Method: 提出SemiEarth模型,引入视觉语言模型(VLMs)并设计VLM伪标签净化(VLM-PP)模块。该模块利用VLMs的开放世界能力净化教师网络生成的伪标签,特别针对多类边界区域进行优化,且独立于S4架构。
- Result: 在多个遥感数据集上的实验表明,SemiEarth达到了SOTA性能。更重要的是,相比之前的SOTA方法,该模型不仅性能优异,还具有良好的可解释性。
- Conclusion: 通过引入视觉语言模型来净化伪标签,SemiEarth有效解决了遥感图像半监督语义分割中的伪标签质量问题,在提升性能的同时保持了模型的可解释性。
[34] Interpretable Unsupervised Deformable Image Registration via Confidence-bound Multi-Hop Visual Reasoning
Zafar Iqbal,Anwar Ul Haq,Srimannarayana Grandhi
Main category: cs.CV
TL;DR: 提出VCoR框架,将无监督图像配准重新定义为渐进推理过程,通过多跳视觉推理链实现大变形处理,并提供可解释的中间预测和不确定性估计。
- Motivation: 现有深度学习方法在无监督图像配准中虽然精度高,但缺乏透明度和可解释性,导致误差漂移和临床信任度降低,需要一种既能保持精度又能提供可解释性的方法。
- Method: 提出多跳视觉推理链(VCoR)框架,将配准视为渐进推理过程。每个视觉推理跳包含局部空间细化(LSR)模块来丰富特征表示,以及交叉参考注意力(CRA)机制来引导迭代细化过程,保持解剖一致性。多跳策略能够处理大变形,并产生具有理论边界的透明中间预测序列。
- Result: 在DIR-Lab 4D CT(肺部)和IXI T1加权MRI(脑部)两个具有挑战性的公共数据集上进行广泛评估,VCoR实现了具有竞争力的配准精度,同时提供了丰富的中间可视化和置信度测量。
- Conclusion: 通过嵌入隐式视觉推理范式,VCoR提出了一种可解释、可靠且临床可行的无监督医学图像配准方法,不仅提高了精度,还增强了透明度和临床信任度。
[35] Deep Learning Based CNN Model for Automated Detection of Pneumonia from Chest XRay Images
Sathish Krishna Anumula,Vetrivelan Tamilmani,Aniruddha Arjun Singh,Dinesh Rajendran,Venkata Deepak Namburi
Main category: cs.CV
TL;DR: 本文提出了一种基于定制卷积神经网络(CNN)的自动化肺炎诊断模型,通过深度可分离卷积设计优化灰度医学图像纹理特征,结合CLAHE和几何增强预处理技术,在5863张胸部X光片上实现高精度、低计算成本的肺炎识别。
- Motivation: 肺炎是全球发病率和死亡率的主要原因之一,尤其在儿科和老年人群中患病率较高。传统依赖放射科医生手动解读胸部X光片的方法存在观察者间差异、专家疲劳和合格放射科医生短缺等限制,需要快速准确的自动化诊断解决方案。
- Method: 采用定制卷积神经网络(CNN)架构,使用深度可分离卷积设计专门优化灰度医学图像的纹理特征。预处理阶段采用对比度受限自适应直方图均衡化(CLAHE)和几何增强技术来处理类别不平衡问题并提高泛化能力。
- Result: 在包含5863张前后位胸部X光片的数据集上进行测试,模型能够以高精度识别肺炎,同时保持较低的计算开销。
- Conclusion: 提出的定制CNN模型为肺炎诊断提供了一种高效、准确的自动化解决方案,相比传统的通用迁移学习模型具有更少的冗余参数,更适合医疗图像分析的实际应用需求。
[36] A Geometric Multimodal Foundation Model Integrating Bp-MRI and Clinical Reports in Prostate Cancer Classification
Juan A. Olmos,Antoine Manzanera,Fabio Martínez
Main category: cs.CV
TL;DR: 提出MFM-Geom几何多模态基础模型,结合双参数MRI和临床报告,使用SPD矩阵和黎曼深度学习进行前列腺癌识别,仅用10%训练数据即超越基线方法。
- Motivation: 前列腺癌诊断依赖专家主观解读双参数MRI和临床变量,现有计算机辅助诊断方法多关注影像模型,忽视临床背景且受数据稀缺限制,难以学习稳健表示。
- Method: 提出MFM-Geom几何多模态基础模型,从双参数MRI和临床报告中学习表示,利用对称正定矩阵和黎曼深度学习整合影像-文本表示,构建生物医学多模态基础模型。
- Result: 仅使用10%训练数据,MFM-Geom在AUC-PR上超越基线分类token嵌入方法8.3%,达到90.67%。在外部数据集验证中,微调后的生物医学基础模型AUC-PR达到90.6,证明其稳健性。
- Conclusion: MFM-Geom通过整合影像和临床文本的多模态表示,利用几何深度学习框架,有效解决了前列腺癌诊断中的数据稀缺问题,展现了基础模型在医学影像分析中的潜力。
[37] Development of a Cacao Disease Identification and Management App Using Deep Learning
Zaldy Pagaduan,Jason Occidental,Nathaniel Duro,Dexielito Badilles,Eleonor Palconit
Main category: cs.CV
TL;DR: 开发了一款离线可用的移动应用,通过深度学习模型识别可可病害,帮助菲律宾小农户提高作物健康和生产效率。
- Motivation: 菲律宾可可小农户面临技术落后、病虫害严重、缺乏数据和良好农业实践的问题,需要适合偏远地区使用的技术解决方案。
- Method: 开发离线移动应用,集成深度学习模型进行可可病害识别,包括病害类型识别和黑果病感染程度检测两个模型。
- Result: 病害识别模型验证准确率达96.93%,黑果病感染程度检测模型准确率79.49%,现场测试与专家评估一致率达84.2%。
- Conclusion: 该技术方案为小农户提供了可访问的技术工具,能有效改善可可作物健康和提高生产力。
[38] CAPA: Contribution-Aware Pruning and FFN Approximation for Efficient Large Vision-Language Models
Samyak Jha,Junho Kim
Main category: cs.CV
TL;DR: CAPA框架通过注意力贡献度评估视觉token重要性,识别并剪枝低贡献的"概率垃圾"token,同时保留高贡献的"结构锚点"token,并通过线性近似减少FFN计算,实现高效推理。
- Motivation: 大型视觉语言模型推理效率受限于处理数千个视觉token的高成本,但现有方法不清楚哪些token和计算可以安全移除。注意力分数作为token重要性评估指标存在不足,需要更准确的评估标准。
- Method: 提出注意力贡献度(Attention Contribution)作为视觉token选择标准,将注意力概率与值向量幅度结合。识别两种视觉注意力汇:可剪枝的"概率垃圾"和必须保留的"结构锚点"。发现视觉token相关的FFN存在冗余,特别是中间层的线性行为。提出CAPA框架,在关键功能转换处基于注意力贡献度剪枝视觉token,并通过线性近似减少FFN计算。
- Result: 在多个基准测试和基线模型上的实验表明,CAPA实现了高效推理与性能的良好平衡,并提高了模型的鲁棒性。
- Conclusion: 注意力贡献度比传统注意力分数更准确地评估视觉token重要性。视觉注意力汇具有功能异质性,需要区分处理。FFN中的冗余可以通过线性近似有效减少。CAPA框架为大型视觉语言模型的高效推理提供了有效的双策略解决方案。
[39] SANEval: Open-Vocabulary Compositional Benchmarks with Failure-mode Diagnosis
Rishav Pramanik,Ian E. Nielsen,Jeff Smith,Saurav Pandit,Ravi P. Ramachandran,Zhaozheng Yin
Main category: cs.CV
TL;DR: SANEval是一个用于评估文本到图像模型组合能力的综合基准,通过LLM驱动的开放词汇检测器来评估空间关系、属性和数量理解,解决了现有评估方法的局限性。
- Motivation: 当前文本到图像模型在处理涉及多个对象、属性和空间关系的复杂提示时存在瓶颈,而现有评估方法受限于封闭词汇表、缺乏细粒度诊断能力,无法提供可解释的反馈来诊断和修复具体的组合失败问题。
- Method: 提出SANEval基准,建立了一个可扩展的开放词汇组合评估流程:1) 使用大语言模型进行深度提示理解;2) 使用LLM增强的开放词汇对象检测器来稳健评估组合一致性,不受固定词汇表限制。
- Result: 在六个最先进的T2I模型上进行广泛实验,证明SANEval的自动评估提供了更接近人类评估的代理指标,在属性绑定、空间关系和数量理解任务上与人类评估的Spearman秩相关性显著优于现有基准。
- Conclusion: SANEval解决了现有评估方法的局限性,为组合T2I生成和评估的未来研究提供了更全面、可解释的评估框架,并将发布数据集和开源评估流程。
[40] Subspace Clustering on Incomplete Data with Self-Supervised Contrastive Learning
Huanran Li,Daniel Pimentel-Alarcón
Main category: cs.CV
TL;DR: 提出了一种用于不完整数据的对比自监督子空间聚类框架CSC,通过生成掩码视图学习不变嵌入,在六个基准数据集上优于现有方法。
- Motivation: 现有子空间聚类方法大多假设数据完全观测,但在真实场景中数据常存在缺失值,限制了这些方法的有效性。需要开发能够处理不完整数据的子空间聚类方法。
- Method: 提出对比子空间聚类(CSC)框架:1) 对部分观测输入生成掩码视图;2) 使用SimCLR风格的对比损失训练深度神经网络学习不变嵌入;3) 使用稀疏子空间聚类对嵌入进行聚类。
- Result: 在六个基准数据集上的实验表明,CSC在聚类性能上一致优于经典和深度学习方法,对缺失数据具有强鲁棒性,并能扩展到大规模数据集。
- Conclusion: CSC框架成功解决了不完整数据的子空间聚类问题,通过对比自监督学习有效处理缺失值,在实际应用中具有重要价值。
[41] World-Shaper: A Unified Framework for 360° Panoramic Editing
Dong Liang,Yuhao Liu,Jinyuan Jia,Youjun Zhao,Rynson W. H. Lau
Main category: cs.CV
TL;DR: World-Shaper:首个直接在等距柱状投影域进行全景图像编辑的统一几何感知框架,通过生成-编辑范式解决数据稀缺和几何失真问题,实现几何一致、编辑保真、文本可控的全景编辑。
- Motivation: 现有基于透视的图像编辑方法无法建模全景图像的空间结构,传统的立方体贴图分解方法由于与球面几何不匹配而破坏全局一致性,需要直接在等距柱状投影域进行全景编辑。
- Method: 1) 采用生成-编辑范式:可控全景生成作为辅助阶段合成多样配对数据;2) 几何感知学习策略:通过位置感知形状监督显式约束,通过渐进训练隐式内化全景先验;3) 在等距柱状投影域直接建模。
- Result: 在PEBench新基准测试中,相比SOTA方法,World-Shaper在几何一致性、编辑保真度和文本可控性方面表现更优,能够实现连贯灵活的360°视觉世界创建。
- Conclusion: World-Shaper通过统一的几何感知框架,直接在ERP域进行全景编辑,解决了现有方法的几何不一致问题,为360°视觉世界创建提供了连贯灵活的统一编辑控制方案。
[42] PLACID: Identity-Preserving Multi-Object Compositing via Video Diffusion with Synthetic Trajectories
Gemma Canet Tarrés,Manel Baradad,Francesc Moreno-Noguer,Yumeng Li
Main category: cs.CV
TL;DR: PLACID是一个利用预训练图像到视频扩散模型的多对象合成框架,通过时间先验保持对象一致性,并使用合成数据训练实现随机初始化的对象收敛到连贯布局。
- Motivation: 当前生成式AI在工作室级多对象合成方面存在不足,无法同时满足:完美保持对象身份、精确背景和颜色保真度、布局设计控制、完整美观的展示。现有模型常改变对象细节、遗漏或重复对象、产生错误相对尺寸或不一致展示。
- Method: 1. 利用预训练图像到视频扩散模型,通过文本控制和时间先验保持对象一致性、身份和背景细节。2. 提出新颖的数据策展策略,生成合成序列:随机放置的对象平滑移动到目标位置,与视频模型的时间先验对齐训练。
- Result: 广泛定量评估和用户研究表明,PLACID在多对象合成方面超越最先进方法,在身份、背景和颜色保持方面表现更优,遗漏对象更少,视觉效果更吸引人。
- Conclusion: PLACID框架成功解决了工作室级多对象合成的关键挑战,通过结合视频模型的时间先验和合成数据训练,实现了高质量、一致性的多对象合成结果。
[43] TokenTrim: Inference-Time Token Pruning for Autoregressive Long Video Generation
Ariel Shaulov,Eitan Shaar,Amit Edenzon,Lior Wolf
Main category: cs.CV
TL;DR: 提出一种推理时方法,通过识别和移除不稳定的潜在标记来缓解自回归视频生成中的时间漂移问题,无需修改模型架构或训练过程。
- Motivation: 自回归视频生成在生成长视频时存在严重的时间漂移问题,错误会随时间累积和放大。作者认为这主要源于推理时的错误传播,特别是被污染的潜在条件标记的重复使用,而非模型容量不足。
- Method: 提出一种简单的推理时方法:识别并移除不稳定的潜在标记,防止它们在自回归上下文中被重复使用。不稳定标记定义为与先前生成批次表示显著偏离的潜在标记,表明可能存在污染或语义漂移。通过显式移除这些被污染的潜在标记,而不是修改整个空间区域或模型参数,防止不可靠的潜在信息影响未来生成步骤。
- Result: 该方法显著改善了长时域的时间一致性,无需修改模型架构、训练过程或离开潜在空间。
- Conclusion: 通过推理时识别和移除不稳定的潜在标记,可以有效缓解自回归视频生成中的时间漂移问题,提高长视频生成的时间一致性,且方法简单高效,无需对现有系统进行重大修改。
[44] TimeBlind: A Spatio-Temporal Compositionality Benchmark for Video LLMs
Baiqi Li,Kangyi Zhao,Ce Zhang,Chancharik Mitra,Jean de Dieu Nyandwi,Gedas Bertasius
Main category: cs.CV
TL;DR: TimeBlind是一个诊断基准,用于评估多模态大语言模型在细粒度时空理解上的能力,通过视频对共享相同静态内容但不同时间结构的设计,揭示模型依赖静态视觉捷径而非真正时间逻辑的问题。
- Motivation: 当前多模态大语言模型在静态语义理解上表现出色,但对时间动态的把握仍然脆弱。需要专门的诊断工具来评估模型在细粒度时空理解上的真实能力,以推动视频理解和具身AI的发展。
- Method: 采用认知科学启发的三层分类:识别原子事件、描述事件属性、推理事件间依赖关系。使用最小对范式:视频对共享相同静态视觉内容但时间结构不同,配合互补问题来消除语言先验。包含600个精心策划的实例(2400个视频-问题对)。
- Result: 评估了20多个最先进的MLLM(如GPT-5、Gemini 3 Pro),最佳模型的实例准确率仅为48.2%,远低于人类表现的98.2%。这表明前沿模型严重依赖静态视觉捷径而非真正的时间逻辑推理。
- Conclusion: TimeBlind揭示了当前MLLM在时空理解上的根本缺陷,为下一代视频理解模型提供了重要的诊断工具。数据集和代码已开源,有助于推动该领域的发展。
[45] Computer Vision and Its Relationship to Cognitive Science: A perspective from Bayes Decision Theory
Alan Yuille,Daniel Kersten
Main category: cs.CV
TL;DR: 本文从贝叶斯决策理论视角介绍计算机视觉及其与认知科学的关系,对比分析贝叶斯方法和深度神经网络方法,并探讨两者结合的可能性。
- Motivation: 计算机视觉领域广阔复杂,需要理论框架来整合不同方法。贝叶斯决策理论提供了一个统一视角,既能涵盖与认知科学共鸣的贝叶斯方法,又能解释在现实世界中取得巨大成功的深度神经网络方法。
- Method: 采用贝叶斯决策理论作为理论框架,分析计算机视觉中的两种主要方法:贝叶斯方法和深度神经网络方法。通过该框架比较两者的优缺点,并讨论如何超越BDT限制实现方法融合。
- Result: 贝叶斯决策理论成功地为计算机视觉提供了一个统一的理论视角,能够同时涵盖贝叶斯方法(与认知科学理论相契合)和深度神经网络方法(在实际应用中取得巨大商业成功)。该框架揭示了两种方法的优缺点及其相互关系。
- Conclusion: 贝叶斯决策理论为理解计算机视觉提供了有价值的理论框架,但存在局限性。未来的发展方向是超越BDT的限制,将贝叶斯方法和深度神经网络方法结合到更丰富的框架中,以更好地解决计算机视觉的复杂问题。
[46] LogicGaze: Benchmarking Causal Consistency in Visual Narratives via Counterfactual Verification
Rory Driscoll,Alexandros Christoforos,Chadbourne Davis
Main category: cs.CV
TL;DR: LogicGaze是一个评估视觉语言模型在视觉证据中验证因果推理链可靠性的新基准框架,旨在解决幻觉问题。
- Motivation: 虽然顺序推理增强了视觉语言模型执行复杂多模态任务的能力,但这些推理链是否真正基于视觉证据的可靠性尚未得到充分探索。当前模型存在幻觉问题,需要评估它们能否验证因果链与视觉输入的一致性。
- Method: 从ShareGPT4Video的40,000个视频片段和Flickr30k图像子集中构建数据集,整合因果序列与视觉上矛盾但语言上合理的扰动。采用三重评估协议:因果验证、基础叙事合成和扰动拒绝。
- Result: 评估揭示了最先进的视觉语言模型(如Qwen2.5-VL-72B)存在显著脆弱性,表明它们在验证因果推理链与视觉证据一致性方面存在不足。
- Conclusion: LogicGaze为评估多模态推理的可靠性提供了重要基准,倡导开发更稳健、可信赖的多模态推理系统,所有资源已在匿名存储库中公开。
[47] Opportunistic Promptable Segmentation: Leveraging Routine Radiological Annotations to Guide 3D CT Lesion Segmentation
Samuel Church,Joshua D. Warner,Danyal Maqbool,Xin Tie,Junjie Hu,Meghan G. Lubner,Tyler J. Bradshaw
Main category: cs.CV
TL;DR: SAM2CT:首个可提示分割模型,利用放射科医生在PACS中的稀疏标注(箭头和线条)生成3D CT分割,通过扩展SAM2架构和引入MCM记忆编码策略,在公共基准测试和临床数据上表现优异。
- Motivation: CT影像的机器学习模型开发需要大量高质量标注数据,但3D分割标注成本高昂。临床PACS系统中存在大量放射科医生在常规阅片中留下的稀疏标注(如箭头、线条测量),这些标注可作为生成3D分割的宝贵资源。
- Method: 提出SAM2CT模型,基于SAM2架构扩展提示编码器以支持箭头和线条输入,并引入Memory-Conditioned Memories(MCM)记忆编码策略专门针对3D医学影像。通过"机会性可提示分割"范式,将稀疏标注转换为3D分割。
- Result: 在公共病灶分割基准测试中,SAM2CT优于现有可提示分割模型和类似训练的基线模型,箭头提示Dice系数0.649,线条提示0.757。在临床PACS的60个GSPS标注上,87%的分割结果被放射科医生评为临床可接受或仅需轻微调整。在急诊科特定发现上表现出强大的零样本性能。
- Conclusion: 大规模挖掘历史GSPS标注是生成3D CT分割数据集的有前景且可扩展的方法。SAM2CT模型能够有效利用放射科医生的稀疏标注,为医学影像分析提供高质量的训练数据。
[48] On the Assessment of Sensitivity of Autonomous Vehicle Perception
Apostol Vassilev,Munawar Hasan,Edward Griffor,Honglan Jin,Pavel Piliptchak,Mahima Arora,Thoshitha Gamage
Main category: cs.CV
TL;DR: 该研究通过集成多个先进计算机视觉模型,在模拟和真实驾驶场景下评估自动驾驶感知系统的鲁棒性,发现光照条件、恶劣天气和物体距离是影响感知性能的主要因素。
- Motivation: 自动驾驶的可行性严重依赖感知系统的实时准确性和可靠性,但自然和对抗性驾驶因素会导致感知错误和检测延迟,因此需要评估感知系统的鲁棒性并探索提高可靠性的策略。
- Method: 使用基于模型集成的预测敏感性量化方法,评估五种先进计算机视觉模型(YOLO v8-v9、DETR50、DETR101、RT-DETR)在模拟和真实世界恶劣驾驶场景下的性能,提出基于停车距离的感知评估标准。
- Result: 光照条件(雾和低太阳高度)对感知模型性能影响最大;对抗性道路条件(物体遮挡)与恶劣天气结合会显著降低感知性能;物体距离越远,感知鲁棒性越差。
- Conclusion: 自动驾驶感知系统在恶劣环境下面临显著挑战,需要开发更鲁棒的感知策略来应对光照变化、天气条件和距离因素,以确保安全可靠的自动驾驶决策。
[49] Bridging the Semantic Chasm: Synergistic Conceptual Anchoring for Generalized Few-Shot and Zero-Shot OOD Perception
Alexandros Christoforos,Sarah Jenkins,Michael Brown,Tuan Pham,David Chen
Main category: cs.CV
TL;DR: SynerNet框架通过协同神经代理网络解决VLMs中跨模态对齐退化问题,在OOD概念上实现性能提升
- Motivation: 解决视觉语言模型在遇到分布外概念时出现的跨模态对齐退化现象,提升模型在OOD场景下的泛化能力
- Method: 提出SynerNet框架,包含四个专用计算单元(视觉感知、语言上下文、名义嵌入、全局协调),通过结构化消息传播协议协作纠正模态差异,采用多代理潜在空间命名获取框架、语义上下文交换算法和自适应动态平衡机制
- Result: 在VISTA-Beyond基准测试中,SynerNet在少样本和零样本场景下均实现显著性能提升,精度提高1.2%到5.4%
- Conclusion: SynerNet框架有效缓解了VLMs中的跨模态对齐退化问题,为处理OOD概念提供了创新解决方案,在多种领域展现出优越性能
[50] When RAG Hurts: Diagnosing and Mitigating Attention Distraction in Retrieval-Augmented LVLMs
Beidi Zhao,Wenlong Deng,Xinting Liao,Yushu Li,Nazim Shaikh,Yao Nie,Xiaoxiao Li
Main category: cs.CV
TL;DR: MAD-RAG提出一种训练免费的干预方法,通过双问题表述和解耦视觉基础与上下文集成,解决RAG中的注意力分散问题,显著提升知识型VQA任务的性能。
- Motivation: 研究发现RAG存在一种先前被忽视的失败模式——注意力分散(AD):当检索到的上下文足够相关时,检索文本会全局抑制视觉注意力,使图像注意力从问题相关区域转移,导致模型原本能正确回答的问题失败。
- Method: 提出MAD-RAG方法:1)通过双问题表述解耦视觉基础与上下文集成;2)结合注意力混合来保留图像条件证据;3)无需训练即可干预。
- Result: 在OK-VQA、E-VQA和InfoSeek数据集上,MAD-RAG始终优于现有基线,相比原始RAG基线分别获得4.76%、9.20%和6.18%的绝对提升,能纠正高达74.68%的失败案例,计算开销可忽略。
- Conclusion: MAD-RAG有效解决了RAG中的注意力分散问题,通过简单而有效的干预显著提升了大型视觉语言模型在知识型VQA任务上的性能,且无需额外训练。
[51] AdaFuse: Adaptive Multimodal Fusion for Lung Cancer Risk Prediction via Reinforcement Learning
Chongyu Qu,Zhengyi Lu,Yuxiang Lai,Thomas Z. Li,Junchao Zhu,Junlin Guo,Juming Xiong,Yanfan Zhu,Yuechen Yang,Allen J. Luna,Kim L. Sandler,Bennett A. Landman,Yuankai Huo
Main category: cs.CV
TL;DR: AdaFuse:基于强化学习的自适应多模态融合框架,用于肺癌风险预测,可根据患者具体情况动态选择使用哪些模态数据,而非固定融合所有可用模态。
- Motivation: 现有多模态融合方法要么平等处理所有模态,要么学习分配不同权重,但未解决一个根本问题:对于特定患者,是否应该使用某些模态?需要更个性化的融合策略。
- Method: 将多模态融合建模为顺序决策过程,使用强化学习训练策略网络,迭代决定是否纳入额外模态或基于已获取信息进行预测,实现患者特定的模态选择和融合。
- Result: 在NLST数据集上,AdaFuse达到最高AUC(0.762),优于最佳单模态基线(0.732)、最佳固定融合策略(0.759)和自适应基线DynMM(0.754)、MoE(0.742),同时计算量更少。
- Conclusion: 强化学习可实现个性化多模态融合,从统一融合策略转向自适应诊断流程,学习何时咨询额外模态、何时现有信息足以进行准确预测,为医学影像分析提供新方向。
[52] MASC: Metal-Aware Sampling and Correction via Reinforcement Learning for Accelerated MRI
Zhengyi Lu,Ming Lu,Chongyu Qu,Junchao Zhu,Junlin Guo,Marilyn Lionts,Yanfan Zhu,Yuechen Yang,Tianyuan Yao,Jayasai Rajagopal,Bennett Allan Landman,Xiao Wang,Xinqiang Yan,Yuankai Huo
Main category: cs.CV
TL;DR: MASC是一个统一的强化学习框架,联合优化金属感知的k空间采样和伪影校正,用于加速MRI扫描
- Motivation: 传统方法将金属伪影减少(MAR)和加速MRI采集作为两个独立问题处理,但金属植入物在MRI中会造成严重伪影,影响图像质量和临床诊断
- Method: 使用基于物理的模拟构建配对MRI数据集,将主动MRI采集建模为顺序决策问题,通过PPO代理学习在有限采集预算下选择k空间相位编码线,结合U-Net MAR网络进行端到端训练
- Result: MASC的学习策略优于传统采样策略,端到端训练相比使用冻结预训练MAR网络有性能提升,在FastMRI上的跨数据集实验证实了对临床MRI数据的泛化能力
- Conclusion: MASC框架通过联合优化采样和伪影校正,有效解决了金属伪影减少和加速MRI采集的协同问题,为临床MRI诊断提供了新方法
[53] ReLAPSe: Reinforcement-Learning-trained Adversarial Prompt Search for Erased concepts in unlearned diffusion models
Ignacy Kolton,Kacper Marzol,Paweł Batorski,Marcin Mazur,Paul Swoboda,Przemysław Spurek
Main category: cs.CV
TL;DR: ReLAPSe是一个基于强化学习的对抗框架,用于恢复文本到图像扩散模型中已删除的概念,通过策略学习而非逐实例优化实现高效恢复。
- Motivation: 现有对抗方法存在局限性:基于优化的方法计算成本高(需要逐实例迭代搜索),而基于推理和启发式的方法缺乏目标模型潜在视觉表示的直接反馈。需要一种更高效、可扩展的方法来严格测试已删除扩散模型的安全性。
- Method: 引入ReLAPSe框架,将概念恢复重新定义为强化学习问题。使用可验证奖励的强化学习(RLVR)训练智能体,利用扩散模型的噪声预测损失作为模型内在且可验证的反馈信号。这种闭环设计直接将文本提示操作与潜在视觉残差对齐,使智能体能够学习可迁移的恢复策略。
- Result: ReLAPSe实现了高效、接近实时的细粒度身份和风格恢复,适用于多种最先进的遗忘方法。通过从逐实例优化转向全局策略学习,为严格测试已删除扩散模型提供了可扩展工具。
- Conclusion: ReLAPSe通过强化学习框架解决了现有对抗方法的局限性,实现了高效的概念恢复,为机器遗忘系统的安全性评估提供了新的方法。该方法展示了从逐实例优化到策略学习的转变优势,能够有效测试扩散模型遗忘机制的安全性。
[54] Modeling Image-Caption Rating from Comparative Judgments
Kezia Minni,Qiang Zhang,Monoshiz Mahbub Khan,Zhe Yu
Main category: cs.CV
TL;DR: 提出基于比较学习的图像描述评估框架,通过比较两个描述的质量而非直接评分来建模人类偏好,降低标注成本
- Motivation: 人类对图像描述进行直接评分耗时且主观,而比较两个描述哪个更好则相对容易。因此希望开发一个能建模这种比较判断而非直接评分的机器学习框架
- Method: 使用VICR数据集,提取ResNet-50视觉特征和MiniLM文本特征,训练回归模型和比较学习模型。比较学习模型通过比较两个描述的相对质量来学习
- Result: 回归模型表现更好(皮尔逊ρ: 0.7609,斯皮尔曼rs: 0.7089),但比较学习模型随数据增加稳步提升,接近回归基线。人类评估显示比较标注更快且标注者间一致性更高
- Conclusion: 比较学习能有效建模人类偏好,同时显著降低人工标注成本,为图像描述评估提供了一种更高效的方法
[55] Deep Learning-Based Object Detection for Autonomous Vehicles: A Comparative Study of One-Stage and Two-Stage Detectors on Basic Traffic Objects
Bsher Karbouj,Adam Michael Altenbuchner,Joerg Krueger
Main category: cs.CV
TL;DR: 该研究对比了YOLOv5和Faster R-CNN在自动驾驶目标检测中的性能,发现YOLOv5在mAP、召回率和训练效率方面表现更优,而Faster R-CNN在小目标检测和复杂光照条件下有优势。
- Motivation: 自动驾驶系统中的目标检测至关重要,但现有深度学习架构(如YOLO、SSD、Faster R-CNN)在特定自动驾驶应用中的适用性指导有限。方法选择会影响检测精度、处理速度、环境鲁棒性等多个关键性能指标。
- Method: 对两种主流目标检测模型进行综合实验分析:YOLOv5(单阶段检测器)和Faster R-CNN(两阶段检测器)。在结合真实和合成图像的多样化数据集上评估性能,考虑mAP、召回率、推理速度等多种指标。
- Result: YOLOv5在mAP、召回率和训练效率方面表现更优,特别是在数据集规模和图像分辨率增加时。Faster R-CNN在检测小目标、远距离目标以及复杂光照条件下表现更好。研究还分析了不同置信度阈值和实际场景下的模型行为。
- Conclusion: 两种模型各有优势:YOLOv5适合需要高效率和良好整体性能的应用,而Faster R-CNN在特定挑战性场景中表现更佳。研究为自动驾驶系统选择合适的目标检测方法提供了实用指导。
[56] Robust automatic brain vessel segmentation in 3D CTA scans using dynamic 4D-CTA data
Alberto Mario Ceballos-Arroyo,Shrikanth M. Yadav,Chu-Hsuan Lin,Jisoo Kim,Geoffrey S. Young,Huaizu Jiang,Lei Qin
Main category: cs.CV
TL;DR: 提出基于动态4D-CTA的脑血管标注新方法,通过多时相数据增强血管可视化,训练深度学习模型实现优于现有方法的血管分割性能
- Motivation: 传统脑血管标注需要大量人工努力,动态CTA扫描包含多时相信息但未被充分利用,需要更高效的标注方法和更鲁棒的分割模型
- Method: 利用动态4D-CTA多时相数据,通过减影技术去除骨骼和软组织增强血管可视化;将同一分割标注应用于多个时相,使数据集扩大4-5倍;使用nnUNet框架训练深度学习模型
- Result: 在110张训练图像和165张测试图像上,动脉平均mDC达0.846,静脉达0.957;误差小(动脉aDHD 0.304mm,静脉0.078mm),拓扑敏感性高(动脉tSens 0.877,静脉0.974),显著优于同类数据集
- Conclusion: 提出的动态4D-CTA标注方法能有效减少人工标注工作量,增强数据集规模,训练出的模型在脑血管分割任务上表现出色,代码和模型权重已开源
[57] Brazilian Portuguese Image Captioning with Transformers: A Study on Cross-Native-Translated Dataset
Gabriel Bromonschenkel,Alessandro L. Koerich,Thiago M. Paixão,Hilário Tomaz Alves de Oliveira
Main category: cs.CV
TL;DR: 该研究评估了基于Transformer的视觉语言模型在巴西葡萄牙语图像描述任务中的表现,比较了原生人工标注和自动翻译数据集的效果,发现Swin-DistilBERTimbau表现最佳,并揭示了模型存在的系统性偏见。
- Motivation: 图像描述任务主要针对英语模型,而巴西葡萄牙语等低资源语言面临数据集和模型缺乏的挑战。现有研究通过自动翻译缓解资源稀缺问题,但需要评估翻译对模型性能的影响。
- Method: 使用包含巴西葡萄牙语母语者人工标注的Flickr30K版本,与自动翻译版本进行比较。采用跨上下文方法,让在一个数据集上训练的模型在另一个数据集上测试。结合注意力图进行模型推理解释,并使用CLIP-Score评估图像-描述对齐度。
- Result: Swin-DistilBERTimbau在所有模型中表现最稳定,跨数据集泛化能力强。巴西葡萄牙语预训练模型ViTucano在传统文本评估指标上超越GPT-4o和LLaMa 3.2 Vision等大型多语言模型,而GPT-4模型在CLIP-Score上得分最高。注意力分析揭示了性别误分类、对象枚举错误和空间不一致等系统性偏见。
- Conclusion: 该研究填补了巴西葡萄牙语图像描述任务的评估空白,展示了跨数据集评估的重要性,揭示了自动翻译数据集对模型性能的影响,并提供了公开可用的数据集和模型资源。
[58] Modeling Art Evaluations from Comparative Judgments: A Deep Learning Approach to Predicting Aesthetic Preferences
Manoj Reddy Bethi,Sai Rupa Jhade,Pravallika Yaganti,Monoshiz Mahbub Khan,Zhe Yu
Main category: cs.CV
TL;DR: 该研究提出基于成对比较学习的视觉艺术审美判断建模方法,相比直接评分可减少60%标注时间,深度回归模型比基线提升328% R²,成对比较模型在无直接评分情况下接近回归性能。
- Motivation: 人类视觉艺术审美判断建模面临个体偏好差异大、标注数据获取成本高的挑战。直接评分存在认知负担重、一致性差的问题,需要更高效的标注方法。
- Method: 采用基于Law of Comparative Judgment的成对比较学习框架,使用ResNet-50提取绘画图像特征,开发深度神经网络回归模型和双分支成对比较模型,通过四个研究问题系统评估。
- Result: 深度回归模型比基于手工特征的线性回归基线提升328% R²;成对比较模型在无直接评分情况下接近回归性能;个体偏好预测仍具挑战性;成对比较标注时间减少60%。
- Conclusion: 成对比较学习是视觉艺术审美建模的有效方法,显著降低标注成本,深度特征优于手工特征,但个体偏好预测仍需进一步研究。
[59] 3DGS -TR: Scalable Second-Order Trust-Region Method for 3D Gaussian Splatting
Roger Hsiao,Yuchen Fang,Xiangru Huang,Ruilong Li,Hesam Rabeti,Zan Gojcic,Javad Lavaei,James Demmel,Sophia Shao
Main category: cs.CV
TL;DR: 提出3DGS²-TR,一种用于加速3D高斯泼溅场景训练的二阶优化器,使用Hessian矩阵对角近似和参数级信任区域技术,在减少50%训练迭代的同时保持低内存开销
- Motivation: 现有二阶优化方法(如3DGS-LM和3DGS2)依赖显式或密集曲率表示,计算和内存成本高,限制了在大规模场景中的应用。需要一种既高效又内存友好的优化器来加速3DGS训练。
- Method: 1. 使用Hutchinson方法近似Hessian矩阵的对角线,实现完全矩阵无关的计算;2. 引入基于平方Hellinger距离的参数级信任区域技术,正则化高斯参数更新;3. 保持与ADAM相同的O(n)计算和内存复杂度。
- Result: 在相同参数初始化和无致密化条件下,相比ADAM:1. 使用50%更少的训练迭代达到更好的重建质量;2. 峰值GPU内存开销小于1GB(比ADAM多17%,比3DGS-LM少85%);3. 能够扩展到超大规模场景和分布式训练设置。
- Conclusion: 3DGS²-TR通过高效的二阶优化和参数级信任区域技术,在保持低内存开销的同时显著加速3DGS训练,为大规模场景重建提供了实用的解决方案。
[60] Toward Autonomous Laboratory Safety Monitoring with Vision Language Models: Learning to See Hazards Through Scene Structure
Trishna Chakraborty,Udita Ghosh,Aldair Ernesto Gongora,Ruben Glatt,Yue Dong,Jiachen Li,Amit K. Roy-Chowdhury,Chengyu Song
Main category: cs.CV
TL;DR: 提出使用视觉语言模型进行实验室安全监控,通过结构化数据生成管道创建评估数据集,发现VLMs在文本场景图下表现良好但视觉输入下降,提出场景图引导对齐方法提升视觉检测性能
- Motivation: 实验室安全监控依赖人工且缺乏持续监测,视觉语言模型有潜力但缺乏真实评估数据,因为安全事故主要记录为文本而非视觉数据
- Method: 1) 构建结构化数据生成管道,将文本实验室场景转换为对齐的(图像、场景图、真实标签)三元组;2) 在1207个样本上评估7个开源和闭源模型;3) 提出场景图引导对齐的后训练方法,将视觉输入转换为结构化场景图以弥合感知差距
- Result: VLMs在文本场景图输入下表现有效,但在纯视觉设置中性能显著下降,表明难以直接从像素提取结构化对象关系。提出的场景图引导对齐方法改善了纯视觉设置下的危险检测性能
- Conclusion: VLMs在实验室安全监控中具有潜力,但需要解决视觉输入到结构化推理的差距。场景图引导对齐是一种有效的后训练方法,可以提升VLMs在视觉安全监控中的实用性
[61] Text is All You Need for Vision-Language Model Jailbreaking
Yihang Chen,Zhao Xu,Youyuan Jiang,Tianle Zheng,Cho-Jui Hsieh
Main category: cs.CV
TL;DR: Text-DJ是一种针对大型视觉语言模型的新型越狱攻击,通过将有害查询分解为多个语义相关但更良性的子查询,并添加大量无关的干扰查询,以图像网格形式呈现,成功绕过模型的安全防护机制。
- Motivation: 当前大型视觉语言模型的安全防护主要关注显式文本输入或相关视觉场景分析,但忽略了模型OCR能力可能被滥用的漏洞。本文旨在探索通过分散的多模态输入来绕过现有安全防护的方法。
- Method: 方法分为三个阶段:1) 将单个有害查询分解为多个语义相关但更良性的子查询;2) 选择与有害查询最大程度无关的干扰查询集;3) 将所有子查询和干扰查询以图像网格形式同时呈现给模型,其中子查询位于网格中间位置。
- Result: 该方法成功绕过了最先进的大型视觉语言模型的安全对齐机制,证明了现有OCR能力在面对分散、多图像对抗性输入时的脆弱性。
- Conclusion: Text-DJ攻击暴露了LVLMs在OCR能力上的关键漏洞,现有安全协议无法有效处理分散的、多模态的对抗性输入,突显了需要针对碎片化多模态输入开发防御机制的必要性。
[62] DISK: Dynamic Inference SKipping for World Models
Anugunj Naman,Gaibo Zhang,Ayushman Singh,Yaguang Zhang
Main category: cs.CV
TL;DR: DISK是一种无需训练的自适应推理方法,通过协调视频和轨迹扩散变换器,在保持性能的同时实现2倍加速
- Motivation: 解决自回归世界模型中视频和轨迹预测的计算成本问题,在保持运动-外观一致性的同时减少推理时间
- Method: 使用双分支控制器协调两个耦合的扩散变换器,通过跨模态跳过决策和高阶潜在差异跳过测试,在自回归链中传播控制器统计信息
- Result: 在NuPlan和NuScenes数据集上,轨迹扩散加速2倍,视频扩散加速1.6倍,同时保持L2规划误差、视觉质量和导航性能
- Conclusion: DISK能够以显著降低的成本实现实用的长时域视频和轨迹预测,为自动驾驶等应用提供高效解决方案
[63] Model Optimization for Multi-Camera 3D Detection and Tracking
Ethan Anderson,Justin Silva,Kyle Zheng,Sameer Pusegaonkar,Yizhou Wang,Zheng Tang,Sujit Biswas
Main category: cs.CV
TL;DR: 论文评估了Sparse4D在室内多摄像头感知中的性能,研究了帧率降低、量化、迁移学习和混合精度训练对多目标跟踪的影响,特别关注身份稳定性指标。
- Motivation: 室内环境中静态摄像头网络需要支持遮挡和异构视角下的多目标跟踪,现有方法在低帧率、量化部署和跨数据集迁移方面的性能需要系统评估。
- Method: 使用Sparse4D框架(基于查询的时空3D检测跟踪框架),研究帧率降低、后训练量化(INT8和FP8)、WILDTRACK基准迁移、Transformer Engine混合精度微调,并引入平均跟踪持续时间指标评估身份稳定性。
- Result: Sparse4D在适度帧率降低下保持稳定,但低于2FPS时身份关联崩溃;选择性量化骨干网络和颈部提供最佳速度-精度权衡;低帧率预训练在WILDTRACK上带来显著零样本增益;混合精度降低延迟但可能破坏身份传播稳定性。
- Conclusion: 室内多摄像头感知需要平衡计算效率和跟踪稳定性,选择性量化策略有效,低帧率预训练有助于跨数据集泛化,混合精度训练需结合稳定性验证,身份稳定性是评估跟踪性能的关键指标。
[64] LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs
Benno Krojer,Shravan Nayak,Oscar Mañas,Vaibhav Adlakha,Desmond Elliott,Siva Reddy,Marius Mosbach
Main category: cs.CV
TL;DR: LatentLens是一种新的可解释性方法,通过将视觉token表示与文本语料库中的上下文化文本表示进行比较,用自然语言描述视觉token在LLM各层的编码内容,显著提高了VLMs中视觉token的可解释性。
- Motivation: 理解为什么大型语言模型(LLMs)能够轻松处理视觉token,需要能够揭示LLM处理过程中每一层视觉token表示编码内容的可解释性方法。现有方法如LogitLens严重低估了视觉token的可解释性。
- Method: LatentLens方法:首先编码大型文本语料库,存储每个token的上下文化表示;然后将视觉token表示与这些文本表示进行比较,通过top-k最近邻表示提供视觉token的自然语言描述。
- Result: 在10个不同的VLMs上评估,LatentLens显示大多数视觉token在所有研究模型和所有层中都是可解释的。相比LogitLens等方法,LatentLens显著提高了可解释性,产生的描述在语义上有意义且提供更细粒度的人类可理解解释。
- Conclusion: LatentLens为分析潜在表示提供了新方向,为视觉和语言表示之间的对齐提供了新证据,表明通过简单的MLP变换将LLM转换为VLM时,视觉token在LLM各层中具有高度可解释性。
[65] PSGS: Text-driven Panorama Sliding Scene Generation via Gaussian Splatting
Xin Zhang,Shen Chen,Jiale Zhou,Lei Li
Main category: cs.CV
TL;DR: PSGS是一个两阶段框架,通过双层优化架构生成语义一致的360度全景图,然后通过全景滑动机制初始化全局一致的3D高斯点云,实现高质量文本到3D场景生成。
- Motivation: 当前文本驱动3D场景生成方法存在两个主要问题:1) 3D-文本数据有限,2) 多视角拼接不一致导致场景过于简单。这些问题限制了在VR、AR和游戏等沉浸式应用中的实用性。
- Method: 采用两阶段框架:第一阶段使用双层优化架构生成全景图(布局推理层解析文本为空间关系,自优化层通过MLLM反馈迭代优化视觉细节);第二阶段通过全景滑动机制初始化3D高斯点云,并在训练中加入深度和语义一致性损失。
- Result: PSGS在全景图生成方面优于现有方法,并能生成更具吸引力的3D场景,显著提升了渲染场景的质量和细节保真度。
- Conclusion: PSGS为可扩展的沉浸式内容创作提供了一个稳健的解决方案,通过创新的双层优化和全景滑动机制,有效解决了文本到3D场景生成中的关键挑战。
[66] ZS-TreeSeg: A Zero-Shot Framework for Tree Crown Instance Segmentation
Pengyu Chen,Fangzheng Lyu,Sicheng Wang,Cuizhen Wang
Main category: cs.CV
TL;DR: 提出ZS-TreeSeg零样本框架,通过将树冠建模为星凸对象,利用Cellpose-SAM基于拓扑流场向量收敛实现密集重叠树冠的数学分离,无需训练即可进行树冠实例分割。
- Motivation: 密集重叠树冠的准确分割是遥感森林生物量估算和生态监测的重要任务。监督深度学习方法标注成本高且泛化能力有限,而基础模型(如Segment Anything Model)缺乏领域知识,在密集簇中容易欠分割。
- Method: 提出ZS-TreeSeg零样本框架,从两个成熟任务(冠层语义分割和细胞实例分割)中迁移知识。将树冠建模为星凸对象,在拓扑流场中使用Cellpose-SAM,基于向量收敛的数学原理强制分离接触的树冠实例。
- Result: 在NEON和BAMFOREST数据集上的实验和视觉检查表明,该框架在不同传感器类型和冠层密度下都能稳健泛化,为树冠实例分割和标签生成提供了无需训练的解决方案。
- Conclusion: ZS-TreeSeg通过将树冠建模为星凸对象并利用拓扑流场向量收敛,成功实现了零样本树冠实例分割,克服了监督学习的高标注成本和基础模型缺乏领域知识的问题,为密集重叠树冠分割提供了有效的训练免费解决方案。
[67] GTATrack: Winner Solution to SoccerTrack 2025 with Deep-EIoU and Global Tracklet Association
Rong-Lin Jian,Ming-Chi Luo,Chen-Wei Huang,Chia-Ming Lee,Yu-Fan Lin,Chih-Chung Hsu
Main category: cs.CV
TL;DR: GTATrack是一个用于鱼眼相机足球比赛多目标跟踪的分层框架,在SoccerTrack Challenge 2025中获得第一名,通过Deep-EIoU和GTA组件实现了0.60的HOTA分数。
- Motivation: 体育场景中的多目标跟踪面临球员运动不规则、外观相似、频繁遮挡等挑战,而静态鱼眼相机带来的几何畸变和极端尺度变化进一步加剧了这些困难。
- Method: 提出GTATrack分层跟踪框架,包含两个核心组件:Deep-EIoU用于运动无关的在线关联,GTA用于轨迹级精炼。采用伪标签策略提升小目标和畸变目标的检测召回率。
- Result: 在SoccerTrack Challenge 2025中获得第一名,HOTA分数达到0.60,显著减少误报至982个,在鱼眼相机足球跟踪中达到最先进精度。
- Conclusion: GTATrack通过局部关联和全局推理的协同作用,有效解决了身份切换、遮挡和跟踪碎片化问题,为鱼眼相机体育跟踪提供了鲁棒的解决方案。
[68] Refining Strokes by Learning Offset Attributes between Strokes for Flexible Sketch Edit at Stroke-Level
Sicong Zang,Tao Sun,Cairong Yan
Main category: cs.CV
TL;DR: SketchMod通过变换源笔画来对齐目标草图模式,实现灵活的笔画级草图编辑,通过学习缩放、方向和位置三个关键偏移属性来调整源笔画
- Motivation: 现有方法仅重新定位源笔画而不进行进一步调整,当源笔画在大小和方向上存在显著变化时,无法产生合理的草图编辑结果。需要更精细的变换来对齐目标草图的模式。
- Method: 提出SketchMod方法,通过学习三个关键偏移属性(缩放、方向和位置)来细化源笔画:1)通过缩放匹配空间比例,2)通过旋转对齐局部几何,3)通过位移满足语义布局。通过暴露捕获的笔画属性实现对笔画轮廓的精确控制。
- Result: 实验结果表明,SketchMod在笔画级草图编辑上实现了精确和灵活的性能表现。
- Conclusion: SketchMod通过变换源笔画来对齐目标草图模式,实现了更精确和灵活的笔画级草图编辑,克服了仅重新定位笔画而不调整的局限性。
[69] HSSDCT: Factorized Spatial-Spectral Correlation for Hyperspectral Image Fusion
Chia-Ming Lee,Yu-Hao Ho,Yu-Fan Lin,Jen-Wei Lee,Li-Wei Kang,Chih-Chung Hsu
Main category: cs.CV
TL;DR: 提出HSSDCT网络解决高光谱图像融合问题,通过分层密集残差Transformer块和空间-光谱相关层,在降低计算复杂度的同时提升重建质量。
- Motivation: 现有深度学习方法存在感受野有限、光谱带冗余以及自注意力二次复杂度等问题,限制了效率和鲁棒性,需要新的解决方案。
- Method: 提出HSSDCT框架,包含两个核心模块:1)分层密集残差Transformer块,通过逐步扩大窗口和使用密集残差连接实现多尺度特征聚合;2)空间-光谱相关层,显式分解空间和光谱依赖关系,将自注意力复杂度降至线性并减少光谱冗余。
- Result: 在基准数据集上的大量实验表明,HSSDCT在显著降低计算成本的同时提供了优越的重建质量,实现了高光谱图像融合的最新性能。
- Conclusion: HSSDCT通过创新的分层密集残差Transformer和空间-光谱相关层设计,有效解决了现有方法的局限性,在效率和性能上都达到了新的最先进水平。
[70] RGBX-R1: Visual Modality Chain-of-Thought Guided Reinforcement Learning for Multimodal Grounding
Jiahe Wu,Bing Cao,Qilong Wang,Qinghua Hu,Dongdong Li,Pengfei Zhu
Main category: cs.CV
TL;DR: RGBX-R1框架通过UAV提示策略构建视觉模态思维链,采用两阶段训练增强MLLM对红外、深度等X模态的理解和推理能力,在RGBX-Grounding基准上表现优异。
- Motivation: 当前多模态大语言模型主要基于RGB模态预训练,限制了在红外、深度、事件数据等其他视觉模态上的性能,而这些模态在复杂场景中至关重要。
- Method: 提出RGBX-R1框架:1) 使用Understand-Associate-Validate提示策略构建视觉模态思维链;2) 采用两阶段训练:冷启动监督微调监督推理过程,时空强化微调使用模态理解时空奖励增强推理。
- Result: 构建首个RGBX-Grounding基准,在三个RGBX grounding任务上超越基线方法22.71%,在多模态理解和空间感知方面表现优越。
- Conclusion: RGBX-R1框架有效扩展了MLLM对多种视觉模态的理解和推理能力,为解决复杂场景中的多模态感知问题提供了有效方案。
[71] Sparse Shortcuts: Facilitating Efficient Fusion in Multimodal Large Language Models
Jingrui Zhang,Feng Liang,Yong Zhang,Wei Wang,Runhao Zeng,Xiping Hu
Main category: cs.CV
TL;DR: SparseCut提出了一种用于多模态大语言模型的稀疏快捷连接架构,通过多层次视觉特征融合提升跨模态理解能力,不增加计算开销。
- Motivation: 当前多模态大语言模型主要关注扩大语言模型规模或构建高质量训练数据,但缺乏有效将跨模态知识整合到语言空间的方法。现有视觉语言模型通常只使用高层视觉特征进行模态对齐,忽略了中低层特征中的丰富语义信息,限制了跨模态理解能力。
- Method: 提出SparseCut架构,在跨模态编码器和LLM之间引入稀疏快捷连接,实现多层次视觉特征的高效分层融合。还设计了高效的多粒度特征融合模块,在通过快捷连接路由之前进行视觉特征融合,保持原始语言上下文且不增加输入长度。
- Result: 实验表明,SparseCut显著提升了MLLM在各种多模态基准测试中的性能,对不同基础LLM具有通用性和可扩展性。
- Conclusion: SparseCut通过稀疏快捷连接实现了跨模态知识的高效分层融合,解决了现有MLLM中视觉特征融合不充分的问题,在保持计算效率的同时显著提升了跨模态理解能力。
[72] DuoGen: Towards General Purpose Interleaved Multimodal Generation
Min Shi,Xiaohui Zeng,Jiannan Huang,Yin Cui,Francesco Ferroni,Jialuo Li,Shubham Pachori,Zhaoshuo Li,Yogesh Balaji,Haoxiang Wang,Tsung-Yi Lin,Xiao Fu,Yue Zhao,Chieh-Yun Chen,Ming-Yu Liu,Humphrey Shi
Main category: cs.CV
TL;DR: DuoGen是一个通用的交错多模态生成框架,通过创新的数据构建、架构设计和两阶段训练策略,在文本质量、图像保真度和图像-上下文对齐方面优于现有开源模型。
- Motivation: 现有的交错多模态生成模型在通用指令下的质量受到训练数据不足和基础模型能力的限制,需要系统性地解决数据构建、架构设计和评估问题。
- Method: 1) 数据方面:构建大规模高质量的指令调优数据集,结合从精选网站重写的多模态对话和覆盖日常场景的多样化合成示例;2) 架构方面:利用预训练多模态LLM的视觉理解能力和预训练视频生成的扩散变换器(DiT)的视觉生成能力;3) 采用两阶段解耦策略:先指令调优MLLM,然后用精选的交错图像-文本序列将DiT与之对齐。
- Result: 在公共和新提出的基准测试中,DuoGen在文本质量、图像保真度和图像-上下文对齐方面优于先前的开源模型,同时在统一生成模型中实现了文本到图像和图像编辑的最先进性能。
- Conclusion: DuoGen通过系统性的数据构建、架构设计和训练策略,成功提升了交错多模态生成的质量,为通用指令下的交错生成提供了有效的解决方案。
[73] SPARK: Stochastic Propagation via Affinity-guided Random walK for training-free unsupervised segmentation
Kunal Mahatha,Jose Dolz,Christian Desrosiers
Main category: cs.CV
TL;DR: 提出新的训练免费分割方法,将分割重新定义为扩散诱导亲和图上的随机流平衡问题,通过马尔可夫传播方案实现零样本分割,在七个基准测试中达到SOTA性能。
- Motivation: 现有训练免费分割方法基于谱图分割假设,存在多个根本缺陷:需要预先选择聚类数量、边界过度平滑、对噪声和多模态亲和分布敏感,且忽视局部邻域结构的重要性。
- Method: 将分割重新定义为扩散诱导亲和图上的随机流平衡问题,提出马尔可夫传播方案,结合随机游走标签扩散和自适应剪枝策略,抑制不可靠转移同时增强置信亲和路径。
- Result: 在七个广泛使用的语义分割基准测试中实现了最先进的零样本性能,产生更清晰的边界、更连贯的区域和显著更稳定的掩码。
- Conclusion: 通过将分割重新定义为随机流平衡问题,并整合全局扩散注意力和局部邻域结构,克服了传统谱聚类方法的局限性,实现了更优的训练免费分割性能。
[74] MRAD: Zero-Shot Anomaly Detection with Memory-Driven Retrieval
Chaoran Xu,Chengkan Lv,Qiyu Chen,Feng Zhang,Zhengtao Zhang
Main category: cs.CV
TL;DR: 提出MRAD框架,用直接记忆检索替代参数拟合,实现零样本异常检测,包含免训练基础模型和两个轻量变体,在16个工业医疗数据集上表现优异。
- Motivation: 现有零样本异常检测方法多使用提示学习或复杂建模来拟合数据分布,导致训练/推理成本高且跨域稳定性有限。需要更高效稳定的解决方案。
- Method: 提出MRAD框架:1) MRAD-TF基础模型冻结CLIP图像编码器,构建图像级和像素级两级记忆库;2) MRAD-FT用两个线性层微调检索度量;3) MRAD-CLIP将正常/异常区域先验注入CLIP文本提示作为动态偏置。
- Result: 在16个工业和医疗数据集上,MRAD框架在异常分类和分割任务中均表现出优越性能,无论是免训练还是基于训练的设置下都表现一致。
- Conclusion: 充分挖掘原始数据的经验分布而非仅依赖模型拟合,能获得更强的异常检测性能。记忆检索方法为高效稳定的零样本异常检测提供了新思路。
[75] SAGE: Accelerating Vision-Language Models via Entropy-Guided Adaptive Speculative Decoding
Yujia Tong,Tian Zhang,Yunyang Wan,Kaiwei Lin,Jingling Yuan,Chuang Hu
Main category: cs.CV
TL;DR: SAGE提出了一种动态调整推测解码树结构的方法,通过实时预测不确定性优化视觉语言模型的推理加速。
- Motivation: 现有推测解码方法使用静态树结构,无法适应不同生成步骤中预测难度的变化,导致接受长度不理想和加速效果有限。
- Method: 基于输出熵作为置信度指标,SAGE根据实时预测不确定性动态调整树结构:高置信度时构建深窄树以最大化推测深度,不确定时构建浅宽树以多样化探索。
- Result: SAGE显著提高了接受长度和加速效果,在LLaVA-OneVision-72B上实现3.36倍解码加速,Qwen2.5-VL-72B上实现3.18倍加速,且不损失输出质量。
- Conclusion: 动态调整推测树结构能有效提升视觉语言模型的推理效率,输出熵作为置信度指标具有实用价值,SAGE框架为推测解码提供了新的优化方向。
[76] Enhancing Open-Vocabulary Object Detection through Multi-Level Fine-Grained Visual-Language Alignment
Tianyi Zhang,Antoine Simoulin,Kai Li,Sana Lakdawala,Shiqing Yu,Arpit Mittal,Hongyu Fu,Yu Lin
Main category: cs.CV
TL;DR: VLDet是一个新颖的开放词汇目标检测框架,通过重新设计特征金字塔实现细粒度视觉-语言对齐,显著提升了新类别的检测性能。
- Motivation: 传统目标检测系统局限于预定义类别,难以适应动态环境。开放词汇目标检测(OVD)虽然能识别训练集中未见过的新类别,但现有方法要么难以将CLIP的单尺度图像骨干网络适配到检测框架,要么无法确保鲁棒的视觉-语言对齐。
- Method: 提出VLDet框架,包含VL-PUB模块有效利用CLIP的视觉-语言知识,通过特征金字塔将骨干网络适配到目标检测任务。还引入SigRPN块,采用基于sigmoid的锚点-文本对比对齐损失来改进新类别的检测。
- Result: 在COCO2017上达到58.7 AP(新类别),在LVIS上达到24.8 AP,超越所有最先进方法,分别实现27.6%和6.9%的显著提升。同时在闭集目标检测上也表现出优越的零样本性能。
- Conclusion: VLDet通过重新设计特征金字塔实现细粒度视觉-语言对齐,有效解决了开放词汇目标检测中的关键挑战,为动态环境下的目标检测提供了强大解决方案。
[77] SADER: Structure-Aware Diffusion Framework with DEterministic Resampling for Multi-Temporal Remote Sensing Cloud Removal
Yifan Zhang,Qian Chen,Yi Liu,Wengen Li,Jihong Guan
Main category: cs.CV
TL;DR: SADER是一个用于多时相遥感影像去云的结构感知扩散框架,通过多时相条件扩散网络、云感知注意力损失和确定性重采样策略,显著提升了去云效果和采样效率。
- Motivation: 云污染严重降低了遥感影像的可用性,对下游地球观测任务构成根本性挑战。现有的基于扩散模型的方法存在采样效率有限、在多时相遥感场景中对结构和时间先验利用不足的问题。
- Method: 提出SADER框架:1)构建可扩展的多时相条件扩散网络(MTCDN),通过时间融合和混合注意力充分捕捉多时相和多模态相关性;2)引入云感知注意力损失,通过考虑云层厚度和亮度差异来强调云主导区域;3)设计确定性重采样策略,在固定采样步数下通过引导校正替换异常值来迭代优化样本。
- Result: 在多个多时相数据集上的广泛实验表明,SADER在所有评估指标上均一致优于最先进的去云方法。
- Conclusion: SADER通过结构感知的扩散框架有效解决了多时相遥感影像去云问题,在保持生成能力的同时提升了采样效率和对结构/时间先验的利用。
[78] NPNet: A Non-Parametric Network with Adaptive Gaussian-Fourier Positional Encoding for 3D Classification and Segmentation
Mohammad Saeid,Amir Salarpour,Pedram MohajerAnsari,Mert D. Pesé
Main category: cs.CV
TL;DR: NPNet:一种完全非参数化的3D点云分类和部件分割方法,无需学习权重,使用确定性算子构建点特征,通过自适应高斯-傅里叶位置编码适应不同尺度和采样密度
- Motivation: 现有的点云处理方法通常需要大量学习参数,这可能导致过拟合、计算成本高和泛化能力受限。作者希望开发一种完全非参数化的方法,仅使用确定性算子来处理3D点云,提高方法的稳定性和效率
- Method: NPNet使用确定性算子如最远点采样、k近邻和池化构建点特征。核心创新是自适应高斯-傅里叶位置编码,其带宽和高斯-余弦混合比例根据输入几何自动选择。对于分割任务,额外加入固定频率的傅里叶特征提供全局上下文
- Result: 在ModelNet40/ModelNet-R、ScanObjectNN和ShapeNetPart数据集上,NPNet在非参数化基线中表现强劲,特别是在ModelNet40的少样本设置中效果显著。与先前的非参数化方法相比,NPNet在内存使用和推理时间方面也有优势
- Conclusion: NPNet展示了完全非参数化方法在3D点云处理中的可行性,通过自适应位置编码机制实现了对尺度变化和采样密度的鲁棒性,为高效稳定的点云分析提供了新思路
[79] Learning to Decode Against Compositional Hallucination in Video Multimodal Large Language Models
Wenbin Xing,Quanxing Zha,Lizheng Zu,Mengran Li,Ming Li,Junchi Yan
Main category: cs.CV
TL;DR: 提出了OmniVCHall基准来评估视频多模态大语言模型中的孤立和组合幻觉,并开发了TriCD对比解码框架来缓解组合幻觉问题
- Motivation: 当前视频幻觉缓解研究主要关注孤立错误类型,而组合幻觉(涉及多个交互空间和时间因素的不正确推理)尚未得到充分探索
- Method: 1) 构建OmniVCHall基准,涵盖多样视频领域,引入新的基于摄像头的幻觉类型,定义细粒度分类法,并包含对抗性答案选项;2) 提出TriCD对比解码框架,包含三重路径校准机制、自适应扰动控制器和显著性引导增强模块,通过强化学习优化
- Result: 评估39个代表性VLLM显示,即使先进模型(如Qwen3-VL和GPT-5)也表现出显著性能下降。TriCD在两个代表性骨干网络上平均准确率提升超过10%
- Conclusion: 组合幻觉是VLLM中一个重要但被忽视的问题,OmniVCHall基准和TriCD框架为解决这一问题提供了系统评估方法和有效解决方案
[80] GLAD: Generative Language-Assisted Visual Tracking for Low-Semantic Templates
Xingyu Luo,Yidong Cai,Jie Liu,Jie Tang,Gangshan Wu,Limin Wang
Main category: cs.CV
TL;DR: GLAD是一种创新的生成式语言辅助跟踪模型,利用扩散模型进行文本描述和模板图像的生成式多模态融合,以增强语言与图像的兼容性并提升模板图像语义信息。
- Motivation: 当前视觉语言跟踪方法仍处于早期阶段,传统Transformer架构在处理低语义图像(如模糊、低分辨率)时存在局限性。直接拼接和融合文本与视觉特征效果有限,因为两者之间存在语义鸿沟。
- Method: 提出GLAD模型,采用扩散模型进行生成式多模态融合,将文本描述和模板图像融合以增强语言与图像的兼容性,提升模板图像的语义信息,从而改善跨模态理解。
- Result: 在多个基准测试中建立了新的最先进性能,实现了令人印象深刻的推理速度。模糊和语义模糊的模板图像在生成式融合范式下得到恢复,改善了多模态特征。
- Conclusion: GLAD通过生成式多模态融合方法显著提升了视觉语言跟踪性能,特别是在处理低语义图像时表现出色,为跨模态理解提供了新的解决方案。
[81] Bridging Degradation Discrimination and Generation for Universal Image Restoration
JiaKui Hu,Zhengjian Yao,Lujia Jin,Yanye Lu
Main category: cs.CV
TL;DR: BDG提出了一种结合退化判别和生成的通用图像修复方法,通过MAS-GLCM进行细粒度退化分析,并采用三阶段扩散训练流程,在保持纹理恢复能力的同时提升多任务多退化场景的处理效果。
- Motivation: 通用图像修复需要同时处理多种退化类型和程度,现有方法在高质量图像分布采样和基于退化的输出调整方面存在挑战。需要一种能同时解决这两个问题的统一框架。
- Method: 1. 提出MAS-GLCM进行细粒度退化类型和程度判别;2. 设计三阶段扩散训练流程:生成阶段、桥接阶段和修复阶段,将MAS-GLCM的判别信息整合到修复过程中。
- Result: 在不改变架构的情况下,BDG在通用图像修复和真实世界超分辨率任务中取得显著性能提升,主要体现为保真度大幅提高且不损害感知质量。
- Conclusion: BDG通过桥接退化判别和生成,有效解决了通用图像修复中的关键挑战,实现了在多任务多退化场景下的优异性能,为低层视觉任务提供了新的解决方案。
[82] MAUGen: A Unified Diffusion Approach for Multi-Identity Facial Expression and AU Label Generation
Xiangdong Li,Ye Lou,Ao Gao,Wei Zhang,Siyang Song
Main category: cs.CV
TL;DR: MAUGen是一个基于扩散模型的多模态框架,能够根据文本提示生成逼真的人脸表情图像和对应的解剖学一致的动作单元标签(包括发生和强度),并创建了大规模合成数据集MIFA。
- Motivation: 当前缺乏大规模、人口统计学多样且具有精确动作单元标注的人脸图像数据集,这限制了可泛化的动作单元识别系统的发展。
- Method: 提出MAUGen框架,包含两个关键模块:1)多模态表示学习模块,在统一潜空间中捕捉文本描述、人脸身份、表情图像和动作单元激活之间的关系;2)基于扩散的图像标签生成器,将联合表示解码为对齐的人脸图像-标签对。
- Result: 创建了Multi-Identity Facial Action (MIFA)大规模多模态合成数据集,包含全面的动作单元标注和身份变化。实验表明MAUGen在生成逼真、人口统计学多样的人脸图像和语义对齐的动作单元标签方面优于现有方法。
- Conclusion: MAUGen通过生成大规模、多样化的合成数据,解决了动作单元识别领域的数据瓶颈问题,为开发更鲁棒和可泛化的动作单元识别系统提供了重要资源。
[83] From Pixels to Facts (Pix2Fact): Benchmarking Multi-Hop Reasoning for Fine-Grained Visual Fact Checking
Yifan Jiang,Cong Zhang,Bofei Zhang,Yifan Yang,Bingzhang Wang,Yew-Soon Ong
Main category: cs.CV
TL;DR: Pix2Fact是一个新的视觉问答基准测试,专门评估专家级视觉感知和知识密集型多跳推理能力,现有最先进模型仅达到24%准确率,远低于人类的56%。
- Motivation: 当前视觉语言模型在需要详细视觉定位和知识推理相结合的任务上表现不佳,现有基准测试将这些技能分开评估,无法反映真实挑战。
- Method: 构建包含1000张高分辨率(4K+)图像的基准测试,涵盖8个日常生活场景,问题由全球顶尖大学博士与专业数据标注公司合作精心设计,每个问题都需要视觉定位、多跳推理和外部知识整合。
- Result: 评估9个最先进的视觉语言模型(包括Gemini-3-Pro和GPT-5等专有模型),最先进模型仅达到24.0%平均准确率,而人类表现达到56%,存在显著差距。
- Conclusion: Pix2Fact揭示了当前模型在复制人类级视觉理解能力方面的局限性,将成为推动下一代多模态智能体发展的关键基准测试。
[84] Tune-Your-Style: Intensity-tunable 3D Style Transfer with Gaussian Splatting
Yian Zhao,Rushi Ye,Ruochong Zheng,Zesen Cheng,Chaoran Feng,Jiashu Yang,Pengchong Qiao,Chang Liu,Jie Chen
Main category: cs.CV
TL;DR: 提出Tune-Your-Style方法,实现可调节风格强度的3D风格迁移,允许用户灵活调整风格注入强度以满足不同内容-风格平衡需求。
- Motivation: 现有3D风格迁移方法采用固定输出范式,难以适应不同用户对内容-风格平衡的多样化需求,需要更灵活可定制的解决方案。
- Method: 引入高斯神经元显式建模风格强度,参数化可学习风格调节器;提出可调节风格化引导,通过跨视图风格对齐从扩散模型获得多视图一致风格化视图,采用两阶段优化策略调制全风格引导和零风格引导之间的平衡。
- Result: 实验表明该方法不仅产生视觉吸引人的结果,而且在3D风格迁移中展现出灵活的可定制性。
- Conclusion: Tune-Your-Style方法通过可调节风格强度实现了更灵活、可定制的3D风格迁移,解决了现有方法在内容-风格平衡方面的局限性。
[85] Towards Interpretable Hallucination Analysis and Mitigation in LVLMs via Contrastive Neuron Steering
Guangtao Lyu,Xinyi Cheng,Qi Liu,Chenghao Xu,Jiexi Yan,Muli Yang,Fen Fang,Cheng Deng
Main category: cs.CV
TL;DR: 该论文通过稀疏自编码器分析LVLM的内部表示,发现幻觉主要源于图像特定神经元的异常激活,提出对比神经元引导方法在预填充阶段增强信息性神经元、抑制扰动激活,有效减少幻觉。
- Motivation: 现有方法主要关注输出级调整,对导致幻觉的内部机制探索不足。需要从表示层面深入理解LVLM产生幻觉的根本原因,从而开发更有效的缓解方法。
- Method: 1. 使用稀疏自编码器将密集视觉嵌入分解为稀疏可解释神经元;2. 识别不同类型神经元(常开神经元和图像特定神经元);3. 提出对比神经元引导方法,通过对比干净和噪声输入识别图像特定神经元,选择性增强信息性神经元、抑制扰动激活。
- Result: 实验表明:1. 幻觉主要源于图像特定神经元的破坏或虚假激活;2. CNS方法在幻觉评估和通用多模态基准测试中一致减少幻觉,同时保持整体多模态理解能力;3. 该方法与现有解码阶段方法完全兼容。
- Conclusion: 通过神经元级分析揭示了LVLM幻觉的内部机制,提出的CNS方法在预填充阶段操作,通过选择性神经元干预有效增强视觉基础、减少幻觉,为理解和管理LVLM幻觉提供了新视角。
[86] FaceSnap: Enhanced ID-fidelity Network for Tuning-free Portrait Customization
Benxiang Zhai,Yifang Xu,Guofeng Zhang,Yang Li,Sidan Du
Main category: cs.CV
TL;DR: FaceSnap:基于Stable Diffusion的单图个性化人像生成方法,无需微调即可在单次推理中生成高保真人像
- Motivation: 现有个性化人像生成方法要么需要耗时的微调且缺乏泛化性,要么无法实现面部细节的高保真度,需要一种更高效、高质量的单图生成方案
- Method: 1. 设计Facial Attribute Mixer从低层特定特征和高层抽象特征中提取融合信息;2. 引入Landmark Predictor在不同姿态下保持参考身份;3. 使用ID-preserving模块将信息注入UNet
- Result: 实验结果表明,FaceSnap在个性化和定制化人像生成方面表现优异,超越了该领域的其他最先进方法
- Conclusion: FaceSnap是一种即插即用的单图个性化人像生成方法,无需微调即可在单次推理中生成高保真、身份一致的人像,可轻松扩展到不同的SD模型
[87] S POT: Contrast-Driven Face Occlusion Segmentation via Self-Supervised Prompt Learning
Lingsong Wang,Mancheng Meng,Ziyan Wu,Terrence Chen,Fan Yang,Dinggang Shen
Main category: cs.CV
TL;DR: S³POT:一种结合人脸生成与自监督空间提示的对比驱动框架,用于解决人脸解析中遮挡分割问题,无需遮挡标注数据。
- Motivation: 现有的人脸解析方法通常将遮挡误分类为面部组件。遮挡是高层概念,不属于具体物体类别,构建覆盖所有遮挡类别的真实人脸数据集几乎不可能,且精确掩码标注成本高昂。
- Method: 提出S³POT框架,包含三个模块:参考生成(RF)利用解析掩码的结构指导生成无遮挡参考图像;特征增强(FE)通过原始图像与参考图像的token对比获得初始提示,并通过交叉注意力修改图像特征;提示选择(PS)基于增强特征构建正负提示集,通过自注意力网络筛选后输入掩码解码器。整个网络在三个新颖互补的目标函数指导下学习,无需遮挡真实掩码。
- Result: 在专门收集的数据集上进行广泛实验,证明了S³POT的优越性能以及每个模块的有效性。
- Conclusion: S³POT通过协同人脸生成与自监督空间提示,成功解决了人脸解析中的遮挡分割问题,无需遮挡标注数据,展示了优越的性能。
[88] VIZOR: Viewpoint-Invariant Zero-Shot Scene Graph Generation for 3D Scene Reasoning
Vivek Madhavaram,Vartika Sengar,Arkadipta De,Charu Sharma
Main category: cs.CV
TL;DR: VIZOR是一个无需训练、端到端的框架,直接从原始3D场景构建密集、视角不变的3D场景图,通过基于物体正面方向的相对空间关系实现一致性,并在零样本物体定位任务中显著优于现有方法。
- Motivation: 现有3D场景理解方法存在泛化能力不足和空间关系(如"左/右")在不同视角下不一致的问题,需要多输入(2D图像、深度图、标注关系等)且依赖特定参考视角,限制了实际应用。
- Method: 提出VIZOR框架:1) 直接从原始3D场景构建场景图,无需训练;2) 基于每个物体正面方向定义相对空间关系,确保视角不变性;3) 支持开放词汇关系推理,无需标注训练数据;4) 端到端处理。
- Result: 在场景图生成和下游任务(如查询式物体定位)上表现优异:1) 在场景图生成方面优于现有方法;2) 在Replica和Nr3D数据集上零样本定位准确率分别提升22%和4.81%。
- Conclusion: VIZOR通过视角不变的场景图生成解决了现有方法的局限性,实现了更准确、一致的空间关系推理,在零样本场景理解和物体定位任务中展现了显著优势。
[89] Diff-PC: Identity-preserving and 3D-aware Controllable Diffusion for Zero-shot Portrait Customization
Yifang Xu,Benxiang Zhai,Chenyu Zhang,Ming Li,Yang Li,Sidan Du
Main category: cs.CV
TL;DR: Diff-PC:基于扩散模型的零样本肖像定制框架,通过3D人脸先验、ID编码器和注入器实现高身份保真度和面部控制
- Motivation: 现有肖像定制方法缺乏精确的身份保持和面部控制能力,需要一种能生成高身份保真度、指定面部属性和多样化背景的解决方案
- Method: 使用3D人脸预测器重建包含参考身份、目标表情和姿态的3D感知面部先验;设计ID编码器融合局部和全局面部特征;开发ID控制器引导身份特征对齐;引入ID注入器增强身份保真度和面部可控性;在收集的身份中心数据集上训练
- Result: 在身份保持、面部控制和文本-图像一致性方面超越现有最先进方法,且兼容多风格基础模型
- Conclusion: Diff-PC通过创新的3D面部先验和身份控制机制,成功解决了肖像定制中的身份保真度和面部控制问题,实现了高质量的零样本肖像生成
[90] A Hybrid Mamba-SAM Architecture for Efficient 3D Medical Image Segmentation
Mohammadreza Gholipour Shahraki,Mehdi Rezaeian,Mohammad Ghasemzadeh
Main category: cs.CV
TL;DR: Mamba-SAM:结合冻结SAM编码器与Mamba状态空间模型的高效混合架构,用于3D医学图像分割,解决领域偏移和计算成本问题
- Motivation: SAM等基础模型在医学图像分割中存在领域偏移、2D设计限制和微调计算成本高的问题,需要高效适配3D医学图像的方法
- Method: 提出两种参数高效适配策略:1)双分支架构融合冻结SAM编码器与可训练VMamba编码器;2)适配器方法在冻结SAM ViT编码器中注入轻量级3D感知TPMamba模块。引入多频门控卷积增强特征表示
- Result: 在ACDC心脏MRI数据集上,双分支Mamba-SAM-Base达到0.906 Dice分数,与UNet++相当,在心肌和左心室分割上优于所有基线。TP MFGC变体提供4.77 FPS推理速度,精度0.880 Dice
- Conclusion: 将基础模型与高效SSM架构混合为3D医学图像分割提供了实用有效的解决方案,平衡了精度与效率
[91] Non-Contrastive Vision-Language Learning with Predictive Embedding Alignment
Lukas Kuhn,Giuseppe Serra,Florian Buettner
Main category: cs.CV
TL;DR: NOVA是一种基于联合嵌入预测的非对比视觉语言对齐框架,通过分布正则化实现,无需负采样、动量编码器或停止梯度,简化了训练过程。
- Motivation: 当前主流的对比学习方法(如CLIP)需要大批量、精心设计的负采样和大量超参数调优,训练过程复杂且不稳定,需要更简单有效的替代方案。
- Method: NOVA通过预测增强图像视图的文本嵌入来对齐视觉表示到冻结的文本编码器,同时使用Sketched Isotropic Gaussian Regularization (SIGReg)强制各向同性高斯结构,只需单个超参数。
- Result: 在胸部X光零样本分类任务中,使用ClinicalBERT作为文本编码器,NOVA在三个基准数据集上优于多个标准基线方法,同时训练过程更加稳定一致。
- Conclusion: 非对比视觉语言预训练提供了比对比方法更简单、更稳定、更有效的替代方案,特别适用于医学影像等特定领域。
[92] Schrödinger-Inspired Time-Evolution for 4D Deformation Forecasting
Ahsan Raza Siyal,Markus Haltmeier,Ruth Steiger,Elke Ruth Gizewski,Astrid Ellen Grams
Main category: cs.CV
TL;DR: 提出基于薛定谔方程启发的物理引导神经网络架构,用于4D(3D+时间)时空预测,将显式时间演化算子嵌入深度卷积框架,实现稳定、可解释的长期预测。
- Motivation: 解决复杂三维现象(如医学影像、流体动力学)的时空预测问题,传统无约束神经网络模型存在长期预测漂移和误差累积问题,需要结合物理先验知识提高稳定性和可解释性。
- Method: 提出薛定谔启发的物理引导神经网络架构,从观测的体积序列中学习体素级振幅、相位和势场,定义复值波函数ψ=Ae^{iφ},使用可微分的、展开的薛定谔时间步进器进行时间演化。
- Result: 在模拟真实形状变形和拓扑变化的合成基准测试中,展示了准确稳定的未来4D状态预测,包括体积强度和变形场,实现了长期预测的稳定性和可解释性。
- Conclusion: 这是首个将薛定谔型演化算子整合到端到端4D神经预测框架中的方法,为可解释、稳定且解剖学一致的时空预测提供了原则性途径,结合了深度网络的表达能力和物理建模的鲁棒性。
[93] Improving Neuropathological Reconstruction Fidelity via AI Slice Imputation
Marina Crespo Aguirre,Jonathan Williams-Ramirez,Dina Zemlyanker,Xiaoling Hu,Lucas J. Deden-Binder,Rogeny Herisse,Mark Montine,Theresa R. Connors,Christopher Mount,Christine L. MacDonald,C. Dirk Keene,Caitlin S. Latimer,Derek H. Oakley,Bradley T. Hyman,Ana Lawry Aguila,Juan Eugenio Iglesias
Main category: cs.CV
TL;DR: 提出一种计算高效的超分辨率方法,从解剖照片的各向异性3D重建中生成解剖一致的各向同性体积,提高神经病理学分析的精度
- Motivation: 现有从2D解剖照片重建3D脑体积的方法有时会产生粗糙、过度平滑的重建结果,特别是在高各向异性(厚切片)情况下,需要提高重建的分辨率和解剖保真度
- Method: 引入计算高效的超分辨率步骤,通过插值切片从各向异性3D重建生成解剖一致的各向同性体积;使用领域随机化合成数据进行训练,确保方法对不同解剖协议和大切片厚度的鲁棒性
- Result: 插值后的体积改善了自动分割效果,获得了更高的Dice分数(特别是在皮质和白质区域);在表面重建和图谱配准任务验证中显示出更准确的皮质表面和MRI配准
- Conclusion: 通过增强基于照片重建的分辨率和解剖保真度,该方法加强了神经病理学和神经影像学之间的桥梁,方法已公开可用
[94] HPC: Hierarchical Point-based Latent Representation for Streaming Dynamic Gaussian Splatting Compression
Yangzhi Ma,Bojun Liu,Wenting Liao,Dong Liu,Zhu Li,Li Li
Main category: cs.CV
TL;DR: HPC提出了一种用于流式动态高斯溅射压缩的分层点基潜在表示框架,通过避免未占用空间参数冗余和利用局部相关性,在保持高质量重建的同时显著减少存储需求。
- Motivation: 现有流式动态高斯溅射压缩方法存在参数冗余或紧凑性不足的问题:结构化网格基方法会建模未占用空间导致参数冗余,非结构化点基方法则无法充分利用局部相关性而紧凑性有限。
- Method: 提出HPC框架:1) 采用分层点基潜在表示,以每个高斯为基础避免未占用空间参数冗余;2) 通过定制聚合方案使潜在点实现高紧凑性和低空间冗余;3) 首次研究通过挖掘和利用参数间帧相关性来压缩神经网络,形成端到端压缩框架。
- Result: HPC显著优于现有方法,在保持高重建保真度的同时,相比基线实现了67%的存储减少。
- Conclusion: HPC通过分层点基潜在表示和神经网络参数压缩,有效解决了动态高斯溅射流式传输中的存储效率问题,为高质量自由视点视频压缩提供了新方案。
[95] Video Understanding: Through A Temporal Lens
Thong Thanh Nguyen
Main category: cs.CV
TL;DR: 该论文提出五种方法改进视频理解中的时间关系建模,包括自动标注框架、参数高效微调策略、状态空间层集成、细粒度运动-时刻对比学习框架,以及针对大视觉语言模型的瓶颈分析和解决方案。
- Motivation: 现有视频理解方法在处理时间关系方面存在局限,无法充分捕捉视频元素之间的时序动态关系,这限制了模型对视频内容流动性的理解和推理能力。
- Method: 提出五方面贡献:1) 利用大视觉语言模型和噪声鲁棒对比学习的自动标注框架;2) 使用"循环适配器"的参数高效微调策略;3) 集成状态空间层进行高效长视频建模并引入新基准;4) 显式建模运动与视频时刻细粒度关系的对比学习框架;5) 分析大视觉语言模型瓶颈并提出"时间导向方案"。
- Result: 研究表明显式时间建模显著提升了模型对视频内容的表示和推理能力,特别是在长视频理解和细粒度时序关系捕捉方面取得了改进。
- Conclusion: 通过系统的时间关系建模方法,能够有效增强模型对视频内容流动性的理解和推理能力,为视频理解领域提供了全面的技术路线。
[96] V2X-DSC: Multi-Agent Collaborative Perception with Distributed Source Coding Guided Communication
Yuankun Zeng,Shaohui Li,Zhi Li,Shulan Ruan,Yu Liu,You He
Main category: cs.CV
TL;DR: V2X-DSC:基于分布式源编码视角的带宽受限协同感知框架,利用条件编解码器压缩BEV特征,接收端利用本地特征作为边信息进行条件重建,实现KB级通信下的最优精度-带宽权衡
- Motivation: 协同感知通过融合多智能体观测提升3D理解能力,但中间特征共享面临严格带宽限制,因为密集BEV特征会饱和V2X链路。观察到协作者观察同一物理世界,其特征高度相关,接收方只需要超出其本地上下文的创新信息
- Method: 提出V2X-DSC框架,采用条件编解码器(DCC)进行带宽受限融合。发送方将BEV特征压缩为紧凑编码,接收方利用本地特征作为边信息进行条件重建,将比特分配给互补线索而非冗余内容。这种条件结构正则化学习,鼓励增量表示并产生更低噪声的特征
- Result: 在DAIR-V2X、OPV2V和V2X-Real数据集上实验表明,在KB级通信下实现了最先进的精度-带宽权衡,并可作为即插即用的通信层泛化到多种融合骨干网络
- Conclusion: V2X-DSC从分布式源编码视角重新思考协同感知,通过条件编解码有效利用特征相关性,在严格带宽约束下实现高效特征融合,为V2X通信提供了可扩展的解决方案
[97] JoyAvatar: Unlocking Highly Expressive Avatars via Harmonized Text-Audio Conditioning
Ruikui Wang,Jinheng Feng,Lang Tian,Huaishao Luo,Chaochao Li,Liangbo Zhou,Huan Zhang,Youzheng Wu,Xiaodong He
Main category: cs.CV
TL;DR: JoyAvatar是一个能够生成长时间虚拟人视频的框架,通过双教师增强训练算法和多模态条件动态调制技术,解决了现有虚拟人模型在复杂文本指令对齐方面的限制。
- Motivation: 现有虚拟人模型在说话、公开演讲和唱歌等场景中表现出色,但在复杂文本指令(如大幅全身运动、动态相机轨迹、背景转换或人机交互)的对齐方面存在限制,需要突破这一局限。
- Method: 提出两个关键技术:1)双教师增强训练算法,使模型能够从基础模型转移固有的文本可控性,同时学习音频-视觉同步;2)训练过程中基于不同的去噪时间步动态调制多模态条件(如音频和文本)的强度,以减轻异质条件信号之间的冲突。
- Result: GSB评估结果显示,JoyAvatar在生成自然、时间连贯的全身运动和动态相机移动方面优于Omnihuman-1.5和KlingAvatar 2.0等最先进模型,同时保持了准确的唇形同步和身份一致性等基本虚拟人能力。
- Conclusion: JoyAvatar通过创新的训练算法和条件调制技术,显著扩展了虚拟人模型的能力,能够处理复杂应用如多人对话和非人类角色扮演,为虚拟人视频生成提供了更强大的解决方案。
[98] StomataSeg: Semi-Supervised Instance Segmentation for Sorghum Stomatal Components
Zhongtian Huang,Zhi Chen,Zi Huang,Xin Yu,Daniel Smith,Chaitanya Purushothama,Erik Van Oosterom,Alex Wu,William Salter,Yan Li,Scott Chapman
Main category: cs.CV
TL;DR: 提出半监督实例分割框架,用于高粱气孔组件分析,结合补丁预处理和伪标签策略,显著提升微小气孔结构分割性能
- Motivation: 高粱作为耐旱作物对气候韧性农业至关重要,但气孔微小且形态多样,自动分析困难,需要高吞吐量气孔表型分析技术
- Method: 收集11,060个人工标注的高粱叶片图像补丁,覆盖三种气孔组件;采用重叠小补丁分割高分辨率图像;应用伪标签策略生成56,428个伪标注补丁;建立半监督实例分割框架
- Result: 语义分割模型mIoU从65.93%提升至70.35%,实例分割模型AP从28.30%提升至46.10%,显著改善微小气孔结构分割性能
- Conclusion: 结合补丁预处理和半监督学习能有效提升精细气孔结构分割,支持可扩展的气孔性状提取,促进AI驱动表型分析在作物科学中的广泛应用
[99] Supervised makeup transfer with a curated dataset: Decoupling identity and makeup features for enhanced transformation
Qihe Pan,Yiming Wu,Xing Zhao,Liang Xie,Guodao Sun,Ronghua Liang
Main category: cs.CV
TL;DR: 本文提出了一种基于扩散模型的妆容迁移方法,通过构建高质量数据集、设计解耦框架和文本引导机制,解决了现有方法在数据集限制、特征解耦和可控性方面的不足。
- Motivation: 现有妆容迁移方法存在三个主要问题:1) 数据集有限,缺乏多样性;2) 身份特征与妆容特征解耦不充分;3) 可控性弱,难以进行细粒度控制。扩散模型为GAN方法提供了更稳定的替代方案,但需要解决上述挑战。
- Method: 提出三方面贡献:1) 采用"训练-生成-过滤-再训练"策略构建高质量数据集,结合合成、真实和过滤样本;2) 设计基于扩散的框架,解耦身份与妆容特征,保持面部结构和肤色;3) 引入文本引导机制,支持自然语言提示的细粒度区域控制(如眼妆、唇妆等)。
- Result: 在基准测试和实际场景中,该方法在保真度、身份保持和灵活性方面均有改进,能够生成高质量且可控的妆容迁移结果。
- Conclusion: 该方法通过高质量数据集、解耦框架和文本引导控制,显著提升了妆容迁移的质量和可控性,为扩散模型在妆容迁移任务中的应用提供了有效解决方案。
[100] Diffusion-Driven Inter-Outer Surface Separation for Point Clouds with Open Boundaries
Zhengyan Qin,Liyuan Qiu
Main category: cs.CV
TL;DR: 提出一种基于扩散的算法,用于从双层点云中分离内外层表面,特别针对TSDF融合中截断导致的"双层伪影"问题,能有效处理具有开放边界的点云。
- Motivation: 在室内或医疗3D重建中,TSDF融合的截断会导致"双层伪影",产生错误的内外层表面。现有方法难以处理这种具有开放边界的双层点云,需要一种轻量级的后处理解决方案。
- Method: 采用基于扩散的算法,专门处理具有开放边界的双层点云(而非表面缺失的点云)。算法能够同时处理水密和开放边界模型,通过分离真实内层表面来解决表面重叠和法线混乱问题。
- Result: 方法能够从20,000个内层点和20,000个外层点中提取内层表面,处理时间约10秒。适用于室内场景建模和医学成像等需要精确表面表示的应用。
- Conclusion: 该算法作为TSDF融合后的轻量级模块,能够有效分离双层点云的内外层表面,特别适合处理具有开放边界的模型,但不旨在替代完整的变分或基于学习的重建流程。
[101] HSI-VAR: Rethinking Hyperspectral Restoration through Spatial-Spectral Visual Autoregression
Xiangming Wang,Benteng Sun,Yungeng Liu,Haijin Zeng,Yongyong Chen,Jingyong Su,Jie Liu
Main category: cs.CV
TL;DR: HSI-VAR:将高光谱图像恢复重新定义为自回归生成问题,通过潜在条件对齐、退化感知引导和空间-光谱适应模块,在保持结构细节的同时大幅降低计算成本,实现比扩散模型快95.5倍的推理速度。
- Motivation: 高光谱图像(HSI)包含比RGB更丰富的空间-光谱信息,但实际HSI常受噪声、模糊和缺失波段等复合退化影响。现有生成方法如扩散模型需要数百次迭代,计算成本高;回归模型则产生过度平滑结果,无法保留关键结构细节。
- Method: HSI-VAR将HSI恢复重新定义为自回归生成问题,渐进建模光谱和空间依赖关系而非全局重建。包含三个关键创新:1)潜在条件对齐,耦合潜在先验和条件嵌入的语义一致性;2)退化感知引导,将混合退化为嵌入空间中的线性组合编码;3)空间-光谱适应模块,在解码阶段细化两个域的细节。
- Result: 在9个一体化HSI恢复基准测试中达到最先进性能,在ICVL数据集上PSNR提升3.77 dB,推理速度比基于扩散的方法快95.5倍,计算成本降低近50%。
- Conclusion: HSI-VAR通过自回归生成方法有效解决了HSI恢复中计算效率与结构保留的权衡问题,为实际HSI恢复提供了高效实用的解决方案。
[102] Evaluating Deep Learning-Based Nerve Segmentation in Brachial Plexus Ultrasound Under Realistic Data Constraints
Dylan Yves,Khush Agarwal,Jonathan Hoyin Chan,Patcharapit Promoppatum,Aroonkamon Pattanasiricharoen
Main category: cs.CV
TL;DR: 研究评估了基于U-Net的深度学习在臂丛神经超声图像分割中的应用,发现多设备数据训练有正则化效果但不及单源匹配训练,多类别监督会降低神经分割性能,神经尺寸与分割精度呈正相关。
- Motivation: 超声引导区域麻醉中神经准确定位至关重要,但由于图像对比度低、斑点噪声和患者间解剖变异,手动识别仍然具有挑战性。
- Method: 使用U-Net架构评估臂丛神经超声图像的深度学习分割,重点研究数据集组成和标注策略对分割性能的影响,包括多设备数据训练、二进制与多类别监督比较。
- Result: 多设备数据训练对低性能采集源有正则化效果,但不及目标域匹配的单源训练;多类别监督(动脉、静脉、神经、肌肉)导致神经特异性Dice分数下降9%-61%;神经尺寸与分割精度呈中等正相关(Pearson r=0.587)。
- Conclusion: 研究结果为在现实临床数据约束下开发稳健的超声神经分割系统提供了方法学指导,指出小尺寸神经仍是主要挑战,需要针对性的策略改进。
[103] DVLA-RL: Dual-Level Vision-Language Alignment with Reinforcement Learning Gating for Few-Shot Learning
Wenhao Li,Xianjing Meng,Qiangchang Wang,Zhongyi Han,Zhibin Wu,Yilong Yin
Main category: cs.CV
TL;DR: DVLA-RL提出双层次视觉-语言对齐强化学习门控方法,通过渐进式语义构建和强化学习门控注意力,在少样本学习中实现更精确的跨模态对齐,在九个基准测试中达到最先进性能。
- Motivation: 现有少样本学习方法虽然引入大语言模型通过类别名称获取语义嵌入,但忽视了从低层到高层语义的渐进自适应对齐,导致语义增益有限。需要解决视觉和语言之间更精确的跨模态对齐问题。
- Method: 提出DVLA-RL框架:1) 双层次语义构建(DSC):基于类别名称和支持样本生成判别性属性,渐进选择最相关属性并合成连贯类别描述;2) RL门控注意力(RLA):将跨模态融合建模为序列决策过程,通过轻量级策略自适应调整自注意力和交叉注意力的贡献,实现浅层关注局部属性、深层关注全局语义。
- Result: 在三种不同的少样本学习场景中,DVLA-RL在九个基准测试上取得了新的最先进性能,实现了类别特定的判别性和泛化表示。
- Conclusion: DVLA-RL通过双层次语义构建和强化学习门控注意力机制,实现了从低层到高层的渐进自适应视觉-语言对齐,仅用少量支持样本就能获得精确的跨模态对齐和泛化表示。
[104] Any3D-VLA: Enhancing VLA Robustness via Diverse Point Clouds
Xianzhe Fan,Shengliang Deng,Xiaoyang Wu,Yuxiang Lu,Zhuoling Li,Mi Yan,Yujia Zhang,Zhizheng Zhang,He Wang,Hengshuang Zhao
Main category: cs.CV
TL;DR: Any3D-VLA:通过统一模拟器、传感器和模型估计点云,学习领域无关的3D表示并与2D表示融合,提升视觉-语言-动作模型的空间理解能力
- Motivation: 现有VLA模型主要使用2D图像作为视觉输入,限制了其在复杂场景中的空间理解能力。需要探索如何融入3D信息来增强VLA能力,但面临3D数据稀缺和跨环境差异导致的领域鸿沟等挑战。
- Method: 提出Any3D-VLA框架:1)统一模拟器、传感器和模型估计的点云数据;2)构建多样化的输入;3)学习领域无关的3D表示并与相应的2D表示融合;4)通过训练管道解决3D数据稀缺和领域鸿沟问题。
- Result: 实验表明:1)将视觉输入显式提升为点云能产生比2D表示更好的补充表示;2)Any3D-VLA在模拟和真实世界实验中展现出性能提升优势;3)有效缓解了领域鸿沟问题。
- Conclusion: Any3D-VLA通过统一多种点云来源和学习领域无关的3D表示,成功增强了VLA模型的空间理解能力,为解决3D数据稀缺和领域鸿沟问题提供了有效方案。
[105] VVLoc: Prior-free 3-DoF Vehicle Visual Localization
Ze Huang,Zhongyang Xiao,Mingliang Song,Longan Yang,Hongyuan Yuan,Li Sun
Main category: cs.CV
TL;DR: VVLoc是一个统一的车辆定位框架,使用单一神经网络通过多摄像头系统同时实现拓扑和度量定位,并提供置信度评估。
- Motivation: 传统定位方法通常将拓扑定位和度量定位分开处理,依赖单摄像头设置,需要额外的3D语义或姿态先验,且缺乏置信度量化机制,难以满足实际工业应用需求。
- Method: 使用单一神经网络,通过多摄像头系统,首先评估视觉观测之间的地理邻近性,然后使用匹配策略估计相对度量姿态,同时提供置信度测量。训练仅需要视觉数据对和对应的真实姿态。
- Result: 在公开数据集和更具挑战性的自收集数据集上评估,VVLoc在广泛的定位任务中实现了最先进的定位精度。
- Conclusion: VVLoc提供了一个高效、统一的车辆定位解决方案,能够同时处理拓扑和度量定位,提供置信度评估,且训练简单,适合实际工业应用。
[106] Generating a Paracosm for Training-Free Zero-Shot Composed Image Retrieval
Tong Wang,Yunhan Zhao,Shu Kong
Main category: cs.CV
TL;DR: 提出Paracosm方法,通过大型多模态模型直接生成"心理图像"进行组合图像检索,无需训练,在多个基准测试中达到零样本SOTA性能。
- Motivation: 组合图像检索(CIR)的核心挑战是"心理图像"不可直接获取,现有方法通过生成文本描述进行匹配,但这种方法不够准确。作者认为直接生成"心理图像"能更精确地匹配目标图像。
- Method: Paracosm方法:1) 使用大型多模态模型(LMM)为给定的多模态查询生成"心理图像";2) 为数据库中的每个真实图像生成对应的合成图像,以解决合成到真实的域差距问题;3) 在LMM构建的"拟想世界"中进行图像匹配。
- Result: Paracosm在四个具有挑战性的基准测试中显著优于现有的零样本方法,实现了零样本CIR的最先进性能。
- Conclusion: 通过直接生成"心理图像"而非文本描述,Paracosm方法为组合图像检索提供了更准确的匹配机制,证明了从第一原理出发解决CIR问题的有效性。
[107] Edge-Native Generative De-identification: Inversion-Free Flow for Privacy-Preserving Federated Skin Image Analysis
Konstantinos Moutselos,Ilias Maglogiannis
Main category: cs.CV
TL;DR: 提出一个用于临床皮肤病学联邦学习的身份无关病理保留框架,通过无反转的Rectified Flow Transformers在边缘设备上实现近实时的隐私保护图像处理,生成隐私合规的合成替代图像以减轻梯度泄漏风险。
- Motivation: 临床皮肤病学中联邦学习的部署面临保护患者隐私与保留诊断特征之间的冲突。传统的去识别方法会降低病理保真度,而标准的生成编辑技术需要计算密集的反转过程,不适合资源受限的边缘设备。
- Method: 提出一个身份无关病理保留框架,利用无反转的Rectified Flow Transformers(FlowEdit)进行高保真身份转换(<20秒)。引入"Segment-by-Synthesis"机制,在本地生成反事实的健康和病理双胞胎对,从而提取与生物特征标记和语义伪影(如珠宝)解耦的差异红斑掩码。
- Result: 在高分辨率临床样本上的初步验证显示,合成身份间的IoU稳定性大于0.67。框架能够在边缘生成隐私合规的合成替代图像,从源头上减轻梯度泄漏风险。
- Conclusion: 该框架为联邦环境中高精度皮肤图像分析提供了安全途径,通过在边缘设备上生成隐私保护的合成图像,解决了临床皮肤病学联邦学习中的隐私-效用权衡问题。
[108] TransNormal: Dense Visual Semantics for Diffusion-based Transparent Object Normal Estimation
Mingwei Li,Hehe Fan,Yi Yang
Main category: cs.CV
TL;DR: TransNormal:利用预训练扩散先验和DINOv3视觉语义的单步法线估计框架,专门针对透明物体,在ClearGrasp和ClearPose基准上显著优于现有方法。
- Motivation: 实验室自动化中透明物体的单目法线估计至关重要,但由于复杂的光线折射和反射,传统深度和法线传感器经常失败,阻碍了具身AI在科学环境中的部署。
- Method: 提出TransNormal框架:1)利用预训练扩散先验进行单步法线回归;2)通过交叉注意力机制集成DINOv3的密集视觉语义以处理透明表面缺乏纹理的问题;3)采用多任务学习目标和基于小波的正则化来保留细粒度结构细节。
- Result: 在ClearGrasp基准上:平均误差降低24.4%,11.25°准确率提升22.8%;在ClearPose基准上:平均误差降低15.2%。同时创建了TransNormal-Synthetic物理数据集。
- Conclusion: TransNormal通过结合扩散先验和视觉语义,有效解决了透明物体的法线估计问题,显著优于现有方法,为实验室自动化中的透明物体处理提供了有力工具。
[109] Invariance on Manifolds: Understanding Robust Visual Representations for Place Recognition
Jintao Cheng,Weibin Li,Zhijian He,Jin Wu,Chi Man Vong,Wei Zhang
Main category: cs.CV
TL;DR: 提出了一种基于二阶几何统计的无训练视觉地点识别框架,通过协方差描述符和SPD流形几何实现零样本泛化
- Motivation: 当前视觉地点识别方法要么依赖数据密集型监督,要么使用简单的一阶统计,忽略了内在的结构相关性,需要一种能应对剧烈环境和视角变化且无需训练的鲁棒表示方法
- Method: 提出二阶几何统计框架,将场景建模为SPD流形上的协方差描述符,扰动表现为可处理的同余变换,通过几何感知的黎曼映射将描述符投影到线性化欧几里得嵌入中,分离信号结构与噪声
- Result: 该方法在零样本场景下表现出色,无需参数更新即可实现强大的零样本泛化能力,在广泛实验中展现出与最先进基线方法相竞争的性能
- Conclusion: 二阶几何统计框架为视觉地点识别提供了一种无需训练、几何稳定的解决方案,特别适用于具有挑战性的零样本场景,展示了固定预训练骨干网络的有效性
[110] Distill3R: A Pipeline for Democratizing 3D Foundation Models on Commodity Hardware
Brandon Leblanc,Charalambos Poullis
Main category: cs.CV
TL;DR: Distill3R:一个将大型3D基础模型的几何推理能力蒸馏到可在单工作站上训练的小型学生模型的框架,实现9倍参数减少和5倍推理加速
- Motivation: 当前多视图3D重建依赖需要大规模计算集群训练的基础模型,这为大多数学术实验室设置了很高的进入门槛。为了弥合计算鸿沟,需要开发能在单工作站上训练的高效模型。
- Method: 提出两个主要创新:1)离线缓存管道,通过压缩监督信号将繁重的教师推理与训练循环解耦;2)置信感知蒸馏损失,利用教师不确定性实现在普通硬件上训练。构建了7200万参数的学生模型。
- Result: 学生模型相比650M参数的教师模型实现了9倍参数减少和5倍推理加速,可在单工作站上3天内完成训练(教师需要GPU集群训练一周)。学生模型保持了结构一致性和定性几何理解能力。
- Conclusion: Distill3R为没有大规模计算资源的实验室提供了可复现的单工作站训练方案,作为民主化3D视觉研究的探索入口和高效边缘部署的基础,旨在提供可访问的研究基线而非与最先进模型竞争。
[111] DIAMOND: Directed Inference for Artifact Mitigation in Flow Matching Models
Alicja Polowczyk,Agnieszka Polowczyk,Piotr Borycki,Joanna Waczyńska,Jacek Tabor,Przemysław Spurek
Main category: cs.CV
TL;DR: DIAMOND是一种无需训练的方法,通过轨迹校正来减少文本到图像生成中的伪影,无需修改模型权重或额外训练。
- Motivation: 现有文本到图像模型(如FLUX)仍存在视觉和解剖伪影,影响实际和专业应用。现有伪影减少方法通常是后处理的,无法在核心图像形成过程中有效干预,且需要修改模型权重或依赖计算昂贵的区域细化。
- Method: 提出DIAMOND方法,在推理过程中应用轨迹校正来减轻伪影。通过在每个生成步骤重建干净样本的估计,主动引导生成过程远离导致伪影的潜在状态。该方法可扩展到标准扩散模型。
- Result: DIAMOND提供了一种鲁棒的零样本路径,实现高保真、无伪影的图像合成,无需额外训练或修改现代生成架构的权重。
- Conclusion: DIAMOND是一种无需训练的方法,能有效减少文本到图像生成中的伪影,为高质量图像合成提供了实用解决方案。
[112] OCTOPUS: Enhancing the Spatial-Awareness of Vision SSMs with Multi-Dimensional Scans and Traversal Selection
Kunal Mahatha,Ali Bahri,Pierre Marza,Sahar Dastani,Maria Vakalopoulou,Stergios Christodoulidis,Jose Dolz,Christian Desrosiers
Main category: cs.CV
TL;DR: OCTOPUS是一种新颖的视觉架构,通过八方向离散递归在保持SSM线性复杂度的同时,解决了传统状态空间模型在视觉任务中因因果性破坏空间关系的问题,有效捕捉全局上下文和局部空间结构。
- Motivation: 状态空间模型(SSMs)在文本任务中表现出色,但在视觉任务中效果有限,因为其因果性破坏了图像中像素或补丁之间的固有空间关系。传统SSMs无法捕捉局部空间连贯性,经常连接非相邻补丁而忽略视觉相关的邻近补丁。
- Method: OCTOPUS架构沿八个主要方向(水平、垂直和对角线的正向和反向)执行离散递归,允许所有空间连接区域之间的有效信息交换,同时保持不相关补丁之间的独立性。这种设计实现了多方向递归,以SSM级别的效率捕捉全局上下文和局部空间结构。
- Result: 在分类和分割基准测试中,OCTOPUS在边界保持和区域一致性方面表现出显著改进,同时与现有V-SSM模型相比保持了相对更好的分类准确性。分割结果显示了其在空间感知方面的优势。
- Conclusion: OCTOPUS作为多方向递归的基础方法,为构建空间感知且计算高效的视觉架构提供了可扩展且有效的机制,有望成为视觉任务中SSM应用的重要进展。
[113] ConsensusDrop: Fusing Visual and Cross-Modal Saliency for Efficient Vision Language Models
Dhruv Parikh,Haoyang Fan,Rajgopal Kannan,Viktor Prasanna
Main category: cs.CV
TL;DR: ConsensusDrop是一种无需训练的视觉语言模型token压缩框架,通过融合视觉编码器显著性和LLM跨注意力信号,在保持准确性的同时大幅减少计算开销。
- Motivation: 现有视觉语言模型处理大量冗余视觉token导致计算成本高昂。现有token减少方法要么使用视觉编码器显著性(广泛但查询无关),要么使用LLM跨注意力(查询感知但稀疏且成本高),单独使用都不够充分。
- Method: 提出ConsensusDrop框架,通过协调视觉编码器显著性和查询感知的跨注意力信号,生成共识排名,保留最信息丰富的token,同时通过编码器引导的token合并压缩其余部分。
- Result: 在LLaVA-1.5/NeXT、Video-LLaVA等开源VLM上,ConsensusDrop在相同token预算下优于现有剪枝方法,提供更强的准确率-效率Pareto前沿,即使在激进的token减少下也能保持接近基线的准确性,同时减少TTFT和KV缓存占用。
- Conclusion: 融合视觉编码器显著性和LLM跨注意力信号对于有效的视觉token压缩至关重要,ConsensusDrop提供了一种无需训练的高效解决方案,在保持性能的同时显著降低计算成本。
[114] Data Augmentation for High-Fidelity Generation of CAR-T/NK Immunological Synapse Images
Xiang Zhang,Boxuan Zhang,Alireza Naghizadeh,Mohab Mohamed,Dongfang Liu,Ruixiang Tang,Dimitris Metaxas,Dongfang Liu
Main category: cs.CV
TL;DR: 提出两种数据增强框架(IAAA和SAAA)来解决CAR-T/NK细胞免疫突触图像分割中标注数据不足的问题,提高人工神经网络在癌症免疫治疗中的预测准确性。
- Motivation: CAR-T/NK细胞免疫疗法已改变癌症治疗,免疫突触质量可作为预测疗效的功能性生物标志物。然而,标注显微图像数据有限限制了人工神经网络的泛化能力,需要解决数据不足问题以提高免疫突触检测和分割的准确性。
- Method: 整合两种互补的数据增强框架:1) IAAA(实例感知自动增强)- 自动、实例保留的增强方法,对原始IS数据应用优化增强策略生成合成图像和分割掩码;2) SAAA(语义感知AI增强)- 结合基于扩散的掩码生成器和Pix2Pix条件图像合成器,创建多样化、解剖学真实的分割掩码并生成高保真IS图像。
- Result: 两种增强策略生成的合成图像在视觉和结构特性上与真实IS数据高度匹配,显著提高了CAR-T/NK免疫突触的检测和分割性能,增强了IS量化的鲁棒性和准确性。
- Conclusion: 通过增强数据增强策略,提高了免疫突触量化的可靠性,支持开发更可靠的基于成像的生物标志物来预测患者对CAR-T/NK免疫疗法的反应。
[115] Hybrid Topological and Deep Feature Fusion for Accurate MRI-Based Alzheimer's Disease Severity Classification
Faisal Ahmed
Main category: cs.CV
TL;DR: 提出结合拓扑数据分析与DenseNet121的混合深度学习框架,用于阿尔茨海默病四阶段分类,在OASIS数据集上达到99.93%准确率和100% AUC。
- Motivation: 阿尔茨海默病的早期准确诊断在神经影像临床决策支持系统中仍具挑战性,传统神经网络可能忽略大脑结构的拓扑特征。
- Method: 提出混合深度学习框架,将拓扑数据分析与DenseNet121结合:TDA捕捉大脑结构的拓扑特征,DenseNet121从MRI切片学习层次空间特征,两者特征融合增强四阶段分类能力。
- Result: 在OASIS-1 Kaggle MRI数据集上,TDA+DenseNet121模型显著优于现有方法,达到99.93%准确率和100% AUC,超越CNN、迁移学习、集成和多尺度架构。
- Conclusion: 拓扑分析融入深度学习管道有效,该框架可作为阿尔茨海默病自动诊断的鲁棒高精度工具。
[116] Unveiling the Cognitive Compass: Theory-of-Mind-Guided Multimodal Emotion Reasoning
Meng Luo,Bobo Li,Shanqing Xu,Shize Zhang,Qiuchan Chen,Menglu Han,Wenhao Chen,Yanxiang Huang,Hao Fei,Mong-Li Lee,Wynne Hsu
Main category: cs.CV
TL;DR: 论文提出HitEmotion基准测试和ToM引导的情感推理方法,用于评估和提升多模态大语言模型的深层情感理解能力。
- Motivation: 当前多模态大语言模型在深层情感理解方面能力有限,需要基于心理理论来建模情感认知基础。
- Method: 1. 提出HitEmotion基准测试,分层诊断认知深度能力断点;2. 设计ToM引导的推理链,追踪心理状态并校准跨模态证据;3. 提出TMPO强化学习方法,使用中间心理状态作为过程级监督。
- Result: HitEmotion揭示了SOTA模型在认知要求高的任务上的深层情感推理缺陷;ToM引导的推理链和TMPO提高了端任务准确性,产生了更忠实、更连贯的推理依据。
- Conclusion: 该工作为研究社区提供了实用的工具包,用于评估和增强MLLMs基于认知的情感理解能力。
[117] Navigating Simply, Aligning Deeply: Winning Solutions for Mouse vs. AI 2025
Phu-Hoa Pham,Chi-Nguyen Tran,Dao Sy Duy Minh,Nguyen Lam Phu Quy,Huynh Trung Kiet
Main category: cs.CV
TL;DR: HCMUS_TheFangs团队在NeurIPS 2025 Mouse vs. AI竞赛中,通过简单CNN架构在视觉鲁棒性赛道获得95.4%高分,通过深度ResNet-like架构在神经对齐赛道实现最佳神经预测性能。
- Motivation: 解决人工视觉系统在视觉鲁棒性和神经对齐方面的关键挑战,开发能够匹配生物视觉系统的人工智能体。
- Method: Track 1:采用轻量级两层CNN,增强门控线性单元和观测归一化;Track 2:开发16层卷积的深度ResNet-like架构,使用GLU门控机制;系统分析10个模型检查点(60K到1.14M训练步数)。
- Result: Track 1获得95.4%最终得分;Track 2实现top-1神经预测性能(1780万参数);训练时长与性能呈非单调关系,最佳结果在约20万步时获得。
- Conclusion: 简单架构在视觉鲁棒性方面表现优异,而深度大容量模型在神经对齐方面更好;挑战了视觉运动学习中模型复杂度的传统假设,为开发鲁棒的生物启发视觉智能体提供实用指导。
[118] VAMOS-OCTA: Vessel-Aware Multi-Axis Orthogonal Supervision for Inpainting Motion-Corrupted OCT Angiography Volumes
Nick DiSanto,Ehsan Khodapanah Aghdam,Han Liu,Jacob Watson,Yuankai K. Tao,Hao Li,Ipek Oguz
Main category: cs.CV
TL;DR: VAMOS-OCTA:一种用于修复OCTA运动伪影的深度学习框架,通过血管感知多轴监督实现B-scan重建,改善横截面清晰度和体积投影精度。
- Motivation: 手持式OCTA在非合作或儿科受试者中易受运动伪影影响,导致3D采集中出现未采样的视网膜区域,在en face投影中产生空白带,严重影响图像质量。
- Method: 提出VAMOS-OCTA框架,使用2.5D U-Net架构,以相邻B-scan堆栈作为输入重建受损的中心B-scan,采用新颖的血管感知多轴正交监督(VAMOS)损失函数,结合血管加权强度重建与轴向和横向投影一致性。
- Result: VAMOS-OCTA在合成和真实世界受损体积数据上训练,在感知质量和像素级精度指标上均优于现有方法,能重建出具有清晰毛细血管、恢复血管连续性和干净en face投影的图像。
- Conclusion: 多轴监督为恢复运动退化的3D OCTA数据提供了强大的约束,VAMOS-OCTA能有效改善横截面B-scan清晰度和体积投影精度,即使在严重运动伪影下也能保持血管连续性。
[119] CortiNet: A Physics-Perception Hybrid Cortical-Inspired Dual-Stream Network for Gallbladder Disease Diagnosis from Ultrasound
Vagish Kumar,Souvik Chakraborty
Main category: cs.CV
TL;DR: CortiNet是一个轻量级、受皮层启发的双流神经网络,用于胆囊疾病诊断,通过物理可解释的多尺度信号分解和感知驱动特征学习,在减少参数的同时实现高精度诊断。
- Motivation: 超声成像是胆囊疾病的主要诊断方式,但图像分辨率低、存在斑点噪声,影响诊断可靠性。现有的大型卷积神经网络难以在常规临床环境中部署,需要更轻量高效的解决方案。
- Method: 提出CortiNet架构,受人类视觉皮层并行处理通路启发,将低频结构信息与高频感知细节分离,通过专门的编码流处理。采用物理可解释的多尺度信号分解,直接处理结构化、频率选择性表示而非原始像素强度。后期皮层式融合机制整合互补的结构和纹理线索,并提出结构感知可解释性框架。
- Result: 在10,692张专家标注图像(涵盖9个临床相关胆囊疾病类别)上评估,CortiNet达到98.74%的诊断准确率,仅需传统深度卷积模型参数的一小部分。
- Conclusion: CortiNet通过整合物理启发的信号分解和感知驱动的特征学习,实现了高效、轻量化的胆囊疾病诊断,具有临床部署潜力,同时通过结构感知可解释性框架增强了对斑点噪声的鲁棒性。
[120] SRVAU-R1: Enhancing Video Anomaly Understanding via Reflection-Aware Learning
Zihao Zhao,Shengting Cao,Muchao Ye
Main category: cs.CV
TL;DR: SRVAU-R1提出了一种基于自反思增强推理的视频异常理解框架,通过构建反思导向的思维链数据集和反思感知学习范式,显著提升了MLLM在视频异常理解中的深度推理能力。
- Motivation: 现有基于多模态大语言模型(MLLM)的视频异常理解方法主要关注异常的表面描述,缺乏对异常行为的深度推理能力,如明确的自我反思和自我纠正。需要开发能够进行深度推理的框架来提升视频异常理解的质量。
- Method: 提出SRVAU-R1框架:1)构建首个面向视频异常理解的反思导向思维链数据集,包含初始推理、自我反思和修正推理的结构化监督;2)设计反思感知学习范式,结合监督微调和强化微调来增强多模态推理能力。
- Result: 在多个视频异常基准测试上的实验表明,SRVAU-R1持续优于现有方法,在时间异常定位准确性和推理质量方面都取得了显著提升。
- Conclusion: SRVAU-R1通过引入反思机制有效增强了MLLM在视频异常理解中的深度推理能力,为视频异常理解任务提供了新的解决方案,在异常定位和推理质量方面都取得了显著改进。
[121] LocalScore: Local Density-Aware Similarity Scoring for Biometrics
Yiyang Su,Minchul Kim,Jie Zhu,Christopher Perry,Feng Liu,Anil Jain,Xiaoming Liu
Main category: cs.CV
TL;DR: LocalScore:一种利用k近邻显式结合图库特征分布局部密度的简单评分算法,显著提升开放集生物识别的性能
- Motivation: 开放集生物识别面临非注册探针检测的挑战,现有方法将同一主题的多样本压缩为单一全局表示,导致次优决策边界和较差的开放集鲁棒性
- Method: 提出LocalScore评分算法,利用k近邻显式结合图库特征分布的局部密度,该方法是架构无关、损失函数独立且计算开销可忽略的即插即用方案
- Result: 在多模态实验中,LocalScore在开放集检索(FNIR@FPIR从53%降至40%)和验证(TAR@FAR从51%提升至74%)方面均取得显著提升
- Conclusion: LocalScore通过显式建模局部密度有效提升开放集生物识别性能,提供理论分析和实证验证解释方法在何种数据集特征下获得最大增益
[122] Effectiveness of Automatically Curated Dataset in Thyroid Nodules Classification Algorithms Using Deep Learning
Jichen Yang,Jikai Zhang,Benjamin Wildman-Tobriner,Maciej A. Mazurowski
Main category: cs.CV
TL;DR: 自动标注的甲状腺结节数据集能显著提升深度学习模型性能,使用全部数据比仅用高精度子集效果更好
- Motivation: 甲状腺结节癌症诊断常用超声图像,但深度学习模型训练数据有限。先前研究提出自动标注方法,但其对模型训练的实际效果未知,需要验证自动标注数据集是否能提升深度学习算法性能。
- Method: 在手动标注和自动标注数据集上分别训练深度学习模型,同时使用自动标注数据集中精度较高的子集进行训练,比较不同数据集训练出的模型性能。
- Result: 手动标注数据集训练的模型AUC为0.643,自动标注数据集训练的模型AUC为0.694,性能显著提升(P0.43)。
- Conclusion: 自动标注数据集能显著提高深度学习算法性能,建议使用全部自动标注数据而非仅用高精度子集,这为解决医学图像数据稀缺问题提供了有效方案。
[123] GMAC: Global Multi-View Constraint for Automatic Multi-Camera Extrinsic Calibration
Chentian Sun
Main category: cs.CV
TL;DR: GMAC:基于多视图重建网络隐式几何表示的多相机外参估计框架,无需显式3D重建或手动标定
- Motivation: 现有多相机系统标定方法依赖标定板、显式几何建模或任务特定神经网络,在复杂动态环境或在线场景中鲁棒性和适用性有限,难以实际部署
- Method: 基于多视图重建网络的隐式几何表示,将外参建模为受潜在多视图几何结构约束的全局变量;通过剪枝和结构重构现有网络,使其潜在特征直接支持外参预测;联合优化跨视图重投影一致性和多视图循环一致性
- Result: 在合成和真实世界多相机数据集上的实验表明,GMAC实现了准确稳定的外参估计,无需显式3D重建或手动标定
- Conclusion: GMAC为多相机系统的高效部署和在线标定提供了新解决方案,通过隐式几何表示和一致性约束实现了鲁棒的外参估计
[124] FUSE-Flow: Scalable Real-Time Multi-View Point Cloud Reconstruction Using Confidence
Chentian Sun
Main category: cs.CV
TL;DR: FUSE-Flow:一种帧级、无状态、线性可扩展的点云流式重建框架,通过自适应空间哈希加权聚合实现实时多视点云重建
- Motivation: 实时多视点云重建在3D视觉和沉浸感知中至关重要,但现有方法在计算复杂度、内存使用和可扩展性方面存在问题,难以同时实现实时性能、重建质量和多相机可扩展性
- Method: 提出FUSE-Flow框架:1)每帧独立生成点云片段,通过测量置信度和3D距离一致性两个权重进行融合;2)引入自适应空间哈希加权聚合方法,根据局部点云密度自适应划分3D空间,选择代表性点进行加权融合;3)利用GPU并行化实现线性复杂度
- Result: 实验表明该框架在重叠、深度不连续和动态场景中提高了重建稳定性和几何保真度,同时在现代GPU上保持实时帧率,验证了其有效性、鲁棒性和可扩展性
- Conclusion: FUSE-Flow成功解决了实时多视点云重建的挑战,实现了实时性能、高质量重建和多相机可扩展性的平衡,为VR/AR、机器人导航、数字孪生等应用提供了有效解决方案
[125] VEQ: Modality-Adaptive Quantization for MoE Vision-Language Models
Guangshuo Qin,Zhiteng Li,Zheng Chen,Weihang Zhang,Linghe Kong,Yulun Zhang
Main category: cs.CV
TL;DR: VEQ提出了一种针对MoE视觉语言模型的双感知量化框架,通过模态-专家感知量化和模态亲和感知量化来同时处理跨模态差异和专家异质性,显著提升了量化性能。
- Motivation: MoE视觉语言模型虽然性能优异但内存和计算成本过高,需要压缩。现有量化方法忽视了两种关键异质性:视觉和语言token之间的差异,以及不同专家的非均匀贡献。
- Method: 提出视觉专家量化(VEQ)框架:1)模态-专家感知量化:利用专家激活频率优先为关键专家最小化误差;2)模态亲和感知量化:通过整合token-专家亲和度与模态信息构建增强的Hessian矩阵来指导校准过程。
- Result: 在W3A16配置下,VEQ在Kimi-VL上平均准确率提升2.04%,在Qwen3-VL上提升3.09%,优于现有最先进的量化方法,在各种多模态任务上表现出优越的鲁棒性。
- Conclusion: VEQ通过同时考虑跨模态差异和专家异质性,为MoE视觉语言模型提供了一种有效的训练后量化解决方案,显著提升了量化性能。
[126] From Videos to Conversations: Egocentric Instructions for Task Assistance
Lavisha Aggarwal,Vikas Bahirwani,Andrea Colaco
Main category: cs.CV
TL;DR: 提出一个自动将单人教学视频转换为双人多模态任务指导对话的框架,并创建了HowToDIV数据集,包含507个对话和24小时视频,为多模态程序性任务辅助提供基准。
- Motivation: 日常任务需要专业知识,但AI助手在AR辅助方面进展受限,主要因为缺乏大规模、基于真实任务执行的多模态对话数据集,而人工收集数据成本高、复杂。
- Method: 基于大语言模型的完全自动流水线,将单人教学视频转换为专家-新手双人多模态任务指导对话,提供可扩展且成本高效的数据收集替代方案。
- Result: 创建了HowToDIV数据集,包含507个对话、6,636个问答对和24小时视频,涵盖多个领域,每个会话包含多轮专家-新手交互。使用Gemma 3和Qwen 2.5提供了基线结果。
- Conclusion: 提出的框架能够自动生成多模态任务指导对话,解决了数据集稀缺问题,为多模态程序性任务辅助研究提供了有价值的基准和数据集。
[127] ReLayout: Versatile and Structure-Preserving Design Layout Editing via Relation-Aware Design Reconstruction
Jiawei Lin,Shizhao Sun,Danqing Huang,Ting Liu,Ji Li,Jiang Bian
Main category: cs.CV
TL;DR: ReLayout是一个无需三元组数据的自监督设计布局编辑框架,通过关系图保持未编辑元素的结构,使用多模态大语言模型统一多种编辑操作
- Motivation: 设计布局编辑任务面临两大挑战:1) 满足编辑操作的同时保持未编辑元素的布局结构;2) 缺乏(原始设计、编辑操作、编辑后设计)三元组数据
- Method: 提出ReLayout框架:1) 引入关系图捕捉未编辑元素的位置和大小关系作为结构约束;2) 提出关系感知设计重建(RADR)方法,通过自监督学习从元素、关系图和合成编辑操作重建设计;3) 使用多模态大语言模型作为骨干,统一多种编辑操作
- Result: 定性、定量结果和用户研究表明,ReLayout在编辑质量、准确性和布局结构保持方面显著优于基线模型
- Conclusion: ReLayout通过关系图约束和自监督学习方法,有效解决了设计布局编辑中的结构保持和数据稀缺问题,实现了无需手动调整的自动化设计重设计
[128] Residual Decoding: Mitigating Hallucinations in Large Vision-Language Models via History-Aware Residual Guidance
Xinrong Chen,Xu Chu,Yingmin Qiu,Hengyuan Zhang,Jing Xiong,Shiyu Tang,Shuai Liu,Shaokang Yang,Cheng Yang,Hayden Kwok-Hay So,Ngai Wong
Main category: cs.CV
TL;DR: 提出ResDec方法,利用历史信息和token logits演化机制来减少LVLM中的幻觉问题,无需额外训练
- Motivation: 大型视觉语言模型虽然在多模态任务中表现良好,但容易受到语言先验影响产生幻觉,即生成与视觉输入不相关但语法正确的虚假内容
- Method: 提出ResDec方法,这是一种无需训练的解码方法,利用历史信息和模型内部的隐式推理机制以及token logits演化机制来纠正偏差
- Result: ResDec能有效抑制语言先验引起的幻觉,显著改善视觉基础性,减少物体幻觉,同时在综合LVLM基准测试中表现优异
- Conclusion: ResDec是一种有效的训练免费方法,能减少LVLM中的幻觉问题,提高视觉基础性,具有广泛适用性
[129] Baseline Method of the Foundation Model Challenge for Ultrasound Image Analysis
Bo Deng,Yitong Tang,Jiake Li,Yuxin Huang,Li Wang,Yu Zhang,Yufei Zhan,Hua Lu,Xiaoshen Zhang,Jieyun Bai
Main category: cs.CV
TL;DR: 本文提出了FM_UIA 2026超声图像分析基础模型挑战的官方基线,基于统一的多头多任务学习框架,支持27个子任务,为超声基础模型研究建立了可扩展的基准。
- Motivation: 超声图像在不同解剖结构和采集协议间存在显著异质性,现有方法多为任务特定型,难以开发可临床部署的通用基础模型。
- Method: 采用统一的多头多任务学习框架,使用ImageNet预训练的EfficientNet-B4作为骨干网络,结合特征金字塔网络提取多尺度特征,通过任务特定路由策略为不同任务分配适当特征层。
- Result: 验证结果表明该统一设计具有可行性和鲁棒性,为超声基础模型研究建立了强大且可扩展的基线。
- Conclusion: 提出的MH-MTL框架成功支持了超声图像分析中的多种任务,为开发临床可部署的超声基础模型提供了重要基准,相关代码和数据集已公开。
[130] Radioactive 3D Gaussian Ray Tracing for Tomographic Reconstruction
Ling Chen,Bao Yang
Main category: cs.CV
TL;DR: 该论文提出了一种基于3D高斯射线追踪的断层扫描重建框架,相比基于splatting的方法,通过解析计算线积分避免了局部仿射近似误差,并支持非线性几何校正,提高了投影精度和物理一致性。
- Motivation: 现有基于3D高斯splatting的断层扫描重建方法(如R2-Gaussian)采用局部仿射近似,将3D高斯映射到2D探测器上。这种近似会降低重建的定量精度,并难以整合非线性几何校正(如PET中的弧校正)。
- Method: 提出基于3D高斯射线追踪的断层扫描重建框架:1)解析计算通过3D高斯基元的线积分,避免局部仿射坍缩;2)射线追踪公式提供对射线起点和方向的显式控制,便于精确应用非线性几何校正。
- Result: 该方法相比splatting模型具有两个关键优势:1)提供更物理一致的前向投影模型;2)扩展了高斯基重建方法在真实断层扫描系统(如PET)中的适用性,同时提高了投影精度。
- Conclusion: 基于3D高斯射线追踪的框架克服了splatting方法的局限性,通过解析线积分和显式射线控制,实现了更准确、更灵活的断层扫描重建,特别适用于需要非线性几何校正的成像系统。
[131] DRFormer: A Dual-Regularized Bidirectional Transformer for Person Re-identification
Ying Shu,Pujian Zhan,Huiqi Yang,Hehe Fan,Youfang Lin,Kai Lv
Main category: cs.CV
TL;DR: 提出DRFormer框架,通过双正则化双向Transformer融合DINO的局部细节特征和CLIP的全局语义特征,解决行人重识别中的遮挡和姿态变化问题
- Motivation: 现有方法通常只依赖单一范式(要么基于DINO的局部纹理挖掘,要么基于CLIP的全局语义差异),忽略了两种架构的互补优势。局部细节和全局语义特征都能帮助解决行人重识别中的遮挡和姿态变化挑战
- Method: 提出DRFormer(双正则化双向Transformer)框架,通过双正则化机制确保多样化的特征提取,并平衡两种模型的贡献。该框架协同融合DINO的局部纹理挖掘能力和CLIP的全局语义捕捉能力
- Result: 在五个基准测试上的大量实验表明,该方法有效协调了局部和全局表示,取得了与最先进方法相竞争的性能
- Conclusion: 通过DRFormer框架成功融合了视觉基础模型(DINO)和视觉语言模型(CLIP)的互补优势,为行人重识别任务提供了更全面的特征表示解决方案
[132] PDE-Constrained Optimization for Neural Image Segmentation with Physics Priors
Seema K. Poudel,Sunny K. Khadka
Main category: cs.CV
TL;DR: 该论文提出了一种基于PDE约束优化的图像分割框架,将物理先验通过变分正则化整合到深度学习模型中,在显微镜细胞分割任务上相比无约束基线模型取得了更好的分割精度、边界保真度和泛化能力。
- Motivation: 显微镜图像分割由于测量噪声、弱边界和有限标注数据而成为一个不适定逆问题。无约束的经验风险最小化通常导致不稳定解和泛化能力差,需要将物理先验整合到深度学习模型中。
- Method: 将图像分割建模为PDE约束优化问题,通过变分正则化将物理先验整合到深度学习模型中。最小化由数据保真项和来自反应-扩散方程、相场界面能量的惩罚项组成的复合目标函数,所有项都实现为可微残差损失。
- Result: 在LIVECell数据集上的实验表明,相比无约束的UNet基线模型,PDE正则化模型在分割精度和边界保真度上取得了一致的改进。在低样本情况下表现出增强的稳定性和更好的泛化能力。
- Conclusion: PDE约束优化可以加强数据驱动的学习框架,为变分方法、统计学习和科学机器学习之间提供了原则性的桥梁,展示了整合结构化先验的优势。
[133] PISA: Piecewise Sparse Attention Is Wiser for Efficient Diffusion Transformers
Haopeng Li,Shitong Shao,Wenliang Zhong,Zikai Zhou,Lichen Bai,Hui Xiong,Zeke Xie
Main category: cs.CV
TL;DR: 提出PISA方法,通过精确计算关键注意力块+近似计算非关键块,在保持质量的同时实现次二次复杂度,显著加速扩散Transformer的推理速度。
- Motivation: 扩散Transformer在视频和图像生成中至关重要,但其注意力机制的二次复杂度成为效率瓶颈。现有的块稀疏注意力方法虽然通过只关注关键块来加速计算,但在高稀疏度时会因丢弃上下文信息而导致质量下降。
- Method: 提出PISA(Piecewise Sparse Attention)方法,采用"精确或近似"策略而非传统的"保留或丢弃"范式。该方法发现非关键块的注意力分数具有分布稳定性,可以通过块级泰勒展开高效近似,同时保持关键块的精确计算,从而在次二次复杂度下覆盖完整注意力范围。
- Result: 在Wan2.1-14B上实现1.91倍加速,在Hunyuan-Video上实现2.57倍加速,同时在稀疏注意力方法中保持最高质量。在FLUX图像生成上实现1.2倍加速且不损失视觉质量。
- Conclusion: PISA通过创新的精确-近似策略有效解决了稀疏注意力中速度与质量的权衡问题,为扩散Transformer提供了高效且高质量的注意力机制解决方案。
[134] MedAD-R1: Eliciting Consistent Reasoning in Interpretible Medical Anomaly Detection via Consistency-Reinforced Policy Optimization
Haitao Zhang,Yingying Wang,Jiaxiang Wang,Haote Xu,Hongyang Zhang,Yirong Chen,Yue Huang,Xinghao Ding
Main category: cs.CV
TL;DR: MedAD-R1模型通过两阶段训练框架(认知注入+Con-GRPO)在MedAD-38K基准上实现SOTA性能,提升医学异常检测的推理一致性和可解释性。
- Motivation: 当前医学异常检测(MedAD)依赖监督微调在简单碎片化数据集上,限制了模型的合理推理能力和多模态泛化能力,需要更可靠的临床决策支持系统。
- Method: 提出两阶段训练框架:1)认知注入阶段使用SFT注入医学知识并对齐思维-回答范式;2)Con-GRPO阶段引入一致性奖励确保推理过程与最终诊断的逻辑连贯性。
- Result: MedAD-R1在MedAD-38K基准上实现SOTA性能,超越强基线10%以上,能生成透明且逻辑一致的推理路径。
- Conclusion: 该方法通过确保推理与诊断的一致性,显著提升了AI临床决策支持系统的可信度和可解释性,为医学异常检测提供了有前景的解决方案。
[135] Differential Vector Erasure: Unified Training-Free Concept Erasure for Flow Matching Models
Zhiqi Zhang,Xinhao Zhong,Yi Sun,Shuoyang Sun,Bin Chen,Shu-Tao Xia,Xuan Wang
Main category: cs.CV
TL;DR: DVE是一种针对流匹配模型的免训练概念擦除方法,通过构建表征目标概念与锚概念方向差异的微分向量场,在推理时选择性移除概念特定分量,实现精确概念抑制。
- Motivation: 文本到图像扩散模型虽然能生成高质量图像,但倾向于再现不良概念(如NSFW内容、版权风格或特定对象),这对安全和可控部署构成担忧。现有概念擦除方法主要针对DDPM扩散模型且依赖昂贵微调,而流匹配模型作为新兴生成范式,先前方法不直接适用。
- Method: 提出微分向量擦除(DVE),专门为流匹配模型设计的免训练概念擦除方法。核心洞察是语义概念隐含在控制生成流的向量场方向结构中。通过构建表征目标概念与精心选择锚概念方向差异的微分向量场,在推理时将向量场投影到微分方向,选择性移除概念特定分量。
- Result: 在FLUX模型上的广泛实验表明,DVE在多种概念擦除任务(包括NSFW抑制、艺术风格移除和对象擦除)上一致优于现有基线方法,同时保持图像质量和多样性。
- Conclusion: DVE为流匹配模型提供了一种高效、免训练的概念擦除解决方案,通过利用向量场方向结构实现精确概念抑制,为安全可控的生成模型部署提供了新途径。
[136] PandaPose: 3D Human Pose Lifting from a Single Image via Propagating 2D Pose Prior to 3D Anchor Space
Jinghong Zheng,Changlong Jiang,Yang Xiao,Jiaqi Li,Haohong Kuang,Hang Xu,Ran Wang,Zhiguo Cao,Min Du,Joey Tianyi Zhou
Main category: cs.CV
TL;DR: PandaPose提出了一种新的3D人体姿态提升方法,通过将2D姿态先验传播到3D锚点空间作为统一中间表示,解决了现有方法中的误差传播和自遮挡问题。
- Motivation: 现有3D人体姿态提升方法通常基于2D特征建立直接的关节到关节映射,存在两个根本限制:1) 从输入预测的2D姿态到3D预测的不可避免的误差传播;2) 处理自遮挡情况的固有困难。
- Method: 提出PandaPose方法,包含三个核心组件:1) 规范坐标系中的关节级3D锚点,提供准确鲁棒的先验;2) 深度感知的关节级特征提升,分层整合深度信息解决自遮挡模糊性;3) 锚点-特征交互解码器,将3D锚点与提升的特征结合生成统一的锚点查询,进一步用于锚点到关节的集成预测。
- Result: 在Human3.6M、MPI-INF-3DHP和3DPW三个基准测试上展示了优越性,在Human3.6M的挑战性条件下相比SOTA方法误差显著降低14.7%,定性比较进一步展示了方法的有效性和鲁棒性。
- Conclusion: PandaPose通过引入3D锚点空间作为统一中间表示,有效解决了3D人体姿态提升中的误差传播和自遮挡问题,在多个基准测试上取得了显著性能提升。
[137] Robust Harmful Meme Detection under Missing Modalities via Shared Representation Learning
Felix Breiteneder,Mohammad Belal,Muhammad Saad Saeed,Shahed Masoudian,Usman Naseem,Kulshrestha Juhi,Markus Schedl,Shah Nawaz
Main category: cs.CV
TL;DR: 该论文首次全面研究模态不完整数据下的有害表情包检测方法,提出了一种通过独立投影学习多模态共享表示的新基线方法,在文本缺失时优于现有方法。
- Motivation: 互联网表情包是强大的传播工具,但可能被用于传播仇恨。现有检测方法依赖完整的模态数据(文本和图像),而在现实场景中,文本可能因OCR质量差等原因缺失,导致现有方法性能下降。
- Method: 提出一种新的基线方法,通过独立投影学习多模态的共享表示。这些共享表示可以在数据模态不完整时被利用,从而减少对文本的依赖并提高鲁棒性。
- Result: 在两个基准数据集上的实验结果表明,当文本缺失时,该方法优于现有方法。该方法能更好地整合视觉特征,减少对文本的依赖,提高在文本信息缺失场景下的鲁棒性。
- Conclusion: 这项工作代表了有害表情包检测在实际应用中的重要进展,特别是在模态缺失的情况下,为实现现实世界应用迈出了重要一步。
[138] LightCity: An Urban Dataset for Outdoor Inverse Rendering and Reconstruction under Multi-illumination Conditions
Jingjing Wang,Qirui Hu,Chong Bao,Yuke Zhu,Hujun Bao,Zhaopeng Cui,Guofeng Zhang
Main category: cs.CV
TL;DR: 提出了LightCity数据集,这是一个用于城市逆渲染的高质量合成数据集,包含多光照条件、间接光和阴影效果,用于基准测试相关任务。
- Motivation: 城市逆渲染在自动驾驶和数字孪生中很重要,但面临复杂光照条件的挑战,包括多光源、间接光和阴影效果。由于缺乏合适的数据集,这些挑战对内在分解和3D重建的影响尚未被探索。
- Method: 创建了LightCity数据集,包含300多个天空图、高度可控的光照、街景和航拍视角的5万多张图像,以及深度、法线、材质组件、直接光和间接光等丰富属性。
- Result: 建立了包含多样化光照条件的城市数据集,并利用该数据集对城市环境中的三个基本任务进行了基准测试和综合分析。
- Conclusion: LightCity数据集为推进城市逆渲染相关研究奠定了坚实基础,特别是在复杂光照条件下的内在分解和3D重建任务。
[139] Koo-Fu CLIP: Closed-Form Adaptation of Vision-Language Models via Fukunaga-Koontz Linear Discriminant Analysis
Matej Suchanek,Klara Janouskova,Ondrej Vasatko,Jiri Matas
Main category: cs.CV
TL;DR: Koo-Fu CLIP:基于Fukunaga-Koontz线性判别分析的监督CLIP适配方法,通过白化嵌入空间抑制类内变异、增强类间区分,实现轻量高效的CLIP表示适配。
- Motivation: CLIP等视觉语言模型提供强大的通用表示,但其原始嵌入在监督分类任务中表现有限:类间分离度不足、维度冗余,需要优化以适应监督分类需求。
- Method: 采用Fukunaga-Koontz线性判别分析,在白化的嵌入空间中操作,抑制类内变异并增强类间区分。通过闭式线性投影重塑CLIP嵌入的几何结构,同时实现有效的维度约简。
- Result: 在ImageNet-1K上将top-1准确率从75.1%提升至79.1%,在扩展到14K和21K类时保持稳定增益。支持10-12倍的压缩而几乎不损失精度,实现高效的大规模分类和检索。
- Conclusion: Koo-Fu CLIP提供了一种轻量高效的CLIP表示适配方法,通过监督学习优化嵌入空间几何,显著提升分类性能并支持大幅压缩,适用于大规模视觉分类和检索任务。
[140] Improving Robustness of Vision-Language-Action Models by Restoring Corrupted Visual Inputs
Daniel Yezid Guarnizo Orjuela,Leonardo Scappatura,Veronica Di Gennaro,Riccardo Andrea Izzo,Gianluca Bardaro,Matteo Matteucci
Main category: cs.CV
TL;DR: 本文提出CRT(Corruption Restoration Transformer),一种即插即用、模型无关的视觉变换器,用于增强VLA模型对图像损坏的鲁棒性,恢复因传感器噪声等视觉干扰而下降的性能。
- Motivation: 现有VLA模型在受控环境中表现良好,但在实际部署中对视觉干扰(特别是图像损坏)非常脆弱。虽然已有研究关注物理遮挡,但传感器层面的图像损坏(如电子噪声、坏点、镜头污染)尚未得到充分探索,这些损坏会直接影响视觉信号的完整性,导致性能严重下降。
- Method: 提出CRT(Corruption Restoration Transformer),一种即插即用的视觉变换器,通过对抗训练目标从损坏的输入中恢复干净的观测,无需对底层VLA模型进行昂贵的微调。该方法模型无关,可应用于各种VLA架构。
- Result: 实验表明,在LIBERO和Meta-World基准测试中,CRT能有效恢复因视觉损坏而丢失的性能,使VLA模型即使在严重视觉损坏下也能维持接近基线的成功率。例如,原本成功率从90%降至2%的模型,使用CRT后能恢复至接近原始水平。
- Conclusion: CRT为VLA模型提供了一种有效的视觉损坏免疫方案,解决了实际部署中的关键脆弱性问题。该方法无需修改底层模型架构,具有实用性和可扩展性,为机器人系统在真实世界中的可靠运行提供了重要保障。
[141] Semantically Aware UAV Landing Site Assessment from Remote Sensing Imagery via Multimodal Large Language Models
Chunliang Hua,Zeyuan Yang,Lei Zhang,Jiayang Sun,Fengwen Chen,Chunlan Zeng,Xiao Hu
Main category: cs.CV
TL;DR: 提出结合遥感影像和多模态大语言模型的无人机紧急着陆点评估框架,通过语义风险识别提升安全性,并发布ELSS基准数据集。
- Motivation: 传统基于几何特征的无人机紧急着陆方法无法识别语义风险(如人群、临时结构),需要更全面的风险评估框架。
- Method: 采用粗到细的流程:1)轻量级语义分割模块预筛选候选区域;2)视觉-语言推理代理融合视觉特征和POI数据检测细微风险。
- Result: 实验表明该框架在风险识别准确率上显著优于几何基线方法,并能生成类似人类的可解释理由,增强自动化决策的可信度。
- Conclusion: 提出的框架结合遥感影像和MLLM,能有效识别语义风险,提升无人机紧急着陆安全性,并公开了ELSS基准数据集供研究使用。
[142] EEmo-Logic: A Unified Dataset and Multi-Stage Framework for Comprehensive Image-Evoked Emotion Assessment
Lancheng Gao,Ziheng Jia,Zixuan Xing,Wei Sun,Huiyu Duan,Guangtao Zhai,Xiongkuo Min
Main category: cs.CV
TL;DR: EEmoDB是目前最大的图像诱发情感理解数据集,包含5个分析维度和5个任务类别,并提出了EEmo-Logic多模态大语言模型,通过指令微调和GRPO优化实现强大的情感理解和评估能力。
- Motivation: 现有模型在图像诱发情感理解方面存在局限性,要么只能进行粗粒度情感感知,要么缺乏推理能力。为了弥补这一差距,需要更全面的数据集和更强大的模型来理解图像的多维度情感属性和强度细微差别。
- Method: 1) 构建EEmoDB数据集:包含125k张图像的120万QA对(EEmoDB-QA)和25k张图像的36k细粒度评估数据(EEmoDB-Assess);2) 提出EEmo-Logic模型:通过指令微调和任务定制化的组相对偏好优化(GRPO)进行训练,采用新颖的奖励设计。
- Result: EEmo-Logic在领域内和跨领域数据集上都表现出强大的性能,在情感QA和细粒度评估任务中表现优异。EEmoDB是目前最大的图像诱发情感理解数据集。
- Conclusion: EEmoDB数据集和EEmo-Logic模型为图像诱发情感理解提供了全面的解决方案,推动了机器共情的发展,并为多样化的人机交互应用赋能。
[143] Refining Context-Entangled Content Segmentation via Curriculum Selection and Anti-Curriculum Promotion
Chunming He,Rihan Zhang,Fengyang Xiao,Dingming Zhang,Zhiwen Cao,Sina Farsiu
Main category: cs.CV
TL;DR: CurriSeg:一种受生物学启发的双阶段学习框架,通过课程学习和反课程学习相结合的方式,解决上下文纠缠内容分割问题,无需增加参数或训练时间即可提升分割性能。
- Motivation: 受生物学习从易到难渐进过程的启发,针对上下文纠缠内容分割(CECS)这一挑战性任务,传统分割网络主要依赖架构改进而忽略了学习动态,特别是在纠缠数据分布下的鲁棒性问题。
- Method: 提出CurriSeg双阶段学习框架:1)课程选择阶段:基于样本损失的时间统计动态选择训练数据,区分困难但有信息量的样本与噪声/模糊样本;2)反课程提升阶段:设计频谱盲微调,抑制高频成分以增强对低频结构和上下文线索的依赖。
- Result: 在多个CECS基准测试中取得一致改进,无需增加参数或总训练时间,证明了课程与挑战的相互作用如何促进鲁棒且上下文感知的分割。
- Conclusion: CurriSeg提供了一个原则性的视角,展示了渐进学习与挑战性学习的相互作用如何促进鲁棒、上下文感知的分割,为处理视觉模式与背景纠缠的复杂分割任务提供了有效解决方案。
[144] EMFormer: Efficient Multi-Scale Transformer for Accumulative Context Weather Forecasting
Hao Chen,Tao Han,Jie Zhang,Song Guo,Fenghua Ling,Lei Bai
Main category: cs.CV
TL;DR: 提出EMFormer架构和累积上下文微调方法,通过多尺度特征提取和动态损失平衡,解决长期天气预报中的灾难性遗忘、误差累积和高训练开销问题,显著提升长期预测精度和计算效率。
- Motivation: 长期天气预报对社会经济规划和灾害准备至关重要,但现有方法存在灾难性遗忘、误差累积和高训练开销等限制,需要新的解决方案来提升长期上下文建模能力并降低计算成本。
- Method: 1. 提出高效多尺度Transformer(EMFormer),通过单次卷积在训练和推理中提取多尺度特征;2. 采用累积上下文微调提升时间一致性而不损害短期精度;3. 提出复合损失函数,通过正弦加权动态平衡不同损失项,自适应指导预训练和微调优化轨迹。
- Result: 在天气预报和极端事件预测中取得强劲性能,显著提升长期预测精度;在视觉基准测试(ImageNet-1K和ADE20K)上展现强泛化能力;相比传统多尺度模块实现5.69倍加速。
- Conclusion: 提出的跨预训练、微调和预测的完整管道有效解决了长期天气预报的关键挑战,在保持计算效率的同时显著提升了长期预测性能,为长期天气建模提供了有前景的解决方案。
[145] Med3D-R1: Incentivizing Clinical Reasoning in 3D Medical Vision-Language Models for Abnormality Diagnosis
Haoran Lai,Zihang Jiang,Kun Zhang,Qingsong Yao,Rongsheng Wang,Zhiyang He,Xiaodong Tao,Wei Wei,Shaohua Kevin Zhou
Main category: cs.CV
TL;DR: Med3D-R1:一个用于3D医学视觉语言模型的强化学习框架,通过两阶段训练(监督微调和强化学习)提升临床推理能力,在CT-RATE和RAD-ChestCT基准测试中达到SOTA性能。
- Motivation: 开发具有鲁棒临床推理能力的3D视觉语言模型面临挑战:体素医学影像的复杂性、模型容易过拟合表面报告模式、缺乏可解释性奖励设计。
- Method: 提出Med3D-R1强化学习框架,包含两阶段训练:1)监督微调阶段:引入残差对齐机制连接3D特征与文本嵌入,异常重加权策略强调临床信息标记;2)强化学习阶段:重新设计一致性奖励以促进连贯的逐步诊断推理。
- Result: 在两个3D诊断基准测试中达到SOTA:CT-RATE准确率41.92%,RAD-ChestCT准确率44.99%,表明异常诊断和临床推理能力得到改善。
- Conclusion: 该方法有望通过实现更可靠、透明的3D医学视觉语言系统来增强真实世界的诊断工作流程。
[146] Boosting Point-supervised Temporal Action Localization via Text Refinement and Alignment
Yunchuan Ma,Laiyun Qing,Guorong Li,Yuqing Liu,Yuankai Qi,Qingming Huang
Main category: cs.CV
TL;DR: 提出TRA框架,通过文本精炼和对齐模块,利用视觉描述中的文本特征补充视觉特征,提升点监督时序动作定位性能。
- Motivation: 当前点监督时序动作定位方法仅考虑视觉特征,忽略了文本侧的语义信息。文本特征具有丰富的语义信息,可以补充视觉特征,提升定位精度。
- Method: 提出TRA框架,包含两个新模块:基于点的文本精炼模块(PTR)和基于点的多模态对齐模块(PMA)。首先使用预训练多模态模型生成视频帧描述;PTR利用点标注和多个预训练模型精炼初始描述;PMA将所有特征投影到统一语义空间,通过点级多模态特征对比学习减少视觉和语言模态间的差距;最后将增强的多模态特征输入动作检测器进行精确定位。
- Result: 在五个广泛使用的基准测试上进行了大量实验,结果显示该框架相比多个最先进方法具有优越性能。计算开销分析表明框架可在单张24GB RTX 3090 GPU上运行,证明了其实用性和可扩展性。
- Conclusion: 提出的TRA框架通过有效利用视觉描述中的文本特征补充视觉特征,显著提升了点监督时序动作定位的性能,同时保持了实用性和可扩展性。
[147] OASIS-DC: Generalizable Depth Completion via Output-level Alignment of Sparse-Integrated Monocular Pseudo Depth
Jaehyeon Cho,Jhonghyun An
Main category: cs.CV
TL;DR: 提出一种将相对深度转换为度量深度的方法:通过稀疏测距测量校准相对深度作为伪度量先验,再设计细化网络进行修正,实现少样本下的准确度量深度预测。
- Motivation: 单目基础模型在零样本深度估计方面表现出色,但其输出本质上是相对深度而非度量深度,限制了在机器人和自动驾驶中的直接应用。需要解决从相对深度到度量深度的转换问题。
- Method: 利用相对深度保留全局布局和边界的特点,通过稀疏测距测量进行校准,将其转换为伪度量深度先验。基于此先验设计细化网络,在可靠区域遵循先验,在必要区域进行偏离,实现从极少标注样本中预测准确度量深度。
- Result: 该方法在缺乏精选验证数据的情况下特别有效,能够在少样本场景下保持稳定的尺度和锐利边缘。系统在真实世界标签稀缺的情况下实现稳健的、可部署的深度补全。
- Conclusion: 将基础先验与稀疏锚点相结合,是在真实世界标签稀缺条件下实现稳健、可部署深度补全的实用途径。
[148] Q-DiT4SR: Exploration of Detail-Preserving Diffusion Transformer Quantization for Real-World Image Super-Resolution
Xun Zhang,Kaicheng Yang,Hongliang Lu,Haotong Qin,Yong Guo,Yulun Zhang
Main category: cs.CV
TL;DR: 提出Q-DiT4SR,首个专门为基于DiT的真实世界图像超分辨率设计的后训练量化框架,通过层次SVD和方差感知时空混合精度分配,在W4A4配置下实现5.8倍模型压缩和60倍计算加速。
- Motivation: DiT在真实世界图像超分辨率中能生成高质量纹理,但推理负担重阻碍实际部署。现有量化方法主要针对U-Net架构,而通用DiT量化通常为文生图任务设计,直接应用于超分辨率会导致局部纹理严重退化。
- Method: 1. H-SVD:层次SVD,集成全局低秩分支和局部块状秩1分支,在匹配参数预算下保持性能。2. VaSMP:方差感知空间混合精度,基于率失真理论以数据无关方式分配跨层权重比特宽度。3. VaTMP:方差感知时间混合精度,通过动态规划在扩散时间步间调度层内激活精度,仅需最小校准。
- Result: 在多个真实世界数据集上,Q-DiT4SR在W4A6和W4A4设置下均达到SOTA性能。W4A4配置将模型大小减少5.8倍,计算操作减少超过60倍。
- Conclusion: Q-DiT4SR是首个专门为DiT基真实世界图像超分辨率设计的PTQ框架,通过创新的层次分解和混合精度分配策略,在保持纹理质量的同时显著加速推理,为实际部署提供了可行方案。
[149] TF-Lane: Traffic Flow Module for Robust Lane Perception
Yihan Xie,Han Xia,Zhen Yang
Main category: cs.CV
TL;DR: 提出TFM模块,利用实时交通流信息增强车道感知,解决视觉传感器在遮挡或车道缺失场景下的性能下降问题。
- Motivation: 现有基于视觉的车道检测方法在遮挡或车道缺失场景下性能显著下降,而使用高精地图作为补充信息存在订阅成本高和实时性有限的问题。
- Method: 提出TrafficFlow-aware Lane perception Module (TFM),有效提取实时交通流特征,并与现有车道感知算法无缝集成。
- Result: 在四个主流模型和两个公开数据集(Nuscenes和OpenLaneV2)上的实验表明,TFM能持续提升性能,在Nuscenes数据集上最高获得+4.1% mAP增益。
- Conclusion: TFM通过利用实时交通流信息,有效解决了视觉传感器在复杂场景下的局限性,为自动驾驶车道感知提供了经济高效的增强方案。
[150] DSFC-Net: A Dual-Encoder Spatial and Frequency Co-Awareness Network for Rural Road Extraction
Zhengbo Zhang,Yihe Tian,Wanke Xia,Lin Chen,Yue Sun,Kun Ding,Ying Wang,Bing Xu,Shiming Xiang
Main category: cs.CV
TL;DR: 提出DSFC-Net,一种融合空间和频域信息的双编码器框架,用于从高分辨率遥感影像中准确提取乡村道路,解决乡村道路特有的高类内变异、植被遮挡和狭窄宽度等挑战。
- Motivation: 乡村道路提取面临独特挑战:道路表面材料多样导致类内变异高、类间可分性低;植被遮挡频繁破坏空间连续性;道路狭窄加剧检测难度。现有方法主要针对结构化城市环境优化,忽视了这些乡村特征,导致性能不佳。
- Method: 提出DSFC-Net双编码器框架:1)CNN分支捕获细粒度局部道路边界和短程连续性;2)新颖的空间-频率混合变换器(SFT)通过交叉频率交互注意力(CFIA)模块,使用拉普拉斯金字塔策略显式解耦高、低频信息,动态交互空间细节和频率感知全局上下文;3)通道特征融合模块(CFFM)自适应重新校准通道特征响应,无缝集成局部纹理和全局语义。
- Result: 在WHU-RuR+、DeepGlobe和Massachusetts数据集上的综合实验验证了DSFC-Net相对于最先进方法的优越性。
- Conclusion: DSFC-Net通过协同融合空间和频域信息,有效解决了乡村道路提取的独特挑战,特别是在保持狭窄道路连通性方面表现出色,为乡村基础设施规划和可持续发展提供了有效工具。
[151] Who Transfers Safety? Identifying and Targeting Cross-Lingual Shared Safety Neurons
Xianhui Zhang,Chengyu Xie,Linxia Zhu,Yonghui Yang,Weixiang Zhao,Zifeng Cheng,Cong Wang,Fei Shen,Tat-Seng Chua
Main category: cs.CV
TL;DR: 研究发现大语言模型中存在跨语言共享安全神经元(SS-Neurons),这些少量关键神经元共同调节多语言安全行为,可作为从高资源语言向低资源语言传递安全能力的桥梁。
- Motivation: 多语言安全存在显著不平衡,非高资源语言的安全防护相对薄弱,且神经机制不明确,需要理解跨语言安全对齐的底层机制。
- Method: 首先识别单语安全神经元(MS-Neurons)并验证其因果作用,然后识别跨语言共享安全神经元(SS-Neurons),最后提出基于语言资源分布和模型架构的神经元导向训练策略。
- Result: 抑制SS-Neurons会导致非高资源语言安全性能下降,增强它们能提高跨语言防御一致性;微调这一小部分神经元子集优于现有方法,显著提升非高资源语言安全性同时保持模型通用能力。
- Conclusion: SS-Neurons是跨语言安全调节的关键机制,针对这些神经元的定向训练能有效解决多语言安全不平衡问题,为安全对齐提供新的神经机制视角。
[152] Interacted Planes Reveal 3D Line Mapping
Zeran Ke,Bin Tan,Gui-Song Xia,Yujun Shen,Nan Xue
Main category: cs.CV
TL;DR: LiP-Map:一种线-平面联合优化框架,通过显式建模可学习的线和平面基元,实现准确详细的3D线映射,在多个数据集上超越现有方法。
- Motivation: 从物理和拓扑角度研究3D线映射问题:3D线最自然地作为有限3D平面块的边缘出现。现有方法缺乏对线-平面拓扑关系的显式建模。
- Method: 提出LiP-Map框架,显式建模可学习的线和平面基元,通过构建平面和线基元之间的相互作用来整合平面拓扑,而不是施加成对共面约束。
- Result: 在ScanNetV2、ScanNet++、Hypersim、7Scenes和Tanks&Temple等100多个场景上,LiP-Map在准确性和完整性方面均优于现有方法,同时保持高效率(每场景3-5分钟)。在线辅助视觉定位方面也取得显著进展。
- Conclusion: LiP-Map开创性地将平面拓扑整合到3D线映射中,为人造环境中的结构化重建提供了原则性途径,在多个基准测试中表现出优越性能。
[153] Interaction-Consistent Object Removal via MLLM-Based Reasoning
Ching-Kai Huang,Wen-Chieh Lin,Yan-Cen Lee
Main category: cs.CV
TL;DR: 论文提出交互一致的对象移除(ICOR)问题,要求移除目标对象及其相关交互元素,并提出REORM框架利用多模态大语言模型推理需要联合移除的元素,在ICOREval基准上优于现有图像编辑系统。
- Motivation: 当前基于图像的对象移除方法通常只移除指定目标,但忽略了与之相关的交互证据(如光照效果、物理连接对象、目标产生的元素等),导致结果在语义上不一致。
- Method: 提出REORM框架,采用模块化设计:1) MLLM驱动的分析模块推断需要联合移除的元素;2) 掩码引导的移除模块;3) 自校正机制;4) 支持有限资源的本地部署变体。
- Result: 在ICOREval基准测试中,REORM优于最先进的图像编辑系统,能够有效产生交互一致的结果。
- Conclusion: 论文形式化了交互一致的对象移除问题,提出的REORM框架通过多模态大语言模型的推理能力,能够有效识别并移除目标对象及其相关交互元素,解决了传统方法语义不一致的问题。
[154] ReDiStory: Region-Disentangled Diffusion for Consistent Visual Story Generation
Ayushman Sarkar,Zhenyu Yu,Chu Chen,Wei Tang,Kangning Cui,Mohd Yamani Idna Idris
Main category: cs.CV
TL;DR: ReDiStory:无需训练的推理时提示嵌入重组框架,通过解耦身份和帧特定组件来提升多帧故事生成的身份一致性
- Motivation: 现有无训练方法将身份和帧提示拼接为统一表示,在复杂故事中容易引入帧间语义干扰,削弱身份保持能力
- Method: 将文本嵌入显式分解为身份相关和帧特定组件,通过抑制跨帧共享方向来解相关帧嵌入,无需修改扩散参数或额外监督
- Result: 在相同扩散骨干和推理设置下,ReDiStory在ConsiStory+基准测试中相比1Prompt1Story在多个身份一致性指标上获得一致提升
- Conclusion: 通过推理时提示嵌入重组,ReDiStory有效减少跨帧干扰,在保持提示保真度的同时提高身份一致性,为多帧故事生成提供有效解决方案
[155] StoryState: Agent-Based State Control for Consistent and Editable Storybooks
Ayushman Sarkar,Zhenyu Yu,Wei Tang,Chu Chen,Kangning Cui,Mohd Yamani Idna Idris
Main category: cs.CV
TL;DR: StoryState是一个基于代理的编排层,在免训练的文生图模型之上引入显式可编辑的故事状态,通过结构化表示和LLM代理实现细粒度编辑和跨页一致性。
- Motivation: 当前多模态模型支持一键生成故事书,但故事状态(角色、世界设定、页面对象)是隐式的,导致编辑粒度粗糙且容易破坏视觉一致性。
- Method: 将故事表示为结构化对象(角色表、全局设置、页面场景约束),使用少量LLM代理维护状态并生成1Prompt1Story风格的提示词,纯提示词驱动,模型无关。
- Result: 在多页编辑任务中,StoryState支持局部页面编辑,提高跨页一致性,减少意外更改、交互轮次和编辑时间,接近Gemini Storybook的一次性一致性。
- Conclusion: StoryState通过显式故事状态和代理编排,实现了细粒度、一致的故事书编辑,为多模态故事生成提供了更可控的框架。
[156] DeCorStory: Gram-Schmidt Prompt Embedding Decorrelation for Consistent Storytelling
Ayushman Sarkar,Zhenyu Yu,Mohd Yamani Idna Idris
Main category: cs.CV
TL;DR: DeCorStory是一个无需训练、推理时使用的框架,通过Gram-Schmidt提示嵌入去相关、奇异值重加权和身份保持交叉注意力来减少文本到图像故事生成中的帧间语义干扰,提升提示-图像对齐、身份一致性和视觉多样性。
- Motivation: 现有无需训练的方法(如One-Prompt-One-Story)将所有提示串联成单一序列,导致强嵌入相关性,引起颜色泄漏、背景混合和身份漂移等问题,需要解决跨帧的视觉和语义一致性挑战。
- Method: 1) Gram-Schmidt提示嵌入去相关:正交化帧级语义;2) 奇异值重加权:增强提示特定信息;3) 身份保持交叉注意力:在扩散过程中稳定角色身份。无需模型修改或微调,可无缝集成到现有扩散流程中。
- Result: 实验表明在提示-图像对齐、身份一致性和视觉多样性方面取得一致改进,在无需训练的基线方法中达到最先进的性能。
- Conclusion: DeCorStory通过显式减少帧间语义干扰,有效解决了文本到图像故事生成中的视觉和语义一致性问题,是一种高效且无需训练的推理时框架。
[157] FlowCast: Trajectory Forecasting for Scalable Zero-Cost Speculative Flow Matching
Divya Jyoti Bajpai,Shubham Agarwal,Apoorv Saxena,Kuldeep Kulkarni,Subrata Mitra,Manjesh Kumar Hanawal
Main category: cs.CV
TL;DR: FlowCast:一种无需训练、基于推测生成的Flow Matching加速框架,通过利用FM模型的恒定速度特性,在稳定区域跳过冗余步骤,实现2.5倍以上的加速而保持质量不变。
- Motivation: Flow Matching(FM)模型虽然能生成高质量视觉内容,但由于需要大量去噪步骤导致推理速度过慢,限制了其在实时或交互应用中的使用。现有加速方法(如蒸馏、截断或一致性训练)要么会降低质量,要么需要昂贵的重新训练,要么缺乏泛化能力。
- Method: FlowCast是一种无需训练的推测生成框架,利用FM模型训练时保持恒定速度的特性。通过外推当前速度来推测未来速度(不增加时间成本),如果均方误差在阈值内则接受该推测。这种恒定速度预测允许在稳定区域激进地跳过冗余步骤,同时在复杂区域保持精度。该框架是即插即用的,无需辅助网络。
- Result: FlowCast在图像生成、视频生成和编辑任务中实现了超过2.5倍的加速,优于现有基线方法,且与标准完整生成相比没有质量损失。论文还提供了理论分析,界定了推测轨迹与完整FM轨迹之间的最坏情况偏差。
- Conclusion: FlowCast是一种有效的训练免费加速框架,通过利用FM模型的恒定速度特性进行推测生成,在保持生成质量的同时显著提升推理速度,为FM模型在实时应用中的部署提供了实用解决方案。
[158] What Does Vision Tool-Use Reinforcement Learning Really Learn? Disentangling Tool-Induced and Intrinsic Effects for Crop-and-Zoom
Yan Ma,Weiyu Zhang,Tianle Li,Linge Du,Xuyang Shen,Pengfei Liu
Main category: cs.CV
TL;DR: 论文提出了MED框架,用于分析视觉工具使用强化学习中性能提升的来源,发现当前方法主要是学习与工具安全共存而非真正掌握工具使用
- Motivation: 视觉工具使用强化学习虽然能带来性能提升,但尚不清楚这些提升是源于工具使用的改进还是模型内在能力的演化。需要区分这两种因素来理解当前方法的实际效果
- Method: 提出MED框架:1) 测量-解释-诊断的粗到细分析;2) 分离内在能力变化与工具诱导效应;3) 将工具诱导的性能差异分解为增益和损害项;4) 探究驱动其演化的机制
- Result: 在两个具有不同工具先验的VLM和六个基准测试中,发现性能提升主要由内在学习主导,工具使用RL主要减少工具诱导的损害(如调用错误和工具模式干扰),在基于工具纠正内在失败方面进展有限
- Conclusion: 当前视觉工具使用强化学习主要是学习与工具安全共存而非真正掌握工具使用,工具更多是减少错误而非主动提升能力
[159] Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning
Yu Xu,Yuxin Zhang,Juan Cao,Lin Gao,Chunyu Wang,Oliver Deussen,Tong-Yee Lee,Fan Tang
Main category: cs.CV
TL;DR: 提出视觉隐喻迁移任务,通过多智能体框架实现跨域抽象逻辑的创造性转移,显著优于现有方法。
- Motivation: 现有生成AI模型局限于像素级指令对齐和表面外观保持,无法捕捉视觉隐喻所需的抽象逻辑,需要解决跨域语义融合的创造性任务。
- Method: 提出认知启发的多智能体框架,基于概念融合理论,使用模式语法解耦关系不变性,通过感知、迁移、生成和诊断四个智能体协作实现视觉隐喻迁移。
- Result: 在隐喻一致性、类比恰当性和视觉创造性方面显著优于最先进的基线方法,为广告和媒体中的自动化高影响力创意应用铺平道路。
- Conclusion: 该方法成功实现了视觉隐喻的抽象逻辑迁移,为生成AI的创造性应用开辟了新方向,源代码将公开。
[160] MTC-VAE: Multi-Level Temporal Compression with Content Awareness
Yubo Dong,Linchao Zhu
Main category: cs.CV
TL;DR: 提出一种将固定压缩率VAE转换为支持多级时间压缩模型的方法,通过最小微调解决高压缩率下的性能下降问题,并与扩散模型兼容。
- Motivation: 现有LVDM依赖VAE压缩视频,但连续VAE在提高压缩率时,增加采样层而不扩展隐藏通道维度会导致效率显著下降,需要解决高压缩率下的性能问题。
- Method: 提出一种技术将固定压缩率VAE转换为支持多级时间压缩的模型,采用简单且最小化的微调方法,并研究不同压缩级别对不同特征视频片段的影响,同时探索与DiT扩散生成模型的集成。
- Result: 提供了多级时间压缩VAE有效性的实证证据,展示了与扩散模型框架的成功并发训练和兼容性,证明了该方法的实用潜力。
- Conclusion: 该方法能够有效解决高压缩率下的性能下降问题,展示了多级时间压缩在视频生成领域的应用潜力,为视频压缩和生成提供了更灵活的解决方案。
[161] Adaptive Visual Autoregressive Acceleration via Dual-Linkage Entropy Analysis
Yu Zhang,Jingyi Liu,Feng Liu,Duoqian Miao,Qi Zhang,Kexue Fu,Changwei Wang,Longbing Cao
Main category: cs.CV
TL;DR: NOVA是一个基于熵分析的无训练token缩减加速框架,用于视觉自回归模型,通过自适应确定加速激活尺度并动态计算各尺度和层的token缩减比例来加速推理。
- Motivation: 现有VAR token缩减方法存在三个关键限制:启发式阶段划分、非自适应调度和有限加速范围,未能充分利用加速潜力。熵变化能反映预测不确定性的转变,为捕捉建模动态演化提供了原则性度量。
- Method: 通过在线识别尺度熵增长的拐点来自适应确定推理中的加速激活尺度;通过尺度链接和层链接比例调整,动态计算每个尺度和层的不同token缩减比例;剪枝低熵token并重用先前尺度残差的缓存来加速推理并保持生成质量。
- Result: 广泛的实验和分析验证了NOVA作为一个简单而有效的无训练加速框架的有效性。
- Conclusion: NOVA通过熵分析实现了VAR模型的自适应token缩减加速,解决了现有方法的局限性,在保持生成质量的同时显著加速推理过程。
[162] T2M Mamba: Motion Periodicity-Saliency Coupling Approach for Stable Text-Driven Motion Generation
Xingzu Zhan,Chen Xie,Honghang Chen,Yixun Lin,Xiaochun Mai
Main category: cs.CV
TL;DR: 提出T2M Mamba模型,通过周期性-显著性感知Mamba和周期性差分跨模态对齐模块,解决文本到动作生成中的长期序列漂移和语义等价重述脆弱性问题。
- Motivation: 现有文本到动作生成模型存在两个核心局限:1) 将动作周期性和关键帧显著性视为独立因素,忽略其耦合关系,导致长序列生成漂移;2) 对语义等价重述脆弱,微小同义词替换会扭曲文本嵌入,传播到解码器产生不稳定或错误动作。
- Method: 1) 提出周期性-显著性感知Mamba,通过增强密度峰值聚类进行关键帧权重估计,通过FFT加速自相关进行动作周期性估计,以最小计算开销捕获耦合动态;2) 构建周期性差分跨模态对齐模块(PDCAM),增强文本和动作嵌入的鲁棒对齐。
- Result: 在HumanML3D和KIT-ML数据集上的广泛实验证实了方法的有效性,实现了0.068的FID分数,并在所有其他指标上获得一致提升。
- Conclusion: T2M Mamba通过同时建模动作周期性和关键帧显著性,并增强跨模态对齐的鲁棒性,有效解决了文本到动作生成中的长期序列漂移和语义等价重述脆弱性问题。
[163] Exposing and Defending the Achilles' Heel of Video Mixture-of-Experts
Songping Wang,Qinglong Liu,Yueming Lyu,Ning Li,Ziwen He,Caifeng Shan
Main category: cs.CV
TL;DR: 提出TLGA框架研究视频MoE模型的组件级脆弱性,包括针对路由器的独立攻击和针对路由器与专家的联合攻击,并开发J-TLAT防御方法增强鲁棒性
- Motivation: 当前MoE在视频理解任务中表现优异,但其对抗鲁棒性研究不足。现有攻击方法将MoE视为统一架构,忽视了路由器和专家模块的独立与协同脆弱性
- Method: 提出Temporal Lipschitz-Guided Attacks (TLGA):1) 设计针对路由器的独立攻击;2) 提出Joint Temporal Lipschitz-Guided Attacks (J-TLGA)协同扰动路由器和专家;3) 开发Joint Temporal Lipschitz Adversarial Training (J-TLAT)进行联合训练防御
- Result: TLGA揭示了MoE组件的独立脆弱性,J-TLGA显著增强了对抗效果并暴露了MoE架构的协同脆弱性,J-TLAT有效提升了组件级鲁棒性,框架可即插即用且推理成本比密集模型降低60%以上
- Conclusion: 该研究填补了MoE对抗鲁棒性研究的空白,通过组件级攻击与防御框架,有效缓解了MoE的独立和协同脆弱性,在多种数据集和架构上一致提升了对抗鲁棒性
[164] PolyGen: Fully Synthetic Vision-Language Training via Multi-Generator Ensembles
Leonardo Brusini,Cristian Sbrolli,Eugenio Lomurno,Toshihiko Yamasaki,Matteo Matteucci
Main category: cs.CV
TL;DR: PolyGen框架通过多源生成器合成数据,强调结构多样性而非单纯扩大数据量,在多项基准测试中显著优于单源方法
- Motivation: 当前合成数据方法通常依赖单一生成器扩展,这会引入特定频谱偏差并限制特征多样性。需要一种更注重流形覆盖和组合严谨性的方法
- Method: 采用多源生成器训练,消除模型特定伪影;引入程序化硬负样本课程,增强细粒度语法理解;重新分配数据预算到多源变体而非唯一标题
- Result: 在聚合多任务基准测试中比领先的单源基线(SynthCLIP)提升19.0%;在SugarCrepe++组合性基准测试中提升9.1%
- Conclusion: 结构多样性比单纯增加单源样本数量是更高效的数据扩展法则,多源合成数据方法能构建更鲁棒的特征空间
[165] PromptRL: Prompt Matters in RL for Flow-Based Image Generation
Fu-Yun Wang,Han Zhang,Michael Gharbi,Hongsheng Li,Taesung Park
Main category: cs.CV
TL;DR: PromptRL框架通过将语言模型作为可训练提示优化代理集成到流匹配模型的强化学习循环中,解决了现有RL方法在文本到图像生成中的样本效率低和提示过拟合问题,实现了最先进的性能。
- Motivation: 当前流匹配模型的强化学习管道存在两个被低估但重要的限制:1)由于生成多样性不足导致的样本效率低下;2)明显的提示过拟合问题,模型会记忆特定的训练表述,当评估语义等效但风格变化的提示时会出现性能崩溃。
- Method: 提出PromptRL框架,将语言模型作为可训练的提示优化代理直接集成到流匹配模型的强化学习优化循环中。这种设计产生两个互补的好处:快速开发复杂的提示重写能力,以及关键的协同训练机制,重塑优化动态。
- Result: 在多个基准测试中达到最先进性能:GenEval得分0.97,OCR准确率0.98,PickScore得分24.05。在大规模图像编辑模型上验证有效性,将FLUX.1-Kontext的EditReward从1.19提升到1.43,仅需0.06百万次rollout,超越了Gemini 2.5 Flash Image(1.37),与需要细粒度数据标注和复杂多阶段训练的ReasonNet(1.44)性能相当。相比朴素流匹配RL,PromptRL在实现更高性能上限的同时,所需rollout次数减少2倍以上。
- Conclusion: PromptRL通过将语言模型集成到流匹配模型的强化学习循环中,有效解决了现有RL方法的样本效率低和提示过拟合问题,在文本到图像生成和图像编辑任务中均实现了显著的性能提升和效率改进。
[166] Stronger Semantic Encoders Can Harm Relighting Performance: Probing Visual Priors via Augmented Latent Intrinsics
Xiaoyan Xing,Xiao Zhang,Sezer Karaoglu,Theo Gevers,Anand Bhattad
Main category: cs.CV
TL;DR: ALI通过融合像素对齐的视觉特征与潜在内在表示,在语义抽象与光度保真度之间取得平衡,显著提升图像重照明效果,尤其在复杂材质上表现突出。
- Motivation: 现有基于潜在内在表示的图像重照明方法在处理金属、玻璃等挑战性材质时效果不佳,而高性能语义编码器的特征反而会降低重照明质量,这揭示了语义抽象与光度保真度之间的根本权衡。
- Method: 提出增强潜在内在表示(ALI),通过将像素对齐视觉编码器的特征融合到潜在内在框架中,平衡语义上下文和密集光度结构,并采用自监督细化策略缓解真实世界配对数据稀缺问题。
- Result: ALI在重照明任务上取得显著改进,在复杂、镜面反射材质上提升最大,仅使用未标记的真实世界图像对进行训练。
- Conclusion: 通过平衡语义抽象与光度保真度的权衡,ALI框架有效解决了复杂材质重照明问题,为图像重照明提供了更鲁棒的解决方案。
[167] Where to Attend: A Principled Vision-Centric Position Encoding with Parabolas
Christoffer Koo Øhrstrøm,Rafael I. Cabral Muchacho,Yifei Dong,Filippos Moumtzidellis,Ronja Güldenring,Florian T. Pokorny,Lazaros Nalpantidis
Main category: cs.CV
TL;DR: 提出抛物线位置编码(PaPE),一种基于抛物线的位置编码方法,专门为视觉模态的注意力架构设计,在8个数据集上7个取得最佳性能
- Motivation: 现有位置编码方法主要从语言领域的1D序列扩展到视觉领域的nD结构,但未能充分考虑视觉模态的特性,需要设计更符合视觉特性的位置编码
- Method: 基于抛物线设计位置编码,整合了平移不变性、旋转不变性(PaPE-RI)、距离衰减、方向性和上下文感知等视觉特性原则
- Result: 在涵盖4种模态的8个数据集中,PaPE或PaPE-RI在7个数据集上达到最佳性能;在ImageNet-1K外推实验中,PaPE比次优位置编码绝对提升达10.5%
- Conclusion: PaPE是一种有效的视觉模态位置编码方法,能够充分考虑视觉特性,在多种视觉任务中表现出色,且具有良好的外推能力
[168] BioTamperNet: Affinity-Guided State-Space Model Detecting Tampered Biomedical Images
Soumyaroop Nandi,Prem Natarajan
Main category: cs.CV
TL;DR: BioTamperNet:基于亲和力引导注意力机制(受状态空间模型启发)的生物医学图像篡改检测框架,专门针对复制粘贴区域检测
- Motivation: 现有取证模型主要针对自然图像训练,在生物医学图像上表现不佳,而生物医学图像中的细微篡改可能损害实验有效性,需要专门针对生物医学图像的篡改检测方法
- Method: 提出亲和力引导自注意力模块捕捉图像内相似性,亲和力引导交叉注意力模块建模图像间对应关系,集成轻量级SSM启发线性注意力机制实现高效细粒度定位,端到端训练同时识别篡改区域及其源对应区域
- Result: 在基准生物取证数据集上的广泛实验表明,相比竞争基线方法在准确检测复制区域方面有显著改进
- Conclusion: BioTamperNet通过亲和力引导注意力机制有效解决了生物医学图像复制粘贴篡改检测问题,为生物医学图像取证提供了专门解决方案
[169] Cross-Paradigm Evaluation of Gaze-Based Semantic Object Identification for Intelligent Vehicles
Penghao Deng,Jidong J. Yang,Jiachen Bian
Main category: cs.CV
TL;DR: 该论文比较了三种视觉方法(直接目标检测、分割辅助分类、视觉语言模型)用于从驾驶场景中识别驾驶员注视点的语义对象,发现YOLOv13和Qwen2.5-VL-32b表现最佳,大型VLM在识别小物体和恶劣条件下更具鲁棒性。
- Motivation: 理解驾驶员在驾驶时的视觉注意力分布(通过注视行为表征)对于开发下一代高级驾驶辅助系统和提高道路安全至关重要。需要从车辆前视摄像头捕捉的道路场景中识别驾驶员注视点的语义对象。
- Method: 采用三种视觉方法:1) 直接目标检测(YOLOv13);2) 分割辅助分类(SAM2 + EfficientNetV2 vs YOLOv13);3) 基于查询的视觉语言模型(Qwen2.5-VL-7b vs Qwen2.5-VL-32b)。通过注视点与对象语义的共现关系进行研究。
- Result: 直接目标检测(YOLOv13)和Qwen2.5-VL-32b显著优于其他方法,Macro F1-Score超过0.84。大型VLM(Qwen2.5-VL-32b)在识别小物体(如交通信号灯)和恶劣夜间条件下表现出更强的鲁棒性和性能。分割辅助方法因"部分vs整体"语义差距导致召回率大幅下降。
- Conclusion: 研究揭示了传统检测器的实时效率与大型VLM提供的更丰富上下文理解和鲁棒性之间的基本权衡。这些发现为未来人类感知智能驾驶员监控系统的设计提供了关键见解和实践指导。
[170] Understanding vision transformer robustness through the lens of out-of-distribution detection
Joey Kuang,Alexander Wong
Main category: cs.CV
TL;DR: 该研究发现大规模预训练可能损害视觉Transformer的低比特量化鲁棒性,特别是在OOD检测任务中,而数据增强可能是更好的选择。
- Motivation: 视觉Transformer在视觉任务中表现出色,但使其适用于实时和资源受限场景仍具挑战。量化能降低内存和推理成本,但可能导致性能损失。现有研究主要关注in-distribution任务,而注意力机制可能通过探索out-of-distribution情况提供量化特性的新见解。
- Method: 研究量化的小型流行视觉Transformer(DeiT、DeiT3和ViT)在常见OOD数据集上的行为。分析包括ID任务性能和OOD检测性能,比较不同预训练规模(ImageNet-1k vs ImageNet-22k)对量化鲁棒性的影响。
- Result: ID分析显示4-bit模型初始不稳定,特别是ImageNet-22k预训练的模型。最强的FP32模型DeiT3在量化到4-bit后性能下降17%,成为最弱的4-bit模型之一。OOD检测揭示更显著差异:ImageNet-22k预训练的ViT和DeiT3在AUPR-out指标上分别经历15.0%和19.2%的平均量化下降,而ImageNet-1k预训练模型仅下降9.5%和12.0%。
- Conclusion: 大规模数据集预训练可能损害低比特量化的OOD检测鲁棒性,数据增强可能是更有利的选择。研究强调了在评估量化模型时考虑OOD性能的重要性。
[171] Preserving Localized Patch Semantics in VLMs
Parsa Esmaeilkhani,Longin Jan Latecki
Main category: cs.CV
TL;DR: 提出Logit Lens Loss (LLL)來解決視覺語言模型中Logit Lens可解釋性失效的問題,透過補充損失函數保持視覺token的局部視覺資訊,使其能產生有意義的物件置信度圖
- Motivation: Logit Lens原本可用於視覺語言模型來可視化圖像token的概念內容,但視覺內容經常擴散到語言token中,導致局部視覺資訊被破壞,使Logit Lens可視化無法用於可解釋性分析
- Method: 提出Logit Lens Loss (LLL)作為next-token prediction的補充損失,使視覺token嵌入與描述其圖像區域的文本概念更語義對齊,無需架構修改或大規模訓練,約束自注意力層中圖像和文本token的混合
- Result: LLL不僅使Logit Lens具有實際意義,能產生有意義的物件置信度圖,還提高了分割等視覺中心任務的性能,無需附加特殊頭部
- Conclusion: Logit Lens Loss能有效保持視覺token的局部視覺表示,增強視覺語言模型的可解釋性和視覺任務性能
[172] Rotation-free Online Handwritten Character Recognition Using Linear Recurrent Units
Zhe Ling,Sicheng Yu,Danyu Yang
Main category: cs.CV
TL;DR: 该论文提出了一种基于滑动窗口路径签名(SW-PS)和线性循环单元(LRU)的在线手写字符识别框架,能够有效处理旋转变形问题,在CASIA-OLHWDB1.1数据集上取得了优异的识别准确率。
- Motivation: 在线手写字符识别虽然比离线识别具有更高准确性和鲁棒性,但在实际应用中,旋转变形会破坏笔画的空间布局,显著降低识别准确率。提取旋转不变特征仍然是一个具有挑战性的开放问题。
- Method: 采用滑动窗口路径签名(SW-PS)捕捉字符的局部结构特征,并引入轻量级线性循环单元(LRU)作为分类器。LRU结合了循环神经网络的快速增量处理能力和状态空间模型的高效并行训练优势,同时可靠地建模动态笔画特征。
- Result: 在CASIA-OLHWDB1.1数据集的三个子集(数字、英文大写字母、中文部首)上进行了旋转角度达±180°的识别实验。集成学习后的准确率分别为99.62%、96.67%和94.33%。实验结果表明,提出的SW-PS+LRU框架在收敛速度和测试准确率上都优于竞争模型。
- Conclusion: 提出的SW-PS+LRU框架能够有效处理在线手写字符识别中的旋转变形问题,在多个字符类别上都取得了优异的识别性能,为解决旋转不变特征提取这一挑战性问题提供了有效方案。
[173] Making Avatars Interact: Towards Text-Driven Human-Object Interaction for Controllable Talking Avatars
Youliang Zhang,Zhengguang Zhou,Zhentao Yu,Ziyao Huang,Teng Hu,Sen Liang,Guozhen Zhang,Ziqiao Peng,Shunkai Li,Yi Chen,Zixiang Zhou,Yuan Zhou,Qinglin Lu,Xiu Li
Main category: cs.CV
TL;DR: InteractAvatar:双流框架,通过感知-规划与视频合成解耦,生成具有环境感知和文本对齐交互的说话虚拟人,解决接地人-物交互生成中的控制-质量困境。
- Motivation: 现有方法能生成简单人体运动的说话虚拟人,但扩展到接地人-物交互(GHOI)仍具挑战,需要虚拟人执行与环境物体的文本对齐交互,这需要环境感知并面临控制-质量困境。
- Method: 提出双流框架InteractAvatar:1)感知与交互模块(PIM)利用检测增强环境感知,生成文本对齐的交互动作;2)音频-交互感知生成模块(AIM)合成执行物体交互的生动说话虚拟人;3)通过专门设计的动作-视频对齐器,PIM和AIM共享相似网络结构,实现动作与视频的并行协同生成。
- Result: 建立了GHOI视频生成基准GroundedInter,大量实验和比较证明了该方法在生成说话虚拟人的接地人-物交互方面的有效性。
- Conclusion: InteractAvatar通过解耦感知规划和视频合成,有效解决了接地人-物交互生成中的控制-质量困境,能够生成具有环境感知和文本对齐交互的生动说话虚拟人。
[174] FSCA-Net: Feature-Separated Cross-Attention Network for Robust Multi-Dataset Training
Yuehai Chen
Main category: cs.CV
TL;DR: FSCA-Net通过特征分离和交叉注意力机制解决人群计数中的负迁移问题,提升跨数据集泛化能力
- Motivation: CNN和Transformer模型在跨环境人群计数中存在性能下降问题,直接联合训练会导致负迁移,因为共享特征和领域特定特征纠缠在一起
- Method: 提出FSCA-Net框架,将特征显式解耦为领域不变和领域特定组件,使用交叉注意力融合模块建模交互,引入互信息优化目标最大化领域不变特征一致性并最小化领域特定特征冗余
- Result: 在多个人群计数基准测试中,FSCA-Net有效缓解负迁移问题,实现最先进的跨数据集泛化性能
- Conclusion: FSCA-Net为现实世界人群分析提供了鲁棒且可扩展的解决方案,通过特征解耦和自适应融合机制显著提升跨领域泛化能力
[175] Toward Cognitive Supersensing in Multimodal Large Language Model
Boyi Li,Yifan Shen,Yuanzhe Liu,Yifan Xu,Jiateng Liu,Xinzhuo Li,Zhengyuan Li,Jingyuan Zhu,Yunhan Zhong,Fangzhou Lan,Jianguo Cao,James M. Rehg,Heng Ji,Ismini Lourentzou,Xu Cao
Main category: cs.CV
TL;DR: 本文提出Cognitive Supersensing训练范式,通过视觉意象预测头赋予MLLMs视觉推理能力,显著提升复杂认知问题解决能力
- Motivation: 当前MLLMs在开放词汇感知任务上表现优异,但在需要视觉记忆和抽象视觉细节的复杂认知问题上能力有限。现有方法主要在文本空间扩展思维链推理,忽视了类似人类视觉空间画板和视觉意象的视觉推理机制。
- Method: 提出Cognitive Supersensing训练范式:1) 引入潜在视觉意象预测(LVIP)头,联合学习视觉认知潜在嵌入序列并与答案对齐,形成基于视觉的内部推理链;2) 引入强化学习阶段,基于这些视觉潜在表示优化文本推理路径。同时提出CogSense-Bench基准评估五个认知维度。
- Result: 实验表明,采用Cognitive Supersensing训练的MLLMs在CogSense-Bench上显著优于最先进基线,并在跨域数学和科学VQA基准上表现出更好的泛化能力。
- Conclusion: 内部视觉意象可能是弥合感知识别与认知理解之间差距的关键。作者将开源CogSense-Bench基准和模型权重。
[176] Combined Flicker-banding and Moire Removal for Screen-Captured Images
Libo Zhu,Zihan Zhou,Zhiyi Zhou,Yiyang Qu,Weihang Zhang,Keyu Shi,Yifan Fu,Yulun Zhang
Main category: cs.CV
TL;DR: 提出CLEAR框架,首个系统研究屏幕截图图像中摩尔纹和闪烁带纹的联合去除方法,通过频率域分解重组模块和轨迹对齐损失提升复合伪影建模能力。
- Motivation: 移动设备拍摄显示屏图像常同时存在摩尔纹和闪烁带纹两种严重退化,现有单一退化处理方法无法应对这种复合场景,需要开发统一的恢复框架。
- Method: 1) 构建包含摩尔纹和闪烁带纹的大规模数据集;2) 引入基于ISP的闪烁模拟流程稳定训练并扩展退化分布;3) 设计频率域分解重组模块和轨迹对齐损失增强复合伪影建模。
- Result: 提出的CLEAR方法在多个评估指标上一致优于现有图像恢复方法,验证了其在复杂真实场景中的有效性。
- Conclusion: 该研究首次系统解决了屏幕截图图像中摩尔纹和闪烁带纹的联合去除问题,提出的CLEAR框架通过创新的频率域处理和轨迹对齐机制,在复合退化场景中表现出优越性能。
[177] Multimodal UNcommonsense: From Odd to Ordinary and Ordinary to Odd
Yejin Son,Saejin Kim,Dongjun Min,Younjae Yu
Main category: cs.CV
TL;DR: MUN是一个评估多模态模型处理非常规场景能力的基准,通过检索式上下文学习框架提升小模型在不典型场景下的推理性能。
- Motivation: 多模态环境中的常识推理仍然是AI的基础挑战,现有模型在处理偏离典型视觉或上下文期望的场景时表现不佳,需要专门的评估基准和方法来提升模型在非典型、文化多样场景中的鲁棒性和适应性。
- Method: 提出MUN基准,包含视觉场景与意外结果的自然语言描述配对;开发检索式上下文学习(R-ICL)框架,通过新型多模态集成检索器(MER)识别语义相关示例,将大模型推理能力迁移到小模型而无需额外训练。
- Result: 实验显示R-ICL方法比基线ICL方法平均提升8.3%,在多模态不协调的低频、非典型场景中表现出色,有效提升了模型处理非常规情况的能力。
- Conclusion: MUN基准为评估和改进视觉语言模型在现实世界、文化多样和非典型场景中的鲁棒性和适应性开辟了新方向,R-ICL框架为小模型在不常见场景下的推理提供了有效解决方案。
[178] One-Step Diffusion for Perceptual Image Compression
Yiwen Jia,Hao Wei,Yanhui Zhou,Chenyang Ge
Main category: cs.CV
TL;DR: 提出一种单步扩散图像压缩方法,显著提升推理速度,同时保持可比的压缩性能
- Motivation: 现有基于扩散的图像压缩方法虽然能在低码率下获得高感知质量,但需要大量去噪步骤导致推理延迟高、计算开销大,阻碍了实际部署
- Method: 提出仅需单步扩散过程的图像压缩方法,引入在紧凑特征表示上操作的判别器(而非原始像素),利用特征更好捕捉高级纹理和结构细节的特点来提升重建图像的感知质量
- Result: 实验结果表明,该方法在保持可比压缩性能的同时,相比最近基于扩散的方法实现了46倍的推理速度提升
- Conclusion: 提出的单步扩散图像压缩方法有效解决了扩散模型推理延迟问题,为实际部署提供了可行方案,代码和模型已开源
[179] SGHA-Attack: Semantic-Guided Hierarchical Alignment for Transferable Targeted Attacks on Vision-Language Models
Haobo Wang,Weiqi Luo,Xiaojun Jia,Xiaochun Cao
Main category: cs.CV
TL;DR: SGHA-Attack是一种针对大型视觉语言模型的语义引导分层对齐对抗攻击框架,通过多参考锚点和中间层对齐提升跨模型迁移性
- Motivation: 现有基于迁移的对抗攻击方法通常过度拟合代理模型的嵌入空间,依赖单一参考并强调最终层对齐,未能充分利用中间语义,导致在异构VLM间的迁移效果不佳
- Method: 提出语义引导分层对齐框架:1) 通过冻结的文生图模型采样生成视觉基础参考池,选择Top-K最相关锚点形成加权混合;2) 在特征层次中注入目标语义,在多个深度对齐中间视觉表示;3) 在共享潜在子空间中同步中间视觉和文本特征
- Result: 在开源和商业黑盒VLM上的广泛实验表明,SGHA-Attack比现有方法具有更强的目标迁移性,并且在预处理和净化防御下保持鲁棒性
- Conclusion: SGHA-Attack通过多参考锚点和分层对齐机制有效解决了现有对抗攻击的过拟合问题,显著提升了跨异构视觉语言模型的攻击迁移能力
[180] HandMCM: Multi-modal Point Cloud-based Correspondence State Space Model for 3D Hand Pose Estimation
Wencan Cheng,Gim Hee Lee
Main category: cs.CV
TL;DR: 提出HandMCM方法,基于状态空间模型(Mamba),通过局部信息注入/过滤和对应关系建模模块,有效学习关键点在不同遮挡场景下的动态运动拓扑,结合多模态图像特征提升3D手部姿态估计的准确性和鲁棒性。
- Motivation: 3D手部姿态估计对于增强现实等人机交互应用至关重要,但由于手部自遮挡和与物体交互导致的遮挡,这项任务面临重大挑战。现有方法在严重遮挡场景下表现不佳。
- Method: 提出HandMCM方法,基于状态空间模型(Mamba),包含局部信息注入/过滤模块和对应关系建模模块,能够有效学习关键点在不同遮挡场景下的动态运动拓扑。同时整合多模态图像特征来增强输入的鲁棒性和表征能力。
- Result: 在三个基准数据集上的实验评估表明,该方法显著优于当前最先进的方法,特别是在涉及严重遮挡的挑战性场景中表现突出。
- Conclusion: 该方法有潜力在实际应用中提高3D手部姿态估计的准确性和可靠性,特别是在遮挡场景下,展示了基于Mamba的对应关系建模方法的有效性。
[181] Know Your Step: Faster and Better Alignment for Flow Matching Models via Step-aware Advantages
Zhixiong Yue,Zixuan Ni,Feiyang Ye,Jinshan Zhang,Sheng Shen,Zhenpeng Mi
Main category: cs.CV
TL;DR: 提出TAFS-GRPO框架,通过温度退火采样和组相对策略优化,解决流匹配模型中少步文本到图像生成的对齐问题,实现高效且符合人类偏好的图像生成。
- Motivation: 现有基于强化学习的流匹配模型通常需要大量去噪步骤,且面临稀疏和不精确的奖励信号问题,导致人类偏好对齐效果不佳。
- Method: 提出TAFS-GRPO框架:1) 温度退火少步采样:在单步采样结果上迭代注入自适应时序噪声,在保持语义完整性的同时引入随机性;2) 步感知优势集成机制结合GRPO,避免奖励函数可微性要求,提供密集且步特定的奖励。
- Result: 实验表明TAFS-GRPO在少步文本到图像生成中表现优异,显著提高了生成图像与人类偏好的对齐程度。
- Conclusion: TAFS-GRPO有效解决了流匹配模型中少步生成的对齐问题,为高效且符合人类偏好的文本到图像生成提供了新框架。
[182] Samba+: General and Accurate Salient Object Detection via A More Unified Mamba-based Framework
Wenzhuo Zhao,Keren Fu,Jiahao He,Xiaohong Liu,Qijun Zhao,Guangtao Zhai
Main category: cs.CV
TL;DR: Samba和Samba+:基于Mamba的通用显著性检测框架,通过空间邻域扫描和上下文感知上采样提升性能,支持多模态和多任务统一处理
- Motivation: 现有显著性检测模型受限于CNN的有限感受野和Transformer的二次计算复杂度,需要一种既能获得全局感受野又计算高效的解决方案
- Method: 提出Samba(纯Mamba架构),包含显著性引导Mamba块(SGMB)和上下文感知上采样(CAU);进一步提出Samba+,通过多任务联合训练实现统一模型,包含中心辐射图注意力(HGA)和模态锚定持续学习(MACL)
- Result: Samba在6个SOD任务的22个数据集上超越现有方法且计算成本更低;Samba+使用单一训练模型在这些任务和数据集上获得更优结果
- Conclusion: Samba框架在显著性检测任务中展现出优异性能,通过Mamba架构平衡了全局感受野和计算效率,Samba+进一步实现了多模态多任务的统一处理
[183] UV-M3TL: A Unified and Versatile Multimodal Multi-Task Learning Framework for Assistive Driving Perception
Wenzhuo Liu,Qiannan Guo,Zhen Wang,Wenshuo Wang,Lei Yang,Yicheng Qiao,Lening Wang,Zhiwei Li,Chen Lv,Shanghang Zhang,Junqiang Xi,Huaping Liu
Main category: cs.CV
TL;DR: 提出UV-M3TL框架,通过双分支空间通道多模态嵌入和自适应特征解耦多任务损失,同时识别驾驶员行为、情绪、车辆行为和交通上下文,缓解任务间负迁移问题。
- Motivation: 高级驾驶辅助系统需要同时理解驾驶员行为和感知导航环境,但联合学习这些异构任务会导致任务间负迁移,损害系统性能。
- Method: 提出统一多功能多模态多任务学习框架,包含两个核心组件:1) 双分支空间通道多模态嵌入,通过双分支结构显式建模任务共享和任务特定特征;2) 自适应特征解耦多任务损失,基于学习动态和特征解耦约束引入自适应加权机制。
- Result: 在AIDE数据集上实现四个任务的SOTA性能;在BDD100K、CityScapes、NYUD-v2和PASCAL-Context等公共多任务感知基准上持续表现优异,在大多数任务上达到SOTA结果。
- Conclusion: UV-M3TL框架能有效缓解多任务学习中的负迁移问题,在驾驶员行为理解和环境感知任务上表现出色,具有很好的通用性和扩展性。
[184] Token Pruning for In-Context Generation in Diffusion Transformers
Junqing Lin,Xingyu Zheng,Pei Cheng,Bin Fu,Jingwei Sun,Guangzhong Sun
Main category: cs.CV
TL;DR: ToPi是一个针对DiT中上下文生成任务的训练免费令牌剪枝框架,通过离线校准驱动的敏感性分析识别关键注意力层,使用新颖的影响力指标量化上下文令牌贡献,实现超过30%的推理加速同时保持图像质量。
- Motivation: 在上下文生成中,输入拼接导致序列长度大幅增加,造成显著计算瓶颈。现有的令牌减少技术主要针对文本到图像合成,采用统一减少策略,忽略了参考上下文和目标潜在变量在空间、时间和功能维度上的角色不对称性。
- Method: ToPi使用离线校准驱动的敏感性分析识别关键注意力层作为冗余估计的代理,基于这些层推导出新颖的影响力指标来量化每个上下文令牌的贡献,结合适应扩散轨迹演化的时间更新策略进行选择性剪枝。
- Result: 经验评估表明,ToPi可以在复杂图像生成任务中实现超过30%的推理加速,同时保持结构保真度和视觉一致性。
- Conclusion: ToPi为DiT中的上下文生成提供了一个有效的训练免费令牌剪枝框架,解决了现有方法在角色不对称性方面的不足,显著提升了计算效率。
[185] Omni-Judge: Can Omni-LLMs Serve as Human-Aligned Judges for Text-Conditioned Audio-Video Generation?
Susan Liang,Chao Huang,Filippos Bellos,Yolo Yunlong Tang,Qianxiang Shen,Jing Bi,Luchuan Song,Zeliang Zhang,Jason Corso,Chenliang Xu
Main category: cs.CV
TL;DR: Omni-Judge研究评估全模态大语言模型能否作为文本条件音频-视频生成的人类对齐评判者,在语义对齐任务上表现优异,但在高帧率感知指标上受限。
- Motivation: 当前文本到视频生成模型(如Sora 2和Veo 3)能够从文本提示直接生成带同步音频的高保真视频,但评估这种三模态输出仍是一个未解决的挑战。人工评估可靠但成本高且难以扩展,传统自动指标(如FVD、CLAP、ViCLIP)专注于孤立模态对,难以处理复杂提示且可解释性有限。
- Method: 引入Omni-Judge研究,评估全模态大语言模型(omni-LLMs)作为文本条件音频-视频生成评判者的能力。全模态大语言模型天然处理音频、视频和文本,支持丰富推理,并提供可解释的思维链反馈。研究在九个感知和对齐指标上进行评估。
- Result: Omni-Judge在相关性方面与传统指标相当,在语义要求高的任务(如音频-文本对齐、视频-文本对齐和音频-视频-文本一致性)上表现优异。但在高帧率感知指标(包括视频质量和音频-视频同步)上表现不佳,这归因于有限的时间分辨率。
- Conclusion: 全模态大语言模型作为多模态生成的统一评估器具有潜力,但目前存在局限性。Omni-Judge提供可解释的解释,能够暴露语义或物理不一致性,支持基于反馈的细化等实际下游应用。
[186] PISCES: Annotation-free Text-to-Video Post-Training via Optimal Transport-Aligned Rewards
Minh-Quan Le,Gaurav Mittal,Cheng Zhao,David Gu,Dimitris Samaras,Mei Chen
Main category: cs.CV
TL;DR: PISCES提出了一种基于双重最优传输对齐奖励的无标注后训练方法,用于提升文本到视频生成的质量和语义对齐,无需人工偏好标注即可超越现有方法。
- Motivation: 现有基于奖励的后训练方法要么依赖大规模人工偏好标注(成本高、可扩展性差),要么使用预训练视觉语言模型中的未对齐嵌入(监督效果不佳),需要一种无需标注但能提供高质量奖励信号的方法。
- Method: 提出双重最优传输对齐奖励模块:1)分布级OT对齐质量奖励:捕捉整体视觉质量和时间一致性;2)离散令牌级OT对齐语义奖励:强制文本和视频令牌之间的语义时空对应关系。该方法兼容直接反向传播和强化学习微调等多种优化范式。
- Result: 在短视频和长视频生成任务上,PISCES在VBench评估中在质量和语义得分上均优于基于标注和无标注的方法,人类偏好研究进一步验证了其有效性。
- Conclusion: PISCES首次通过最优传输视角改进了生成后训练中的无标注奖励监督,提供了一种可扩展且有效的文本到视频生成质量提升方案。
[187] Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks
Bohan Zeng,Kaixin Zhu,Daili Hua,Bozhou Li,Chengzhuo Tong,Yuran Wang,Xinyi Huang,Yifan Dai,Zixiang Zhang,Yifan Yang,Zhou Liu,Hao Liang,Xiaochen Ma,Ruichuan An,Tianyi Bai,Hongcheng Gao,Junbo Niu,Yang Shi,Xinlong Chen,Yue Ding,Minglei Shi,Kai Zeng,Yiwen Tang,Yuanxing Zhang,Pengfei Wan,Xintao Wang,Wentao Zhang
Main category: cs.CV
TL;DR: 论文分析了当前世界模型研究的碎片化问题,提出了统一的设计规范,强调世界模型应整合交互、感知、符号推理和空间表示,为未来研究提供结构化指导。
- Motivation: 当前世界模型研究呈现碎片化状态,主要集中在将世界知识注入到孤立任务中(如视觉预测、3D估计、符号基础),缺乏统一的定义和框架。这种任务特定的集成虽然能带来性能提升,但缺乏系统性连贯性,无法实现整体的世界理解。
- Method: 分析现有碎片化方法的局限性,提出统一的世界模型设计规范。建议稳健的世界模型不应是松散的能力集合,而应是一个规范性框架,整合性地包含交互、感知、符号推理和空间表示。
- Result: 提出了一个统一的世界模型设计规范,强调世界模型需要系统性整合多个关键能力,为未来研究提供了结构化视角。
- Conclusion: 世界模型研究需要从碎片化任务集成转向统一的规范性框架,整合交互、感知、符号推理和空间表示,以构建更通用、稳健和原则性的世界模型。
[188] Federated Vision Transformer with Adaptive Focal Loss for Medical Image Classification
Xinyuan Zhao,Yihang Wu,Ahmad Chaddad,Tareef Daqqaq,Reem Kateb
Main category: cs.CV
TL;DR: 提出一个联邦学习框架,结合动态自适应焦点损失和客户端感知聚合策略,解决医学图像分类中的数据异质性和类别不平衡问题。
- Motivation: 深度学习模型需要大量数据,但医学图像受隐私法规限制难以获取。联邦学习虽然能保护隐私,但面临客户端数据异质性和类别不平衡的挑战,影响模型泛化能力。
- Method: 1) 动态自适应焦点损失(DAFL):基于每个客户端的样本分布和类别数据分布动态调整类别不平衡系数;2) 客户端感知加权聚合策略:根据数据规模和特征自适应调整权重。
- Result: 在ISIC、Ocular Disease和RSNA-ICH三个公开数据集上,相比DenseNet121、ResNet50、ViT-S/16、ViT-L/32、FedCLIP、Swin Transformer、CoAtNet和MixNet等模型,准确率提升0.98%到41.69%。
- Conclusion: 提出的联邦学习框架能有效处理医学图像分类中的异质性和不平衡问题,动态损失函数和客户端感知聚合策略显著提升模型性能。
[189] ReCALL: Recalibrating Capability Degradation for MLLM-based Composed Image Retrieval
Tianyu Yang,ChenWei He,Xiangzhao Hao,Tianyue Wang,Jiarui Guo,Haiyun Guo,Leigang Qu,Jinqiao Wang,Tat-Seng Chua
Main category: cs.CV
TL;DR: ReCALL框架解决生成式多模态大语言模型适配为检索器时的能力退化问题,通过诊断-生成-精炼流程,在CIR任务上实现SOTA性能。
- Motivation: 将生成式多模态大语言模型(MLLMs)适配为单嵌入判别式检索器时,会出现范式冲突,导致原生细粒度推理能力退化,影响组合图像检索(CIR)性能。
- Method: 提出ReCALL框架:1)通过自引导信息实例挖掘诊断检索器的认知盲点;2)使用CoT提示基础MLLM生成校正指令和三元组,并通过VQA一致性过滤进行质量控制;3)采用分组对比方案在生成的三元组上进行持续训练,内化细粒度视觉语义区分。
- Result: 在CIRR和FashionIQ数据集上的广泛实验表明,ReCALL能持续校准退化能力,并实现最先进的性能。
- Conclusion: ReCALL框架有效解决了生成式MLLMs适配为检索器时的能力退化问题,通过诊断-生成-精炼流程成功将判别式嵌入空间与MLLM内在组合推理能力对齐。
[190] Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning
Yinchao Ma,Qiang Zhou,Zhibin Wang,Xianing Chen,Hanqing Yang,Jun Song,Bo Zheng
Main category: cs.CV
TL;DR: CaCoVID是一种基于贡献感知的视频令牌压缩算法,通过强化学习优化令牌选择策略,显著减少视频大语言模型的推理计算开销。
- Motivation: 视频大语言模型在视频理解任务中表现出色,但视频令牌的冗余性导致推理时计算开销巨大,限制了实际部署。现有压缩算法基于注意力分数保留特征,但注意力分数与对正确答案的实际贡献之间的关系不明确。
- Method: 提出贡献感知令牌压缩算法CaCoVID:1)采用强化学习框架优化策略网络,选择对正确预测贡献最大的视频令牌组合;2)提出在线组合空间采样的组合策略优化算法,大幅减少探索空间并加速收敛。
- Result: 在多个视频理解基准测试上的广泛实验证明了CaCoVID的有效性。
- Conclusion: CaCoVID通过显式优化令牌选择策略,将重点从被动令牌保留转向主动发现最优压缩令牌组合,解决了现有压缩方法的局限性。
[191] From Frames to Sequences: Temporally Consistent Human-Centric Dense Prediction
Xingyu Miao,Junting Dong,Qin Zhao,Yuhang Yang,Junhao Chen,Yang Long
Main category: cs.CV
TL;DR: 提出一个用于视频中人中心密集预测的合成数据流水线和统一ViT模型,通过两阶段训练实现时空一致性,在多个基准上达到SOTA性能。
- Motivation: 现有模型在单帧精度上表现良好,但在运动、遮挡和光照变化下容易出现闪烁问题,且缺乏针对多个密集任务的配对人类视频监督数据。
- Method: 1) 构建可扩展的合成数据流水线,生成逼真的人类帧和运动对齐序列,提供像素级精确的深度、法线和掩码标签;2) 训练统一的ViT密集预测器,通过CSE嵌入注入显式人类几何先验,使用轻量级通道重加权模块提升几何特征可靠性;3) 采用两阶段训练策略:静态预训练+动态序列监督。
- Result: 在THuman2.1和Hi4D基准上达到最先进性能,并能有效泛化到真实世界视频中。
- Conclusion: 提出的合成数据流水线和统一模型框架能够有效解决视频中人中心密集预测的时空一致性问题,为相关任务提供了可扩展的解决方案。
[192] Moonworks Lunara Aesthetic II: An Image Variation Dataset
Yan Wang,Partho Hassan,Samiha Sadeka,Nada Soliman,M M Sayeef Abdullah,Sabit Hassan
Main category: cs.CV
TL;DR: Lunara Aesthetic II是一个公开的图像数据集,包含2,854对锚点链接的变体对,用于评估和学习图像生成/编辑系统中的上下文一致性,同时保持身份稳定性和高美学质量。
- Motivation: 现代图像生成和编辑系统需要能够评估和学习上下文一致性的数据集,同时保持身份稳定性和美学质量。现有数据集在这方面存在不足,需要专门设计的数据集来支持可控评估。
- Method: 数据集基于Moonworks原创艺术和照片,创建锚点链接的变体对,应用光照、天气、视角、场景构图、色彩色调或情绪等上下文变换,同时保持底层身份稳定。数据集采用Apache 2.0许可公开。
- Result: 数据集表现出高身份稳定性、强目标属性实现和稳健的美学特征,超越了大规模网络数据集。提供了可解释的关系监督信号。
- Conclusion: Lunara Aesthetic II是一个公开可用的高质量数据集,适用于图像生成和图像到图像系统的基准测试、微调和分析,特别关注上下文泛化、身份保持和编辑鲁棒性。
[193] Real-Time Loop Closure Detection in Visual SLAM via NetVLAD and Faiss
Enguang Fan
Main category: cs.CV
TL;DR: NetVLAD作为SLAM中的闭环检测模块,相比传统DBoW方法在KITTI数据集上表现出更好的精度和鲁棒性,并通过Faiss加速实现实时查询速度。
- Motivation: 传统词袋方法(如DBoW)在SLAM闭环检测中存在外观变化和感知混淆问题,而深度学习视觉位置识别方法(如NetVLAD)虽然鲁棒性更强,但计算成本高被认为是实时SLAM的障碍。
- Method: 使用NetVLAD作为闭环检测模块,在KITTI数据集上与DBoW进行对比评估,引入细粒度Top-K精确率-召回率曲线,并利用Faiss加速的最近邻搜索实现实时查询。
- Result: NetVLAD在保持实时查询速度的同时,相比DBoW提高了精度和鲁棒性,成为SLAM中闭环检测的实用替代方案。
- Conclusion: NetVLAD结合Faiss加速可以替代传统词袋方法,为SLAM系统提供更准确、鲁棒的闭环检测能力,同时满足实时性要求。
[194] VRGaussianAvatar: Integrating 3D Gaussian Avatars into VR
Hail Song,Boram Yoon,Seokhwan Yang,Seoyoung Kang,Hyunjeong Kim,Henning Metzmacher,Woontack Woo
Main category: cs.CV
TL;DR: VRGaussianAvatar:基于单张图像重建3D高斯泼溅化全身虚拟化身,通过双目批处理实现VR实时渲染的系统
- Motivation: 现有虚拟现实中的虚拟化身系统在实时性、外观相似度和渲染效率方面存在局限,特别是在高分辨率VR显示中需要更高效的渲染方法
- Method: 采用并行流水线架构,前端使用逆运动学估计全身姿态,后端基于单张图像重建3D高斯泼溅化化身,并引入双目批处理技术联合处理左右眼视图以提高渲染效率
- Result: 系统能维持交互式VR性能,相比基于图像和网格的基线方法,在感知外观相似度、具身感和合理性方面表现更优
- Conclusion: VRGaussianAvatar展示了使用3D高斯泼溅化技术创建实时、高质量VR虚拟化身的可行性,双目批处理技术有效提升了VR渲染效率
[195] SMTrack: State-Aware Mamba for Efficient Temporal Modeling in Visual Tracking
Yinchao Ma,Dengqing Yang,Zhangyu He,Wenfei Yang,Tianzhu Zhang
Main category: cs.CV
TL;DR: SMTrack提出了一种基于状态空间模型的新型视觉跟踪方法,通过选择性状态感知空间模型和隐藏状态传播,以线性计算复杂度实现长程时序依赖建模,在保持低计算成本的同时获得优异性能。
- Motivation: 传统CNN和Transformer架构在视觉跟踪中建模长程时序依赖存在固有局限,通常需要复杂的定制模块或高昂计算成本。需要一种更简洁高效的方法来整合时序线索。
- Method: 提出State-aware Mamba Tracker (SMTrack):1) 使用选择性状态感知空间模型,具有状态相关参数来捕捉多样化时序线索;2) 训练时以线性计算复杂度实现长程时序交互;3) 通过隐藏状态传播和更新,使每帧能与先前跟踪帧交互,减少跟踪时的计算开销。
- Result: 大量实验结果表明,SMTrack在保持低计算成本的同时实现了有前景的性能表现。
- Conclusion: SMTrack为视觉跟踪提供了一种简洁高效的时序建模范式,无需复杂定制模块或高昂计算成本即可建立长程时序依赖,在性能和效率之间取得了良好平衡。
[196] FreshMem: Brain-Inspired Frequency-Space Hybrid Memory for Streaming Video Understanding
Kangcong Li,Peng Ye,Lin Zhang,Chao Wang,Huafeng Qin,Tao Chen
Main category: cs.CV
TL;DR: FreshMem提出了一种频率-空间混合记忆网络,用于提升多模态大语言模型在在线流媒体视频理解中的性能,通过多尺度频率记忆和空间缩略图记忆模块实现短期保真与长期连贯性的平衡。
- Motivation: 现有方法缺乏灵活适应性,导致不可逆的细节丢失和上下文碎片化。需要将多模态大语言模型从离线理解过渡到在线流媒体视频理解,以实现连续感知。
- Method: 提出FreshMem频率-空间混合记忆网络,受大脑对数感知和记忆巩固启发。包含两个协同模块:1) 多尺度频率记忆(MFM):将溢出帧投影为代表性频率系数,辅以残差细节重建全局历史"要点";2) 空间缩略图记忆(STM):通过自适应压缩策略将连续流离散化为情节簇,蒸馏为高密度空间缩略图。
- Result: 在StreamingBench、OV-Bench和OVO-Bench上分别获得5.20%、4.52%和2.34%的性能提升。作为无需训练的方法,优于多个完全微调的方法,为长时域流媒体视频理解提供高效范式。
- Conclusion: FreshMem通过频率-空间混合记忆网络有效解决了在线流媒体视频理解中的细节丢失和上下文碎片化问题,实现了短期保真与长期连贯性的平衡,为多模态大语言模型的流媒体应用提供了高效解决方案。
[197] Cross-Modal Alignment and Fusion for RGB-D Transmission-Line Defect Detection
Jiaming Cui,Shuai Zhou,Wenqiang Li,Ruifeng Qin,Feng Shen
Main category: cs.CV
TL;DR: CMAFNet:一种用于输电线路缺陷检测的跨模态对齐与融合网络,通过RGB外观和深度几何信息的融合,显著提升了小尺度缺陷的检测性能。
- Motivation: 输电线路缺陷检测面临三大挑战:小尺度缺陷占主导、复杂背景干扰、光照变化。现有RGB检测器在几何特征微小的缺陷与视觉相似背景结构之间难以区分,特别是在色度对比有限的情况下。
- Method: 提出CMAFNet跨模态对齐与融合网络,采用"先净化后融合"范式整合RGB外观和深度几何信息。包含:1)语义重组模块,通过学习码本进行基于字典的特征净化,抑制模态特定噪声同时保留缺陷判别信息;2)上下文语义集成框架,使用部分通道注意力捕获全局空间依赖,增强结构语义推理;3)位置归一化在净化阶段强制执行显式重建驱动的跨模态对齐。
- Result: 在TLRGBD基准测试中(94.5%实例为小物体),CMAFNet达到32.2% mAP@50和12.5% APs,分别比最强基线提升9.8和4.0个百分点。轻量级版本在228 FPS下达到24.8% mAP50,仅需4.9M参数,超越所有YOLO检测器,同时以显著更低计算成本匹配基于Transformer的方法。
- Conclusion: CMAFNet通过跨模态特征对齐与融合,有效解决了输电线路小尺度缺陷检测的挑战,在精度和效率之间取得了良好平衡,为无人机自动化巡检提供了有效的解决方案。
[198] Physics Informed Generative AI Enabling Labour Free Segmentation For Microscopy Analysis
Salma Zahran,Zhou Ao,Zhengyang Zhang,Chen Chi,Chenchen Yuan,Yanming Wang
Main category: cs.CV
TL;DR: 提出一个无需人工标注的显微图像语义分割框架,通过相场模拟生成微结构形态,用CycleGAN将模拟数据转换为逼真的SEM图像,训练U-Net模型在实验数据上实现优异泛化性能。
- Motivation: 材料表征中显微图像语义分割面临专家标注数据成本高、主观性强、稀缺的问题。基于物理的模拟数据虽然可扩展,但存在显著的领域差距,缺乏实验数据中复杂的纹理、噪声模式和成像伪影。
- Method: 1. 利用相场模拟生成大量微结构形态,获得完美的内在衍生真实掩码;2. 使用CycleGAN进行非配对图像到图像转换,将干净的模拟数据转换为大规模逼真的SEM图像数据集;3. 仅在此合成数据上训练U-Net模型。
- Result: 在未见过的实验图像上,U-Net模型实现了平均边界F1分数0.90和交并比0.88的优异性能。通过t-SNE特征空间投影和香农熵分析验证,合成图像在统计和特征上与真实数据流形无法区分。
- Conclusion: 该生成框架完全解耦了模型训练与人工标注,将数据稀缺问题转化为数据丰富问题,为加速材料发现和分析提供了鲁棒且完全自动化的解决方案。
[199] FastPhysGS: Accelerating Physics-based Dynamic 3DGS Simulation via Interior Completion and Adaptive Optimization
Yikun Ma,Yiqing Li,Jingwen Ye,Zhongkai Wu,Weidong Zhang,Lin Gao,Zhi Jin
Main category: cs.CV
TL;DR: FastPhysGS:基于4D物理模拟的快速3D高斯泼溅框架,通过实例感知粒子填充和双向图解耦优化,在1分钟内实现高保真物理模拟
- Motivation: 现有方法将3D高斯泼溅扩展到4D物理模拟存在挑战:基于MPM的方法需要手动调参或从视频扩散模型蒸馏动态,限制了泛化性和优化效率;基于LLMs/VLMs的方法存在文本/图像到3D的感知差距,导致物理行为不稳定,且常忽略3DGS的表面结构,产生不合理的运动
- Method: 提出FastPhysGS框架:1)实例感知粒子填充(IPF)结合蒙特卡洛重要性采样(MCIS),高效填充内部粒子同时保持几何保真度;2)双向图解耦优化(BGDO),自适应策略快速优化从VLM预测的材料参数
- Result: FastPhysGS在仅使用7GB运行时内存的情况下,1分钟内实现高保真物理模拟,性能优于现有方法,具有广泛的应用潜力
- Conclusion: FastPhysGS提供了一个快速、稳健的基于物理的动态3D高斯泼溅模拟框架,通过创新的粒子填充和优化策略解决了现有方法的局限性,在效率和保真度方面都有显著提升
[200] DenVisCoM: Dense Vision Correspondence Mamba for Efficient and Real-time Optical Flow and Stereo Estimation
Tushar Anand,Maheswar Bora,Antitza Dantcheva,Abhijit Das
Main category: cs.CV
TL;DR: 提出DenVisCoM Mamba块和混合架构,用于实时联合估计光流和视差,在精度和速度间取得良好平衡
- Motivation: 多视图几何和运动任务本质相关,需要统一的架构来同时处理这些任务,同时满足实时推理、内存占用和精度的要求
- Method: 提出基于DenVisCoM Mamba块和Transformer注意力块的混合架构,专门为光流和视差联合估计设计,实现高效实时处理
- Result: 在大量数据集上验证了精度和实时处理的平衡,实验结果表明模型能够准确实时估计光流和视差
- Conclusion: 提出的DenVisCoM混合架构能够有效联合处理运动估计和3D密集感知任务,在保持精度的同时实现实时性能
[201] Simplicity Prevails: The Emergence of Generalizable AIGI Detection in Visual Foundation Models
Yue Zhou,Xinan He,Kaiqing Lin,Bing Fan,Feng Ding,Bin Li
Main category: cs.CV
TL;DR: 基于现代视觉基础模型冻结特征的简单线性分类器,在AI生成图像检测任务中超越了复杂专用检测器,特别是在真实场景中性能提升显著,但仍有传输和编辑检测等局限性。
- Motivation: 现有AI生成图像检测器在精心设计的基准测试中表现优异,但在真实场景中性能急剧下降。研究旨在探索更简单有效的检测方法,解决专用检测器在现实世界中的泛化问题。
- Method: 使用现代视觉基础模型(包括Perception Encoder、MetaCLIP 2和DINOv3)的冻结特征,仅训练一个简单的线性分类器。通过全面评估传统基准、未见过的生成器和具有挑战性的真实场景分布来验证方法。
- Result: 该方法在标准基准测试中与专用检测器相当,在真实场景数据集上显著优于专用检测器,准确率提升超过30%。视觉语言模型内化了伪造的显式语义概念,而自监督学习模型从预训练数据中隐式获得了判别性取证特征。
- Conclusion: AI取证领域需要范式转变:从过度拟合静态基准转向利用基础模型不断演进的世界知识,以实现真实世界的可靠性。简单方法结合大规模预训练数据中的合成内容暴露,能够产生卓越的检测能力。
[202] Tail-Aware Post-Training Quantization for 3D Geometry Models
Sicheng Pan,Chen Tang,Shuzhao Xie,Ke Yang,Weixiang Zhang,Jiawei Li,Bin Chen,Shu-Tao Xia,Zhi Wang
Main category: cs.CV
TL;DR: TAPTQ:一种针对3D几何学习的尾部感知后训练量化方法,通过渐进校准构建、三元搜索优化和TRE引导的模块补偿,在保持精度的同时显著减少校准时间。
- Motivation: 3D几何模型的复杂性和规模给资源受限平台部署带来挑战。传统的后训练量化方法主要针对2D视觉Transformer优化,无法有效迁移到3D模型,因为3D模型具有复杂的特征分布和过高的校准开销。
- Method: 提出TAPTQ三阶段方法:1)渐进粗到细校准构建策略,构建紧凑子集保证统计纯度和几何代表性;2)将量化区间搜索重新表述为优化问题,引入三元搜索求解器降低计算复杂度;3)提出TRE引导的模块补偿,使用尾部相对误差指标自适应识别和修正对长尾激活异常值敏感的模块。
- Result: 在VGGT和Pi3基准测试上的广泛实验表明,TAPTQ在精度上持续优于最先进的后训练量化方法,同时显著减少了校准时间。
- Conclusion: TAPTQ为3D几何学习提供了一种高效的后训练量化解决方案,解决了传统方法在3D模型上的局限性,实现了精度和效率的良好平衡。
[203] ObjEmbed: Towards Universal Multimodal Object Embeddings
Shenghao Fu,Yukun Su,Fengyun Rao,Jing Lyu,Xiaohua Xie,Wei-Shi Zheng
Main category: cs.CV
TL;DR: ObjEmbed是一种新颖的多模态大语言模型嵌入方法,通过将图像分解为多个区域嵌入(每个对应一个对象)和全局嵌入,实现细粒度的图像-文本对齐,支持视觉定位、局部图像检索和全局图像检索等多种任务。
- Motivation: 现有的多模态嵌入模型在全局图像-文本对齐方面表现出色,但在图像区域与特定短语之间的细粒度对齐方面存在困难。需要一种能够同时处理对象级和图像级任务的统一方法。
- Method: ObjEmbed将输入图像分解为多个区域嵌入(每个对应一个对象)和全局嵌入。为每个区域生成两种互补嵌入:用于语义匹配的对象嵌入和预测定位质量的IoU嵌入。最终的对象匹配分数结合了语义相似度和预测的IoU,实现更准确的检索。所有对象和完整图像都在单次前向传播中编码。
- Result: 在18个不同的基准测试中表现出优越性能,展示了强大的语义区分能力。支持视觉定位、局部图像检索和全局图像检索等多种视觉理解任务。
- Conclusion: ObjEmbed通过对象导向的表示、多功能性和高效编码,提供了一种统一的方法来解决细粒度视觉-语言对齐问题,在多种视觉理解任务中表现出色。
[204] Spot-Wise Smart Parking: An Edge-Enabled Architecture with YOLOv11 and Digital Twin Integration
Gustavo P. C. P. da Luz,Alvaro M. Aspilcueta Narvaez,Tiago Godoi Bannwart,Gabriel Massuyoshi Sato,Luis Fernando Gomez Gonzalez,Juliana Freitag Borin
Main category: cs.CV
TL;DR: 论文提出了一种基于距离感知匹配和自适应边界框分割的智能停车位级监控系统,在资源受限的边缘设备上实现了98.80%的平衡准确率和8秒推理时间,并引入了数字孪生基座和基于电视盒的应用支持服务器。
- Motivation: 现有停车监控系统只能估计区域内的空闲车位数量,无法提供车位级别的详细信息,限制了系统支持更高级应用的能力。需要开发能够进行车位级监控的解决方案。
- Method: 1. 采用基于空间容差的距离感知匹配方法进行车位级监控;2. 引入自适应边界框分割方法处理复杂停车空间;3. 使用YOLOv11m模型(40.5MB大小);4. 开发数字孪生基座(Digital Shadow)可视化停车位实体;5. 基于电视盒构建应用支持服务器。
- Result: 1. 在资源受限的边缘设备上实现了98.80%的平衡准确率;2. 推理时间仅为8秒;3. 系统能够提供车位级别的详细信息;4. 实现了云服务、停车终端和统计机器人之间的可扩展通信。
- Conclusion: 提出的车位级监控系统显著提升了智能停车系统的能力,通过创新的匹配方法和硬件重用策略,在保持高性能的同时促进了可持续性,为向完整数字孪生系统演进奠定了基础。
[205] Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation
Jun He,Junyan Ye,Zilong Huang,Dongzhi Jiang,Chenjue Zhang,Leqi Zhu,Renrui Zhang,Xiang Zhang,Weijia Li
Main category: cs.CV
TL;DR: Mind-Brush是一个统一的代理框架,将图像生成转变为动态的知识驱动工作流,通过"思考-研究-创建"范式解决现有模型在复杂知识推理和实时适应方面的不足。
- Motivation: 现有文本到图像生成模型存在三个主要问题:1) 大多数是静态的文本到像素解码器,难以理解用户隐含意图;2) 新兴的统一理解-生成模型虽然有所改进,但仍难以处理复杂知识推理任务;3) 受限于静态内部先验,无法适应现实世界的动态变化。
- Method: 提出Mind-Brush框架,模拟人类"思考-研究-创建"范式:1) 主动检索多模态证据来锚定分布外概念;2) 使用推理工具解决隐含的视觉约束;3) 将生成过程转变为动态的知识驱动工作流。
- Result: 1) 在提出的Mind-Bench基准测试(500个样本,涵盖实时新闻、新兴概念、数学和地理推理等领域)上,Mind-Brush显著提升了统一模型的能力;2) 在Qwen-Image基线上实现了从零到一的能力飞跃;3) 在WISE和RISE等现有基准测试上也取得了优越结果。
- Conclusion: Mind-Brush通过将生成过程转变为动态的知识驱动工作流,有效解决了现有模型在复杂知识推理和实时适应方面的局限性,为文本到图像生成领域带来了重要进展。
[206] MagicFuse: Single Image Fusion for Visual and Semantic Reinforcement
Hao Zhang,Yanping Zha,Zizhuo Li,Meiqi Gong,Jiayi Ma
Main category: cs.CV
TL;DR: MagicFuse:一种从单张低质量可见光图像生成跨光谱场景表示的单图像融合框架,无需多模态输入即可实现媲美多模态融合的性能
- Motivation: 在恶劣条件下只有可见光成像传感器可用时,如何继续受益于多模态图像融合的优势。传统数据级融合需要多模态输入,但在实际应用中可能无法获取红外等模态数据。
- Method: 提出单图像融合概念,将数据级融合扩展到知识级。基于扩散模型设计三个分支:1) 光谱内知识增强分支挖掘可见光谱中被遮挡的场景信息;2) 跨光谱知识生成分支学习转移到红外光谱的热辐射分布模式;3) 多域知识融合分支整合两个分支的概率噪声,通过连续采样获得跨光谱场景表示。同时施加视觉和语义约束确保表示满足人类观察并支持下游语义决策。
- Result: 大量实验表明,MagicFuse仅依赖单张退化可见光图像,就能实现与最先进多模态输入融合方法相当甚至更好的视觉和语义表示性能。
- Conclusion: MagicFuse成功实现了从单张可见光图像到跨光谱场景表示的转换,为恶劣条件下无法获取多模态数据时的图像融合提供了实用解决方案,扩展了传统融合方法的应用范围。
[207] GDPR-Compliant Person Recognition in Industrial Environments Using MEMS-LiDAR and Hybrid Data
Dennis Basile,Dennis Sprute,Helene Dörksen,Holger Flatt
Main category: cs.CV
TL;DR: 提出基于MEMS-LiDAR的隐私合规人员检测方法,通过结合真实与合成LiDAR数据提升检测精度并减少标注工作量
- Motivation: 工业室内空间需要可靠检测未经授权人员以避免安全事故,但传统视觉方法存在光照敏感、隐私违规问题,且深度学习需要大量标注数据,收集和标注耗时且易出错
- Method: 使用MEMS-LiDAR捕获匿名3D点云数据,结合CARLA仿真框架生成的合成场景数据来增强真实LiDAR数据,减少真实数据采集和标注工作量
- Result: 混合数据方法相比仅使用真实数据的模型,平均精度提升44个百分点,同时将人工标注工作量减少50%
- Conclusion: 该方法提供了一种可扩展、经济高效的替代方案,系统展示了合成LiDAR数据如何在工业环境中结合高性能人员检测与GDPR合规性
[208] DDP-WM: Disentangled Dynamics Prediction for Efficient World Models
Shicheng Yin,Kaixuan Yin,Weixing Chen,Yang Liu,Guanbin Li,Liang Lin
Main category: cs.CV
TL;DR: DDP-WM提出解耦动力学预测方法,通过分离主要物理交互动态和背景上下文更新,实现高效世界建模,在推理速度上获得约9倍提升,MPC成功率从90%提升至98%。
- Motivation: 现有基于密集Transformer的世界模型计算开销大,阻碍实时部署,需要解决效率-性能瓶颈。
- Method: 提出解耦动力学预测(DDP)原则,将潜在状态演化分解为稀疏的主要物理交互动态和次要背景更新,采用高效历史处理与动态定位架构,通过交叉注意力机制优化背景更新。
- Result: 在导航、桌面精确操作、复杂可变形或多体交互等任务中表现优异,在Push-T任务上实现约9倍推理加速,MPC成功率从90%提升至98%。
- Conclusion: DDP-WM为开发高效、高保真世界模型提供了有前景的路径,显著提升实时部署可行性。
[209] Automated Discontinuity Set Characterisation in Enclosed Rock Face Point Clouds Using Single-Shot Filtering and Cyclic Orientation Transformation
Dibyayan Patra,Pasindu Ranasinghe,Bikram Banerjee,Simit Raval
Main category: cs.CV
TL;DR: 提出了一种基于单次滤波、循环方向变换和层次聚类的自动不连续面特征提取方法,用于地下矿山岩体稳定性评估,在真实矿房数据中取得了优于现有方法的精度。
- Motivation: 地下矿山岩体不连续面(如节理、裂隙)的特征提取对岩体稳定性评估、开挖安全和运营效率至关重要。虽然无人机和移动激光扫描技术能高效采集点云数据,但在完全封闭的岩体表面等真实场景中,开发鲁棒且高效的自动特征提取方法仍是一个开放的研究问题。
- Method: 提出了一种新的自动不连续面特征提取方法,包含三个核心步骤:1) 单次滤波策略,使用信号处理技术一次性隔离平面区域并抑制噪声和高曲率伪影;2) 创新的循环方向变换方案,将倾角和倾向的极坐标数据准确映射到笛卡尔空间;3) 层次聚类技术,处理不同密度分布并自动识别聚类,无需用户预先定义聚类数量。
- Result: 在真实矿山矿房数据上验证了方法的准确性,与使用Virtual Compass工具手动选取的不连续面以及广泛使用的自动结构映射技术进行对比。所提方法表现出最低的平均绝对误差:倾角误差1.95°,倾向误差2.20°,离散误差低于3°,优于其他技术。
- Conclusion: 该方法为地下矿山岩体不连续面的自动特征提取提供了一种鲁棒高效的解决方案,能够准确识别不连续面集合,为岩体稳定性评估和矿山安全运营提供了可靠的技术支持。
[210] Spatio-Temporal Transformers for Long-Term NDVI Forecasting
Ido Faran,Nathan S. Netanyahu,Maxim Shoshany
Main category: cs.CV
TL;DR: STT-LTF是一个时空Transformer框架,用于处理长期卫星图像时间序列,通过统一架构整合空间上下文建模和时间序列预测,在异质性地中海景观中实现准确的多尺度预测。
- Motivation: 解决异质性地中海景观中长期卫星图像时间序列分析的挑战,包括复杂空间模式、季节变化和多年代环境变化的跨尺度交互问题。
- Method: 提出STT-LTF框架,通过统一Transformer架构处理多尺度空间斑块和时间序列(长达20年),采用空间掩码、时间掩码和水平采样等自监督学习策略,结合空间斑块嵌入、循环时间编码和地理坐标。
- Result: 在Landsat数据(1984-2024)上评估,STT-LTF在明年预测中达到MAE 0.0328和R^2 0.8412,优于传统统计方法、CNN、LSTM和标准Transformer。
- Conclusion: STT-LTF能够处理不规则时间采样和可变预测水平,特别适合分析经历快速生态转变的异质性地中海景观,为长期环境监测提供了有效的时空预测框架。
[211] Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention
Dvir Samuel,Issar Tzachor,Matan Levy,Micahel Green,Gal Chechik,Rami Ben-Ari
Main category: cs.CV
TL;DR: 提出针对自回归视频扩散模型的训练免费注意力框架,通过时间缓存压缩、近似最近邻交叉注意力和自注意力稀疏化,实现5-10倍加速并保持恒定内存使用
- Motivation: 自回归视频扩散模型在推理时面临KV缓存增长导致的延迟增加和GPU内存上升问题,限制了时间上下文使用和长范围一致性
- Method: 提出TempCache通过时间对应压缩KV缓存,AnnCA使用近似最近邻匹配选择帧相关提示词加速交叉注意力,AnnSA通过限制查询到语义匹配键来稀疏化自注意力
- Result: 实现端到端5-10倍加速,保持接近相同的视觉质量,在长序列生成中维持稳定吞吐量和近乎恒定的峰值GPU内存使用
- Conclusion: 提出的训练免费注意力框架有效解决了自回归视频扩散模型的推理瓶颈,实现了高效的长序列视频生成
[212] FlowBypass: Rectified Flow Trajectory Bypass for Training-Free Image Editing
Menglin Han,Zhangkai Ni
Main category: cs.CV
TL;DR: FlowBypass:基于Rectified Flow的新型免训练图像编辑框架,通过构建连接反转和重建轨迹的旁路,解决现有方法中轨迹长度与保真度之间的权衡问题。
- Motivation: 现有免训练图像编辑方法主要依赖反转-重建轨迹,存在固有权衡:长轨迹会累积误差损害保真度,短轨迹则无法确保与编辑提示的充分对齐。先前解决方案通常使用特定于骨干网络的特征操作,限制了通用性。
- Method: 基于Rectified Flow构建分析框架,通过形式化推导两个轨迹,获得近似旁路公式及其数值解,构建直接连接反转和重建轨迹的旁路,实现无缝轨迹转换,避免特征操作依赖。
- Result: 大量实验表明,FlowBypass在图像编辑任务中持续优于最先进方法,在保持无关区域高保真细节的同时,实现了更强的提示对齐。
- Conclusion: FlowBypass通过构建反转-重建轨迹间的旁路,有效解决了免训练图像编辑中的误差累积与保真度权衡问题,提供了一种通用且高效的解决方案。
[213] LDRNet: Large Deformation Registration Model for Chest CT Registration
Cheng Wang,Qiyu Gao,Fandong Zhang,Shu Zhang,Yizhou Yu
Main category: cs.CV
TL;DR: 提出LDRNet用于胸部CT大变形配准,通过粗到精的配准场优化和刚性变换学习,在速度和精度上优于现有方法
- Motivation: 现有深度学习医学图像配准方法主要针对脑部图像,但胸部CT配准面临更大变形、更复杂背景和区域重叠的挑战,需要专门的大变形配准方法
- Method: 提出LDRNet无监督深度学习框架:1) 先预测粗分辨率配准场,然后从粗到精逐步优化;2) 设计细化块在不同分辨率下优化配准场;3) 引入刚性块从高层特征学习变换矩阵
- Result: 在私有数据集和公开数据集SegTHOR上评估,相比传统方法和深度学习模型VoxelMorph、RCN、LapIRN,LDRNet在大变形图像配准上达到SOTA性能且速度更快
- Conclusion: LDRNet能够有效处理胸部CT的大变形配准问题,在精度和速度方面均优于现有方法,为复杂医学图像配准提供了有效解决方案
[214] GPD: Guided Progressive Distillation for Fast and High-Quality Video Generation
Xiao Liang,Yunzhu Zhang,Linchao Zhu
Main category: cs.CV
TL;DR: GPD是一种渐进式蒸馏框架,可将视频扩散模型的采样步数从48步减少到6步,同时保持视觉质量,解决了扩散模型计算成本高的问题。
- Motivation: 扩散模型在视频生成方面取得了显著成功,但去噪过程的高计算成本仍然是主要瓶颈。现有的减少扩散步数的方法在应用于视频生成时往往会出现明显的质量下降。
- Method: 提出了引导渐进蒸馏(GPD)框架,包含两个关键组件:1)在线生成训练目标,降低优化难度并提高计算效率;2)潜在空间中的频域约束,促进细粒度细节和时间动态的保留。教师模型逐步指导学生模型以更大的步长操作。
- Result: 应用于Wan2.1模型时,GPD将采样步数从48步减少到6步,同时在VBench基准测试中保持有竞争力的视觉质量。与现有蒸馏方法相比,GPD在流程简单性和质量保持方面都显示出明显优势。
- Conclusion: GPD框架能够有效加速视频扩散模型的推理过程,在显著减少计算成本的同时保持高质量的生成结果,为快速高质量视频生成提供了实用解决方案。
[215] Seeing Is Believing? A Benchmark for Multimodal Large Language Models on Visual Illusions and Anomalies
Wenjin Hou,Wei Liu,Han Hu,Xiaoxiao Sun,Serena Yeung-Levy,Hehe Fan
Main category: cs.CV
TL;DR: VIA-Bench是一个挑战性的基准测试,用于评估多模态大语言模型在视觉错觉和异常场景下的鲁棒性,发现现有模型存在显著脆弱性,与人类感知存在根本差异。
- Motivation: 当前多模态大语言模型在标准分布数据上表现出色,甚至达到人类水平,但其在面对违背常识先验的视觉错觉和异常场景时的鲁棒性尚未得到充分检验。
- Method: 构建VIA-Bench基准,包含六个核心类别:颜色错觉、运动错觉、格式塔错觉、几何与空间错觉、一般视觉错觉和视觉异常。通过人工循环审查构建了超过1000个高质量问答对,评估了20多个最先进的多模态大语言模型。
- Result: 评估发现多模态大语言模型存在显著脆弱性,思维链推理提供的鲁棒性微乎其微,经常产生"脆弱幻象"——模型逻辑在错觉刺激下崩溃。这揭示了机器与人类感知的根本差异。
- Conclusion: 解决这种感知瓶颈对于人工智能通用智能的发展至关重要。基准数据和代码将公开发布。
[216] Efficient Cross-Country Data Acquisition Strategy for ADAS via Street-View Imagery
Yin Wu,Daniel Slieter,Carl Esselborn,Ahmed Abouelazm,Tsung Yuan Tseng,J. Marius Zöllner
Main category: cs.CV
TL;DR: 提出基于街景图像引导的数据采集策略,利用公开街景图像识别兴趣点,用于跨国家ADAS/ADS感知模型适应,相比随机采样可减少一半目标域数据需求。
- Motivation: ADAS和ADS在不同国家部署面临挑战,因为立法、交通基础设施和视觉惯例的差异导致域偏移,降低感知性能。传统跨国家数据采集依赖大量道路驾驶,成本高且效率低。
- Method: 提出街景图像引导的数据采集策略:1) 使用KNN特征距离方法(基于视觉基础模型)和2) 视觉归因方法(基于视觉语言模型)来识别兴趣点。采用收集-检测协议,构建Zenseact Open Dataset与Mapillary街景图像的共定位数据集。
- Result: 在交通标志检测任务上,该方法仅使用一半目标域数据就能达到与随机采样相当的性能。成本估算显示大规模街景处理在经济上可行。
- Conclusion: 街景图像引导的数据采集策略为跨国家模型适应提供了高效且经济的方法,可显著减少数据采集成本。
[217] SPIRIT: Adapting Vision Foundation Models for Unified Single- and Multi-Frame Infrared Small Target Detection
Qian Xu,Xi Li,Fei Gao,Jie Guo,Haojuan Yuan,Shuaipeng Fan,Mingjin Zhang
Main category: cs.CV
TL;DR: SPIRIT是一个统一框架,通过轻量级物理信息插件将视觉基础模型适配到红外小目标检测,解决模态差异问题,实现单帧和多帧统一推理。
- Motivation: 红外小目标检测面临数据稀缺问题,需要利用视觉基础模型,但红外目标信号弱、语义线索有限,与可见光图像存在模态差异,直接使用语义导向的VFM和外观驱动的跨帧关联不可靠。
- Method: 提出SPIRIT框架:空间上使用PIFR通过近似秩稀疏分解抑制结构化背景、增强稀疏目标信号;时间上使用PGMA将历史软空间先验注入记忆交叉注意力,约束跨帧关联。
- Result: 在多个IRSTD基准测试中,相比基于VFM的基线方法获得一致提升,达到SOTA性能。
- Conclusion: SPIRIT通过物理信息插件成功将视觉基础模型适配到红外小目标检测,解决了模态差异问题,实现了单帧和多帧的统一推理框架。
[218] CloDS: Visual-Only Unsupervised Cloth Dynamics Learning in Unknown Conditions
Yuliang Zhan,Jian Li,Wenbing Huang,Wenbing Huang,Yang Liu,Hao Sun
Main category: cs.CV
TL;DR: CloDS是一个无监督学习框架,从多视角视觉观测中学习布料动力学,无需已知物理属性作为监督,通过三阶段流程实现视频到几何的映射和动力学模型训练。
- Motivation: 现有深度学习方法需要已知物理属性作为监督或输入,限制了在未知条件下的应用。为了解决这个问题,作者提出了布料动力学接地(CDG)场景,旨在从多视角视觉观测中无监督学习布料动力学。
- Method: 提出Cloth Dynamics Splatting(CloDS)框架,采用三阶段流程:1)视频到几何接地;2)在接地的网格上训练动力学模型。为处理大非线性变形和严重自遮挡,引入双位置不透明度调制,通过基于网格的高斯溅射实现2D观测和3D几何之间的双向映射。
- Result: 综合实验评估表明,CloDS能够有效地从视觉数据中学习布料动力学,同时对未见配置保持强大的泛化能力。
- Conclusion: CloDS成功实现了从多视角视觉观测中无监督学习布料动力学,解决了现有方法需要已知物理属性的限制,为未知条件下的动态系统模拟提供了有效解决方案。
[219] WS-IMUBench: Can Weakly Supervised Methods from Audio, Image, and Video Be Adapted for IMU-based Temporal Action Localization?
Pei Li,Jiaxi Yin,Lei Ouyang,Shihan Pan,Ge Wang,Han Ding,Fei Wang
Main category: cs.CV
TL;DR: 该论文提出了WS-IMUBench基准,用于评估弱监督IMU时序动作定位方法,在仅有序列级标签的情况下,通过大规模实验分析现有方法的迁移效果和局限性。
- Motivation: 传统IMU动作识别只能分类剪辑片段,无法捕捉真实世界行为的丰富时序结构。而当前IMU时序动作定位方法需要密集的帧级边界标注,成本高昂且难以扩展,这成为技术发展的瓶颈。
- Method: 引入WS-IMUBench基准,系统评估弱监督IMU时序动作定位方法。不提出新算法,而是评估来自音频、图像和视频领域的7种代表性弱监督方法在7个公开IMU数据集上的迁移效果,进行了超过3,540次模型训练和7,080次推理评估。
- Result: 研究发现:(1) 方法迁移具有模态依赖性,时域方法通常比基于图像提案的方法更稳定;(2) 在有利数据集上,弱监督方法可以具有竞争力;(3) 主要失败模式源于短动作、时序模糊性和提案质量。
- Conclusion: 该研究为弱监督IMU时序动作定位提供了系统基准,指出了未来发展方向(如IMU特定提案生成、边界感知目标、更强的时序推理),并通过可复现的基准模板加速社区进展。
[220] How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing
Huanyu Zhang,Xuehai Bai,Chengzu Li,Chen Liang,Haochen Tian,Haodong Li,Ruichuan An,Yifan Zhang,Anna Korhonen,Zhang Zhang,Liang Wang,Tieniu Tan
Main category: cs.CV
TL;DR: VIBE是一个视觉指令图像编辑基准,包含三层交互层次,用于评估模型在多模态视觉指令(如草图)下的图像编辑能力。研究发现专有模型优于开源模型,但所有模型在任务难度增加时性能显著下降。
- Motivation: 现有图像编辑系统主要基于文本指导,而人类交流本质上是多模态的,视觉指令(如草图)能更有效地传达空间和结构意图。当前缺乏专门评估视觉指令跟随能力的基准。
- Method: 提出VIBE基准,包含三层交互层次:指示性定位、形态操作和因果推理。构建高质量多样化的测试用例,并设计基于LMM的评估框架,使用任务特定指标进行细粒度评估。
- Result: 评估了17个开源和专有图像编辑模型,发现专有模型在视觉指令跟随方面表现优于开源模型,但所有模型在任务难度增加时性能显著下降,表明当前系统仍有很大改进空间。
- Conclusion: 视觉指令跟随是图像编辑的重要方向,专有模型已具备初步能力但仍有局限。VIBE基准为未来研究提供了评估框架,任务难度增加时的性能下降指出了有前景的研究方向。
[221] Fact or Fake? Assessing the Role of Deepfake Detectors in Multimodal Misinformation Detection
A S M Sharifuzzaman Sagar,Mohammed Bennamoun,Farid Boussaid,Naeha Sharif,Lian Xu,Shaaban Sahmoud,Ali Kishk
Main category: cs.CV
TL;DR: 研究发现,在检测多模态虚假信息时,基于像素级别的深度伪造检测器效果有限,甚至会降低事实核查系统的性能,而基于语义理解和外部证据的系统表现最佳。
- Motivation: 多模态虚假信息中的欺骗通常来自图像-文本对共同表达的语义和上下文主张,而非单纯的像素级篡改。然而,大多数深度伪造检测器只关注像素级伪造,忽略了主张层面的含义,尽管它们越来越多地被集成到自动事实核查(AFC)流程中。这引发了一个核心科学和实践问题:像素级检测器是否为验证图像-文本主张提供了有用信号,还是引入了误导性的真实性先验,从而破坏了基于证据的推理?
- Method: 使用两个互补的基准测试MMFakeBench和DGM4,评估了:(1)最先进的仅图像深度伪造检测器;(2)基于证据的事实核查系统,该系统通过蒙特卡洛树搜索(MCTS)进行工具引导检索,并通过多智能体辩论(MAD)进行深思熟虑的推理;(3)将检测器输出作为辅助证据注入的混合事实核查系统。
- Result: 深度伪造检测器在两个基准测试中表现出有限的独立价值:MMFakeBench上的F1分数为0.26-0.53,DGM4上为0.33-0.49。将检测器预测纳入事实核查流程会持续降低性能0.04-0.08 F1,这是由于非因果的真实性假设。相比之下,以证据为中心的事实核查系统达到最高性能:MMFakeBench上约0.81 F1,DGM4上约0.55 F1。
- Conclusion: 多模态主张验证主要由语义理解和外部证据驱动,像素级伪影信号并不能可靠地增强对现实世界图像-文本虚假信息的推理。基于证据的事实核查方法优于依赖深度伪造检测器的方法。
[222] Trust but Verify: Adaptive Conditioning for Reference-Based Diffusion Super-Resolution via Implicit Reference Correlation Modeling
Yuan Wang,Yuhao Wan,Siming Zheng,Bo Li,Qibin Hou,Peng-Tao Jiang
Main category: cs.CV
TL;DR: Ada-RefSR:基于"信任但验证"原则的单步扩散框架,通过自适应隐式关联门控机制,在参考图像可靠时利用参考信息,不可靠时抑制参考信息,解决参考图像与低质量输入对应不可靠的问题。
- Motivation: 现实世界中的图像退化使得低质量输入与参考图像之间的对应关系不可靠,现有方法要么忽略这种相关性,要么依赖脆弱的显式匹配,导致要么过度依赖误导性参考,要么未能充分利用有价值的参考线索。
- Method: 提出Ada-RefSR框架,核心是自适应隐式关联门控机制,使用可学习的摘要令牌来提取主要参考模式并捕获与低质量特征的隐式相关性,集成到注意力骨干网络中,提供轻量级的自适应参考引导调节。
- Result: 在多个数据集上的实验表明,Ada-RefSR在保真度、自然度和效率之间实现了良好的平衡,并且在不同的参考对齐情况下保持鲁棒性。
- Conclusion: Ada-RefSR通过自适应隐式关联门控机制,有效解决了参考图像与低质量输入对应不可靠的问题,实现了对参考信息的智能利用,为参考图像超分辨率提供了更可靠的解决方案。
[223] ProxyImg: Towards Highly-Controllable Image Representation via Hierarchical Disentangled Proxy Embedding
Ye Chen,Yupeng Zhu,Xiongzhen Zhang,Zhewen Wan,Yingzhe Li,Wenjun Zhang,Bingbing Ni
Main category: cs.CV
TL;DR: 提出分层代理参数化图像表示方法,将语义、几何和纹理属性解耦到独立可操作的参数空间,实现高效可控的图像编辑和物理驱动动画。
- Motivation: 现有图像表示方法(如光栅图像、高斯基元等显式表示和隐式表示)存在表示冗余或缺乏从隐变量到语义实例的直接映射问题,导致手动编辑工作量大且细粒度操作困难,阻碍了高效可控的图像视频编辑。
- Method: 基于输入图像的语义感知分解,通过自适应贝塞尔拟合和迭代内部区域细分网格化构建分层代理几何结构,将多尺度隐式纹理参数嵌入到几何感知的分布式代理节点中,并引入局部自适应特征索引机制确保空间纹理一致性。
- Result: 在ImageNet、OIR-Bench和HumanEdit等图像重建和编辑基准测试中,该方法以显著更少的参数实现了最先进的渲染保真度,支持直观交互和物理合理的操作,通过代理节点与基于位置的动力学集成,实现了实时物理驱动动画,相比生成方法具有更好的时间一致性和视觉真实感。
- Conclusion: 提出的分层代理参数化图像表示方法有效解决了现有表示方法的局限性,实现了高效、可控的图像编辑和动画生成,为图像和视频处理提供了新的技术途径。
[224] Q Cache: Visual Attention is Valuable in Less than Half of Decode Layers for Multimodal Large Language Model
Jiedong Zhuang,Lu Lu,Ming Dai,Rui Hu,Jian Chen,Qiang Liu,Haoji Hu
Main category: cs.CV
TL;DR: 提出Lazy Attention机制,通过跨层共享相似注意力模式来减少MLLMs中的冗余计算和KV缓存占用,实现35%缓存减少和1.5倍吞吐提升,性能损失仅约1%。
- Motivation: 多模态大语言模型推理成本高昂,主要源于视觉编码器产生的大量冗余视觉token,导致计算负载和KV缓存瓶颈。现有token剪枝方法会破坏KV缓存完整性,影响长文本生成任务。
- Method: 提出Lazy Attention机制,基于发现超过一半解码层的注意力语义相似,允许跨层共享相似注意力模式。设计了专门用于MLLMs的轻量级层共享Q Cache,支持相邻层间查询重用,兼容现有推理框架如Flash Attention和KV cache。
- Result: 在多个基准测试中,方法能减少超过35%的KV缓存使用,实现1.5倍吞吐提升,各种MLLMs上性能损失仅约1%。相比SOTA token剪枝方法,实现了更好的精度保持。
- Conclusion: Lazy Attention通过跨层共享相似注意力模式有效减少MLLMs中的冗余计算,提出的Q Cache机制轻量且兼容现有框架,与token剪枝方法正交,可独立部署或结合使用,显著提升推理效率。
[225] Learning Sparse Visual Representations via Spatial-Semantic Factorization
Theodore Zhengde Zhao,Sid Kiblawi,Jianwei Yang,Naoto Usuyama,Reuben Tan,Noel C Codella,Tristan Naumann,Hoifung Poon,Mu Wei
Main category: cs.CV
TL;DR: STELLAR通过将视觉特征分解为语义概念与其空间分布的乘积,解决了自监督学习中语义理解与图像重建之间的冲突,实现了稀疏表示同时支持高质量重建和语义识别。
- Motivation: 自监督学习面临语义理解与图像重建之间的根本冲突:语义SSL(如DINO)依赖全局令牌但丢弃空间坐标,而生成式SSL(如MAE)保留密集特征但无法产生高级抽象。
- Method: 提出STELLAR框架,将视觉特征分解为语义概念与其空间分布的乘积(低秩分解)。这种解耦允许在语义令牌上进行DINO风格的增强对齐,同时在定位矩阵中保持精确的空间映射以支持像素级重建。
- Result: 仅需16个稀疏令牌就能同时支持高质量重建(2.60 FID)并匹配密集骨干网络的语义性能(79.10% ImageNet准确率)。
- Conclusion: STELLAR作为一种多功能稀疏表示,通过策略性地分离语义身份与空间几何,弥合了判别式与生成式视觉之间的差距。
[226] DSXFormer: Dual-Pooling Spectral Squeeze-Expansion and Dynamic Context Attention Transformer for Hyperspectral Image Classification
Farhan Ullah,Irfan Ullah,Khalil Khan,Giovanni Pau,JaKeoung Koo
Main category: cs.CV
TL;DR: 提出DSXFormer用于高光谱图像分类,通过双池化光谱压缩扩展块和动态上下文注意力机制,在四个基准数据集上达到SOTA性能。
- Motivation: 高光谱图像分类面临光谱维度高、光谱-空间关系复杂、标记样本有限等挑战。现有基于Transformer的方法在保持计算效率的同时难以获得足够的光谱区分能力。
- Method: 提出DSXFormer模型,包含:1) 双池化光谱压缩扩展块(DSX),利用全局平均池化和最大池化自适应重新校准光谱特征通道;2) 动态上下文注意力机制(DCA),在窗口Transformer架构中动态捕获局部光谱-空间关系;3) 补丁提取、嵌入和合并策略实现多尺度特征学习。
- Result: 在四个基准数据集上取得优异性能:Salinas(99.95%)、Indian Pines(98.91%)、Pavia University(99.85%)、Kennedy Space Center(98.52%),均优于现有SOTA方法。
- Conclusion: DSXFormer通过光谱双池化压缩扩展和动态上下文注意力的联合集成,在光谱强调和空间上下文表示之间实现了有效平衡,显著提升了高光谱图像分类性能。
[227] Enabling Progressive Whole-slide Image Analysis with Multi-scale Pyramidal Network
Shuyang Wu,Yifu Qiu,Ines P. Nearchou,Sandrine Prost,Jonathan A Fallowfield,Hakan Bilen,Timothy J Kendall
Main category: cs.CV
TL;DR: MSPN是一个轻量级、即插即用的多尺度金字塔网络,通过渐进式多尺度分析提升基于注意力的MIL模型在计算病理学任务中的性能。
- Motivation: 现有计算病理学中的多尺度方法存在两个主要问题:1)依赖制造商定义的固定放大倍数,不够灵活且计算成本高;2)采用后期特征融合,无法保留不同尺度特征之间的关联性。
- Method: 提出MSPN(多尺度金字塔网络),包含两个核心组件:1)基于网格的重映射,使用高放大倍数特征推导粗粒度特征;2)粗粒度引导网络(CGN),学习粗粒度上下文信息。该模块可即插即用地集成到基于注意力的MIL框架中。
- Result: 在4个临床相关任务、3种基础模型类型以及预训练MIL框架上,MSPN作为附加模块显著提升了4种基于注意力的MIL框架的性能,且保持轻量级和易用性。
- Conclusion: MSPN通过渐进式多尺度分析有效解决了现有方法的局限性,能够一致地提升MIL模型在各种配置和任务中的表现,为计算病理学提供了灵活高效的多尺度解决方案。
[228] Beyond Open Vocabulary: Multimodal Prompting for Object Detection in Remote Sensing Images
Shuai Yang,Ziyue Huang,Jiaxin Chen,Qingjie Liu,Yunhong Wang
Main category: cs.CV
TL;DR: RS-MPOD:遥感多模态开放词汇检测框架,通过视觉提示和文本提示结合解决传统文本提示在遥感场景中的语义模糊问题
- Motivation: 传统遥感开放词汇检测仅依赖文本提示,假设预训练文本-视觉对齐能可靠地接地类别查询。但在遥感场景中,由于任务和应用特定的类别语义,这种假设经常失效,导致开放词汇设置下的类别指定不稳定。
- Method: 提出RS-MPOD多模态开放词汇检测框架,超越纯文本提示,结合实例接地的视觉提示、文本提示及其多模态集成。包括视觉提示编码器提取示例实例的外观类别线索(支持纯视觉类别指定),以及多模态融合模块在两种模态可用时整合视觉和文本信息。
- Result: 在标准、跨数据集和细粒度遥感基准上的广泛实验表明:视觉提示在语义模糊和分布偏移下提供更可靠的类别指定;多模态提示在文本语义对齐良好时保持竞争力,提供灵活的替代方案。
- Conclusion: 遥感开放词汇检测需要超越纯文本提示的方法,RS-MPOD通过多模态提示(视觉和文本)解决了语义模糊问题,视觉提示在不确定情况下更可靠,多模态提示在文本语义对齐时保持灵活性。
[229] Your AI-Generated Image Detector Can Secretly Achieve SOTA Accuracy, If Calibrated
Muli Yang,Gabriel James Goenawan,Henan Wang,Huaiyuan Qin,Chenghao Xu,Yanhua Yang,Fen Fang,Ying Sun,Joo-Hwee Lim,Hongyuan Zhu
Main category: cs.CV
TL;DR: 本文提出一种基于贝叶斯决策理论的后处理校准框架,通过可学习的标量校正来调整模型logits,以解决AI生成图像检测器在测试时的系统性偏差问题。
- Motivation: 尽管在平衡数据集上训练,现有AI生成图像检测器在测试时经常表现出系统性偏差,倾向于将假图像误分类为真图像。作者假设这种行为源于假样本的分布偏移和训练期间学习的隐式先验。
- Method: 提出基于贝叶斯决策理论的后处理校准框架,引入可学习的标量校正来调整模型logits。该方法在目标分布的小验证集上优化,同时保持主干网络冻结,通过参数化调整补偿模型输出的分布偏移。
- Result: 在具有挑战性的基准测试中,该方法显著提高了鲁棒性,无需重新训练,为开放世界中可靠且自适应的AI生成图像检测提供了轻量级、有理论依据的解决方案。
- Conclusion: 该研究提出的校准框架有效解决了AI生成图像检测器的系统性偏差问题,通过理论驱动的后处理调整实现了对分布偏移的鲁棒性,为实际应用提供了实用且高效的解决方案。
[230] Enhancing Multi-Image Understanding through Delimiter Token Scaling
Minyoung Lee,Yeji Park,Dongjun Hwang,Yejin Kim,Seong Joon Oh,Junsuk Choe
Main category: cs.CV
TL;DR: 提出一种通过缩放分隔符token的隐藏状态来增强LVLMs多图像理解能力的方法,无需额外训练或推理成本
- Motivation: 大型视觉语言模型在单图像任务上表现良好,但在多图像输入时性能下降,主要原因是跨图像信息泄漏。现有模型使用的分隔符token未能有效阻止这种泄漏。
- Method: 提出缩放分隔符token隐藏状态的方法,通过增强图像内交互并限制不希望的跨图像交互,来强化模型区分不同图像的能力。
- Result: 在Mantis、MuirBench、MIRB、QBench2等多图像基准测试上取得性能提升,同时在TQABench、MultiNews、WCEP-10等多文档和多表格理解任务上也表现更好。
- Conclusion: 通过简单缩放分隔符token的隐藏状态,可以有效增强LVLMs在多图像和多文档任务中的表现,且无需额外训练或推理成本。
[231] Leveraging Latent Vector Prediction for Localized Control in Image Generation via Diffusion Models
Pablo Domingo-Gregorio,Javier Ruiz-Hidalgo
Main category: cs.CV
TL;DR: 提出一种新的扩散模型训练框架,能够在用户定义的图像区域实现精确的局部控制,同时让模型根据原始提示自主生成其余区域。
- Motivation: 现有文本到图像生成方法虽然能通过文本提示和图像级控制(如边缘、分割、深度图)生成高质量图像,但这些控制是全局均匀应用的,缺乏对图像特定区域的精确局部控制能力,用户只能通过反复试错来获得理想图像。
- Method: 提出包含掩码特征和额外损失项的新训练框架。额外损失项利用在任何扩散步骤中对初始潜在向量的预测,增强当前步骤与潜在空间中最终样本之间的对应关系,从而实现局部区域的精确控制。
- Result: 大量实验表明,该方法能有效合成具有受控局部条件的高质量图像,实现了对用户定义区域的精确控制,同时保持模型根据原始提示自主生成其余区域的能力。
- Conclusion: 该方法解决了现有扩散模型在局部控制方面的局限性,通过新的训练框架实现了对图像特定区域的精确控制,为文本到图像生成提供了更精细的编辑能力。
[232] SurfSplat: Conquering Feedforward 2D Gaussian Splatting with Surface Continuity Priors
Bing He,Jingnan Gao,Yunuo Chen,Ning Cao,Gang Chen,Zhengxue Cheng,Li Song,Wenjun Zhang
Main category: cs.CV
TL;DR: SurfSplat是一个基于2D高斯泼溅的前馈框架,通过表面连续性先验和强制alpha混合策略,从稀疏图像实现高质量3D重建,解决了现有方法在近距离观察时出现伪影的问题。
- Motivation: 现有基于3D高斯泼溅的方法从稀疏图像重建3D场景时,往往产生离散、颜色偏差的点云,在正常分辨率下看起来合理,但在近距离观察时会出现严重伪影,无法生成连续表面。
- Method: 提出基于2D高斯泼溅的SurfSplat框架,具有更强的各向异性和更高的几何精度。采用表面连续性先验和强制alpha混合策略来重建连贯的几何结构和准确的纹理。还引入了高分辨率渲染一致性(HRRC)评估指标。
- Result: 在RealEstate10K、DL3DV和ScanNet数据集上的大量实验表明,SurfSplat在标准指标和HRRC上都持续优于先前方法,为稀疏输入的高保真3D重建提供了稳健解决方案。
- Conclusion: SurfSplat通过2D高斯泼溅、表面连续性先验和强制alpha混合,成功解决了稀疏图像3D重建中的表面不连续和伪影问题,实现了高质量的几何和纹理重建。
[233] UniDriveDreamer: A Single-Stage Multimodal World Model for Autonomous Driving
Guosheng Zhao,Yaozeng Wang,Xiaofeng Wang,Zheng Zhu,Tingdong Yu,Guan Huang,Yongchen Zai,Ji Jiao,Changliang Xue,Xiaole Wang,Zhen Yang,Futang Zhu,Xingang Wang
Main category: cs.CV
TL;DR: UniDriveDreamer:用于自动驾驶的单阶段统一多模态世界模型,直接生成多摄像头视频和LiDAR序列,无需中间表示或级联模块
- Motivation: 现有自动驾驶世界模型主要专注于单模态生成(多摄像头视频或LiDAR序列),缺乏统一的多模态生成方法,这限制了数据合成的完整性和实用性
- Method: 1. 使用LiDAR专用VAE编码LiDAR序列,视频VAE编码多摄像头图像;2. 提出统一潜在锚定(ULA)显式对齐两种模态的潜在分布;3. 使用扩散transformer联合建模几何对应和时间演化;4. 将结构化场景布局信息作为条件信号指导合成
- Result: 在视频和LiDAR生成任务上均优于先前最先进方法,同时在下游任务中带来可测量的改进
- Conclusion: UniDriveDreamer成功实现了自动驾驶场景的统一多模态未来观测生成,为更全面的数据合成和下游任务改进提供了有效解决方案
[234] ClueTracer: Question-to-Vision Clue Tracing for Training-Free Hallucination Suppression in Multimodal Reasoning
Gongli Xi,Kun Wang,Zeming Gao,Huahui Yi,Haolang Lu,Ye Tian,Wendong Wang
Main category: cs.CV
TL;DR: 论文提出ClueTracer方法,通过追踪推理路径中的关键线索传播来抑制多模态推理模型中的幻觉问题,无需额外训练即可显著提升性能。
- Motivation: 多模态推理模型在长链推理过程中容易出现幻觉,生成与输入图像或问题无关的内容。研究发现这是由于"推理漂移"现象:模型过度关注问题无关的实体,稀释了对任务相关线索的注意力,导致推理轨迹与视觉基础逐渐解耦。
- Method: 提出ClueRecall评估指标来衡量视觉线索检索能力,并开发ClueTracer——一个无需训练、无参数、架构无关的插件。ClueTracer从问题出发,追踪关键线索在推理路径中的传播(问题→输出→视觉标记),定位任务相关图像区域,同时抑制对无关区域的虚假注意力。
- Result: ClueTracer显著提升了所有推理架构的性能:在推理基准测试上获得1.21倍的提升,在非推理设置中也能获得1.14倍的增益。该方法适用于包括R1-OneVision、Ocean-R1、MM-Eureka等多种模型。
- Conclusion: 通过识别和追踪推理路径中的关键线索传播,可以有效抑制多模态推理模型中的幻觉问题,且该方法无需额外训练,具有广泛的适用性和显著的性能提升效果。
[235] Rethinking Genomic Modeling Through Optical Character Recognition
Hongxin Xiang,Pengsen Ma,Yunkang Cao,Di Yu,Haowen Chen,Xinyu Yang,Xiangxiang Zeng
Main category: cs.CV
TL;DR: OpticalDNA是一个基于视觉的基因组建模框架,将DNA处理为OCR风格的文档理解,通过视觉DNA编码器和文档解码器实现高效压缩,在减少20倍有效token的情况下在多种基因组基准测试中表现优异。
- Motivation: 当前基因组基础模型大多采用大型语言模型架构,将DNA视为一维token序列。这种连续的读取方式与稀疏、不连续的基因组语义结构不匹配,导致在低信息背景上浪费计算资源,且无法实现理解驱动的长上下文压缩。
- Method: OpticalDNA将DNA渲染为结构化视觉布局,训练一个OCR能力的视觉-语言模型,包含视觉DNA编码器和文档解码器。编码器生成紧凑、可重构的视觉token实现高保真压缩。基于此表示,定义了针对核心基因组原语(读取、区域定位、子序列检索、掩码跨度补全)的提示条件目标,学习布局感知的DNA表示。
- Result: 在多种基因组基准测试中,OpticalDNA始终优于近期基线;在长达450k碱基的序列上,它以近20倍更少的有效token实现了最佳整体性能,并且超过了激活参数多达985倍的模型,同时仅调优256k可训练参数。
- Conclusion: OpticalDNA通过将基因组建模重新定义为OCR风格的文档理解,解决了传统语言模型架构在基因组数据处理中的结构不匹配问题,实现了更高效的基因组表示学习,为长序列基因组分析提供了有前景的新方向。
[236] One Size, Many Fits: Aligning Diverse Group-Wise Click Preferences in Large-Scale Advertising Image Generation
Shuo Lu,Haohan Wang,Wei Feng,Weizhen Wang,Shen Zhang,Yaoyu Li,Ao Ma,Zheng Zhang,Jingjing Lv,Junjie Shen,Ching Law,Bing Zhan,Yuan Xu,Huizai Yao,Yongcan Yu,Chenyang Si,Jian Liang
Main category: cs.CV
TL;DR: OSMF框架通过产品感知自适应分组和偏好条件图像生成,实现针对不同用户群体的广告图像个性化生成,提升各群体的点击率。
- Motivation: 现有广告图像生成方法采用"一刀切"策略,优化整体点击率而忽视用户群体间的偏好多样性,导致针对特定群体的营销效果不佳。
- Method: 1) 产品感知自适应分组:基于用户属性和产品特征动态组织用户群体;2) 偏好条件图像生成:使用群体感知多模态大语言模型(G-MLLM)为每个群体生成定制图像;3) 使用Group-DPO进行群体偏好对齐微调。
- Result: 框架在离线和在线实验中均达到最先进性能,并发布了首个大规模群体广告图像偏好数据集GAIP(包含约60万个群体,基于4000万用户)。
- Conclusion: OSMF框架通过考虑用户群体偏好多样性,显著提升了广告图像生成的针对性和点击率效果,为个性化广告生成提供了有效解决方案。
[237] Auto-Comp: An Automated Pipeline for Scalable Compositional Probing of Contrastive Vision-Language Models
Cristian Sbrolli,Matteo Matteucci,Toshihiko Yamasaki
Main category: cs.CV
TL;DR: Auto-Comp是一个自动化合成基准生成框架,用于评估视觉语言模型在组合推理中的缺陷,特别是颜色绑定和空间关系理解方面的失败。
- Motivation: 现代视觉语言模型在组合推理中存在严重缺陷,经常混淆"红色立方体和蓝色球体"与"蓝色立方体和红色球体"。需要可控的评估方法来分离视觉和语言根源的失败。
- Method: 引入Auto-Comp自动化合成管道,生成可扩展的基准测试。通过最小化描述和LLM生成的上下文描述生成配对图像,进行受控A/B测试,分离核心绑定能力和视觉语言复杂性。
- Result: 评估20个VLM在颜色绑定和空间关系基准上,发现CLIP和SigLIP模型家族普遍存在组合推理失败。混淆基准揭示模型对低熵干扰物高度敏感,组合失败超出已知的词袋限制。发现视觉语言上下文在帮助空间推理的同时会阻碍局部属性绑定。
- Conclusion: 视觉语言模型存在深层的组合推理缺陷,需要更精细的评估方法。Auto-Comp框架和基准的发布将促进未来基准创建和模型改进。
[238] Multi-View Stenosis Classification Leveraging Transformer-Based Multiple-Instance Learning Using Real-World Clinical Data
Nikola Cenikj,Özgün Turgut,Alexander Müller,Alexander Steger,Jan Kehrer,Marcus Brugger,Daniel Rueckert,Eimo Martens,Philip Müller
Main category: cs.CV
TL;DR: SegmentMIL:基于Transformer的多视角多示例学习框架,用于患者级冠状动脉狭窄分类,无需视角级标注,仅需患者级监督即可同时预测狭窄存在并定位病变区域
- Motivation: 冠状动脉狭窄是心血管疾病的主要原因,现有深度学习模型依赖昂贵的视角级标注,且无法捕捉多视角间的时序动态和依赖关系,这些在临床诊断中至关重要
- Method: 提出SegmentMIL框架,基于Transformer的多视角多示例学习方法,仅使用患者级监督训练,无需任何视角级标注,能够联合预测狭窄存在并定位受影响解剖区域(区分左右冠状动脉及其分段)
- Result: 在内部和外部评估中均获得高性能,优于视角级模型和经典MIL基线,展示了作为临床可行且可扩展的冠状动脉狭窄诊断解决方案的潜力
- Conclusion: SegmentMIL通过患者级监督实现多视角冠状动脉狭窄分析,无需昂贵标注,性能优越,具有临床实用性和可扩展性
[239] UrbanGS: A Scalable and Efficient Architecture for Geometrically Accurate Large-Scene Reconstruction
Changbai Li,Haodong Zhu,Hanlin Chen,Xiuping Liang,Tongfei Chen,Shuwei Shao,Linlin Yang,Huobin Tan,Baochang Zhang
Main category: cs.CV
TL;DR: UrbanGS:针对大规模城市场景的3D高斯泼溅扩展框架,通过深度一致正则化和自适应高斯剪枝解决几何一致性、内存效率和计算可扩展性问题
- Motivation: 3D高斯泼溅(3DGS)在有限场景中能实现高质量实时渲染,但扩展到大规模城市场景时面临几何一致性、内存效率和计算可扩展性等关键挑战
- Method: 1. 深度一致D-Normal正则化模块:结合D-Normal约束与外部深度监督,通过自适应置信度加权机制增强多视角深度对齐;2. 空间自适应高斯剪枝策略:基于局部几何复杂度和可见性动态调整高斯密度;3. 统一分区和视角分配方案:消除边界伪影并优化计算负载
- Result: 在多个城市数据集上的实验表明,UrbanGS在渲染质量、几何精度和内存效率方面均取得优越性能,为高保真大规模场景重建提供了系统解决方案
- Conclusion: UrbanGS通过创新的几何正则化、自适应剪枝和分区策略,成功解决了3DGS在大规模城市场景中的关键挑战,实现了高质量、高效的大规模场景重建
[240] FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent Space
FSVideo Team,Qingyu Chen,Zhiyuan Fang,Haibin Huang,Xinwei Huang,Tong Jin,Minxuan Lin,Bo Liu,Celong Liu,Chongyang Ma,Xing Mei,Xiaohui Shen,Yaojie Shen,Fuwen Tan,Angtian Wang,Xiao Yang,Yiding Yang,Jiamin Yuan,Lingxi Zhang,Yuxin Zhang
Main category: cs.CV
TL;DR: FSVideo是一个基于Transformer的快速图像到视频扩散框架,通过高度压缩的潜在空间、改进的扩散Transformer架构和多分辨率生成策略,在保持竞争力的同时实现了一个数量级的加速。
- Motivation: 开发一个快速高效的图像到视频生成框架,在保持生成质量的同时显著提升生成速度,解决现有方法速度慢的问题。
- Method: 1) 使用高度压缩的潜在空间(64×64×4时空下采样比)的新视频自编码器;2) 采用带有层内存设计的扩散Transformer架构,增强层间信息流和上下文重用;3) 通过多分辨率生成策略,使用少量步数的DIT上采样器提高视频保真度。
- Result: 最终模型包含140亿参数的DIT基础模型和140亿参数的DIT上采样器,在与其他流行开源模型的竞争中表现出竞争力,同时速度快一个数量级。
- Conclusion: FSVideo框架通过创新的架构设计和训练策略,在图像到视频生成任务中实现了速度与质量的良好平衡,为快速视频生成提供了有效的解决方案。
[241] Teacher-Guided Student Self-Knowledge Distillation Using Diffusion Model
Yu Wang,Chuanguang Yang,Zhulin An,Weilun Feng,Jiarui Zhao,Chengqing Yu,Libo Huang,Boyu Diao,Yongjun Xu
Main category: cs.CV
TL;DR: 提出DSKD方法,通过教师引导的学生扩散自蒸馏,利用教师分类器指导去噪过程,并使用LSH引导的特征蒸馏,消除师生特征分布差异,提升知识蒸馏效果。
- Motivation: 现有知识蒸馏方法通常通过特征处理和损失函数对齐师生特征信息,但由于师生特征分布差异,学生模型可能从教师学习到不兼容的信息。
- Method: 提出教师引导的学生扩散自蒸馏(DSKD):1) 利用教师分类器指导轻量扩散模型对学生特征进行去噪采样;2) 提出基于局部敏感哈希(LSH)的特征蒸馏方法,在原始学生特征和去噪学生特征之间进行蒸馏。
- Result: 在视觉识别任务上的实验表明,DSKD在各种模型和数据集上显著优于现有知识蒸馏方法。
- Conclusion: DSKD方法能够消除师生映射方式和特征分布差异,同时从教师学习有意义的知识,提高知识蒸馏效果。
[242] Enhancing Diffusion-Based Quantitatively Controllable Image Generation via Matrix-Form EDM and Adaptive Vicinal Training
Xin Ding,Yun Chen,Sen Zhang,Kao Zhang,Nenglun Chen,Peibei Cao,Yongwei Wang,Fei Wu
Main category: cs.CV
TL;DR: iCCDM是CCDM的改进版本,采用先进的EDM框架和自适应邻域训练策略,在连续回归标签条件下生成高质量图像,显著提升生成质量和采样效率。
- Motivation: 原始CCDM虽然优于先前方法,但仍存在局限性:依赖过时的扩散框架、采样效率低(需要长采样轨迹),且最近被GAN方法CcGAN-AVAR超越。需要改进生成质量和采样效率。
- Method: 提出iCCDM框架,整合先进的Elucidated Diffusion Model (EDM)框架并进行重大修改。引入新颖的矩阵形式EDM公式和自适应邻域训练策略。
- Result: 在四个基准数据集(图像分辨率从64×64到256×256)上,iCCDM一致优于现有方法,包括最先进的大规模文本到图像扩散模型(如Stable Diffusion 3、FLUX.1、Qwen-Image),实现更高的生成质量同时显著降低采样成本。
- Conclusion: iCCDM通过整合先进的EDM框架和自适应训练策略,成功解决了CCDM的局限性,在连续条件图像生成任务中实现了更好的性能和效率。
[243] MLV-Edit: Towards Consistent and Highly Efficient Editing for Minute-Level Videos
Yangyi Cao,Yuanhang Li,Lan Chen,Qi Mao
Main category: cs.CV
TL;DR: MLV-Edit是一个无需训练、基于光流的分钟级视频编辑框架,通过分段编辑策略解决长视频处理中的计算开销和时序一致性问题。
- Motivation: 现有视频编辑技术擅长处理短视频,但在扩展到长时长视频时面临挑战:计算开销过大,难以在数千帧之间保持全局时序一致性。
- Method: 采用分而治之的分段编辑策略,包含两个核心模块:Velocity Blend通过对齐相邻片段的光流场来修正运动不一致性;Attention Sink将局部片段特征锚定到全局参考帧,抑制累积结构漂移。
- Result: 大量定量和定性实验表明,MLV-Edit在时序稳定性和语义保真度方面持续优于最先进的方法。
- Conclusion: MLV-Edit提供了一个有效的训练无关框架,成功解决了分钟级视频编辑中的关键挑战,实现了高质量的长视频编辑。
[244] Toxicity Assessment in Preclinical Histopathology via Class-Aware Mahalanobis Distance for Known and Novel Anomalies
Olga Graf,Dhrupal Patel,Peter Groß,Charlotte Lempp,Matthias Hein,Fabian Heinemann
Main category: cs.CV
TL;DR: 基于AI的组织病理学异常检测框架,用于啮齿动物肝脏毒性研究,能识别已知病理和罕见未知病理
- Motivation: 药物毒性是临床前开发和早期临床试验失败的主要原因。组织病理学评估依赖专家,成为大规模筛选的瓶颈,需要自动化解决方案
- Method: 1) 创建像素级标注的健康组织和已知病理数据集;2) 使用DINOv2 Vision Transformer通过LoRA进行微调,实现组织分割;3) 使用马氏距离提取特征进行OOD检测;4) 提出类别特定阈值优化方法
- Result: 仅0.16%的病理组织被误判为健康,0.35%的健康组织被误判为病理。在已知毒理学发现的鼠标肝脏WSIs中准确检测异常,包括罕见OOD形态
- Conclusion: AI驱动的组织病理学在支持临床前工作流程、减少后期失败和提高药物开发效率方面具有巨大潜力
[245] Eliminating Registration Bias in Synthetic CT Generation: A Physics-Based Simulation Framework
Lukas Zimmermann,Michael Rauter,Maximilian Schmid,Dietmar Georg,Barbara Knäusl
Main category: cs.CV
TL;DR: 该研究提出使用基于物理的CBCT模拟生成几何对齐的训练数据对,并采用几何对齐指标而非传统强度指标进行模型评估,以解决CBCT到sCT转换中注册偏差对训练和评估的影响。
- Motivation: 传统监督式CBCT到sCT生成方法需要配准的训练数据对,但独立扫描之间的完美配准无法实现。这种配准偏差会传播到训练模型中,并污染标准评估指标,导致更好的基准性能可能只是更好地复制了配准伪影而非真实的解剖保真度。
- Method: 提出基于物理的CBCT模拟方法,通过构造提供几何对齐的训练数据对,避免配准偏差。评估时使用几何对齐指标(如归一化互信息)对比输入CBCT,而非使用有偏差的ground truth进行强度指标评估。
- Result: 在两个独立的盆腔数据集上,使用合成数据训练的模型获得了更好的几何对齐(归一化互信息:0.31 vs 0.22),尽管传统强度指标得分较低。强度指标与临床评估呈现负相关,而归一化互信息始终能预测观察者偏好(rho=0.31, p<0.001)。临床观察者在87%的案例中更偏好合成数据训练的输出。
- Conclusion: 几何保真度而非与有偏差ground truth的强度一致性,更符合临床需求。基于物理的CBCT模拟结合几何对齐评估指标,能够产生临床更偏好的sCT图像,解决了传统方法中配准偏差带来的问题。
[246] Deep learning enables urban change profiling through alignment of historical maps
Sidi Wu,Yizi Chen,Maurizio Gribaudi,Konrad Schindler,Clément Mallet,Julien Perret,Lorenz Hurni
Main category: cs.CV
TL;DR: 提出一个基于深度学习的全自动框架,用于从历史地图系列中提取细粒度城市变化信息,包括密集地图对齐、多时相目标检测和变化分析模块
- Motivation: 历史地图提供了城市长期转型的独特记录,但传统方法受限于空间错位、制图差异和文档质量退化,难以提取一致且细粒度的变化信息
- Method: 采用模块化设计的深度学习框架,集成密集地图对齐、多时相目标检测和变化分析三个核心模块,实现从历史地图到定量城市变化表征的自动化流程
- Result: 框架在巴黎1868-1937年的历史地图上成功应用,揭示了城市转型的空间和时间异质性,对齐和目标检测方法表现出稳健性能
- Conclusion: 该框架将历史地图分析从临时视觉比较转向系统定量表征,模块化设计支持适应不同制图背景和下游应用,对社会科学和人文研究具有重要价值
[247] LoopViT: Scaling Visual ARC with Looped Transformers
Wen-Jie Shu,Xuerui Qiu,Rui-Jie Zhu,Harold Haodong Chen,Yexin Liu,Harry Yang
Main category: cs.CV
TL;DR: 提出Loop-ViT递归架构,通过权重共享的循环解耦推理深度与模型容量,引入基于预测熵的动态退出机制,在ARC-AGI基准上以更小参数取得更好性能
- Motivation: 现有视觉推理方法使用前馈架构,其计算深度严格受限于参数规模,无法捕捉人类归纳的迭代算法特性,需要更高效的推理架构
- Method: 提出Loop-ViT递归架构,使用权重共享的混合块(局部卷积+全局注意力)迭代形成潜在思维链,引入基于预测熵的动态退出机制自动停止推理
- Result: 在ARC-AGI-1基准上,18M参数的Loop-ViT达到65.8%准确率,优于73M参数的大型集成模型,证明自适应迭代计算比单纯增加网络宽度更高效
- Conclusion: 自适应迭代计算为视觉推理提供了比增加网络宽度更高效的扩展轴,权重共享递归架构能更好地捕捉人类归纳的算法特性
[248] Reg4Pru: Regularisation Through Random Token Routing for Token Pruning
Julian Wyatt,Ronald Clark,Irina Voiculescu
Main category: cs.CV
TL;DR: Reg4Pru是一种训练正则化技术,用于缓解Transformer模型在分割任务中因token剪枝导致的性能下降问题,在保持计算效率的同时显著提升分割精度。
- Motivation: Transformer在视觉模型中广泛应用,但其计算复杂度随token数量呈二次方增长。现有token剪枝方法虽然提高了计算效率,但会导致保留的表征稳定性下降,从而影响深层网络的密集预测性能,特别是在分割任务中。
- Method: 提出Reg4Pru训练正则化技术,专门针对token剪枝策略进行优化。该方法通过正则化手段缓解token剪枝带来的性能损失,保持模型在分割任务中的表现。
- Result: 在FIVES血管分割数据集上,使用Reg4Pru的模型相比无路由训练的相同模型,平均精度绝对提升46%。在实现29%相对加速(相比非剪枝基线)的配置下,仍能显著提升性能。
- Conclusion: Reg4Pru是token减少策略中有价值的正则化方法,能够在保持计算效率的同时显著提升分割任务的性能,为Transformer模型的计算优化提供了有效解决方案。
[249] Lung Nodule Image Synthesis Driven by Two-Stage Generative Adversarial Networks
Lu Cao,Xiquan He,Junying Zeng,Chaoyun Mai,Min Luo
Main category: cs.CV
TL;DR: 提出TSGAN两阶段生成对抗网络,通过解耦肺结节形态结构和纹理特征,增强合成数据的多样性和空间可控性,提升检测模型性能。
- Motivation: 现有肺结节CT数据集样本量有限、多样性不足,限制了检测模型的性能和泛化能力。现有生成方法存在多样性不足、可控性差、纹理特征单调和解剖结构扭曲等问题。
- Method: 采用两阶段生成对抗网络:第一阶段使用StyleGAN生成语义分割掩码图像,编码肺结节和组织背景以控制解剖结构;第二阶段使用DL-Pix2Pix模型将掩码图转换为CT图像,采用局部重要性注意力捕获局部特征,同时利用动态权重多头窗口注意力增强肺结节纹理和背景建模能力。
- Result: 在LUNA16数据集上,相比原始数据集,准确率提升4.6%,mAP提升4%。实验结果表明TSGAN能够增强合成图像质量和检测模型性能。
- Conclusion: TSGAN通过解耦形态结构和纹理特征的两阶段生成方法,有效解决了肺结节CT数据多样性不足的问题,提高了合成数据的质量和检测模型的性能。
[250] CIEC: Coupling Implicit and Explicit Cues for Multimodal Weakly Supervised Manipulation Localization
Xinquan Yu,Wei Lu,Xiangyang Luo
Main category: cs.CV
TL;DR: 提出CIEC框架,通过耦合隐式和显式线索,实现仅需粗粒度图像/句子级标注的多模态弱监督篡改定位,在多个评估指标上达到与全监督方法相当的效果。
- Motivation: 当前多模态篡改定位方法依赖昂贵且耗时的细粒度标注(如补丁/标记级标注),需要开发仅需粗粒度标注的弱监督方法。
- Method: 提出CIEC框架,包含图像和文本两个弱监督定位分支:1)图像分支使用TRPS模块,结合视觉和文本线索锁定可疑区域,并通过背景抑制和空间对比约束减少干扰;2)文本分支使用VCTG模块,关注内容词并利用相对视觉偏差辅助标记定位,通过非对称稀疏和语义一致性约束缓解标签噪声。
- Result: 大量实验证明CIEC的有效性,在多个评估指标上取得与全监督方法相当的结果。
- Conclusion: CIEC框架通过耦合隐式和显式线索,成功实现了仅需粗粒度标注的多模态弱监督篡改定位,为降低标注成本提供了有效解决方案。
[251] Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models
Yu Zeng,Wenxuan Huang,Zhen Fang,Shuang Chen,Yufan Shen,Yishuo Cai,Xiaoman Wang,Zhenfei Yin,Lin Chen,Zehui Chen,Shiting Huang,Yiming Zhao,Yao Hu,Philip Torr,Wanli Ouyang,Shaosheng Cao
Main category: cs.CV
TL;DR: 该论文提出了Vision-DeepResearch基准(VDR-Bench),包含2000个VQA实例,用于评估多模态大语言模型在视觉-文本深度研究系统中的搜索能力,并提出了多轮裁剪搜索工作流程来提升模型性能。
- Motivation: 现有评估基准存在两个主要问题:1)不是以视觉搜索为中心,答案经常通过文本问题中的跨文本线索泄露,或者可以从当前MLLMs的先验知识中推断;2)评估场景过于理想化,图像搜索可以通过近似完全匹配获取信息,文本搜索则过于直接且挑战性不足。
- Method: 构建了VDR-Bench基准,包含2000个VQA实例,通过精心设计的多阶段筛选流程和严格的专家评审创建。同时提出了一个简单的多轮裁剪搜索工作流程,以解决当前MLLMs视觉检索能力不足的问题。
- Result: 提出的多轮裁剪搜索策略被证明能有效提升模型在真实视觉检索场景中的性能。研究结果为未来多模态深度研究系统的设计提供了实用指导。
- Conclusion: VDR-Bench基准解决了现有评估方法的局限性,为评估视觉-文本深度研究系统在真实世界条件下的行为提供了更好的工具,同时提出的多轮裁剪搜索工作流程提升了模型的视觉检索能力。
[252] Learning Topology-Aware Implicit Field for Unified Pulmonary Tree Modeling with Incomplete Topological Supervision
Ziqiao Weng,Jiancheng Yang,Kangxian Xie,Bo Zhou,Weidong Cai
Main category: cs.CV
TL;DR: TopoField:一种拓扑感知的隐式建模框架,用于修复CT图像中肺树拓扑不完整问题,同时支持解剖标记和肺段重建的多任务推理。
- Motivation: CT图像提取的肺树常存在拓扑不完整问题(如缺失或断开的支气管分支),这会严重影响下游解剖分析,而现有方法依赖密集体积处理或显式图推理,效率低且对结构损坏鲁棒性差。
- Method: 使用稀疏表面和骨架点云表示肺解剖结构,学习连续隐式场来修复拓扑,无需完整或显式断开标注,通过在已有不完整树上引入合成结构破坏进行训练。基于修复的隐式表示,通过任务特定的隐式函数在单次前向传播中联合推断解剖标记和肺段重建。
- Result: 在Lung3D+数据集上的实验表明,TopoField能持续改善拓扑完整性,在挑战性不完整场景下实现准确的解剖标记和肺段重建。由于其隐式表示,计算效率高,每个病例仅需1秒多完成所有任务。
- Conclusion: TopoField将拓扑修复作为首要建模问题,实现了高效、鲁棒的肺树分析,适用于大规模和时间敏感的临床应用。
[253] SSI-DM: Singularity Skipping Inversion of Diffusion Models
Chen Min,Enze Jiang,Jishen Peng,Zheng Ma
Main category: cs.CV
TL;DR: 提出SSI-DM方法,通过跳过数学奇点区域解决扩散模型反演中的非高斯噪声问题,实现更好的图像编辑效果
- Motivation: 现有扩散模型反演方法在早期去噪步骤中存在不准确性,导致生成非高斯噪声,影响图像编辑效果。研究发现根本原因是数学奇点使得反演问题本质上不适定。
- Method: 提出SSI-DM方法,通过在标准反演前添加少量噪声来绕过奇点区域,从而产生具有自然高斯特性的反演噪声,同时保持重建保真度。
- Result: 该方法作为即插即用技术,在公共图像数据集上实现了重建和插值任务的优越性能,为扩散模型反演提供了原则性高效解决方案。
- Conclusion: SSI-DM通过跳过数学奇点区域,有效解决了扩散模型反演中的非高斯噪声问题,显著提升了图像编辑效果和反演质量。
[254] MAIN-VLA: Modeling Abstraction of Intention and eNvironment for Vision-Language-Action Models
Zheyuan Zhou,Liang Du,Zixun Sun,Xiaoyu Zhou,Ruimin Ye,Qihao Chen,Yinda Chen,Lemiao Qiu
Main category: cs.CV
TL;DR: MAIN-VLA框架通过意图抽象和环境语义抽象,在复杂动态环境中实现深度语义对齐的决策,显著提升决策质量、泛化能力和推理效率。
- Motivation: 现有视觉-语言-动作方法在复杂动态环境(如3D开放世界和大规模PvP游戏)中,难以从冗余传感器流中提取动作关键信号,决策效率低下。
- Method: 提出MAIN-VLA框架,包含意图抽象(将冗长语言指令压缩为显式语义原语)和环境语义抽象(将视觉流投影为结构化拓扑可供性表示),通过模态对齐实现注意力集中和参数无关的令牌剪枝。
- Result: 在开放世界Minecraft和大规模PvP环境(Game for Peace和Valorant)中达到新的SOTA,实现更优决策质量、更强泛化能力和顶尖推理效率。
- Conclusion: MAIN-VLA通过显式建模意图和环境抽象,实现深度语义对齐而非表面模式匹配,有效解决复杂动态环境中的决策效率问题。
[255] Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation
Hongzhou Zhu,Min Zhao,Guande He,Hang Su,Chongxuan Li,Jun Zhu
Main category: cs.CV
TL;DR: 提出Causal Forcing方法,使用自回归教师进行ODE初始化,解决双向视频扩散模型蒸馏到自回归模型时的架构差距问题,显著提升实时交互视频生成性能。
- Motivation: 当前方法将预训练的双向视频扩散模型蒸馏为少步自回归模型时存在架构差距,现有方法没有理论上的解决方案。ODE蒸馏需要帧级单射性条件,但双向教师蒸馏到自回归学生违反了这一条件,导致性能下降。
- Method: 提出Causal Forcing方法,使用自回归教师进行ODE初始化,从而弥合架构差距。通过自回归教师确保满足帧级单射性条件,恢复教师的流映射。
- Result: 实验结果表明,该方法在所有指标上均优于所有基线,在Dynamic Degree上超越SOTA Self Forcing 19.3%,在VisionReward上超越8.7%,在Instruction Following上超越16.7%。
- Conclusion: Causal Forcing通过使用自回归教师进行ODE初始化,有效解决了双向视频扩散模型蒸馏到自回归模型时的理论问题,显著提升了实时交互视频生成的性能。
[256] LangMap: A Hierarchical Benchmark for Open-Vocabulary Goal Navigation
Bo Miao,Weijia Liu,Jun Luo,Lachlan Shinnick,Jian Liu,Thomas Hamilton-Smith,Yuhe Yang,Zijie Wu,Vanja Videnovic,Feras Dayoub,Anton van den Hengel
Main category: cs.CV
TL;DR: HieraNav是一个多粒度、开放词汇的目标导航任务,要求智能体根据自然语言指令在四个语义层次(场景、房间、区域、实例)上导航。作者提出了LangMap基准,基于真实3D室内扫描构建,包含人类验证的标注和任务,用于评估语言驱动的具身导航。
- Motivation: 物体与语言之间的关系对于人类与AI之间的有意义通信以及实际有用的具身智能至关重要。现有导航任务通常局限于特定粒度或词汇,缺乏多粒度、开放词汇的评估框架。
- Method: 提出了HieraNav任务框架,包含四个语义层次的导航目标。构建了LangMap基准数据集,基于真实3D室内扫描,包含区域标签、区分性区域描述、覆盖414个对象类别的区分性实例描述,以及超过18K个导航任务。每个目标都有简洁和详细两种描述方式。
- Result: LangMap在标注质量上显著优于GOAT-Bench,使用四分之一单词数的情况下区分性准确率提高23.8%。评估显示:更丰富的上下文和记忆能提高成功率,但长尾、小型、上下文依赖、远距离目标以及多目标完成仍然具有挑战性。
- Conclusion: HieraNav和LangMap为推进语言驱动的具身导航建立了一个严格的测试平台,支持多粒度、开放词汇的导航能力评估。
[257] MIRROR: Manifold Ideal Reference ReconstructOR for Generalizable AI-Generated Image Detection
Ruiqi Liu,Manni Cui,Ziheng Qin,Zhiyuan Yan,Ruoxin Chen,Yi Han,Zhiheng Li,Junkai Chen,ZhiJin Chen,Kaiqing Lin,Jialiang Shen,Lubin Weng,Jing Dong,Yan Wang,Shu Wu
Main category: cs.CV
TL;DR: MIRROR将AI生成图像检测重新定义为参考比较问题,通过可学习的离散记忆库编码现实先验,利用流形一致性残差作为检测信号,在多个基准测试中超越现有方法,并在人类感知极限测试中接近人类专家水平。
- Motivation: 现有AI生成图像检测器主要依赖基于伪影的分类方法,难以适应不断演化的生成痕迹。相比之下,人类判断依赖于稳定的现实世界规律,偏离人类认知流形可作为更通用的伪造信号。因此需要一种能验证与真实图像流形一致性的检测方法。
- Method: 提出MIRROR框架,将AIGI检测重新定义为参考比较问题。使用可学习的离散记忆库显式编码现实先验,通过稀疏线性组合将输入投影到流形一致性的理想参考,利用生成的残差作为鲁棒检测信号。
- Result: 在14个基准测试中,MIRROR持续优于先前方法:在6个标准基准上提升2.1%,在7个野外基准上提升8.1%。在Human-AIGI基准上,MIRROR在27个生成器上达到89.6%准确率,超越普通用户和视觉专家,并随着预训练骨干网络规模扩大进一步接近人类感知极限。
- Conclusion: MIRROR通过将AIGI检测重新定义为参考比较问题,利用流形一致性验证而非特定伪造线索拟合,实现了更通用和鲁棒的检测性能,接近人类专家水平,为媒体安全提供了有效解决方案。
[258] Evaluating OCR Performance for Assistive Technology: Effects of Walking Speed, Camera Placement, and Camera Type
Junchi Feng,Nikhil Ballem,Mahya Beheshti,Giles Hamilton-Fletcher,Todd Hudson,Maurizio Porfiri,William H. Seiple,John-Ross Rizzo
Main category: cs.CV
TL;DR: 系统评估OCR在静态和动态条件下的性能,发现行走速度和视角增加会降低识别准确率,Google Vision表现最佳,手机主摄像头和肩部佩戴位置效果最好
- Motivation: 当前OCR评估主要依赖静态数据集,未能反映移动使用中的实际挑战,特别是为视障人士设计的辅助技术需要在实际动态环境中测试性能
- Method: 采用静态测试(1-7米距离,0-75度水平视角)和动态测试(0.8-1.8米/秒行走速度,头戴、肩戴、手持三种相机位置),评估智能手机和智能眼镜,使用四种OCR引擎(Google Vision、PaddleOCR 3.0、EasyOCR、Tesseract),以字符级Levenshtein比率计算准确率
- Result: 识别准确率随行走速度增加和视角变宽而下降;Google Vision整体准确率最高,PaddleOCR是最强的开源替代方案;手机主摄像头准确率最高,肩部佩戴位置在身体位置中平均表现最佳,但肩、头、手之间的差异无统计学显著性
- Conclusion: OCR性能在动态移动条件下显著下降,实际应用中需要考虑行走速度和视角因素,Google Vision和PaddleOCR 3.0是可靠选择,肩部佩戴位置可能是最佳实践
[259] Show, Don't Tell: Morphing Latent Reasoning into Image Generation
Harold Haodong Chen,Xinxiang Yin,Wen-Jie Shu,Hongfei Zhang,Zixin Zhang,Chenfei Liao,Litao Guo,Qifeng Chen,Ying-Cong Chen
Main category: cs.CV
TL;DR: LatentMorph是一个在潜在空间中执行隐式推理的文本到图像生成框架,通过四个轻量级组件实现自适应推理,显著提升生成质量、推理能力和效率。
- Motivation: 现有文本到图像生成方法缺乏动态推理和精炼能力,而显式推理范式存在效率低下、信息丢失和认知不匹配的问题。需要一种能在连续潜在空间中执行隐式推理的方法。
- Method: 提出LatentMorph框架,包含四个组件:1) 冷凝器将中间生成状态压缩为视觉记忆;2) 翻译器将潜在思想转换为可操作指导;3) 塑形器动态引导下一个图像标记预测;4) 强化学习训练的调用器自适应决定何时调用推理。
- Result: 1) 在Janus-Pro基础上提升16% (GenEval)和25% (T2I-CompBench);2) 在抽象推理任务上超越显式范式15-11%;3) 减少44%推理时间和51%标记消耗;4) 与人类直觉的认知对齐度达71%。
- Conclusion: LatentMorph通过在连续潜在空间中执行隐式推理,解决了显式推理范式的瓶颈,实现了更高效、自适应和认知对齐的文本到图像生成。
[260] LiFlow: Flow Matching for 3D LiDAR Scene Completion
Andrea Matteazzi,Dietmar Tutsch
Main category: cs.CV
TL;DR: 首个基于流匹配的3D LiDAR场景补全方法,通过确保训练和推理初始分布一致性,超越扩散方法,在多个指标上达到SOTA
- Motivation: 自动驾驶场景中,LiDAR点云常受遮挡和远距离稀疏性影响,现有扩散方法存在训练与推理初始分布不匹配问题
- Method: 提出LiFlow框架,采用流匹配方法,结合最近邻流匹配损失和Chamfer距离损失,提升点云的局部结构和全局覆盖对齐
- Result: 在多个指标上达到最先进性能,超越了基于扩散的方法
- Conclusion: 流匹配框架解决了扩散方法中的初始分布不匹配问题,为3D LiDAR场景补全提供了更有效的解决方案
[261] Enhancing Indoor Occupancy Prediction via Sparse Query-Based Multi-Level Consistent Knowledge Distillation
Xiang Li,Yupeng Zheng,Pengfei Li,Yilun Chen,Ya-Qin Zhang,Wenchao Ding
Main category: cs.CV
TL;DR: DiScene:一种基于稀疏查询的占用预测框架,通过多层次知识蒸馏实现高效鲁棒的占用预测,在多个基准测试中达到SOTA性能
- Motivation: 当前占用预测方法面临效率与准确性的权衡:密集方法在空体素上浪费计算资源,而稀疏查询方法在复杂室内场景中缺乏鲁棒性。需要一种既能保持高效性又能提升鲁棒性的新方法。
- Method: 提出DiScene框架,包含两个关键创新:1)多层次一致知识蒸馏策略,通过四个层次(编码器级特征对齐、查询级特征匹配、先验级空间引导、锚点级高置信度知识转移)将大型教师模型的层次表示转移到轻量级学生模型;2)教师引导初始化策略,使用优化参数预热加速模型收敛。
- Result: 在Occ-Scannet基准测试中,DiScene达到23.2 FPS(无深度先验),比基线方法OPUS提升36.1%,甚至优于深度增强版本OPUS†。集成深度信息后,DiScene†超越EmbodiedOcc 3.7%,推理速度提升1.62倍。在Occ3D-nuScenes基准测试和真实场景中也表现出良好的泛化能力。
- Conclusion: DiScene通过多层次知识蒸馏和教师引导初始化,实现了高效且鲁棒的占用预测,在多个基准测试中达到最先进性能,展示了在多样化环境中的良好适用性。
[262] VQ-Style: Disentangling Style and Content in Motion with Residual Quantized Representations
Fatemeh Zargarbashi,Dhruv Agrawal,Jakob Buhmann,Martin Guay,Stelian Coros,Robert W. Sumner
Main category: cs.CV
TL;DR: 提出基于RVQ-VAE的层次化运动表示方法,通过对比学习和信息泄露损失实现风格与内容的解耦,利用量化代码交换技术实现无需微调的实时风格迁移
- Motivation: 人类运动数据同时包含语义内容和细微风格特征,现有方法难以有效解耦这两者以实现高质量的风格迁移
- Method: 采用残差向量量化变分自编码器(RVQ-VAE)学习从粗到细的运动表示,结合对比学习和信息泄露损失组织不同码本中的内容和风格,通过量化代码交换技术实现推理时的风格迁移
- Result: 框架在风格迁移、风格移除和运动混合等多种推理应用中表现出强大的多功能性,能够处理未见过的风格而无需微调
- Conclusion: 提出的层次化解耦方法有效分离了运动中的内容和风格,量化代码交换技术为实时风格迁移提供了简单有效的解决方案
[263] LongVPO: From Anchored Cues to Self-Reasoning for Long-Form Video Preference Optimization
Zhenpeng Huang,Jiaqi Li,Zihan Jia,Xinhao Li,Desen Meng,Lingxue Song,Xi Chen,Liang Li,Limin Wang
Main category: cs.CV
TL;DR: LongVPO是一个两阶段直接偏好优化框架,使短上下文视觉语言模型能够理解超长视频,无需长视频标注,仅用16K合成数据就在多个长视频基准上超越最先进开源模型。
- Motivation: 现有视觉语言模型主要针对短视频设计,难以处理超长视频理解任务,而获取长视频标注数据成本高昂,需要开发无需长视频标注的高效长视频理解方法。
- Method: 采用两阶段框架:第一阶段合成偏好三元组,通过锚定问题到短片段、插入干扰项、视觉相似性和问题特异性过滤来减轻位置偏差;第二阶段使用递归字幕生成场景级元数据,通过大语言模型创建多段推理查询和不受偏好响应,进行多段推理任务对齐。
- Result: 仅使用16K合成示例且无需人工标注,LongVPO在多个长视频基准测试中超越了最先进的开源模型,同时在短视频性能(如MVBench)上保持强劲表现。
- Conclusion: LongVPO为高效长视频理解提供了一个可扩展的范式,通过合成数据和两阶段优化实现了无需昂贵长视频标注的鲁棒长视频理解能力。
[264] Implicit neural representation of textures
Albert Kwok,Zheyuan Hu,Dounia Hammou
Main category: cs.CV
TL;DR: 该研究探索了将不同神经网络设计为连续纹理隐式神经表示(INR)的方法,在图像质量、内存使用和渲染推理时间之间取得平衡,并应用于实时渲染和下游任务。
- Motivation: 隐式神经表示(INR)已在多个领域证明其准确性和效率,但传统纹理表示通常是离散的。本研究旨在探索如何将神经网络设计为连续纹理INR,以替代离散的UV坐标空间表示。
- Method: 设计不同类型的神经网络作为新的纹理INR,这些网络在输入UV坐标空间上以连续方式操作,而非离散方式。通过大量实验评估不同网络架构的性能。
- Result: 实验表明这些INR在图像质量方面表现良好,同时具有相当的内存使用效率和渲染推理时间。研究分析了图像质量、内存使用和推理时间之间的平衡关系。
- Conclusion: 连续纹理INR在实时渲染和下游任务中具有应用潜力,如mipmap拟合和INR空间生成,为纹理表示提供了新的连续范式。
[265] NAB: Neural Adaptive Binning for Sparse-View CT reconstruction
Wangduo Xie,Matthew B. Blaschko
Main category: cs.CV
TL;DR: 提出NAB方法,通过自适应分箱机制将矩形先验整合到稀疏视图CT重建中,利用双曲正切函数差异实现可旋转的分箱编码,端到端优化编码参数提升重建精度。
- Motivation: 工业CT稀疏视图重建对降低成本很重要,但现有隐式神经网络方法无法利用物体的形状先验。许多工业物体具有矩形结构,因此需要一种能有效整合矩形先验的重建方法。
- Method: 提出神经自适应分箱(NAB)方法:1) 将坐标空间映射到分箱向量空间;2) 使用基于移位双曲正切函数差异的创新分箱机制,支持绕输入平面法向量旋转;3) 通过神经网络处理表示并预测CT衰减系数;4) 端到端优化编码参数(位置、大小、陡度、旋转)。
- Result: 在两个工业数据集上表现出优越性能,通过调整分箱函数平滑度可泛化到更复杂几何形状的物体,在医学数据集上扩展分箱函数后仍保持鲁棒性。
- Conclusion: NAB为将形状先验整合到基于神经网络的重建提供了新视角,通过自适应分箱机制有效利用矩形先验提升稀疏视图CT重建质量,代码将开源。
[266] Uncertainty-Aware Image Classification In Biomedical Imaging Using Spectral-normalized Neural Gaussian Processes
Uma Meleti,Jeffrey J. Nirschl
Main category: cs.CV
TL;DR: SNGP模型通过谱归一化和高斯过程层改进数字病理学中的不确定性估计和OOD检测,相比确定性模型和MC Dropout表现更优。
- Motivation: 当前数字病理学的深度学习模型在分布外(OOD)场景下往往过于自信且校准不佳,限制了临床信任和采用。医疗影像工作流程需要能够准确拒绝OOD输入的内在不确定性感知特性。
- Method: 实现谱归一化神经高斯过程(SNGP),通过谱归一化和用高斯过程层替换最终密集层来改进单模型不确定性估计和OOD检测。在三个生物医学分类任务(白细胞、淀粉样斑块、结直肠组织病理学)的六个数据集上评估SNGP与确定性模型和蒙特卡洛dropout。
- Result: SNGP在分布内性能相当,同时显著改善了不确定性估计和OOD检测能力。
- Conclusion: SNGP及相关模型为数字病理学中的不确定性感知分类提供了有用框架,支持安全部署并有助于建立与病理学家的信任。
[267] Unified Personalized Reward Model for Vision Generation
Yibin Wang,Yuhang Zang,Feng Han,Jiazi Bu,Yujie Zhou,Cheng Jin,Jiaqi Wang
Main category: cs.CV
TL;DR: 提出UnifiedReward-Flex,一个统一的个性化视觉生成奖励模型,通过上下文自适应推理解决现有奖励模型对内容特定视觉线索不敏感的问题。
- Motivation: 现有多模态奖励模型通常采用一刀切的方法,假设单一偏好分布或依赖固定评估标准,导致对内容特定视觉线索不敏感,与主观和上下文依赖的人类偏好存在系统性错位。
- Method: 1) 首先解释语义意图并基于视觉证据;2) 动态构建分层评估,在预定义和自生成的高层维度下实例化细粒度标准;3) 两阶段训练:从先进闭源VLM蒸馏结构化高质量推理轨迹进行SFT,然后对精心策划的偏好对进行DPO优化。
- Result: 将UnifiedReward-Flex集成到GRPO框架中进行图像和视频合成,广泛结果证明了其优越性。
- Conclusion: UnifiedReward-Flex通过结合奖励建模与灵活上下文自适应推理,解决了现有奖励模型的局限性,实现了更好的个性化视觉生成对齐。
[268] Personalized Image Generation via Human-in-the-loop Bayesian Optimization
Rajalaxmi Rajagopalan,Debottam Dutta,Yu-Lin Wei,Romit Roy Choudhury
Main category: cs.CV
TL;DR: 该论文提出MultiBO方法,利用人类多选偏好反馈来优化个性化图像生成,缩小用户心中目标图像与生成图像之间的差距。
- Motivation: 当用户使用语言提示生成特定图像时,即使经过多轮提示,生成的图像与用户心中目标图像之间仍存在难以用语言描述的差距。人类虽然难以用语言精确描述这种差距,但能判断哪个图像更接近目标。
- Method: 提出MultiBO(多选偏好贝叶斯优化)方法:1)基于当前最佳图像生成K个新图像;2)获取用户偏好反馈(哪个更接近目标);3)利用反馈指导扩散模型;4)生成新的K个图像集。通过B轮用户反馈迭代优化。
- Result: 30名用户的定性评分和与5个基线的定量指标对比显示,MultiBO能显著缩小与目标图像的差距,证明人类多选反馈能有效用于个性化图像生成。
- Conclusion: 即使生成模型没有目标图像的直接信息,通过多轮人类偏好反馈,MultiBO能有效缩小语言提示无法消除的差距,为个性化图像生成提供了新途径。
[269] Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory
Ruiqi Wu,Xuanhua He,Meng Cheng,Tianyu Yang,Yong Zhang,Zhuoliang Kang,Xunliang Cai,Xiaoming Wei,Chunle Guo,Chongyi Li,Ming-Ming Cheng
Main category: cs.CV
TL;DR: Infinite-World:一种鲁棒的交互式世界模型,能在复杂真实世界环境中维持超过1000帧的连贯视觉记忆,通过分层无姿态记忆压缩器和不确定性感知动作标注模块实现高效训练。
- Motivation: 现有世界模型在合成数据上优化良好,但缺乏针对真实世界视频的有效训练范式,主要面临姿态估计噪声和视角重访稀缺的问题。
- Method: 1. 分层无姿态记忆压缩器(HPMC):递归将历史潜在表示蒸馏为固定预算表示,无需显式几何先验;2. 不确定性感知动作标注:将连续运动离散化为三态逻辑,最大化利用原始视频数据;3. 重访密集微调策略:使用30分钟数据集激活长距离闭环能力。
- Result: 通过客观指标和用户研究验证,Infinite-World在视觉质量、动作可控性和空间一致性方面表现优异。
- Conclusion: 该工作提出了一种有效的真实世界视频训练范式,实现了长期连贯的视觉记忆和鲁棒的动作响应学习,为交互式世界模型在复杂环境中的应用奠定了基础。
[270] Superman: Unifying Skeleton and Vision for Human Motion Perception and Generation
Xinshun Wang,Peiming Li,Ziyi Wang,Zhongbin Fang,Zhichao Deng,Songtao Wu,Jason Li,Mengyuan Liu
Main category: cs.CV
TL;DR: Superman是一个统一框架,通过视觉引导的运动分词器和统一MLLM架构,将视觉感知与基于骨架的时序运动生成相结合,解决了运动分析领域的分割问题。
- Motivation: 当前运动分析领域存在严重分割:感知模型只能从视频理解运动但只输出文本,生成模型无法从原始视觉输入感知;生成式MLLM通常局限于使用密集参数化SMPL模型的单帧静态姿态,无法处理时序运动;现有运动词汇仅基于骨架数据构建,与视觉领域脱节。
- Method: 提出两阶段解决方案:1) 视觉引导运动分词器,利用3D骨架与视觉数据之间的自然几何对齐,从两种模态进行联合学习,创建统一的跨模态运动词汇;2) 基于该运动语言,训练单一统一MLLM架构,灵活处理多样化时序输入,统一视频中的3D骨架姿态估计(感知)与基于骨架的运动预测和插值(生成)。
- Result: 在Human3.6M等标准基准测试上的广泛实验表明,该统一方法在所有运动任务上实现了最先进或具有竞争力的性能。
- Conclusion: Superman展示了使用骨架进行生成式运动分析的更高效和可扩展路径,通过统一框架解决了领域分割问题,实现了视觉感知与时序运动生成的结合。
[271] ReasonEdit: Editing Vision-Language Models using Human Reasoning
Jiaxing Qiu,Kaihua Hou,Roxana Daneshjou,Ahmed Alaa,Thomas Hartvigsen
Main category: cs.CV
TL;DR: ReasonEdit:首个允许用户在编辑过程中解释推理的视觉语言模型编辑器,通过代码本存储人类推理,使用基于网络科学的拓扑平衡多模态嵌入方法检索相关事实,在推理型视觉问答任务上实现SOTA编辑性能。
- Motivation: 现有视觉语言模型编辑器无法处理需要复杂推理的任务,这些任务通常需要人类和模型对图像进行推理。因此需要开发能够利用人类推理进行编辑的新方法。
- Method: 提出ReasonEdit编辑器:1)允许用户在编辑过程中解释推理;2)持续将人类推理存储在代码本中;3)使用基于网络科学启发的拓扑平衡多模态嵌入方法,在推理时仅检索相关事实。
- Result: 在四个视觉语言模型和多个基于推理的视觉问答数据集上,ReasonEdit实现了最先进的编辑性能,表明在编辑过程中使用人类推理能显著提升编辑泛化能力。
- Conclusion: ReasonEdit是首个支持用户解释推理的视觉语言模型编辑器,通过结合人类推理和创新的嵌入方法,在推理密集型任务上取得了优异的编辑效果,证明了人类推理在模型编辑中的重要性。
[272] Catalyst: Out-of-Distribution Detection via Elastic Scaling
Abid Hassan,Tuan Ngo,Saad Shafiq,Nenad Medvidovic
Main category: cs.CV
TL;DR: Catalyst是一个后处理OOD检测框架,利用GAP前特征图的原始通道统计信息,通过弹性缩放增强现有基线方法的性能
- Motivation: 现有最先进的后处理方法主要依赖logits或全局平均池化后的特征向量,忽略了GAP前特征图的丰富原始通道统计信息,这些被丢弃的信号具有补充价值
- Method: Catalyst从GAP前特征图的原始统计信息(如均值、标准差、最大激活值)动态计算输入相关的缩放因子γ,然后与现有基线分数进行乘法融合,实现弹性缩放以增大ID和OOD分布的分离度
- Result: Catalyst显著提升了OOD检测性能,在CIFAR-10(ResNet-18)上平均误报率降低32.87%,CIFAR-100(ResNet-18)降低27.94%,ImageNet(ResNet-50)降低22.25%
- Conclusion: GAP前统计信息具有未开发的潜力,Catalyst与现有OOD检测方法互补,是一个通用框架,可无缝集成到logit-based和距离based方法中
[273] SelvaMask: Segmenting Trees in Tropical Forests and Beyond
Simon-Olivier Duguay,Hugo Baudchon,Etienne Laliberté,Helene Muller-Landau,Gonzalo Rivas-Torres,Arthur Ouaknine
Main category: cs.CV
TL;DR: 提出SelvaMask热带森林数据集和基于视觉基础模型的检测-分割流程,显著提升热带森林树冠分割性能
- Motivation: 热带森林树冠对碳储存和生态系统功能至关重要,但现有树冠分割方法在热带森林中性能较低,需要更好的数据集和模型
- Method: 创建包含8,800多个手动标注树冠的SelvaMask数据集,提出基于视觉基础模型的模块化检测-分割流程,使用领域特定的检测提示器
- Result: 在密集热带森林中达到最先进性能,优于零样本通用模型和全监督端到端方法,在外部热带和温带数据集上验证了泛化能力
- Conclusion: SelvaMask既是具有挑战性的基准,也是实现广义森林监测的关键推动者,代码和数据集将公开
[274] UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing
Dianyi Wang,Chaofan Ma,Feng Han,Size Wu,Wei Song,Yibin Wang,Zhixiong Zhang,Tianhang Wang,Siyuan Wang,Zhongyu Wei,Jiaqi Wang
Main category: cs.CV
TL;DR: UniReason是一个统一的多模态推理框架,通过双重推理范式将文本到图像生成和图像编辑整合为相互关联的能力,模仿人类先规划后细化的认知过程。
- Motivation: 现有统一多模态模型在处理需要深度推理的复杂合成任务时存在困难,通常将文本到图像生成和图像编辑视为孤立能力而非相互关联的推理步骤。
- Method: 提出UniReason框架,采用双重推理范式:1) 将生成视为世界知识增强的规划,注入隐式约束;2) 利用编辑能力进行细粒度视觉细化,通过自我反思纠正视觉错误。构建大规模推理中心数据集(约30万样本)覆盖五个主要知识领域,以及代理生成的视觉自我纠正语料库。
- Result: 在WISE、KrisBench和UniREditBench等推理密集型基准测试中取得先进性能,同时保持卓越的通用合成能力。
- Conclusion: UniReason通过统一生成和编辑任务,模仿人类认知过程,有效解决了多模态模型在复杂推理合成任务中的局限性,为多模态推理提供了新框架。
[275] Multi-head automated segmentation by incorporating detection head into the contextual layer neural network
Edwin Kys,Febian Febian
Main category: cs.CV
TL;DR: 提出基于Swin U-Net的门控多头Transformer架构,通过并行检测头进行切片级结构检测,用检测结果门控分割预测,有效抑制解剖无效切片中的假阳性分割。
- Motivation: 深度学习自动分割在放疗中应用广泛,但传统模型常在没有目标结构的切片中产生解剖上不合理的假阳性(幻觉)。
- Method: 基于Swin U-Net的门控多头Transformer架构,增强切片间上下文集成和并行检测头,联合执行切片级结构检测(通过多层感知器)和像素级分割(通过上下文增强流)。检测输出门控分割预测以抑制解剖无效切片中的假阳性,训练使用切片级Tversky损失处理类别不平衡。
- Result: 在Prostate-Anatomical-Edge-Cases数据集上,门控模型显著优于非门控分割基线,平均Dice损失为0.013±0.036 vs 0.732±0.314,检测概率与解剖存在强相关,有效消除虚假分割。非门控模型在所有切片中表现出更高变异性和持续假阳性。
- Conclusion: 检测门控增强了自动分割应用的鲁棒性和解剖合理性,在不影响有效切片分割质量的情况下减少幻觉预测,为提高临床放疗自动勾画工作流程的可靠性提供了有前景的方法。
[276] PixelGen: Pixel Diffusion Beats Latent Diffusion with Perceptual Loss
Zehong Ma,Ruihan Xu,Shiliang Zhang
Main category: cs.CV
TL;DR: PixelGen是一种简单的像素扩散框架,通过感知监督直接在像素空间生成图像,无需VAE或潜在表示,在ImageNet-256上达到FID 5.11,超越了潜在扩散模型。
- Motivation: 现有像素扩散方法难以优化高维像素流形中的感知无关信号,导致性能落后于潜在扩散模型。作者希望开发一个无需VAE、直接在像素空间工作的更简单但更强大的生成范式。
- Method: 提出PixelGen框架,引入两种互补的感知损失来引导扩散模型学习更有意义的感知流形:LPIPS损失促进学习更好的局部模式,DINO-based感知损失增强全局语义。无需VAE、潜在表示或辅助阶段。
- Result: 在ImageNet-256上不使用分类器自由引导仅训练80个epoch达到FID 5.11;在大规模文本到图像生成上获得GenEval分数0.79,超越了强潜在扩散基线。
- Conclusion: PixelGen提供了一个更简单但更强大的生成范式,无需VAE、潜在表示或辅助阶段,通过感知监督直接在像素空间实现高质量图像生成。
cs.CL
[277] Bridging Lexical Ambiguity and Vision: A Mini Review on Visual Word Sense Disambiguation
Shashini Nilukshi,Deshan Sumanathilaka
Main category: cs.CL
TL;DR: 本文回顾了视觉词义消歧(VWSD)的发展,从早期多模态融合方法到基于CLIP对比模型、扩散生成和LLM增强的新框架,展示了该领域从2016到2025年的技术演进和性能提升。
- Motivation: 传统词义消歧(WSD)仅依赖文本和词汇资源,而VWSD通过引入视觉线索来解决视觉语言任务中的词汇歧义问题,能够在最小文本输入的情况下确定歧义词的正确含义。
- Method: 综述了从特征融合、图基方法到对比嵌入技术的演进,重点关注提示工程、微调和多语言适应。特别分析了基于CLIP的微调模型和LLM增强的VWSD系统。
- Result: 基于CLIP的微调模型和LLM增强的VWSD系统在Mean Reciprocal Rank(MRR)上比零样本基线提升6-8%,表现优于传统方法。
- Conclusion: VWSD领域面临上下文限制、模型偏向常见含义、缺乏多语言数据集和评估框架等挑战。未来发展方向是CLIP对齐、扩散生成和LLM推理的融合,以构建更强大、上下文感知和多语言的消歧系统。
[278] Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics
Ziwen Xu,Chenyan Wu,Hengyu Sun,Haiwen Hong,Mengru Wang,Yunzhi Yao,Longtao Huang,Hui Xue,Shumin Deng,Zhixuan Chu,Huajun Chen,Ningyu Zhang
Main category: cs.CL
TL;DR: 本文提出了一个统一框架,将LLM控制方法视为动态权重更新,并引入偏好-效用分析来评估控制效果,发现偏好与效用之间存在权衡关系,最后提出了SPLIT方法来改善这一权衡。
- Motivation: 现有的大语言模型控制方法(如权重微调、LoRA适配、激活干预等)通常被孤立研究,缺乏统一框架进行比较分析,这阻碍了对不同控制方法效果的理解和优化。
- Method: 1. 提出统一框架,将各种控制干预视为由控制信号诱导的动态权重更新;2. 引入偏好-效用分析,在共享对数几率尺度上测量偏好(对目标概念的倾向性)和效用(连贯有效的生成);3. 从激活流形角度解释控制行为;4. 提出新的控制方法SPLIT来改善偏好-效用权衡。
- Result: 发现所有控制方法都存在一致的偏好-效用权衡:更强的控制会增加偏好但会降低效用。从激活流形角度看,控制将表示沿目标概念方向移动以增强偏好,但当干预将表示推离模型的有效生成流形时,效用会下降。
- Conclusion: 通过统一框架揭示了LLM控制方法中普遍存在的偏好-效用权衡,提出的SPLIT方法能够在增强偏好的同时更好地保持效用,为理解和优化语言模型控制提供了新视角。
cs.LG
[279] Lossless Embedding Compression via Spherical Coordinates
Han Xiao
Main category: cs.LG
TL;DR: 提出一种无损压缩单位范数嵌入的方法,实现1.5倍压缩,比现有最佳方法提升25%
- Motivation: 单位范数嵌入在机器学习中广泛使用但占用大量存储空间,需要高效的压缩方法来减少存储和传输成本
- Method: 利用高维单位向量的球坐标集中在π/2附近的特性,使IEEE 754指数位坍缩为单一值,从而启用熵编码
- Result: 在26种配置(涵盖文本、图像和多向量嵌入)的评估中均显示一致改进,实现1.5倍压缩率
- Conclusion: 该方法无需训练,在float32精度内完全无损,为嵌入压缩提供了高效实用的解决方案
[280] Interpreting and Controlling Model Behavior via Constitutions for Atomic Concept Edits
Neha Kalibhat,Zi Wang,Prasoon Bajpai,Drew Proud,Wenjun Zeng,Been Kim,Mani Malek
Main category: cs.LG
TL;DR: 该论文提出了一种黑盒可解释性框架,通过学习可验证的"宪法"来理解提示词修改如何影响模型行为,并通过原子概念编辑系统性地分析因果映射。
- Motivation: 需要一种系统性的方法来理解提示词修改如何影响模型的具体行为(如对齐性、正确性、约束遵守),从而实现对模型行为的深度理解和控制。
- Method: 使用原子概念编辑(ACEs)技术,在输入提示中添加、移除或替换可解释的概念,系统性地应用这些编辑并观察对模型行为的影响,从而学习从编辑到可预测结果的因果映射。
- Result: 在数学推理和文生图对齐等任务中验证了方法的有效性:发现GPT-Image关注语法遵循,Imagen 4优先考虑氛围一致性;GPT-5容易被干扰变量迷惑,而Gemini 2.5和o4-mini基本不受影响。学习到的宪法在控制模型行为方面效果显著,成功率平均提升1.86倍。
- Conclusion: 该框架通过学习可验证的宪法,为理解模型行为提供了深度、可泛化的洞察,并能有效控制模型行为,在多种任务中展现出实用价值。
[281] The Illusion of Forgetting: Attack Unlearned Diffusion via Initial Latent Variable Optimization
Manyi Li,Yufan Liu,Lai Jiang,Bing Li,Yuming Li,Weiming Hu
Main category: cs.LG
TL;DR: 本文揭示基于遗忘的防御方法声称从扩散模型中清除NSFW内容实际上是假象,知识只是变为休眠记忆,并提出IVO攻击框架来重新激活这些记忆
- Motivation: 现有基于遗忘的防御方法声称能彻底清除扩散模型中的NSFW概念,但作者发现这种"遗忘"很大程度上是假象,知识只是被部分破坏映射关系而变为休眠状态,需要揭示这种防御的根本缺陷
- Method: 提出IVO(初始潜在变量优化)攻击框架,通过图像反演、对抗优化和重用攻击三个步骤,优化初始潜在变量来重新对齐噪声分布,从而重新激活休眠记忆
- Result: 在8种广泛使用的遗忘技术上进行了大量实验,IVO实现了优越的攻击成功率(高达98.8%)和强语义一致性,暴露了当前防御方法的根本缺陷
- Conclusion: 基于遗忘的防御方法存在根本性缺陷,NSFW知识只是变为休眠记忆而非真正清除,IVO攻击框架能有效重新激活这些记忆,需要重新思考扩散模型的安全防御策略
[282] GEPC: Group-Equivariant Posterior Consistency for Out-of-Distribution Detection in Diffusion Models
Yadang Alexis Rouzoumka,Jean Pinsolle,Eugénie Terreaux,Christèle Morisseau,Jean-Philippe Ovarlez,Chengfang Ren
Main category: cs.LG
TL;DR: 提出GEPC方法,通过测量扩散模型分数场在有限群变换下的变换一致性来检测OOD样本,无需训练且计算轻量
- Motivation: 现有基于扩散模型的OOD检测方法主要利用分数大小或局部几何特征,忽略了分数场的等变性特征。当ID数据具有近似等变性时,OOD样本可能破坏这种等变性
- Method: 提出Group-Equivariant Posterior Consistency (GEPC),通过测量学习到的分数场在有限群变换下的变换一致性来检测OOD。计算等变性残差,产生可解释的等变性破坏图
- Result: 在OOD图像基准数据集上,GEPC达到与现有方法竞争或更好的AUROC性能。在高分辨率合成孔径雷达图像中,能有效分离目标与背景,产生可解释的等变性破坏图
- Conclusion: GEPC是一种无需训练、计算轻量的OOD检测方法,通过利用扩散模型分数场的等变性特征,能有效检测OOD样本并产生可解释的检测结果
[283] Reducing Class-Wise Performance Disparity via Margin Regularization
Beier Zhu,Kesen Zhao,Jiequan Cui,Qianru Sun,Yuan Zhou,Xun Yang,Hanwang Zhang
Main category: cs.LG
TL;DR: MR²通过动态调整logit和表示空间的margin来减少分类中的性能差异,基于理论分析提出类敏感泛化边界,为困难类别设置更大margin以提升性能。
- Motivation: 深度神经网络即使在类别平衡数据上训练,也经常表现出显著的类别间准确率差异,这影响了可靠部署。先前研究主要关注经验性解决方案,对分类中性能差异的理论理解有限。
- Method: 提出Margin Regularization for Performance Disparity Reduction (MR²),通过动态调整logit空间和表示空间的margin。基于类敏感泛化边界分析,根据特征分布为每个类别优化logit margin,同时惩罚过大的表示margin以增强类内紧凑性。
- Result: 在7个数据集(包括ImageNet)和多种预训练骨干网络(MAE、MoCov2、CLIP)上的实验表明,MR²不仅提高了整体准确率,还显著提升了困难类别的性能,同时不影响简单类别,从而减少了性能差异。
- Conclusion: MR²是一个理论上有原则的正则化方法,通过动态调整margin来减少分类中的性能差异,为困难类别设置更大的margin可以改善其性能而不损害简单类别。
[284] When Classes Evolve: A Benchmark and Framework for Stage-Aware Class-Incremental Learning
Zheng Zhang,Tao Hu,Xueheng Li,Yang Wang,Rui Li,Jie Zhang,Chengjun Xie
Main category: cs.LG
TL;DR: 论文提出Stage-CIL范式,解决类别增量学习中类内形态演化问题,引入Stage-Bench数据集和STAGE方法,显著超越现有方法。
- Motivation: 传统类别增量学习假设类别形态静态,忽略了类内演化现象(如幼虫变蝴蝶),导致模型无法适应同一语义类别的形态变化。
- Method: 提出Stage-CIL范式,引入Stage-Bench数据集评估类间和类内遗忘,开发STAGE方法学习抽象可迁移的演化模式,分离语义身份与变换动态。
- Result: STAGE方法在10个领域、2阶段的评估中,一致且显著优于现有最先进方法,有效同时解决类间区分和类内形态适应问题。
- Conclusion: 类内形态演化是类别增量学习的重要挑战,Stage-CIL范式和STAGE方法为解决这一问题提供了系统框架和有效解决方案。
[285] Toward Universal and Transferable Jailbreak Attacks on Vision-Language Models
Kaiyuan Cui,Yige Li,Yutao Wu,Xingjun Ma,Sarah Erfani,Christopher Leckie,Hanxun Huang
Main category: cs.LG
TL;DR: UltraBreak提出了一种通用且可迁移的视觉语言模型越狱框架,通过视觉空间正则化和语义引导的文本监督来生成对抗性图像模式,解决了现有梯度方法过拟合单一白盒模型的问题。
- Motivation: 现有的基于梯度的越狱方法存在严重的过拟合问题,它们针对单个白盒代理模型生成的对抗模式无法迁移到黑盒模型上。视觉语言模型的多模态特性扩展了攻击面,需要一种能够跨模型和攻击目标通用的越狱方法。
- Method: UltraBreak框架在视觉空间通过变换和正则化约束对抗模式,同时在文本空间通过语义目标放松约束。通过在目标LLM的文本嵌入空间定义损失函数,结合视觉级正则化和语义引导的文本监督,发现通用的对抗模式。
- Result: 实验表明UltraBreak在性能上持续优于先前的越狱方法,能够有效迁移到不同模型和攻击目标。分析显示通过语义目标平滑损失景观是实现通用可迁移越狱的关键。
- Conclusion: UltraBreak通过视觉正则化和语义监督的结合,成功解决了现有越狱方法的过拟合问题,实现了跨模型和目标的强迁移性,为视觉语言模型的安全评估提供了有效工具。
[286] Statistical MIA: Rethinking Membership Inference Attack for Reliable Unlearning Auditing
Jialong Sun,Zeming Wei,Jiaxuan Zou,Jiacheng Gong,Guanheng Wang,Chengyang Dong,Jialong Li,Bo Liu
Main category: cs.LG
TL;DR: 本文提出SMIA框架,通过统计检验直接比较成员与非成员数据的分布,无需训练攻击模型,为机器遗忘审计提供更可靠、计算成本更低的解决方案。
- Motivation: 现有基于成员推理攻击(MIA)的机器遗忘审计方法存在根本缺陷:成员推理失败并不代表真正遗忘,且存在无法观测的统计误差,导致对遗忘性能的评估过于乐观,同时计算开销巨大。
- Method: 提出统计成员推理攻击(SMIA)框架:1) 直接比较成员与非成员数据的分布,使用统计检验而非学习攻击模型;2) 输出遗忘率及置信区间,量化审计结果的可靠性;3) 无需训练影子模型,显著降低计算成本。
- Result: 大量实验表明,SMIA相比现有MIA方法提供更可靠的审计结果,计算成本显著降低。SMIA的理论保证和实证有效性使其成为可靠的机器遗忘审计新范式。
- Conclusion: SMIA通过统计检验直接比较数据分布,解决了传统MIA审计方法的统计误差和计算开销问题,为机器遗忘提供了可靠、高效的审计框架,有望成为该领域的新范式。
[287] SimpleGPT: Improving GPT via A Simple Normalization Strategy
Marco Chen,Xianbiao Qi,Yelin He,Jiaquan Ye,Rong Xiao
Main category: cs.LG
TL;DR: 本文通过二阶几何视角重新审视Transformer优化,提出SimpleNorm归一化策略,显著降低Hessian矩阵谱范数,使学习率可提升3-10倍,在7B规模模型上训练损失比LLaMA2降低0.08。
- Motivation: 现有Transformer优化存在学习率受限的问题,作者从二阶几何角度出发,探索架构设计、激活尺度、Hessian矩阵与最大可容忍学习率之间的直接联系,旨在提高优化稳定性。
- Method: 提出SimpleNorm归一化策略,通过构造稳定中间激活尺度;理论分析损失对网络激活的Hessian矩阵,证明SimpleNorm能显著降低Hessian谱范数,从而允许更大的稳定学习率。
- Result: 在1B、1.4B、7B、8B参数规模的GPT模型上验证,SimpleGPT(基于SimpleNorm)能容忍3-10倍于标准惯例的学习率,优化稳定性强,性能显著优于基线。7B模型训练60K步后,训练损失从LLaMA2的2.290降至2.208。
- Conclusion: SimpleNorm通过稳定激活尺度和降低Hessian谱范数,有效提升Transformer优化稳定性,允许更大学习率,在多个规模模型上均取得显著性能提升。
[288] MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top- Activations
Qishuai Wen,Zhiyuan Huang,Xianghan Meng,Wei He,Chun-Guang Li
Main category: cs.LG
TL;DR: 提出MiTA注意力机制,通过压缩和路由策略将N宽度MLP压缩为更窄的MLP,使用地标查询和top-k激活键值对构建可变形专家
- Motivation: Transformer注意力可视为两层快速权重MLP,其宽度等于序列长度N。随着上下文扩展,这种N宽度MLP的表达能力增强,但快速权重的扩展对于极长序列变得极其昂贵。需要更高效的注意力机制
- Method: 提出压缩和路由策略:1) 使用少量地标查询将N宽度MLP压缩为更窄的MLP;2) 为每个地标查询收集top-k激活的键值对构建可变形专家。这种方法称为Mixture of Top-k Activations (MiTA)
- Result: 在视觉任务上的初步实验显示了MiTA注意力的潜力,表明需要进一步研究其优化和在更具挑战性场景中的更广泛应用
- Conclusion: 将高效注意力方法统一解释为通过路由和/或压缩来扩展快速权重的框架,提出的MiTA注意力机制通过压缩和路由策略有效解决了长序列注意力计算的高成本问题
[289] Gradient-Aligned Calibration for Post-Training Quantization of Diffusion Models
Dung Anh Hoang,Cuong Pham anh Trung Le,Jianfei Cai,Toan Do
Main category: cs.LG
TL;DR: 提出一种新的扩散模型后训练量化方法,通过为不同时间步的校准样本分配优化权重,解决均匀量化导致的梯度冲突问题,提升量化性能。
- Motivation: 扩散模型虽然图像合成性能优异,但存在推理速度慢、内存占用高、计算需求大的问题。后训练量化是加速采样和减少内存开销的可行方案,但现有方法对时间步采用均匀权重处理校准样本,忽略了不同时间步数据对扩散过程的贡献差异,且激活分布和梯度变化导致均匀量化不理想,会产生冲突梯度降低性能。
- Method: 提出新颖的后训练量化方法,通过学习为校准样本分配最优权重,使量化模型在不同时间步的梯度对齐,从而优化量化过程。该方法考虑了时间步间的差异,避免了均匀量化导致的梯度冲突。
- Result: 在CIFAR-10、LSUN-Bedrooms和ImageNet数据集上的大量实验表明,该方法相比其他扩散模型后训练量化方法具有优越性。
- Conclusion: 通过为不同时间步的校准样本分配优化权重来对齐梯度,能够有效解决扩散模型后训练量化中的挑战,提升量化性能,为扩散模型的实用部署提供了更好的解决方案。
[290] Rectified LpJEPA: Joint-Embedding Predictive Architectures with Sparse and Maximum-Entropy Representations
Yilun Kuang,Yash Dagade,Tim G. J. Rudner,Randall Balestriero,Yann LeCun
Main category: cs.LG
TL;DR: 该论文提出了Rectified Distribution Matching Regularization (RDMReg),一种用于联合嵌入预测架构(JEPA)的分布匹配正则化方法,通过将表示对齐到Rectified Generalized Gaussian分布来显式控制稀疏性,解决了现有方法偏向密集表示的问题。
- Motivation: 现有JEPA方法通过将表示正则化到各向同性高斯分布来防止表示坍缩,但这些方法天然偏向密集表示,无法捕捉高效表示中观察到的关键稀疏性特性。需要一种能够显式控制稀疏性的正则化方法。
- Method: 提出了Rectified Distribution Matching Regularization (RDMReg),这是一种切片双样本分布匹配损失,将表示对齐到Rectified Generalized Gaussian (RGG)分布。RGG通过整流操作显式控制期望ℓ₀范数,同时在期望ℓₚ范数约束下保持最大熵。将RDMReg应用于JEPA得到Rectified LpJEPA。
- Result: Rectified LpJEPA学习到稀疏、非负的表示,具有有利的稀疏性-性能权衡,在图像分类基准测试中展现出竞争力的下游性能。RDMReg有效强制了稀疏性,同时保留了任务相关信息。
- Conclusion: RDMReg提供了一种在联合嵌入预测架构中显式控制表示稀疏性的有效方法,严格泛化了先前基于高斯的JEPA方法,能够学习到既稀疏又保持任务相关信息的表示。
[291] When Is Rank-1 Enough? Geometry-Guided Initialization for Parameter-Efficient Fine-Tuning
Haoran Zhao,Soyeon Caren Han,Eduard Hovy
Main category: cs.LG
TL;DR: 论文提出Gap-Init初始化方法,通过将rank-1 LoRA方向与模态间隙向量对齐,解决了极低秩PEFT训练不稳定的问题,在多个视觉语言任务中表现优异。
- Motivation: 参数高效微调(PEFT)是适应多模态大语言模型的标准方法,但在极低秩设置(特别是rank-1 LoRA)下常常不稳定。作者发现这种不稳定性不仅源于有限容量,还因为优化对更新方向高度敏感。
- Method: 提出Gap-Init初始化方法:分析预训练表示,识别主导梯度流的模态间隙轴;使用小型校准集估计模态间隙向量;将rank-1 LoRA方向与该向量对齐,同时保持初始LoRA更新为零。
- Result: 在多个视觉语言任务和骨干网络上,Gap-Init能稳定rank-1训练,性能可匹配甚至超过强大的rank-8基线。结果表明在极低秩限制下,初始对齐与秩本身同等重要。
- Conclusion: 极低秩PEFT的不稳定性源于预训练视觉和文本特征形成的不匹配各向异性区域,导致主导的"间隙"方向。通过几何感知的初始化对齐该方向,可以显著改善训练稳定性,为极低秩微调提供了有效解决方案。
[292] InfoTok: Regulating Information Flow for Capacity-Constrained Shared Visual Tokenization in Unified MLLMs
Lv Tang,Tianyi Zheng,Bo Li,Xingyu Li
Main category: cs.LG
TL;DR: 提出InfoTok,一种基于信息瓶颈原则的信息正则化视觉分词机制,用于统一多模态大语言模型,通过互信息正则化在压缩和任务相关性之间取得平衡,提升理解和生成能力。
- Motivation: 现有统一多模态大语言模型中的共享分词设计大多是架构驱动的,缺乏明确的标准来确定分词应保留哪些信息来同时支持理解和生成任务。作者从容量约束的角度出发,认为视觉分词器应优先保留可重用的结构信息,而不是难以利用的高熵变化和冗余信息。
- Method: 提出InfoTok,一种基于信息瓶颈原则的信息正则化视觉分词机制。该方法将分词过程建模为控制从图像到共享分词再到多模态输出的信息流,通过互信息正则化实现压缩和任务相关性之间的原则性权衡。
- Result: 将InfoTok集成到三个代表性的统一多模态大语言模型中,无需额外训练数据。实验表明,该方法在理解和生成任务上都取得了持续改进,验证了信息正则化分词作为统一多模态大语言模型中学习共享分词空间的原则性基础的有效性。
- Conclusion: 信息正则化视觉分词机制为统一多模态大语言模型提供了原则性的共享分词设计方法,通过信息瓶颈原则平衡压缩和任务相关性,显著提升了模型在理解和生成任务上的性能。
[293] Generative Visual Code Mobile World Models
Woosung Koh,Sungjun Han,Segyu Lee,Se-Young Yun,Jamin Shin
Main category: cs.LG
TL;DR: gWorld提出了一种新的视觉世界建模范式:通过生成可执行的网页代码来渲染GUI状态,而非直接生成像素,结合了文本和视觉方法的优势。
- Motivation: 当前移动GUI世界模型面临关键权衡:基于文本的方法牺牲视觉保真度,而视觉方法无法精确渲染文本,需要依赖缓慢复杂的外部模型管道。需要一种结合两者优势的方法。
- Method: 提出视觉世界建模通过可渲染代码生成的新范式:使用单一视觉语言模型预测下一个GUI状态作为可执行的网页代码,而不是直接生成像素。同时开发了自动合成代码训练数据的框架。
- Result: gWorld(8B和32B参数)在4个分布内和2个分布外基准测试中,在准确性与模型大小方面建立了新的帕累托前沿,性能优于8个前沿开源模型(最大达50.25倍)。
- Conclusion: 通过可渲染代码生成的视觉世界建模范式有效结合了文本和视觉方法的优势,gWorld展示了卓越的性能,且更强的世界建模能提升下游移动GUI策略性能。
[294] From Perception to Action: Spatial AI Agents and World Models
Gloria Felicia,Nolan Bryant,Handi Putra,Ayaan Gazali,Eliel Lobo,Esteban Rojas
Main category: cs.LG
TL;DR: 该论文提出了一个连接智能体能力与空间任务的三轴分类法,强调空间智能对具身智能体的重要性,并分析了层次记忆系统、GNN-LLM集成和世界模型等关键技术。
- Motivation: 现有研究将智能体架构和空间领域分开处理,缺乏统一框架连接这两种互补能力。大语言模型在符号领域的成功难以直接迁移到物理世界,空间智能(感知3D结构、推理物体关系、在物理约束下行动)对具身智能体至关重要。
- Method: 通过系统综述2000多篇论文,引用742篇顶级会议文献,提出了连接智能体能力与空间任务的三轴分类法。区分了空间基础(几何和物理的度量理解)与符号基础(图像与文本关联),并分析了三个关键发现。
- Result: 分析揭示了三个关键发现:1)层次记忆系统对长时程空间任务很重要;2)GNN-LLM集成是结构化空间推理的有前景方法;3)世界模型对于在微观到宏观空间尺度上的安全部署至关重要。
- Conclusion: 该分类法为统一碎片化的研究提供了基础,有助于开发下一代空间感知自主系统。提出了六个重大挑战和未来研究方向,包括需要统一评估框架来标准化跨领域评估。
[295] Boundary-Constrained Diffusion Models for Floorplan Generation: Balancing Realism and Diversity
Leonardo Stoppani,Davide Bacciu,Shahab Mokarizadeh
Main category: cs.LG
TL;DR: 该论文针对扩散模型在自动生成平面图时存在的设计多样性不足问题,提出了多样性评分(DS)指标来衡量约束条件下的布局多样性,并引入边界交叉注意力(BCA)模块来提升几何一致性。
- Motivation: 当前基于扩散模型的平面图生成方法虽然能产生逼真的布局,但过度优化FID等感知指标会导致设计多样性受限,同时缺乏对建筑边界的几何一致性控制。
- Method: 提出了多样性评分(DS)来量化约束条件下的布局多样性;设计了边界交叉注意力(BCA)模块,使模型能够基于建筑边界进行条件生成。
- Result: BCA显著提升了边界一致性;长时间训练会导致多样性崩溃但FID无法检测;模型过度依赖数据集先验,需要在保真度、多样性和泛化能力之间取得平衡。
- Conclusion: 揭示了扩散模型在建筑设计中真实性与多样性之间的关键权衡,强调了需要开发能够明确平衡保真度、多样性和泛化能力的生成系统。
[296] FlyPrompt: Brain-Inspired Random-Expanded Routing with Temporal-Ensemble Experts for General Continual Learning
Hongwei Yan,Guanglong Sun,Kanglei Zhou,Qian Li,Liyuan Wang,Yi Zhong
Main category: cs.LG
TL;DR: FlyPrompt是一个受果蝇分层记忆系统启发的通用持续学习框架,通过专家路由和专家能力改进解决单次非平稳数据流学习问题,在多个数据集上显著优于现有方法。
- Motivation: 现有持续参数高效调优方法通常依赖多轮训练和明确任务边界,难以应对通用持续学习中单次、非平稳数据流的挑战,且缺乏针对专家参数分配和表示能力提升的系统设计。
- Method: 受果蝇稀疏扩展和模块化集成记忆系统启发,FlyPrompt将通用持续学习分解为专家路由和专家能力改进两个子问题,采用随机扩展分析路由器进行实例级专家激活,并通过输出头的时序集成动态调整决策边界。
- Result: 在CIFAR-100、ImageNet-R和CUB-200数据集上分别实现了11.23%、12.43%和7.62%的性能提升,显著优于现有最先进方法。
- Conclusion: FlyPrompt通过脑启发设计有效解决了通用持续学习中的专家参数分配和表示能力提升问题,为单次非平稳数据流学习提供了高效解决方案。
[297] An Empirical Study of World Model Quantization
Zhongqian Fu,Tianyi Zhao,Kai Han,Hang Zhou,Xinghao Chen,Yunhe Wang
Main category: cs.LG
TL;DR: 该论文首次系统研究了世界模型的量化问题,使用DINO-WM作为案例,评估了多种后训练量化方法在不同比特宽度、粒度和规划长度下的表现,揭示了世界模型量化特有的失败模式。
- Motivation: 世界模型在部署时需要大量计算和内存资源,量化是高效部署的关键,但此前世界模型的后训练量化效果尚未得到系统研究。
- Method: 使用DINO-WM作为代表性世界模型,系统评估多种后训练量化方法,包括仅权重量化和权重-激活联合量化,在不同视觉规划任务、比特宽度、量化粒度和规划长度(最高50步)下进行实验。
- Result: 发现世界模型量化具有独特特性:分组权重量化能稳定低比特推演,激活量化粒度效果不一致,编码器和预测器模块的量化敏感性高度不对称,激进低比特量化会显著破坏规划目标与任务成功的对齐关系。
- Conclusion: 揭示了世界模型规划中量化引发的独特失败模式,为在严格计算约束下部署量化世界模型提供了实用指导。
[298] Segment to Focus: Guiding Latent Action Models in the Presence of Distractors
Hamza Adnan,Matthew T. Jackson,Alexey Zakharov
Main category: cs.LG
TL;DR: MaskLAM通过引入视觉智能体分割来改进潜在动作模型,有效过滤动作相关噪声,提升强化学习性能
- Motivation: 潜在动作模型(LAMs)能从原始观察中学习提取动作相关表示,但面临一个关键挑战:难以区分动作相关特征和动作相关噪声(如背景运动)。未能过滤这些干扰因素会导致LAMs捕获虚假相关性并构建次优的潜在动作空间。
- Method: MaskLAM是一种轻量级的LAM训练改进方法,通过整合视觉智能体分割。它利用预训练基础模型的分割掩码来加权LAM重建损失,从而优先考虑显著信息而非背景元素,同时无需架构修改。
- Result: 在添加了动作相关背景噪声的连续控制MuJoCo任务上,该方法相比标准基线实现了高达4倍的奖励累积提升,并通过线性探针评估显示潜在动作质量提高了3倍。
- Conclusion: MaskLAM通过简单的训练修改有效解决了LAMs中的噪声过滤问题,显著提升了强化学习性能,为从无标签视频中学习动作表示提供了更鲁棒的解决方案。
cs.RO
[299] MapDream: Task-Driven Map Learning for Vision-Language Navigation
Guoxin Lian,Shuo Wang,Yucheng Wang,Yongcai Wang,Maiyue Chen,Kaihui Wang,Bo Zhang,Zhizhong Su,Deying Li,Zhaoxin Fan
Main category: cs.RO
TL;DR: MapDream:一个地图在环框架,将地图构建视为自回归鸟瞰图合成,通过联合学习地图生成和动作预测,将环境上下文蒸馏为紧凑的三通道BEV地图,实现最先进的单目视觉语言导航性能。
- Motivation: 现有视觉语言导航方法大多依赖独立于导航策略的手工构建地图,作者认为地图应该是直接由导航目标塑造的学习表示,而不是详尽的重建。
- Method: 提出MapDream框架,将地图构建公式化为自回归鸟瞰图图像合成,联合学习地图生成和动作预测。使用监督预训练引导可靠的映射到控制接口,自回归设计支持通过强化学习微调进行端到端联合优化。
- Result: 在R2R-CE和RxR-CE数据集上实现了最先进的单目性能,验证了任务驱动的生成式地图学习的有效性。
- Conclusion: MapDream展示了学习地图表示直接由导航目标塑造的优势,而不是独立的手工构建,为视觉语言导航提供了更有效的环境表示方法。
[300] APEX: A Decoupled Memory-based Explorer for Asynchronous Aerial Object Goal Navigation
Daoxuan Zhang,Ping Chen,Xiaobo Xia,Xiu Su,Ruichen Zhen,Jianqiang Xiao,Shuo Yang
Main category: cs.RO
TL;DR: APEX是一个用于空中目标导航的层次化智能体,通过动态时空语义映射记忆、动作决策模块和目标接地模块,在复杂空中环境中实现高效探索和目标获取。
- Motivation: 现有方法在空中环境中存在三个主要问题:1)难以记忆复杂的空间表示;2)缺乏可靠且可解释的动作决策;3)探索和信息收集效率低下。这些挑战限制了无人机在自主导航和目标识别方面的性能。
- Method: APEX采用三层模块化架构:1)动态时空语义映射记忆,利用视觉语言模型的零样本能力构建高分辨率3D吸引力、探索和障碍物地图;2)动作决策模块,通过强化学习训练,将空间理解转化为精细控制策略;3)目标接地模块,使用开放词汇检测器实现通用目标识别。这些组件集成在层次化、异步、并行框架中,避免了VLM推理延迟。
- Result: 在UAV-ON基准测试中,APEX相比之前的最优方法提升了+4.2%的成功率(SR)和+2.8%的路径长度加权成功率(SPL),证明了其高效性和层次化异步设计的有效性。
- Conclusion: APEX通过创新的层次化异步架构解决了空中目标导航的关键挑战,显著提升了无人机在复杂环境中的探索效率和目标识别能力,为具身AI领域提供了新的解决方案。
[301] SyNeT: Synthetic Negatives for Traversability Learning
Bomena Kim,Hojun Lee,Younsoo Park,Yaoyu Hu,Sebastian Scherer,Inwook Shim
Main category: cs.RO
TL;DR: 提出一种通过合成负样本增强视觉可通行性学习的方法,解决现有自监督学习中缺乏显式负数据的问题
- Motivation: 现有自监督可通行性估计方法主要依赖正样本和未标记数据,缺乏显式负样本限制了模型准确识别各种不可通行区域的能力
- Method: 提出构建合成负样本的方法,这些样本代表合理但不可通行的区域,并将其集成到视觉可通行性学习中。该方法可作为训练策略无缝集成到PU和PN框架中,无需修改推理架构
- Result: 在公开和自收集数据集上的大量实验表明,该方法显著提高了模型在不同环境中的鲁棒性和泛化能力
- Conclusion: 通过合成负样本增强可通行性学习是有效的,同时提出了面向对象的FPR评估方法,无需额外手动标注即可间接评估模型识别不可通行区域的能力
[302] CLAMP: Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining
I-Chun Arthur Liu,Krzysztof Choromanski,Sandy Huang,Connor Schenck
Main category: cs.RO
TL;DR: CLAMP:一种利用点云和机器人动作的3D预训练框架,通过对比学习关联3D几何信息与动作模式,显著提升机器人操作任务的学习效率和性能
- Motivation: 现有基于2D图像预训练的行为克隆方法无法捕获精确操作所需的3D空间信息,限制了机器人高精度操作任务的性能
- Method: 从RGB-D图像和相机外参计算合并点云,重渲染包含深度和3D坐标的多视角四通道图像观测;通过对比学习在大规模模拟轨迹上预训练编码器,同时预训练Diffusion Policy初始化策略权重
- Result: 在6个模拟任务和5个真实世界任务中超越最先进基线,显著提高学习效率和未见任务的政策性能
- Conclusion: CLAMP框架通过3D预训练有效关联几何信息与动作模式,为机器人操作任务提供了更高效和性能更好的解决方案
[303] KAN We Flow? Advancing Robotic Manipulation with 3D Flow Matching via KAN & RWKV
Zhihao Chen,Yiyuan Ge,Ziyang Wang
Main category: cs.RO
TL;DR: KAN-We-Flow:基于RWKV和KAN的轻量级流匹配策略,用于3D机器人操作,大幅减少参数并保持高性能
- Motivation: 现有扩散式视觉运动策略推理效率低,需要多步去噪和大型UNet架构,不适合资源受限的机器人部署。流匹配方法虽然减少采样负担,但仍使用大型UNet架构。
- Method: 提出RWKV-KAN块:RWKV进行高效时间/通道混合传播任务上下文,GroupKAN层使用可学习的样条基分组函数映射进行特征非线性校准。引入动作一致性正则化(ACR),通过欧拉外推强制预测动作轨迹与专家演示对齐。
- Result: 参数减少86.8%,保持快速运行时间,在Adroit、Meta-World和DexArt基准测试中达到最先进的成功率。
- Conclusion: KAN-We-Flow通过结合RWKV和KAN构建轻量级高表达性骨干网络,解决了现有策略推理效率低的问题,实现了高效准确的3D机器人操作。
[304] TreeLoc: 6-DoF LiDAR Global Localization in Forests via Inter-Tree Geometric Matching
Minwoo Jung,Nived Chebrolu,Lucas Carvalho de Lima,Haedam Oh,Maurice Fallon,Ayoung Kim
Main category: cs.RO
TL;DR: TreeLoc是一个用于森林环境的LiDAR全局定位框架,通过树干特征和分布直方图实现地点识别与6自由度位姿估计,在GPS受限的森林中表现优于基线方法。
- Motivation: 森林环境中GPS信号弱,LiDAR测量重复、遮挡且结构复杂,传统城市定位方法假设特征来自独特结构模式,在森林中不适用,需要专门针对森林环境的鲁棒定位解决方案。
- Method: 使用树干及其胸径(DBH)表示场景,通过树干轴线对齐到共同参考系,用树分布直方图(TDH)进行粗匹配,再用2D三角形描述符进行精细匹配,最后通过两步几何验证实现位姿估计。
- Result: 在多样化森林基准测试中,TreeLoc优于基线方法,实现了精确的定位。消融研究验证了各组件贡献,并提出了使用紧凑全局树木数据库描述符进行长期森林管理的应用。
- Conclusion: TreeLoc为森林环境提供了有效的LiDAR全局定位框架,解决了GPS受限条件下的定位问题,已开源供机器人社区使用,并展示了在长期森林管理中的应用潜力。
[305] UniDWM: Towards a Unified Driving World Model via Multifaceted Representation Learning
Shuai Liu,Siheng Ren,Xiaoyao Zhu,Quanmin Liang,Zefeng Li,Qiang Li,Xin Hu,Kai Huang
Main category: cs.RO
TL;DR: UniDWM是一个统一的驾驶世界模型,通过多方面的表示学习构建结构和动态感知的潜在世界表示,用于自动驾驶的感知、预测和规划。
- Motivation: 在复杂驾驶环境中实现可靠高效的规划需要一个能够推理场景几何、外观和动态的模型。现有方法往往缺乏统一的表示来支持感知、预测和规划的一致性推理。
- Method: 构建结构和动态感知的潜在世界表示作为物理基础的状态空间。使用联合重建路径学习恢复场景结构(几何和视觉纹理),并采用协作生成框架,利用条件扩散变换器在潜在空间中预测未来世界演化。
- Result: 实验证明UniDWM在轨迹规划、4D重建和生成方面的有效性,展示了多方面世界表示作为统一驾驶智能基础的潜力。
- Conclusion: UniDWM通过多方面的表示学习构建统一的驾驶世界模型,为自动驾驶提供了一致的感知、预测和规划框架,展示了世界表示在统一驾驶智能中的重要作用。
[306] Towards Autonomous Instrument Tray Assembly for Sterile Processing Applications
Raghavasimhan Sankaranarayanan,Paul Stuart,Nicholas Ahn,Arno Sungarian,Yash Chitalia
Main category: cs.RO
TL;DR: 开发了全自动机器人系统,用于在无菌处理与分发部门自动分类和结构性地包装手术器械到无菌托盘中,减少人工错误和器械碰撞。
- Motivation: SPD部门手动检查和准备器械托盘耗时、易出错,容易导致污染和器械损坏,需要自动化解决方案来提高安全性、一致性和效率。
- Method: 使用包含31种手术器械和6,975张标注图像的自定义数据集训练混合感知管道(YOLO12检测+级联ResNet细粒度分类),集成校准视觉模块、6自由度Staubli TX2-60L机械臂和定制双电磁夹爪,采用基于规则的包装算法和3D打印分隔器减少运输中的碰撞。
- Result: 实验评估显示高感知精度,与人工组装的托盘相比,在工具间碰撞方面有统计学显著减少,提高了安全性、一致性并减少了处理时间。
- Conclusion: 该系统是自动化SPD工作流程的可扩展第一步,能够改善手术准备的安全性和一致性,同时减少处理时间。
[307] Multi-Task Learning for Robot Perception with Imbalanced Data
Ozgur Erkent
Main category: cs.RO
TL;DR: 提出一种在部分任务缺乏真实标签的情况下仍能学习多任务的方法,并分析任务间的相互作用关系
- Motivation: 机器人资源有限,多任务学习能提高单个任务精度,但实际应用中常面临数据不平衡问题(某些任务标签不足),且移动机器人在不同环境中难以获得所有任务的标注数据
- Method: 提出一种在部分任务缺乏真实标签的情况下仍能学习的方法,通过训练教师网络以任务输出(如深度)作为输入,分析任务间的相互作用关系
- Result: 在NYUDv2和Cityscapes数据集上的语义分割和深度估计任务中验证了方法的有效性,特别是在小数据量训练时提供了实证证据
- Conclusion: 该方法能在部分任务标签缺失的情况下进行多任务学习,并提供了分析任务间相互作用的方法论,能识别哪些任务能提升其他任务的性能
[308] LIEREx: Language-Image Embeddings for Robotic Exploration
Felix Igelbrink,Lennart Niecksch,Marian Renz,Martin Günther,Martin Atzmueller
Main category: cs.RO
TL;DR: LIEREx 将视觉语言基础模型与3D语义场景图结合,实现自主机器人在部分未知环境中的目标导向探索
- Motivation: 传统语义地图方法依赖预定义的符号词汇,无法处理设计时未定义的新知识。需要开放集映射能力来处理分布外知识。
- Method: 集成视觉语言基础模型(如CLIP)与3D语义场景图,将对象编码为高维嵌入而非固定标签,实现开放集映射。
- Result: 开发了LIEREx系统,使自主机器人能够在部分未知环境中进行目标导向探索。
- Conclusion: 结合视觉语言基础模型与语义场景图的方法能够克服传统固定词汇表的限制,实现更灵活的语义映射和目标导向探索。
[309] FD-VLA: Force-Distilled Vision-Language-Action Model for Contact-Rich Manipulation
Ruiteng Zhao,Wenshuo Wang,Yicheng Ma,Xiaocong Li,Francis E. H. Tay,Marcelo H. Ang,Haiyue Zhu
Main category: cs.RO
TL;DR: FD-VLA框架通过力蒸馏模块将力感知集成到VLA中,无需物理力传感器,在接触丰富任务中实现精细感知和灵巧操作
- Motivation: 力感知对于VLA框架在接触丰富任务中实现精细感知和灵巧操作至关重要,但许多机器人缺乏昂贵或易碎的力扭矩传感器,需要一种无需物理传感器的力感知解决方案
- Method: 提出Force-Distilled VLA框架,核心是力蒸馏模块,通过学习查询令牌将视觉观察和机器人状态映射到预测的力令牌,该令牌与真实力信号的潜在表示对齐,在推理时注入预训练的VLM中
- Result: 物理实验显示蒸馏的力令牌优于直接传感器力测量和其他基线,证明了该方法的有效性,同时降低了硬件成本和复杂性
- Conclusion: FD-VLA框架成功将力感知集成到VLA中,无需物理力传感器,通过力蒸馏模块提高了跨模态对齐和感知-动作鲁棒性,为缺乏力传感器的机器人提供了实用的力感知解决方案
[310] SoMA: A Real-to-Sim Neural Simulator for Robotic Soft-body Manipulation
Mu Huang,Hui Wang,Kerui Ren,Linning Xu,Yunsong Zhou,Mulin Yu,Bo Dai,Jiangmiao Pang
Main category: cs.RO
TL;DR: SoMA是一个基于3D高斯泼溅的软体操作仿真器,通过统一潜在神经空间耦合变形动力学、环境力和机器人关节动作,实现端到端的真实到仿真模拟,相比现有方法提升20%的准确性和泛化能力。
- Motivation: 现有仿真器依赖预定义物理模型或无机器人条件控制的数据驱动动力学,在准确性、稳定性和泛化能力上存在局限,难以满足真实到仿真的机器人操作需求。
- Method: SoMA采用3D高斯泼溅表示,在统一潜在神经空间中耦合变形动力学、环境力和机器人关节动作,通过学习的泼溅交互实现可控、稳定的长时程操作,无需预定义物理模型。
- Result: SoMA在真实世界机器人操作任务中提升了20%的重新仿真准确性和泛化能力,能够稳定仿真复杂任务如长时程布料折叠,并能在未观测轨迹之外实现泛化。
- Conclusion: SoMA通过统一潜在神经空间中的高斯泼溅表示,实现了更准确、稳定和可泛化的软体操作仿真,为真实到仿真的机器人操作提供了有效解决方案。
cs.AI
[311] From Gameplay Traces to Game Mechanics: Causal Induction with Large Language Models
Mohit Jiwatode,Alexander Dockhorn,Bodo Rosenhahn
Main category: cs.AI
TL;DR: LLMs通过两种方法从游戏轨迹反推VGDL规则:直接代码生成和先推断SCM再转换,后者效果更好,能产生更接近真实规则且逻辑一致的描述。
- Motivation: 深度学习代理在复杂游戏领域表现出色但通常不理解底层因果机制,需要研究因果归纳能力——从观测数据推断支配规律。
- Method: 使用语义嵌入和聚类从GVGAI框架中选择9个代表性游戏,比较两种VGDL生成方法:1) 直接从观测生成代码;2) 先推断结构因果模型(SCM)再转换为VGDL。评估多种提示策略和控制上下文机制。
- Result: 基于SCM的方法比直接生成更常产生接近真实情况的VGDL描述,在盲评中获得高达81%的偏好胜率,产生更少的逻辑不一致规则。
- Conclusion: SCM方法在因果归纳任务中表现更优,学到的SCM可用于因果强化学习、可解释代理和程序化生成新颖但逻辑一致的游戏等下游应用。
[312] Dual Latent Memory for Visual Multi-agent System
Xinlei Yu,Chengming Xu,Zhangquan Chen,Bo Yin,Cheng Yang,Yongbo He,Yihao Hu,Jiangning Zhang,Cheng Tan,Xiaobin Hu,Shuicheng Yan
Main category: cs.AI
TL;DR: 提出L²-VMAS框架,通过双潜在记忆和熵驱动触发机制解决视觉多智能体系统的"扩展墙"问题,在提升性能的同时大幅降低token消耗。
- Motivation: 视觉多智能体系统(VMAS)中存在的"扩展墙"问题:增加智能体交互轮次反而会降低性能并指数级增加token成本。这源于文本中心通信的信息瓶颈,将感知和思维轨迹转换为自然语言会导致语义损失。
- Method: 提出L²-VMAS框架:1)使用双潜在记忆实现智能体间协作;2)解耦感知和思维过程,动态合成双潜在记忆;3)引入熵驱动的主动触发机制,用按需内存访问替代被动信息传输。
- Result: 在多种骨干网络、模型规模和智能体结构上的实验表明,该方法有效突破了"扩展墙",平均准确率提升2.7-5.4%,同时token使用量减少21.3-44.8%。
- Conclusion: L²-VMAS框架通过双潜在记忆和熵驱动触发机制,解决了VMAS中的信息瓶颈问题,实现了更好的可扩展性和效率,为多智能体协作提供了新的解决方案。
[313] MACD: Model-Aware Contrastive Decoding via Counterfactual Data
Qixin Xiao,Kun Zhou
Main category: cs.AI
TL;DR: MACD提出了一种新的推理策略,通过模型感知的反事实数据构建与对比解码相结合,减少视频语言模型的幻觉问题。
- Motivation: 视频语言模型容易产生幻觉,特别是在视觉证据较弱、模糊或有偏见时。现有的解码方法(如对比解码)依赖随机扰动构建对比数据,难以控制驱动幻觉的视觉线索或与模型弱点对齐。
- Method: 提出模型感知的反事实数据对比解码(MACD):1)利用Video-LLM自身反馈识别导致幻觉的关键对象区域;2)在对象级别生成有针对性的反事实输入,而非任意的帧或时间修改;3)将这些模型感知的反事实数据整合到对比解码中,在解码时强制证据基础化的token选择。
- Result: 在EventHallusion、MVBench、Perception-test和Video-MME等基准测试中,MACD能持续减少幻觉,同时保持或提高任务准确性。该方法在处理小物体、遮挡物体或共现物体的挑战性场景中尤其有效。
- Conclusion: MACD通过模型引导的反事实数据构建与解码相结合,有效解决了视频语言模型的幻觉问题,特别是在视觉证据不足的场景中表现优异。
[314] MentisOculi: Revealing the Limits of Reasoning with Mental Imagery
Jana Zeller,Thaddäus Wiedemer,Fanfei Li,Thomas Klein,Prasanna Mayilvahanan,Matthias Bethge,Felix Wichmann,Ryan Cotterell,Wieland Brendel
Main category: cs.AI
TL;DR: 视觉思维(生成中间可视化)目前无法提升多模态模型的推理性能,即使模型能生成正确视觉内容也无法有效利用
- Motivation: 研究多模态模型是否能够像人类使用心理意象一样,通过生成中间可视化来辅助推理,评估视觉思维对模型推理的实际帮助
- Method: 开发MentisOculi评估套件,包含分层多步推理问题,测试从潜在token到显式生成图像等多种视觉策略
- Result: 视觉策略普遍无法提升性能,统一多模态模型存在关键限制:虽然有文本推理能力,但存在累积生成错误,即使有真实可视化也无法有效利用
- Conclusion: 尽管视觉思维具有内在吸引力,但目前尚无法提升模型推理能力,MentisOculi为分析和缩小这一差距奠定了基础
cs.GR
[315] Genus-0 Surface Parameterization using Spherical Beltrami Differentials
Zhehao Xu,Lok Ming Lui
Main category: cs.GR
TL;DR: 提出了一种基于球面Beltrami微分的神经优化框架BOOST,用于解决球面自映射问题,在保持双射性和控制几何畸变的同时满足任务目标。
- Motivation: 现有球面参数化方法在满足任务目标(如地标对齐)、保持双射性和控制几何畸变之间存在权衡,需要一种能同时解决这些问题的框架。
- Method: 引入球面Beltrami微分(SBD)作为球面拟共形自映射的双图表示,基于谱Beltrami网络(SBN)提出BOOST框架,通过半球立体投影图优化两个Beltrami场,并使用显式的接缝感知约束确保全局一致性。
- Result: 在大变形地标匹配和基于强度的球面配准实验中验证了框架的有效性,在脑皮层表面配准中实现了地标对齐和沟回深度图匹配,提高了任务保真度并控制了畸变。
- Conclusion: BOOST框架能够有效解决球面自映射问题,在保持双射性和控制几何畸变的同时满足各种任务目标,为几何处理和成像科学提供了新的工具。
cs.MM
[316] Cross-Modal Binary Attention: An Energy-Efficient Fusion Framework for Audio-Visual Learning
Mohamed Saleh,Zahra Ahmadi
Main category: cs.MM
TL;DR: CMQKA是一种线性复杂度的跨模态融合机制,结合SNNergy框架实现高效能音频-视觉融合,在多个基准测试中取得SOTA结果。
- Motivation: 现有音频-视觉融合方法面临根本性权衡:基于注意力的方法能有效建模跨模态关系但计算复杂度为二次方,阻碍了层次化多尺度架构;而高效融合策略依赖简单拼接,无法提取互补的跨模态信息。
- Method: 提出CMQKA(跨模态查询-键注意力)机制,通过高效二进制操作实现线性复杂度,采用双向跨模态查询-键注意力提取互补时空特征,并使用可学习残差融合保持模态特定特征。基于CMQKA构建SNNergy框架,采用层次化架构处理逐渐降低的空间分辨率和增加的语义抽象,通过事件驱动的二进制脉冲操作实现高能效。
- Result: 在CREMA-D、AVE和UrbanSound8K-AV等具有挑战性的音频-视觉基准测试中显著优于现有多模态融合基线,建立了新的最先进结果,同时实现了卓越的能效。
- Conclusion: 该框架通过引入可扩展的融合机制,实现了层次化跨模态集成,为现实世界音频-视觉智能系统提供了实用的能效解决方案,推动了多模态融合领域的发展。
[317] Seeing, Hearing, and Knowing Together: Multimodal Strategies in Deepfake Videos Detection
Chen Chen,Dion Hoe-Lian Goh
Main category: cs.MM
TL;DR: 研究通过195名参与者分析人类识别深度伪造视频的策略,发现参与者对真实视频识别更准确,视觉、声音和直觉线索的组合对成功识别至关重要,为设计媒体素养工具提供方向。
- Motivation: 随着深度伪造视频越来越难以识别,理解人类使用的识别策略对于设计有效的媒体素养干预措施至关重要。研究旨在探索人们在判断真实与深度伪造视频时依赖的线索和策略。
- Method: 研究招募195名21-40岁参与者,让他们判断真实和深度伪造视频,评估自信度,并报告依赖的视觉、音频和知识策略线索。使用关联规则挖掘分析线索组合如何影响识别表现。
- Result: 参与者对真实视频的识别准确率高于深度伪造视频,对真实内容的预期校准误差更低。通过关联规则挖掘发现,视觉外观、声音特征和直觉经常共同出现于成功识别中,表明多模态方法在人类检测中的重要性。
- Conclusion: 研究揭示了哪些线索有助于或阻碍深度伪造检测,为设计指导有效线索使用的媒体素养工具提供了方向。基于这些见解可以帮助人们提高识别技能,增强对欺骗性数字媒体的抵抗力。
cs.CR
[318] RPP: A Certified Poisoned-Sample Detection Framework for Backdoor Attacks under Dataset Imbalance
Miao Lin,Feng Yu,Rui Ning,Lusi Li,Jiawei Chen,Qian Lou,Mengxin Zheng,Chunsheng Xin,Hongyi Wu
Main category: cs.CR
TL;DR: 该论文首次深入研究了数据集不平衡如何加剧后门漏洞,并提出了一种名为随机概率扰动(RPP)的认证中毒样本检测框架,专门针对现实世界中不平衡数据场景下的后门攻击防御。
- Motivation: 深度神经网络极易受到后门攻击,但现有防御方法大多依赖平衡数据,忽视了现实世界中普遍存在的类别不平衡问题。数据集不平衡会放大后门威胁,而传统防御方法在数据不平衡加剧时性能显著下降。
- Method: 提出随机概率扰动(RPP)框架,这是一种基于黑盒设置的认证中毒样本检测方法,仅使用模型输出概率。RPP通过概率扰动确定输入是否被后门操纵,提供可证明的域内可检测性保证和误报率的概率上界。
- Result: 在五个基准数据集(MNIST、SVHN、CIFAR-10、TinyImageNet和ImageNet10)上,覆盖10种后门攻击和12种基线防御的广泛实验表明,RPP实现了比最先进防御方法显著更高的检测准确率,特别是在数据集不平衡的情况下。
- Conclusion: RPP为在现实世界不平衡数据环境中防御后门攻击建立了理论和实践基础,首次系统解决了数据集不平衡对后门漏洞的放大效应问题。
q-bio.QM
[319] A 30-item Test for Assessing Chinese Character Amnesia in Child Handwriters
Zebo Xu,Steven Langsford,Zhuang Qiu,Zhenguang Cai
Main category: q-bio.QM
TL;DR: 开发了一个评估儿童汉字失写症的30项简短测试,通过项目反应理论分析,该测试能有效识别早期书写困难
- Motivation: 在数字时代,手写能力下降,特别是非字母文字系统。学习中文的儿童中,越来越多出现"汉字失写症"(能认字但不会写)。目前缺乏标准化的诊断工具来评估儿童的汉字失写症。
- Method: 利用40名儿童听写800个汉字的大规模手写数据集。使用双参数项目反应理论模型分析汉字失写症和正确书写反应。比较了四种项目选择方案:随机基线、最大区分度、难度多样性、以及上下三分之一区分度得分。通过样本外预测评估候选项目子集。
- Result: 上下三分之一区分度选择方案产生了紧凑的30项测试,保留了个体差异结构,并能推广到未见过的测试者(与完整800项测试的交叉验证平均r=0.74;样本内r=0.93)。
- Conclusion: 这个简短测试为评估儿童汉字失写症提供了可靠高效的工具,可用于识别早期书写和正字法学习困难,有助于早期发现发展性书写障碍和相关读写挑战。
eess.IV
[320] Frequent Pattern Mining approach to Image Compression
Avinash Kadimisetty,C. Oswald,B. Sivalselvan
Main category: eess.IV
TL;DR: 该论文提出了一种基于频繁模式挖掘的图像压缩方法,通过聚类相似像素并优化编码模式,相比传统JPEG实现了45%的压缩率提升,同时保持视觉质量损失可忽略。
- Motivation: 传统JPEG压缩在DCT阶段处理冗余数据效率有限,需要更有效的压缩方法来提高压缩率同时保持图像质量。
- Method: 结合k-means聚类和闭频繁序列挖掘替代传统JPEG的DCT阶段,通过改进的GSP算法优化编码模式基数,提出新的序列频率计算机制以减少码表大小。
- Result: 在基准数据集上测试显示压缩率提升45%,PSNR和SSIM指标表明视觉质量损失可忽略,优于现有替代方法。
- Conclusion: 基于频繁模式挖掘的图像压缩方法能显著提高压缩效率,在保持图像质量的同时实现更好的压缩性能。
[321] Toward a Unified Semantic Loss Model for Deep JSCC-based Transmission of EO Imagery
Ti Ti Nguyen,Thanh-Dung Le,Vu Nguyen Ha,Duc-Dung Tran,Hung Nguyen-Kha,Dinh-Hieu Tran,Carlos L. Marcos-Rojas,Juan C. Merlano-Duncan,Symeon Chatzinotas
Main category: eess.IV
TL;DR: 该论文提出了一种统一的语义损失框架,用于地球观测图像在资源受限卫星链路上的高效传输,同时考虑重建质量与下游任务性能。
- Motivation: 高分辨率地球观测图像的数据量巨大,而卫星通信系统受限于带宽、功率和动态链路条件,传统传输方法面临挑战,需要更高效的编码方案。
- Method: 采用深度联合信源信道编码(DJSCC),从两个互补角度分析语义损失:1)重建中心框架评估不同压缩比和信道信噪比下的语义退化;2)任务导向框架将DJSCC与轻量级应用特定模型(如EfficientViT)集成,以下游任务准确度衡量性能。
- Result: 通过大量实证分析,提出了统一的语义损失框架,该框架能同时捕捉重建中心和任务导向性能,揭示了JSCC压缩、信道信噪比与语义质量之间的隐含关系。
- Conclusion: 该框架为资源受限卫星链路上鲁棒高效的地球观测图像传输设计提供了可行见解,平衡了图像重建质量与下游应用性能的需求。
[322] Visible Singularities Guided Correlation Network for Limited-Angle CT Reconstruction
Yiyang Wen,Liu Shi,Zekun Zhou,WenZhe Shan,Qiegen Liu
Main category: eess.IV
TL;DR: 提出VSGC网络用于有限角度CT重建,通过可见奇异点引导和相关性建模,在窄角度范围下性能显著提升
- Motivation: 有限角度CT(LACT)能减少辐射剂量和扫描时间,但传统重建算法存在固有局限。现有深度学习方法未能充分考虑LACT的核心成像特性,如由缺失投影角度引起的伪影方向性和结构信息方向性丢失。
- Method: 提出可见奇异点引导的相关性网络(VSGC),基于可见/不可见奇异点理论。核心设计:1)从LACT图像提取可见奇异点边缘特征,聚焦模型注意力;2)建立可见奇异点特征与图像其他区域的相关性;3)采用各向异性约束的多尺度损失函数。
- Result: 在模拟和真实数据集上的验证表明VSGC有效可行。相比其他方法,在小角度范围下性能更突出,PSNR提升2.45dB,SSIM提升1.5%。
- Conclusion: VSGC网络通过考虑LACT的核心成像特性,特别是可见奇异点引导和相关建模,在有限角度CT重建中取得了显著性能提升,特别是在窄角度范围下表现优异。
[323] SurfelSoup: Learned Point Cloud Geometry Compression With a Probablistic SurfelTree Representation
Tingyu Fan,Ran Gong,Yueyu Hu,Yao Wang
Main category: eess.IV
TL;DR: SurfelSoup:基于端到端学习的表面点云几何压缩框架,使用概率表面表示和自适应树结构实现高效压缩和光滑重建
- Motivation: 传统点云压缩方法存在冗余点级压缩问题,特别是在平滑区域,需要更高效的表面结构化表示来提升压缩效率和重建质量
- Method: 提出概率表面表示pSurfel,使用有界广义高斯分布建模局部点占用;构建pSurfelTree层次结构,通过Tree Decision模块自适应终止树细分,实现率失真最优的表面粒度选择
- Result: 在MPEG通用测试条件下,相比基于体素的基准方法和MPEG标准G-PCC-GesTM-TriSoup,在几何压缩方面获得一致增益,提供视觉上更优越的光滑连贯表面重建
- Conclusion: SurfelSoup框架通过表面结构化表示和自适应树决策,实现了高效的点云几何压缩,避免了平滑区域的冗余压缩,产生了紧凑而光滑的表面重建
[324] A Renderer-Enabled Framework for Computing Parameter Estimation Lower Bounds in Plenoptic Imaging Systems
Abhinav V. Sambasivan,Liam J. Coulter,Richard G. Paxman,Jarvis D. Haupt
Main category: eess.IV
TL;DR: 提出一个计算光场成像系统中场景参数估计信息理论下界的通用框架,特别关注被动间接成像问题,使用计算机图形渲染合成前向模型,通过Hammersley-Chapman-Robbins界评估无偏估计器的方差下界。
- Motivation: 评估光场成像系统中场景参数估计的信息理论极限,特别是在被动间接成像问题中,观测数据不包含参数的直接视线信息,需要建立参数估计误差的理论下界。
- Method: 使用计算机图形渲染软件合成复杂的前向模型(参数与观测之间的依赖关系),提出通用框架计算Hammersley-Chapman-Robbins界来建立无偏估计器的方差下界,并分析不精确渲染对下界的影响。
- Result: 在典型的目标定位问题上,通过实验评估将计算的下界与最大似然估计器的性能进行比较,表明所提框架计算的下界能够反映多个代表性场景中的真实基本极限。
- Conclusion: 该框架能够有效评估光场成像系统中场景参数估计的信息理论极限,特别是在被动间接成像场景中,为参数估计性能提供了可靠的理论下界。
[325] Advanced Geometric Correction Algorithms for 3D Medical Reconstruction: Comparison of Computed Tomography and Macroscopic Imaging
Tomasz Les,Tomasz Markiewicz,Malgorzata Lorent,Miroslaw Dziekiewicz,Krzysztof Siwek
Main category: eess.IV
TL;DR: 提出混合两阶段配准框架,使用CT模型作为几何参考标准,从宏观切片重建3D肾脏解剖结构,解决数据稀缺和高变形挑战。
- Motivation: 宏观成像存在数据稀缺和高变形挑战,完全基于学习的配准方法(如VoxelMorph)由于训练数据有限和大变形超出卷积滤波器捕获范围而难以泛化。
- Method: 混合两阶段框架:1) OCM算法进行约束全局对齐(平移、旋转、均匀缩放);2) 轻量级深度学习细化网络预测连续切片间的局部变形。结合显式几何先验和神经网络灵活性。
- Result: 在40个肾脏原始数据集上实验,相比单阶段基线方法表现更好。通过Hough网格检测保持物理校准,使用Bezier轮廓平滑实现鲁棒网格化和体积估计。
- Conclusion: 该框架将可解释的全局优化与数据高效的深度学习细化解耦,提高了多模态3D重建的精度、可重复性和解剖真实性,适用于手术规划、形态评估和医学教育。
[326] Benchmarking Vanilla GAN, DCGAN, and WGAN Architectures for MRI Reconstruction: A Quantitative Analysis
Humaira Mehwish,Hina Shakir,Muneeba Rashid,Asarim Aamir,Reema Qaiser Khan
Main category: eess.IV
TL;DR: 本研究评估了三种GAN模型(Vanilla GAN、DCGAN、WGAN)在MRI重建中的性能,发现DCGAN和WGAN在图像质量和诊断准确性方面表现优异,为临床MRI应用提供了可复现的基准。
- Motivation: MRI是观察体内结构的关键成像技术,但需要高质量的重建图像来提高诊断准确性。本研究旨在分析不同GAN模型在MRI重建中的性能,评估其在不同身体区域(膝盖、大脑、心脏)的泛化能力,为临床MRI应用提供可靠的图像重建方法。
- Method: 研究比较了三种GAN架构:Vanilla GAN、深度卷积GAN(DCGAN)和Wasserstein GAN(WGAN)。使用膝盖(1000张)、心脏(805张)和大脑(90张)的匿名MRI数据集进行训练和评估。采用结构相似性指数(SSIM)和峰值信噪比(PSNR)作为评估指标,并进行统计验证。
- Result: DCGAN和WGAN表现最佳:SSIM分别为0.97和0.99,PSNR分别为49.3和43.5。Vanilla GAN表现较差(SSIM 0.84,PSNR 26)。研究首次在统一预处理流程下建立了跨器官的GAN基准,证明了DCGAN和WGAN在MRI重建中的优越性能。
- Conclusion: DCGAN和WGAN在MRI图像重建中表现出色,具有良好的图像质量和准确性。本研究为未来混合GAN模型和临床MRI应用提供了可复现的基准,有助于推动医学图像重建技术的发展。
[327] Recent Advances of End-to-End Video Coding Technologies for AVS Standard Development
Xihua Sheng,Xiongzhuang Liang,Chuanbo Tang,Zhirui Zuo,Yifan Bian,Yutao Xie,Zhuoyuan Li,Yuqi Li,Hui Xiang,Li Li,Dong Liu
Main category: eess.IV
TL;DR: AVS-EEM项目开发了端到端智能视频编码探索模型,在严格复杂度约束下实现了优于传统AVS3参考软件的压缩效率,朝着可部署的智能视频编码标准迈出重要一步。
- Motivation: 为了追求更高的视频压缩效率,AVS视频编码工作组启动了端到端智能视频编码的标准化探索,建立AVS-EEM项目,核心设计原则是关注实际部署,具有固有的低计算复杂度,并要求严格遵守传统视频编码的通用测试条件。
- Method: 详细介绍了AVS-EEM的发展历程和关键技术框架,包括模型架构、训练策略和推理优化。通过两年多的迭代优化和协作努力,在严格复杂度约束下实现了持续显著的性能提升。
- Result: 实验结果表明,AVS-EEM的最新模型在压缩效率上优于传统的AVS3参考软件,标志着朝着可部署的智能视频编码标准迈出了重要一步。
- Conclusion: AVS-EEM项目通过系统性的技术创新和迭代优化,在保持低计算复杂度的同时实现了显著的压缩效率提升,为智能视频编码的实际部署和标准化奠定了基础。
[328] A texture-based framework for foundational ultrasound models
Tal Grutman,Carmel Shinar,Tali Ilovitsh
Main category: eess.IV
TL;DR: 提出TUSA方法,将自监督学习重新定义为纹理分析问题,专门针对超声图像特性进行优化,相比通用基础模型在多种医学任务上表现更好。
- Motivation: 超声图像具有独特的声学特性纹理,与自然图像统计特征差异显著,导致为自然图像设计的算法在超声应用中表现不佳。现有基础模型虽然被用于超声领域,但仅是在超声数据上训练,并未融入超声物理特性知识。
- Method: 提出纹理超声语义分析(TUSA)方法,将自监督学习重新定义为纹理分析问题。使用对比学习方法从简单的B模式图像中提取真正的领域特定表示。在开源数据、模拟数据和体内数据组合上进行训练。
- Result: TUSA模型在潜在空间上比多个更大的基础模型表现更好,在独特在线数据集和临床眼部数据集上展现出更好的泛化能力。在COVID检测(70%)、脊柱血肿(100%)和玻璃体出血(97%)上获得更高准确率,与肝脏脂肪变性(r=0.83)、射血分数(r=0.63)和血氧饱和度(r=0.38)等定量参数相关性更强。
- Conclusion: 通过将超声特定领域知识整合到学习框架中,TUSA方法能够更好地捕捉超声图像的声学特性纹理,从而在多种医学诊断任务上超越通用基础模型,为超声图像分析提供了更有效的解决方案。
[329] MarkCleaner: High-Fidelity Watermark Removal via Imperceptible Micro-Geometric Perturbation
Xiaoxi Kong,Jieyu Yuan,Pengdi Chen,Yuanlin Zhang,Chongyi Li,Bin Li
Main category: eess.IV
TL;DR: MarkCleaner:一种通过微几何扰动去除语义水印的框架,避免语义漂移,实现高效实时推理
- Motivation: 传统语义水印对图像空间攻击具有强鲁棒性,但微几何扰动(空间位移)会破坏相位对齐从而去除水印。现有基于再生的水印去除方法会导致语义漂移问题。
- Method: 提出MarkCleaner框架:1)使用微几何扰动监督训练,使模型分离语义内容与严格空间对齐;2)采用掩码引导编码器学习显式空间表示;3)使用基于2D高斯泼溅的解码器显式参数化几何扰动同时保留语义内容。
- Result: 大量实验表明,MarkCleaner在水印去除效果和视觉保真度方面均表现优异,同时支持高效的实时推理。
- Conclusion: 微几何扰动能有效去除语义水印,MarkCleaner框架通过分离语义与空间对齐,实现了高效、高质量的水印去除,避免了语义漂移问题。
[330] Hyperspectral Image Fusion with Spectral-Band and Fusion-Scale Agnosticism
Yu-Jie Liang,Zihan Cao,Liang-Jian Deng,Yang Yang,Malu Zhang
Main category: eess.IV
TL;DR: SSA是一个通用的多光谱/高光谱图像融合框架,具有光谱波段和融合尺度无关性,使用Matryoshka核和隐式神经表示实现单一模型适应不同传感器和空间尺度。
- Motivation: 当前多光谱/高光谱图像融合模型通常针对固定的光谱波段和空间尺度设计,限制了它们在不同传感器间的可迁移性。
- Method: 提出SSA框架,包含两个关键创新:1) Matryoshka核(MK)使单一模型适应任意数量的光谱通道;2) 基于隐式神经表示(INR)的骨干网络,将高光谱信号建模为连续函数,支持任意空间分辨率重建。
- Result: 实验表明,单一SSA模型在保持最先进性能的同时,能够很好地泛化到未见过的传感器和尺度,为未来高光谱基础模型铺平道路。
- Conclusion: SSA通过光谱波段和融合尺度无关性实现了通用的多光谱/高光谱图像融合,解决了现有模型传感器特定设计的局限性,展示了向高光谱基础模型发展的潜力。
cs.SE
[331] Can Vision-Language Models Handle Long-Context Code? An Empirical Study on Visual Compression
Jianping Zhong,Guochang Li,Chen Zhi,Junxiao Han,Zhen Qin,Xinkui Zhao,Nan Wang,Shuiguang Deng,Jianwei Yin
Main category: cs.SE
TL;DR: LongCodeOCR提出视觉代码压缩框架,将代码渲染为压缩的二维图像序列供视觉语言模型处理,解决了传统文本压缩方法导致的依赖关系破坏问题,在长上下文代码任务中表现优于现有方法。
- Motivation: 大型语言模型在处理长上下文代码时受窗口限制,现有文本代码压缩方法通过选择性过滤缓解此问题,但会破坏依赖闭包,导致语义碎片化。需要一种能保持全局视图的压缩方法。
- Method: LongCodeOCR视觉压缩框架:将代码渲染为压缩的二维图像序列,供视觉语言模型处理。通过保留全局视图,避免过滤方法固有的依赖关系破坏。
- Result: 在四个基准测试中,LongCodeOCR在代码总结、问答和补全任务上优于LongCodeZip。在相似压缩比下,Long Module Summarization的CompScore提高36.85分;在1M token上下文中,保持更高准确率且压缩率提高4倍;压缩阶段延迟从约4.3小时降至约1分钟。
- Conclusion: 视觉代码压缩是全局理解任务的有效替代方案,保持更广上下文覆盖以支持全局依赖,但在精确性关键任务上面临保真度瓶颈;文本代码压缩保持符号级精度但牺牲结构覆盖,存在覆盖-保真度权衡。
physics.data-an
[332] Comparison of Image Processing Models in Quark Gluon Jet Classification
Daeun Kim,Jiwon Lee,Wonjun Jeong,Hyeongwoo Noh,Giyeong Kim,Jaeyoon Cho,Geonhee Kwak,Seunghwan Yang,MinJung Kweon
Main category: physics.data-an
TL;DR: 比较卷积神经网络与Transformer模型在区分夸克与胶子喷注上的性能,发现微调Swin-Tiny最后两个Transformer块在效率与准确率上达到最佳平衡
- Motivation: 研究卷积神经网络与基于Transformer的模型在喷注子结构分析中的性能差异,探索更高效的模型架构用于粒子物理中的喷注分类任务
- Method: 将喷注子结构编码为三通道粒子运动学图像,评估CNN、ViT和Swin-Tiny在监督与自监督学习下的性能,使用MoCo进行自监督预训练
- Result: 微调Swin-Tiny最后两个Transformer块达到81.4%准确率和88.9% AUC,自监督预训练增强特征鲁棒性并减少可训练参数
- Conclusion: 分层注意力模型在喷注子结构研究中具有潜力,适合迁移到真实碰撞数据,微调策略在效率与准确性间达到最佳平衡
q-bio.NC
[333] Community-Level Modeling of Gyral Folding Patterns for Robust and Anatomically Informed Individualized Brain Mapping
Minheng Chen,Tong Chen,Yan Zhuang,Chao Cao,Jing Zhang,Tianming Liu,Lu Zhang,Dajiang Zhu
Main category: q-bio.NC
TL;DR: 提出一种基于谱图表示学习的框架,将三铰回(3HG)建模为社区级折叠单元而非孤立地标,通过联合形态-几何匹配实现跨个体对应,在1000多名被试中表现出更优的解剖表征和对齐效果。
- Motivation: 现有基于地标的方法通常独立建模每个三铰回(3HG),忽略了3HG形成高阶折叠社区这一事实,这种简化削弱了解剖表征能力,并使一对一匹配对位置变异和噪声敏感。
- Method: 提出谱图表示学习框架:1)使用结合表面拓扑和结构连接的双剖面表示编码每个3HG;2)通过个体特异性谱聚类识别连贯的折叠社区;3)拓扑细化保持解剖连续性;4)引入联合形态-几何匹配,共同优化几何和形态测量相似性实现跨个体对应。
- Result: 在超过1000名人类连接组计划被试中,该方法产生的社区显示出:减少的形态测量方差、更强的模块化组织、改善的半球一致性,以及相比基于图谱、基于地标或基于嵌入的基线方法更优的对齐效果。
- Conclusion: 社区级建模为个体化皮层表征和可靠的跨个体对应提供了一个稳健且解剖学基础坚实的框架,证明了考虑高阶折叠社区结构的重要性。
eess.SP
[334] Visible Light Positioning With Lamé Curve LEDs: A Generic Approach for Camera Pose Estimation
Wenxuan Pan,Yang Yang,Dong Wei,Zhiyu Zhu,Jintao Wang,Huan Wu,Yao Nie
Main category: eess.SP
TL;DR: 本文提出LC-VLP算法,利用Lamé曲线统一表示不同LED形状,实现基于可见光通信的相机姿态估计,在异构LED形状场景中优于现有方法。
- Motivation: 现有基于LED形状特征的可见光定位方法通常局限于单一LED几何形状,在异构LED形状场景中会失效。需要一种能统一表示常见LED形状的方法来解决这一挑战。
- Method: 使用Lamé曲线作为LED形状的统一表示,构建LED参数数据库。在线定位时,将相机姿态估计建模为非线性最小二乘问题,并开发了无需对应关系的FreePnP算法提供可靠初始化。
- Result: 仿真显示LC-VLP在圆形和矩形LED场景中均优于现有方法,位置误差降低40%以上,旋转误差降低25%。实验表明平均定位精度小于4厘米。
- Conclusion: LC-VLP算法通过Lamé曲线统一表示不同LED形状,解决了异构LED形状场景中的定位问题,实现了高精度的相机姿态估计。
[335] Real-Time 2D LiDAR Object Detection Using Three-Frame RGB Scan Encoding
Soheil Behnam Roudsari,Alexandre S. Brandão,Felipe N. Martins
Main category: eess.SP
TL;DR: 提出一种基于2D LiDAR的轻量级物体检测方法,通过堆叠连续三帧扫描数据作为RGB通道输入YOLOv8n,在嵌入式设备上实现实时高精度检测,无需构建占用网格或RGB摄像头。
- Motivation: 室内服务机器人需要既鲁棒又保护隐私的感知系统,同时能在嵌入式硬件上运行。传统RGB摄像头存在隐私问题,而LiDAR检测方法通常需要构建占用网格,计算开销较大。
- Method: 将连续三帧2D LiDAR扫描数据堆叠为RGB三通道,直接输入YOLOv8n网络进行物体检测。这种方法保留了角度结构和运动线索,避免了占用网格构建的计算开销。
- Result: 在Webots模拟的160个随机室内场景中,该方法在四个物体类别上达到98.4% mAP@0.5(0.778 mAP@0.5:0.95),精确率94.9%,召回率94.7%。在树莓派5上实现实时运行,平均端到端延迟47.8ms/帧。
- Conclusion: 轻量级时间编码方法能够在嵌入式室内机器人上实现准确、实时的纯LiDAR检测,无需RGB外观信息,计算效率优于基于占用网格的方法,虽然目前结果基于模拟环境。
cs.IR
[336] RANKVIDEO: Reasoning Reranking for Text-to-Video Retrieval
Tyler Skow,Alexander Martin,Benjamin Van Durme,Rama Chellappa,Reno Kriz
Main category: cs.IR
TL;DR: RANKVIDEO:基于推理的视频检索重排序模型,通过两阶段课程训练和推理密集型数据合成,在MultiVENT 2.0基准上实现31%的nDCG@10平均提升
- Motivation: 文本检索中基于推理的重排序模型已取得显著进展,但视频检索中的推理重排序研究仍不足。现有方法要么效率低下,要么无法充分利用视频内容进行深度推理。
- Method: 提出RANKVIDEO模型,采用两阶段课程训练:1)感知基础监督微调;2)结合点对、对偶和教师置信度蒸馏目标的重排序训练。同时构建数据合成管道生成推理密集型查询-视频对。
- Result: 在MultiVENT 2.0大规模基准测试中,RANKVIDEO在两级检索框架下持续提升性能,nDCG@10平均提升31%,优于纯文本和视觉语言重排序方法,且更高效。
- Conclusion: RANKVIDEO填补了视频检索中推理重排序的研究空白,通过显式推理视频内容评估相关性,为视频检索系统提供了更有效的重排序解决方案。
math.OC
[337] Dual Quaternion SE(3) Synchronization with Recovery Guarantees
Jianing Zhao,Linglingzhi Zhu,Anthony Man-Cho So
Main category: math.OC
TL;DR: 提出一种基于对偶四元数的SE(3)同步算法,包含谱初始化和对偶四元数广义幂方法,具有理论保证并优于传统矩阵方法。
- Motivation: 传统SE(3)同步方法通常需要多步启发式过程,缺乏理论保证且难以分析。本文旨在开发具有理论保证的高效SE(3)同步算法。
- Method: 采用对偶四元数表示,提出两阶段算法:1) 通过Hermitian对偶四元数测量矩阵的幂方法计算谱初始化器;2) 通过每迭代投影强制可行性的对偶四元数广义幂方法(DQGPM)。
- Result: 建立了谱估计器的误差界,证明DQGPM具有有限迭代误差界,并在显式噪声阈值内实现线性误差收缩。实验表明该方法在精度和效率上优于代表性矩阵方法。
- Conclusion: 提出的对偶四元数SE(3)同步框架提供了理论保证,在合成基准和真实世界多扫描点集配准中表现出优越性能,为机器人学和3D视觉中的姿态恢复提供了可靠解决方案。
cs.HC
[338] Visual Affect Analysis: Predicting Emotions of Image Viewers with Vision-Language Models
Filip Nowicki,Hubert Marciniak,Jakub Łączkowski,Krzysztof Jassem,Tomasz Górecki,Vimala Balakrishnan,Desmond C. Ong,Maciej Behnke
Main category: cs.HC
TL;DR: 评估9个视觉语言模型在三个情感图像数据集上的表现,发现它们在离散情感分类上表现良好(60-80%准确率),但在连续情感评分预测上存在偏差,且缺乏人类评分的细微差异。
- Motivation: 视觉语言模型在从视觉刺激中推断情感方面显示出潜力,但尚不清楚它们的输出与人类情感评分的一致性程度,需要系统评估其在心理测量验证数据集上的表现。
- Method: 在三个心理测量验证的情感图像数据集(IAPS、NAPS、LAI-GAI)上评估9个VLM,包括零样本设置下的两个任务:1)顶级情感分类(选择图像引发的最强离散情感);2)在1-7/9李克特量表上连续预测人类评分。还评估了评分者条件提示的影响。
- Result: 离散情感分类表现良好(6类情感60-80%准确率,12类任务60-75%),愤怒和惊讶预测准确率最低。连续评分预测与人类有中度到强相关性(r>0.75),但存在一致偏差:唤醒度表现较弱,倾向于高估反应强度。评分者条件提示仅带来小而不一致的改变。
- Conclusion: VLM能够捕捉广泛的情感趋势,但缺乏经过验证的心理评分的细微差异,突出了它们在情感计算和心理健康相关应用中的潜力和当前局限性。
[339] Toward a Machine Bertin: Why Visualization Needs Design Principles for Machine Cognition
Brian Keith-Norambuena
Main category: cs.HC
TL;DR: 论文主张可视化领域需要研究面向机器的视觉设计作为独立研究问题,因为人类视觉知识不能直接应用于机器视觉,需要发展"机器版Bertin"来补充现有的人类中心化知识体系。
- Motivation: 当前的可视化设计知识主要基于60年的人类视觉心理物理研究,但视觉语言模型(VLMs)在自动化分析流程中处理图表图像时表现出与人类不同的感知模式。人类中心化的知识库不能直接迁移到机器受众,而当前解决方案主要绕过视觉处理,这回避了一个更根本的问题:什么样的视觉表示才能真正服务于机器认知?
- Method: 通过综合VLM基准测试、视觉推理研究和可视化素养研究的证据,分析人类与机器感知差异的质性特征,批判性地审视当前流行的"绕过视觉"方法,并提出人类导向与机器导向可视化的概念区分。
- Result: 研究表明人类与机器的感知差异是质性的而非仅仅是量化的:机器表现出不同的编码性能模式,通过基于补丁的标记化而非整体感知处理图像,在某些人类轻松的设计模式上失败,而在人类困难的情况下偶尔成功。
- Conclusion: 可视化领域需要将面向机器的视觉设计作为独立研究问题,发展机器导向可视化的实证基础,构建"机器版Bertin"来补充现有的人类中心化知识,为不同受众提供根本不同的设计基础。
cs.CY
[340] Happy Young Women, Grumpy Old Men? Emotion-Driven Demographic Biases in Synthetic Face Generation
Mengting Wei,Aditya Gulati,Guoying Zhao,Nuria Oliver
Main category: cs.CY
TL;DR: 该研究系统审计了8个最先进的文本到图像模型(4个西方开发,4个中国开发),发现所有模型在生成人脸时都存在持续的人口统计和情绪条件偏见,无论其来源国如何。
- Motivation: 尽管文本到图像模型已广泛使用,但其偏见、表征质量和跨文化一致性仍未被充分理解。现有研究主要关注人口统计偏见,缺乏对情绪提示如何影响人口统计表征以及不同文化/语言背景下模型输出差异的研究。
- Method: 使用8个最先进的T2I模型(4个西方模型,4个中国模型),采用相同提示生成人脸图像。使用先进的面部分析算法估计生成面孔的性别、种族、年龄和吸引力水平。应用信息论偏见度量(Kullback-Leibler和Jensen-Shannon散度)来衡量与全球人口统计数据的偏差。
- Result: 所有模型无论其来源国如何,都显示出持续的人口统计和情绪条件偏见。西方和中国开发的模型在输出分布上存在系统性差异。
- Conclusion: 研究揭示了生成式系统中存在的系统性偏见问题,对公平性、社会技术危害、治理和透明生成系统的开发具有重要意义。需要更全面的偏见评估框架和跨文化一致的模型开发方法。
Powered by Deepseek & arXiv Daily AI Enhanced