Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Psychological stress during Examination and its estimation by handwriting in answer script
Abhijeet Kumar,Chetan Agarwal,Pronoy B. Neogi,Mayank Goswami
Main category: cs.CV
TL;DR: 该研究结合笔迹学和人工智能,通过分析学生手写考试试卷来量化心理压力水平,使用OCR和基于Transformer的情感分析模型,提供超越传统评分系统的认知和情感状态洞察。
- Motivation: 传统评分系统无法深入理解学生在考试期间的认知和情感状态,需要一种数据驱动的方法来量化心理压力,为学术取证提供新视角。
- Method: 集成高分辨率图像处理、TrOCR和基于RoBERTa模型的情感熵融合,生成压力指数,采用五模型投票机制和无监督异常检测确保鲁棒性。
- Result: 开发了一个创新的学术取证框架,能够通过手写分析量化学生心理压力水平。
- Conclusion: 该方法为教育评估和心理监测提供了新的技术途径,展示了AI在学术取证中的创新应用。
[2] Real-time pothole detection with onboard sensors and camera on vehicles
Aswath Muthuselvam,Jeevak Raj S,Mohanaprasad K
Main category: cs.CV
TL;DR: 使用车辆传感器和SVM分类器实时检测道路坑洼,在2公里路段上达到98.1%的准确率
- Motivation: 道路状况对日常通勤至关重要,随着车辆数量增加,需要频繁评估道路状况以保障交通顺畅,小裂缝可能因温度和车辆压力发展成大坑洼
- Method: 利用车辆搭载的传感器收集数据,使用支持向量机(SVM)分类器进行坑洼检测
- Result: 在2公里长的本地道路上测试,该路段分布有26个坑洼,检测准确率达到98.1%
- Conclusion: 提出的方法能够有效实时检测道路坑洼,为大规模坑洼管理和分析提供有用数据
[3] A Method for Identifying Farmland System Habitat Types Based on the Dynamic-Weighted Feature Fusion Network Model
Kesong Zheng,Zhi Song,Peizhou Li,Shuyi Yao,Zhenxing Bian
Main category: cs.CV
TL;DR: 本研究针对耕地生态系统缺乏标准化栖息地分类系统、栖息地类型覆盖不完整以及现有模型无法有效整合语义和纹理特征的问题,开发了一个包含15类耕地系统栖息地的超高分辨率遥感图像数据集,并提出了动态加权特征融合网络(DWFF-Net),在构建的数据集上取得了优于基线网络的性能。
- Motivation: 当前缺乏耕地生态系统的标准化栖息地分类系统,栖息地类型覆盖不完整,现有模型无法有效整合语义和纹理特征,导致多尺度栖息地(如大尺度田块和微栖息地)的分割精度不足和边界模糊。
- Method: 开发了包含15类耕地系统栖息地的超高分辨率遥感图像数据集;提出了动态加权特征融合网络(DWFF-Net),编码器使用冻结参数的DINOv3提取基础特征,引入数据级自适应动态加权策略进行特征融合,解码器包含动态权重计算网络实现多层特征的深度融合,采用混合损失函数优化模型训练。
- Result: 在构建的数据集上,所提模型实现了0.6979的平均交并比(mIoU)和0.8049的F1分数,分别比基线网络提高了0.021和0.0161。消融研究进一步证实了多层特征融合的互补性,有效提高了田埂等微栖息地类别的IoU。
- Conclusion: 本研究建立了一个基于自适应多层特征融合的耕地系统栖息地识别框架,能够以低成本实现亚米级精度的栖息地制图,为耕地景观的细粒度栖息地监测提供了有力的技术支持。
[4] AGENet: Adaptive Edge-aware Geodesic Distance Learning for Few-Shot Medical Image Segmentation
Ziyuan Gao
Main category: cs.CV
TL;DR: AGENet是一个用于医学图像分割的新型框架,通过边缘感知的测地距离学习整合空间关系,在有限标注数据下实现精确边界分割。
- Motivation: 医学图像分割需要大量标注数据,这在临床应用中成为瓶颈。现有少样本分割方法在医学图像精确边界描绘方面表现欠佳,特别是在解剖结构相似且缺乏足够空间上下文的情况下。
- Method: 结合三个主要组件:(1) 边缘感知测地距离学习模块,通过迭代快速行进细化尊重解剖边界;(2) 自适应原型提取,通过空间加权聚合捕获全局结构和局部边界细节;(3) 自适应参数学习,自动适应不同器官特征。
- Result: 在多样化医学影像数据集上的广泛实验显示优于现有最先进方法的表现,显著减少边界误差,同时保持计算效率。
- Conclusion: 该方法非常适合需要精确分割但标注数据有限的临床应用,通过轻量级几何建模实现了更好的边界描绘性能。
[5] EPSegFZ: Efficient Point Cloud Semantic Segmentation for Few- and Zero-Shot Scenarios with Language Guidance
Jiahui Wang,Haiyue Zhu,Haoren Guo,Abdullah Al Mamun,Cheng Xiang,Tong Heng Lee
Main category: cs.CV
TL;DR: 提出EPSegFZ网络,无需预训练即可实现少样本和零样本3D点云语义分割,通过原型增强注意力机制和语言引导原型嵌入提升性能。
- Motivation: 现有方法过度依赖预训练阶段,限制了模型灵活性;同时未能充分利用支持集中的文本信息,影响了少样本性能和零样本能力。
- Method: 使用原型增强寄存器注意力模块和双相对位置编码的交叉注意力机制进行特征提取,结合语言引导原型嵌入模块利用文本信息。
- Result: 在S3DIS和ScanNet基准测试中分别比最先进方法提升5.68%和3.82%。
- Conclusion: EPSegFZ无需预训练即可实现优异的少样本和零样本3D点云分割性能,证明了有效利用文本信息的重要性。
[6] Task-Aware 3D Affordance Segmentation via 2D Guidance and Geometric Refinement
Lian He,Meng Liu,Qilang Ye,Yu Zhou,Xiang Deng,Gangyi Ding
Main category: cs.CV
TL;DR: 提出了TASA框架,通过联合利用2D语义线索和3D几何推理,在粗到细的方式下实现3D场景级可操作性分割,显著提升了准确性和效率。
- Motivation: 现有方法主要关注对象级可操作性或将2D预测简单提升到3D,忽略了点云中的丰富几何结构信息且计算成本高,需要一种能够同时利用2D语义和3D几何信息的方法。
- Method: TASA框架包含任务感知的2D可操作性检测模块和3D可操作性细化模块,前者从语言和视觉输入识别可操作点以指导任务相关视图选择,后者将2D语义先验与局部3D几何结合生成准确的3D可操作性掩码。
- Result: 在SceneFun3D数据集上的实验表明,TASA在场景级可操作性分割的准确性和效率方面显著优于基线方法。
- Conclusion: TASA通过几何优化的方法有效解决了3D场景级可操作性分割问题,为具身智能体在复杂环境中的交互提供了有力支持。
[7] LE-CapsNet: A Light and Enhanced Capsule Network
Pouya Shiri,Amirali Baniasadi
Main category: cs.CV
TL;DR: 提出LE-CapsNet作为CapsNet的轻量、增强和更准确变体,在CIFAR-10上达到76.73%准确率,推理速度比CapsNet快4倍,在AffNIST上达到94.3%准确率。
- Motivation: CapsNet虽然比CNN在检测重叠类别图像和变换图像方面有优势,但存在速度慢、资源消耗大、参数多和准确率相对较低的问题。
- Method: 开发了LE-CapsNet,这是一个轻量级、增强型的CapsNet变体,使用380万权重参数。
- Result: 在CIFAR-10数据集上达到76.73%准确率,推理速度比CapsNet快4倍;在AffNIST数据集上达到94.3%准确率,优于CapsNet的90.52%。
- Conclusion: LE-CapsNet在保持CapsNet优势的同时,显著提升了性能、速度和效率,特别是在处理仿射变换图像方面表现更鲁棒。
[8] Target-Balanced Score Distillation
Zhou Xu,Qi Wang,Yuxiao Yang,Luyuan Zhang,Zhang Liang,Yang Li
Main category: cs.CV
TL;DR: 本文提出了Target-Balanced Score Distillation (TBSD)方法,解决了Score Distillation Sampling (SDS)在3D资产生成中存在的纹理与形状权衡问题。
- Motivation: 传统SDS方法存在过饱和和过平滑问题,而引入负提示的变体方法面临纹理优化有限或纹理提升但形状失真的关键权衡问题。
- Method: 通过系统性分析发现该权衡受负提示使用方式控制,提出TBSD方法将生成建模为多目标优化问题,并引入自适应策略来平衡纹理和形状。
- Result: 大量实验表明TBSD显著优于现有最先进方法,能够生成具有高保真纹理和几何准确形状的3D资产。
- Conclusion: TBSD有效解决了SDS方法中纹理与形状的权衡问题,实现了高质量的3D资产生成。
[9] CompressNAS : A Fast and Efficient Technique for Model Compression using Decomposition
Sudhakar Sah,Nikhil Chabbra,Matthieu Durnerin
Main category: cs.CV
TL;DR: CompressNAS是一个基于MicroNAS的框架,通过全局搜索秩选择来压缩深度卷积神经网络,在保持精度的同时实现显著压缩比。
- Motivation: 深度卷积神经网络在微控制器和轻量级NPU上部署困难,现有低秩张量分解方法局部选择秩且忽略全局压缩与精度的权衡。
- Method: 将秩选择作为全局搜索问题,使用快速精度估计器评估候选分解,在内存和精度约束下进行高效全面的秩探索。
- Result: 在ImageNet上,ResNet-18压缩8倍且精度下降小于4%;在COCO上,YOLOv5s压缩2倍无精度损失,YOLOv5n压缩2倍精度下降2.5%。
- Conclusion: 提出新的压缩模型家族STResNet,与其他高效模型相比具有竞争力性能。
[10] AdaptFly: Prompt-Guided Adaptation of Foundation Models for Low-Altitude UAV Networks
Jiao Chen,Haoyi Wang,Jianhua Tang,Junyi Wang
Main category: cs.CV
TL;DR: AdaptFly是一个无需权重更新的提示引导测试时适应框架,通过轻量级提示检索和梯度稀疏视觉提示优化,解决无人机在恶劣环境下语义分割性能下降的问题,支持跨无人机知识共享。
- Motivation: 低空无人机网络的语义分割模型在天气、光照和视角变化下性能快速退化,资源受限的无人机无法运行基于梯度的测试时适应,而资源充足的无人机独立适应会浪费共享经验。
- Method: 提出AdaptFly框架,包含两种适应模式:资源受限无人机使用轻量级token提示检索共享全局内存;资源充足无人机使用协方差矩阵自适应进化策略进行梯度稀疏视觉提示优化。通过激活统计检测器触发适应,跨无人机知识池整合提示知识。
- Result: 在UAVid和VDD基准测试以及真实无人机部署中,AdaptFly显著提高了分割精度和鲁棒性,优于静态模型和最先进的TTA基线方法。
- Conclusion: AdaptFly为新兴低空经济中的弹性、通信高效感知提供了一条实用路径。
[11] Do Blind Spots Matter for Word-Referent Mapping? A Computational Study with Infant Egocentric Video
Zekai Shi,Zhixi Cai,Kalin Stefanov
Main category: cs.CV
TL;DR: 提出一种基于生物学合理掩码策略的自监督视觉表示学习方法,模仿人类视觉盲点填充机制,用于学习词汇-指称映射。
- Motivation: 解决婴儿首次学习词汇时面临的指称不确定性挑战,即一个词可能指代环境中的任何物体、组件或属性,需要从生态有效的经验数据中学习词汇-指称映射。
- Method: 使用基于掩码自编码器的视觉骨干网络,结合人类眼睛盲点知识定义新型掩码策略,模仿大脑填补视野空白的方式。预训练编码器用于对比学习视频-文本模型学习词汇-指称映射。
- Result: 广泛评估表明,所提出的生物学合理掩码策略在学习跨情境和时间扩展片段中的词汇-指称映射方面,至少与随机掩码策略同样有效。
- Conclusion: 生物学启发的掩码策略为自监督视觉表示学习提供了新的方向,能够有效模拟人类早期词汇学习过程,且性能不逊于传统随机掩码方法。
[12] GROVER: Graph-guided Representation of Omics and Vision with Expert Regulation for Adaptive Spatial Multi-omics Fusion
Yongjun Xiao,Dian Meng,Xinlei Huang,Yanran Liu,Shiwei Ruan,Ziyue Qiao,Xubin Zheng
Main category: cs.CV
TL;DR: GROVER是一个用于自适应整合空间多组学数据的新框架,通过图卷积网络和专家路由机制解决多模态异质性和分辨率不匹配问题。
- Motivation: 空间转录组学、蛋白质组学和表观基因组学数据缺乏病理形态学背景,需要与组织病理学图像整合以进行全面的疾病组织分析,但多模态异质性和分辨率不匹配带来了重大挑战。
- Method: 使用基于Kolmogorov-Arnold网络的图卷积网络编码器捕获模态间非线性依赖关系,引入spot-feature-pair对比学习策略优化模态对应关系,设计动态专家路由机制自适应选择信息丰富的模态。
- Result: 在真实世界空间组学数据集上的实验表明,GROVER优于现有最先进的基线方法。
- Conclusion: GROVER为多模态整合提供了一个稳健可靠的解决方案,能够有效处理空间多组学数据的整合挑战。
[13] Exposing DeepFakes via Hyperspectral Domain Mapping
Aditya Mehta,Swarnim Chaudhary,Pratik Narang,Jagat Sesh Challa
Main category: cs.CV
TL;DR: HSI-Detect是一个两阶段深度伪造检测方法,通过将RGB图像重建为31通道高光谱图像,在光谱域中检测操纵痕迹,相比RGB方法有显著改进。
- Motivation: 现代生成和扩散模型产生的图像高度逼真,能够误导人类感知和自动化检测系统。大多数检测方法只在RGB空间分析三个光谱通道,限制了检测能力。
- Method: 提出HSI-Detect两阶段流水线:首先从标准RGB输入重建31通道高光谱图像,然后在光谱域进行检测。扩展输入表示到更密集的光谱带可以放大RGB域中弱或不可见的操纵伪影。
- Result: 在FaceForensics++数据集上的评估显示,相比仅使用RGB的基线方法,HSI-Detect取得了持续改进。
- Conclusion: 光谱域映射在深度伪造检测方面具有广阔前景,高光谱分析能够增强检测性能。
[14] Toward bilipshiz geometric models
Yonatan Sverdlov,Eitan Rosen,Nadav Dym
Main category: cs.CV
TL;DR: 该论文研究了点云神经网络是否保持对称感知距离的bi-Lipschitz等价性,分析了两种对称感知度量,并提出了改进的bi-Lipschitz模型。
- Motivation: 受等变学习文献启发,研究点云网络是否保持自然对称感知距离的bi-Lipschitz等价性,以提升模型性能。
- Method: 分析了Procrustes匹配度量和Hard Gromov Wasserstein距离,证明它们不bi-Lipschitz等价,并修改现有网络以获得bi-Lipschitz保证。
- Result: 标准不变网络对PM度量不是bi-Lipschitz的,改进后的模型在3D点云对应任务上表现更优。
- Conclusion: 通过确保bi-Lipschitz性质,可以提升点云网络在对称感知距离下的性能,为3D点云对应任务提供更好的解决方案。
[15] Concept-RuleNet: Grounded Multi-Agent Neurosymbolic Reasoning in Vision Language Models
Sanchit Sinha,Guangzhi Xiong,Zhenghao He,Aidong Zhang
Main category: cs.CV
TL;DR: Concept-RuleNet是一个多代理神经符号系统,通过挖掘视觉概念并生成可解释的一阶规则,在保持透明推理的同时增强视觉基础,提高预测准确性并减少幻觉符号。
- Motivation: 现代视觉语言模型虽然预测准确,但缺乏决策解释性,容易产生幻觉事实,特别是在分布外数据上。现有神经符号方法从任务标签提取符号,缺乏对底层视觉数据的充分基础。
- Method: 1) 多模态概念生成器从训练图像中挖掘判别性视觉概念;2) 利用视觉概念条件化符号发现;3) 大型语言模型推理代理将符号组合成可执行的一阶规则;4) 推理时视觉验证代理量化符号存在度并触发规则执行。
- Result: 在五个基准测试(包括两个医学成像任务和三个代表性不足的自然图像数据集)上,系统平均提升最先进神经符号基线5%,同时将规则中幻觉符号出现率降低多达50%。
- Conclusion: Concept-RuleNet通过视觉基础的概念挖掘和符号发现,实现了透明且准确的神经符号推理,有效减少幻觉并提高模型性能。
[16] Batch Transformer Architecture: Case of Synthetic Image Generation for Emotion Expression Facial Recognition
Stanislav Selitskiy
Main category: cs.CV
TL;DR: 提出了一种新型的隐式稀疏Transformer架构——Batch Transformers,通过对重要维度进行注意力机制,显著减少编码器-解码器ANN架构中的瓶颈大小,并在人脸识别任务的合成图像生成中验证了有效性。
- Motivation: 传统Transformer对序列或批处理的全部维度进行注意力计算,计算量大且效率低。本文旨在通过关注重要维度来减少模型瓶颈,提高效率。
- Method: 提出Batch Transformers架构,采用隐式稀疏风格,仅对主要成分(重要维度)实施注意力机制,实现特征选择,从而显著减小编码器-解码器架构的瓶颈大小。
- Result: 在化妆和遮挡数据集的人脸识别任务中测试,该架构能够有效生成合成图像,增加有限原始数据集的变异性。
- Conclusion: Batch Transformers通过关注重要维度的注意力机制,成功减少了模型瓶颈,在数据增强和合成图像生成方面表现出良好效果。
[17] Image-POSER: Reflective RL for Multi-Expert Image Generation and Editing
Hossein Mohebbi,Mohammed Abdulrahman,Yanting Miao,Pascal Poupart,Suraj Kothawade
Main category: cs.CV
TL;DR: Image-POSER是一个基于强化学习的框架,通过协调多个预训练的文生图和图生图专家模型,动态分解长提示词任务,并使用视觉语言模型进行结构化反馈监督,从而提升复杂提示词的生成质量。
- Motivation: 现有的文生图模型在处理长而复杂的组合提示词时表现不佳,无法满足创意工作流程的需求。
- Method: 将图像合成和编辑建模为马尔可夫决策过程,通过强化学习框架动态协调多个预训练专家模型,使用视觉语言模型提供结构化反馈监督每个步骤的对齐。
- Result: 在行业标准和自定义基准测试中,Image-POSER在一致性、保真度和美学方面均优于基线模型(包括前沿模型),并在人类评估中持续获得偏好。
- Conclusion: 强化学习能够赋予AI系统自主分解、重新排序和组合视觉模型的能力,推动向通用视觉助手的发展。
[18] SOTFormer: A Minimal Transformer for Unified Object Tracking and Trajectory Prediction
Zhongping Dong,Pengyang Yu,Shuangjian Li,Liming Chen,Mohand Tahar Kechadi
Main category: cs.CV
TL;DR: SOTFormer是一个统一目标检测、跟踪和短期轨迹预测的端到端框架,通过轻量级时序注意力层实现实时推理,在遮挡、尺度变化和快速运动场景下表现优异。
- Motivation: 解决在遮挡、尺度变化和时间漂移等挑战下,保持时序一致性以实现准确单目标跟踪和短期运动预测的问题。
- Method: 采用基于真实标注激活的记忆机制和燃烧锚点损失来稳定初始化,使用单一轻量级时序注意力层跨帧优化嵌入表示,实现固定GPU内存的实时推理。
- Result: 在Mini-LaSOT基准测试中达到76.3 AUC和53.7 FPS(4.3 GB显存),在快速运动、尺度变化和遮挡场景下优于TrackFormer和MOTRv2等Transformer基线模型。
- Conclusion: SOTFormer通过最小化恒定内存的时序Transformer架构,成功统一了目标检测、跟踪和短期轨迹预测任务,在保持实时性能的同时显著提升了跟踪精度。
[19] MP-GFormer: A 3D-Geometry-Aware Dynamic Graph Transformer Approach for Machining Process Planning
Fatemeh Elhambakhsh,Gaurav Ameta,Aditi Roy,Hyunwoong Ko
Main category: cs.CV
TL;DR: 提出MP-GFormer,一种3D几何感知的动态图变换器,通过注意力机制将演化的3D几何表示集成到动态图学习中,以预测机械加工操作序列。
- Motivation: 现有动态图学习方法在机械加工工艺规划中虽然能捕捉时空依赖关系,但未能融入零件的三维几何信息,缺乏领域意识。
- Method: 使用StereoLithography表面网格表示每次机械加工操作后零件的3D几何,通过注意力机制将演化的3D几何表示集成到动态图变换器中。
- Result: 在合成数据集上评估,相比最先进方法,在主操作和子操作预测准确率上分别提高了24%和36%。
- Conclusion: MP-GFormer通过集成3D几何信息显著提升了机械加工操作序列预测的准确性。
[20] Defending Unauthorized Model Merging via Dual-Stage Weight Protection
Wei-Jia Chen,Min-Yen Tsai,Cheng-Yi Lee,Chia-Mu Yu
Main category: cs.CV
TL;DR: MergeGuard是一个双阶段权重保护框架,通过重新分配任务相关信息并注入结构化扰动,破坏模型合并的兼容性,同时保持原始模型的性能。
- Motivation: 预训练模型和开放存储库的快速扩散使得模型合并成为一种方便但有风险的做法,未经授权的模型合并不仅侵犯知识产权,还破坏模型所有权和问责制。
- Method: 第一阶段通过L2正则化优化重新分配任务相关信息,确保重要梯度均匀分布;第二阶段注入结构化扰动以错位任务子空间,破坏损失景观中的曲率兼容性。
- Result: 在视觉(ViT-L-14)和语言(Llama2、Gemma2、Mistral)模型上的广泛实验表明,MergeGuard将合并模型准确率降低高达90%,而受保护模型的性能损失小于1.5%。
- Conclusion: MergeGuard通过重塑模型参数几何形状,使合并模型崩溃为破坏性干扰,同时受保护模型保持完全功能,有效防止未经授权的模型合并。
[21] FocusSDF: Boundary-Aware Learning for Medical Image Segmentation via Signed Distance Supervision
Muzammal Shafique,Nasir Rahim,Jamil Ahmad,Mohammad Siadat,Khalid Malik,Ghaus Malik
Main category: cs.CV
TL;DR: 提出FocusSDF损失函数,基于符号距离函数自适应地为边界区域分配更高权重,提升医学图像分割的边界保持能力。
- Motivation: 大多数分割模型未显式编码边界信息,导致医学图像分割中边界保持成为持续挑战。
- Method: 引入基于符号距离函数(SDFs)的FocusSDF损失函数,通过自适应为靠近边界的像素分配更高权重,使网络专注于边界区域。
- Result: 在脑动脉瘤、中风、肝脏和乳腺肿瘤等多个数据集上的实验表明,FocusSDF在性能上持续优于现有的基于距离变换的损失函数。
- Conclusion: FocusSDF是一种有效的边界感知损失函数,能够显著提升医学图像分割的边界保持性能。
[22] Lacking Data? No worries! How synthetic images can alleviate image scarcity in wildlife surveys: a case study with muskox (Ovibos moschatus)
Simon Durand,Samuel Foucher,Alexandre Delplanque,Joëlle Taillon,Jérôme Théau
Main category: cs.CV
TL;DR: 本研究探讨了使用合成图像补充有限训练数据来改善零样本和少样本设置下的麝牛检测效果。研究发现添加合成图像能提高检测性能,但超过基线训练数据集100%时会出现收益递减。
- Motivation: 传统野生动物调查方法资源密集且受限于后勤挑战,而深度学习目标检测模型在稀疏分布物种(如麝牛)的小数据集上效果有限,需要寻找替代方案。
- Method: 比较了在真实图像上训练的基线模型与5个零样本和5个少样本模型,这些模型在训练集中逐步加入更多合成图像。零样本模型不含真实图像,少样本模型结合真实和合成图像。
- Result: 零样本模型中,添加合成图像提高了检测性能,但随着合成图像超过基线训练数据集的100%,性能增长趋于平稳。少样本模型中,结合真实和合成图像能获得更好的召回率和略高的整体准确率,但改进不具统计显著性。
- Conclusion: 合成图像在数据稀缺时具有训练准确目标检测模型的潜力,为监测稀有或难以接近的物种提供了重要视角,并可增加监测频率。该方法可在没有真实数据的情况下启动目标检测模型,并随着时间推移获取真实图像进行优化。
[23] Advancing Annotat3D with Harpia: A CUDA-Accelerated Library For Large-Scale Volumetric Data Segmentation
Camila Machado de Araujo,Egon P. B. S. Borges,Ricardo Marcelo Canteiro Grangeiro,Allan Pinto
Main category: cs.CV
TL;DR: 开发了基于CUDA的Harpia处理库,集成到Annotat3D中,用于大规模3D数据集的高效交互式分割,支持超过单GPU内存容量的数据处理。
- Motivation: 高分辨率体积成像技术生成的大型数据集对现有处理工具的效率和交互性提出了挑战。
- Method: 通过Harpia库实现严格内存控制、本地分块执行和GPU加速的过滤、标注和量化工具,支持在HPC和远程访问环境中进行可扩展的交互式分割工作流。
- Result: 实验结果显示,与NVIDIA cuCIM和scikit-image等框架相比,在处理速度、内存效率和可扩展性方面有显著提升。
- Conclusion: 该系统结合交互式人机界面和高效的GPU资源管理,特别适合共享HPC基础设施中的协作科学成像工作流。
[24] Prompt Triage: Structured Optimization Enhances Vision-Language Model Performance on Medical Imaging Benchmarks
Arnav Singhvi,Vasiliki Bikia,Asad Aali,Akshay Chaudhari,Roxana Daneshjou
Main category: cs.CV
TL;DR: 本文提出使用DSPy框架进行自动提示优化,在医学视觉语言系统中显著提升性能,相比零样本提示中位数相对改进达53%,最大改进达300%-3400%。
- Motivation: 视觉语言基础模型在医学基准测试中表现不佳,而微调需要大量领域数据和计算资源,手动提示工程难以泛化且对医疗机构不友好,因此需要开发不依赖人工提示设计的可扩展方法。
- Method: 采用DSPy框架进行结构化自动提示优化,在放射学、胃肠病学和皮肤病学的五个医学成像任务中实现提示管道,评估了10个开源VLM和四种提示优化技术。
- Result: 优化后的管道相比零样本提示基准实现了53%的中位数相对改进,在零样本性能较低的任务上最大改进达到300%-3400%。
- Conclusion: 自动提示优化在医学AI系统中具有巨大潜力,显著提升了需要准确临床图像解释的视觉应用性能,减少了对提示设计的依赖,让临床医生能专注于患者护理和临床决策。
[25] PI-NAIM: Path-Integrated Neural Adaptive Imputation Model
Afifa Khaled,Ebrahim Hamid Sumiea
Main category: cs.CV
TL;DR: PI-NAIM是一个双路径架构,根据缺失复杂性动态路由样本到优化的插补方法,集成统计插补和神经网络,在医疗成像和多模态临床数据中实现最先进的性能。
- Motivation: 医疗成像和多模态临床环境中经常面临缺失模态的挑战,现有插补方法要么缺乏表示能力,要么计算成本高昂。
- Method: 提出双路径架构:智能路径路由将低缺失样本导向高效统计插补(MICE),复杂模式导向强大神经网络(GAIN);跨路径注意力融合利用缺失感知嵌入智能结合两个分支;端到端联合优化插补准确性和下游任务性能。
- Result: 在MIMIC-III和多模态基准测试中实现最先进性能:RMSE为0.108(基线为0.119-0.152),死亡率预测AUROC达到0.812。
- Conclusion: PI-NAIM的模块化设计能够无缝集成到处理不完整传感器测量、缺失模态或损坏输入的视觉管道中,为现实场景提供统一解决方案。
[26] Seeing the Forest and the Trees: Query-Aware Tokenizer for Long-Video Multimodal Language Models
Siyou Li,Huanan Wu,Juexi Shao,Yinghao Ma,Yujian Gan,Yihao Luo,Yuwei Wang,Dong Nie,Lu Wang,Wengqing Wu,Le Zhang,Massimo Poesio,Juntao Yu
Main category: cs.CV
TL;DR: QTSplus是一个轻量级视觉token选择模块,通过动态选择与文本查询最相关的视觉证据,显著压缩长视频处理的视觉流,降低计算成本,同时保持理解准确性。
- Motivation: 解决多模态大语言模型在长视频理解中的挑战,特别是视觉token数量随视频长度线性增长导致的注意力成本、内存和延迟爆炸问题。
- Method: 使用交叉注意力对视觉token评分,基于查询复杂度预测实例特定的保留预算,通过可微分直通估计器选择Top-n token,并利用小型重新编码器保持时间顺序。
- Result: 在Qwen2.5-VL中集成QTSplus,视觉流压缩达89%,端到端延迟降低28%,在八个长视频理解基准测试中保持接近原始模型的准确度,在TempCompass方向准确度上提升20.5个百分点。
- Conclusion: QTSplus是扩展MLLMs到真实世界长视频场景的有效通用机制,能在保持任务相关证据的同时显著降低计算成本。
[27] From Events to Clarity: The Event-Guided Diffusion Framework for Dehazing
Ling Wang,Yunfan Lu,Wenzong Ma,Huizai Yao,Pengteng Li,Hui Xiong
Main category: cs.CV
TL;DR: 首次使用事件相机进行图像去雾,通过事件引导的扩散模型将事件的高动态范围信息传输到RGB图像中,解决传统方法在雾霾条件下动态范围有限的问题。
- Motivation: 传统基于RGB的去雾方法受限于有限的动态范围,在雾霾条件下容易丢失结构和光照细节。事件相机具有更高的动态范围和微秒级延迟,更适合雾霾场景。
- Method: 提出事件引导的扩散模型,设计事件引导模块将稀疏的高动态范围事件特征(如边缘、角点)映射到扩散潜在空间,为生成过程提供精确的结构指导。
- Result: 在两个基准测试和自建的重度雾霾无人机数据集上实现了最先进的去雾效果,改善了视觉真实度并减少了语义漂移。
- Conclusion: 事件相机为图像去雾提供了新的解决方案,通过有效传输高动态范围信息,显著提升了雾霾条件下图像恢复的质量。
[28] Evaluation of Attention Mechanisms in U-Net Architectures for Semantic Segmentation of Brazilian Rock Art Petroglyphs
Leonardi Melo,Luís Gustavo,Dimmy Magalhães,Lucciani Vieira,Mauro Araújo
Main category: cs.CV
TL;DR: 比较三种基于U-Net的架构在巴西岩画岩刻语义分割中的性能,其中Attention-Residual BEGL-UNet表现最佳,Dice分数达0.710。
- Motivation: 研究旨在通过深度学习技术改进考古遗产的数字保护,特别是对巴西考古遗址的岩画岩刻进行语义分割。
- Method: 比较了三种U-Net变体架构:BEGL-UNet、Attention-Residual BEGL-UNet(包含残差块和门控注意力机制)、Spatial Channel Attention BEGL-UNet(基于CBAM的空间通道注意力模块),均使用结合二元交叉熵和高斯边缘增强的BEGL损失函数,采用5折交叉验证。
- Result: Attention-Residual BEGL-UNet表现最佳,Dice分数0.710,验证损失0.067,召回率0.854;Spatial Channel Attention BEGL-UNet Dice分数0.707,召回率0.857;基线BEGL-UNet Dice分数0.690。注意力机制相比基线提升2.5-2.9%。
- Conclusion: 注意力机制在考古遗产数字保护中具有显著效果,能够有效提升岩画岩刻语义分割的精度。
[29] From Classification to Cross-Modal Understanding: Leveraging Vision-Language Models for Fine-Grained Renal Pathology
Zhenhao Guo,Rachit Saluja,Tianyuan Yao,Quan Liu,Junchao Zhu,Haibo Wang,Daniel Reisenbüchler,Yuankai Huo,Benjamin Liechty,David J. Pisapia,Kenji Ikemura,Steven Salvatoree,Surya Seshane,Mert R. Sabuncu,Yihe Yang,Ruining Deng
Main category: cs.CV
TL;DR: 本研究评估了在数据受限的临床环境下,病理学专用和通用视觉语言模型在细粒度肾小球亚型分类中的表现,发现病理学专用模型配合标准微调是最有效的起点,即使每亚型仅有4-8个标注样本也能显著提升分类性能。
- Motivation: 肾活检中细粒度肾小球亚型分类至关重要,但临床上有价值的标签稀缺且难以获取。现有计算方法倾向于在全监督下进行粗粒度疾病分类,不清楚视觉语言模型如何在数据约束下适应临床有意义的亚型分类。
- Method: 将细粒度肾小球亚型分类建模为临床现实的少样本问题,系统评估病理学专用和通用视觉语言模型,分析分类性能(准确率、AUC、F1)和学习表示的几何特性,包括图像与文本嵌入的特征对齐和肾小球亚型的可分离性。
- Result: 病理学专用视觉语言骨干网络配合标准微调是最有效的起点,即使每亚型仅有4-8个标注样本,这些模型也能开始捕捉区别并显示出显著的判别和校准提升,尽管额外监督仍能带来增量改进。正负样本间的判别与图像-文本对齐同等重要。
- Conclusion: 监督水平和适应策略共同塑造诊断性能和多模态结构,为模型选择、适应策略和标注投资提供指导。在临床数据约束下,病理学专用视觉语言模型配合适当微调是实现细粒度肾小球亚型分类的有效途径。
[30] BeyondFacial: Identity-Preserving Personalized Generation Beyond Facial Close-ups
Songsong Zhang,Chuanqi Tang,Hongguang Zhang,Guijian Tang,Minglong Li,Xueqiong Li,Shaowu Yang,Yuanxi Peng,Wenjing Yang,Jing Zhao
Main category: cs.CV
TL;DR: 本文提出了一种突破面部特写限制的身份保持个性化生成方法,通过双线推理管道、身份自适应融合策略和身份聚合前置模块,解决了传统方法中身份特征嵌入削弱生成模型语义表达能力的问题。
- Motivation: 现有的身份保持个性化生成方法过度强调面部区域,导致输出被面部特写主导,存在视觉叙事性弱和复杂文本提示下语义一致性差的问题,核心限制在于身份特征嵌入削弱了生成模型的语义表达能力。
- Method: 设计了双线推理管道实现身份-语义分离,提出身份自适应融合策略将身份-语义融合推迟到噪声预测阶段,并引入身份聚合前置模块来聚合身份信息并替换随机初始化。
- Result: 实验结果表明该方法在超越面部特写的身份保持个性化生成任务中实现了稳定有效的性能,无需手动掩码或微调即可高效生成。
- Conclusion: 该方法作为即插即用组件可快速部署到现有框架中,解决了对面部特写的过度依赖,促进了电影级角色-场景创作,为相关领域提供了更丰富的个性化生成能力。
[31] Dynamic Parameter Optimization for Highly Transferable Transformation-Based Attacks
Jiaming Liang,Chi-Man Pun
Main category: cs.CV
TL;DR: 本文提出了一种高效的动态参数优化方法(DPO),基于同心衰减模型(CDM)来解释迁移攻击中参数强度与迁移性之间的动态模式,显著提升了基于变换的攻击的迁移性。
- Motivation: 现有的基于变换的攻击存在三个主要问题:(1)仅考虑低迭代设置,无法反映高迭代下的真实性能;(2)对不同代理模型、迭代次数和任务使用统一参数,限制了迁移性;(3)传统网格搜索参数优化复杂度高,计算开销大。
- Method: 首先对各种变换进行实证研究,发现迁移性随参数强度变化的三种动态模式;提出同心衰减模型(CDM)来解释这些模式;基于上升-下降模式设计高效的动态参数优化(DPO)方法,将复杂度从O(m^n)降低到O(nlogm)。
- Result: 在不同代理模型、迭代次数和任务上的综合实验表明,DPO方法能显著提升基于变换的攻击的迁移性。
- Conclusion: 本文提出的动态参数优化方法有效解决了现有变换攻击的参数优化盲点,通过揭示参数强度与迁移性的动态关系,显著提升了攻击的迁移能力。
[32] LithoSeg: A Coarse-to-Fine Framework for High-Precision Lithography Segmentation
Xinyu He,Botong Zhao,Bingbing Li,Shujing Lyu,Jiwei Shen,Yue Lu
Main category: cs.CV
TL;DR: LithoSeg是一个用于光刻SEM图像分割的粗到细网络,通过人机协同的SAM引导和1D回归方法,实现了高精度分割和测量。
- Motivation: 现有光刻SEM图像分割方法缺乏足够的精度和鲁棒性,限制了在实际半导体制造中的应用。需要像素级的沟槽轮廓分割和跨不同图案几何形状的一致性能。
- Method: 采用两阶段方法:粗阶段使用人机协同的SAM引导方案实现鲁棒性;细阶段将2D分割重新定义为1D回归问题,使用粗掩模采样沟槽法线轮廓,并用轻量级MLP进行逐点细化。
- Result: LithoSeg在分割精度和计量精度方面均优于先前方法,同时需要更少的监督,为实际应用提供了良好前景。
- Conclusion: 提出的粗到细网络LithoSeg能够有效解决光刻SEM图像分割的精度和鲁棒性问题,在减少监督的同时提升了性能。
[33] Uncertainty-Guided Selective Adaptation Enables Cross-Platform Predictive Fluorescence Microscopy
Kai-Wen K. Yang,Andrew Bai,Alexandra Bermudez,Yunqi Hong,Zoe Latham,Iris Sloan,Michael Liu,Vishrut Goyal,Cho-Jui Hsieh,Neil Y. C. Lin
Main category: cs.CV
TL;DR: 提出SIT-ADDA-Auto框架,仅调整早期卷积层而非整个网络,实现显微镜图像的无标签域适应,提高跨仪器和设置的鲁棒性。
- Motivation: 深度学习在显微镜应用中面临域偏移问题,传统对抗域适应方法会破坏已学习的语义表示,需要更高效的适应策略。
- Method: SIT-ADDA-Auto框架:仅适应早期卷积层,冻结深层;集成浅层对抗对齐和预测不确定性,自动选择适应深度,无需目标标签。
- Result: 在曝光、光照变化、跨仪器传输和多种染色条件下,SIT-ADDA在重建和下游分割任务上优于全编码器适应和非对抗基线方法,减少语义特征漂移。
- Conclusion: 为显微镜无标签域适应提供了设计规则,适用于现场设置;代码已公开。
[34] Enhancing Road Safety Through Multi-Camera Image Segmentation with Post-Encroachment Time Analysis
Shounak Ray Chaudhuri,Arash Jahangiri,Christopher Paolini
Main category: cs.CV
TL;DR: 提出基于多摄像头计算机视觉的实时交通安全评估框架,通过后侵入时间(PET)计算在交叉路口进行高精度危险区域识别。
- Motivation: 传统基于事故的交通安全分析受限于数据稀疏性和延迟问题,需要实时、高分辨率的评估方法来改善交叉路口安全。
- Method: 使用四个同步摄像头提供连续视觉覆盖,在NVIDIA Jetson AGX Xavier设备上使用YOLOv11分割进行车辆检测,通过单应矩阵将车辆多边形转换为统一的鸟瞰图,并开发像素级PET算法进行精细危险可视化。
- Result: 系统能够以亚秒精度识别高风险区域,在边缘设备上实现实时处理,平均2.68 FPS生成800x800像素对数热力图,精度达3.3平方厘米。
- Conclusion: 验证了去中心化视觉PET分析在智能交通系统中的可行性,为高分辨率、实时和可扩展的交叉路口安全评估提供了可复制的方法论。
[35] LIHE: Linguistic Instance-Split Hyperbolic-Euclidean Framework for Generalized Weakly-Supervised Referring Expression Comprehension
Xianglong Shi,Silin Cheng,Sirui Zhao,Yunhan Jiang,Enhong Chen,Yang Liu,Sebastien Ourselin
Main category: cs.CV
TL;DR: 提出了LIHE框架解决弱监督广义指称表达理解任务,通过两阶段方法处理零个或多个目标的情况,结合双曲几何和欧氏距离防止语义崩溃。
- Motivation: 现有弱监督指称表达理解方法受限于一对一映射假设,无法处理现实场景中对应零个或多个目标的表达,需要更实用的广义任务范式。
- Method: LIHE框架包含两个阶段:指称解耦阶段预测目标数量并分解复杂表达为子表达;指称定位阶段使用HEMix混合相似度模块结合欧氏距离和双曲几何进行定位。
- Result: 在gRefCOCO和Ref-ZOM数据集上建立了首个有效的弱监督WGREC基线,HEMix在标准REC基准上提升IoU@0.5达2.5%。
- Conclusion: LIHE框架成功解决了弱监督广义指称表达理解任务,通过混合相似度方法有效防止语义崩溃,为更实用的指称理解系统提供了基础。
[36] Null-Space Diffusion Distillation for Efficient Photorealistic Lensless Imaging
Jose Reinaldo Cunha Santos A V Silva Neto,Hodaka Kawachi,Yasushi Yagi,Tomoya Nakamura
Main category: cs.CV
TL;DR: 提出NSDD方法,通过单次前向传播蒸馏迭代DDNM+求解器的零空间分量,在无配对监督下实现快速、逼真的无透镜图像重建。
- Motivation: 现有无透镜相机重建方法依赖配对监督会产生域不匹配偏差,而通用扩散先验在噪声、高度复用和病态的无透镜反卷积设置中不稳定。
- Method: 分离范围空间约束和零空间扩散先验更新,提出NSDD方法蒸馏DDNM+求解器的零空间分量,以镜头测量和范围空间锚点为条件。
- Result: 在Lensless-FFHQ和PhlatCam上,NSDD是第二快的方法(仅次于Wiener),达到接近教师模型的感知质量(第二好LPIPS,优于DPS和经典凸基线)。
- Conclusion: NSDD为快速、无真实标签、逼真的无透镜成像提供了一条实用路径。
[37] Bridging Vision and Language for Robust Context-Aware Surgical Point Tracking: The VL-SurgPT Dataset and Benchmark
Rulin Zhou,Wenlong He,An Wang,Jianhang Zhang,Xuanhui Zeng,Xi Zhang,Chaowei Zhu,Haijun Hu,Hongliang Ren
Main category: cs.CV
TL;DR: VL-SurgPT是首个大规模多模态手术点跟踪数据集,结合视觉跟踪与文本描述,在复杂手术场景中显著提升跟踪精度和鲁棒性。
- Motivation: 现有手术跟踪数据集缺乏语义上下文,难以理解跟踪失败机制,特别是在烟雾遮挡、镜面反射和组织变形等复杂视觉条件下。
- Method: 构建包含908个体内视频片段的多模态数据集,包括组织跟踪和器械跟踪;建立8种最先进跟踪方法的基准,并提出TG-SurgPT文本引导跟踪方法。
- Result: 实验结果表明,结合点状态信息显著提高了跟踪精度和可靠性,特别是在视觉条件恶劣的场景中,传统纯视觉方法表现不佳。
- Conclusion: 通过桥接视觉和语言模态,VL-SurgPT能够开发上下文感知的跟踪系统,在挑战性术中条件下保持性能,推动计算机辅助手术应用的发展。
[38] GCAgent: Long-Video Understanding via Schematic and Narrative Episodic Memory
Jeong Hun Yeo,Sangyun Chung,Sungjune Park,Dae Hoe Kim,Jinyoung Moon,Yong Man Ro
Main category: cs.CV
TL;DR: GCAgent是一个全局上下文感知代理框架,通过创新的示意图和叙事情景记忆来解决长视频理解问题,在Video-MME基准测试中达到最先进性能。
- Motivation: 解决多模态大语言模型在长视频理解中的令牌限制和长期依赖捕获困难问题,现有方法难以捕捉全局上下文和复杂事件关系。
- Method: 提出GCAgent框架,核心创新是示意图和叙事情景记忆,将事件及其因果时间关系结构化建模为有组织的上下文,通过多阶段的感知-行动-反思循环和记忆管理器进行推理。
- Result: 在Video-MME Long split上比强基线提升23.5%准确率,在7B规模MLLM中达到最先进性能:Long split准确率73.4%,整体平均71.9%。
- Conclusion: 基于代理的推理范式和结构化记忆为认知启发的长视频理解提供了有效解决方案。
[39] VPHO: Joint Visual-Physical Cue Learning and Aggregation for Hand-Object Pose Estimation
Jun Zhou,Chi Xu,Kaifeng Tang,Yuting Ge,Tingrui Guo,Li Cheng
Main category: cs.CV
TL;DR: 提出了一种结合视觉和物理线索的手-物体3D姿态估计框架,通过联合视觉-物理线索学习和候选姿态聚合,实现视觉一致且物理合理的结果。
- Motivation: 现有方法主要依赖视觉线索,常产生违反物理约束的结果;而引入物理推理的方法通常依赖后优化或不可微物理引擎,影响视觉一致性和端到端训练能力。
- Method: 1) 联合视觉-物理线索学习:训练模型提取2D视觉线索和3D物理线索;2) 候选姿态聚合:通过扩散生成多个候选姿态,结合视觉和物理预测进行精炼。
- Result: 在姿态准确性和物理合理性方面显著优于现有最先进方法。
- Conclusion: 提出的框架成功整合了视觉和物理线索,实现了更准确和物理合理的手-物体3D姿态估计。
[40] Improved Masked Image Generation with Knowledge-Augmented Token Representations
Guotao Liang,Baoquan Zhang,Zhiyuan Wen,Zihao Han,Yunming Ye
Main category: cs.CV
TL;DR: KA-MIG是一个知识增强的掩码图像生成框架,通过引入三种先验知识图来增强模型对语义依赖关系的理解,从而提高图像生成质量。
- Motivation: 现有掩码图像生成方法仅依赖模型自身学习视觉token序列的语义依赖关系,但由于单个token缺乏明确语义且序列较长,直接从数据中学习这些依赖关系具有挑战性。
- Method: 提出KA-MIG框架,引入三种token级语义依赖知识图(共现图、语义相似图、位置token不兼容图),设计图感知编码器学习token和位置感知表示,并通过轻量级融合机制集成到现有MIG方法中。
- Result: 实验结果表明,该方法在ImageNet上的类条件图像生成任务中优于现有MIG方法。
- Conclusion: 通过引入先验知识图,KA-MIG有效增强了模型捕捉语义依赖关系的能力,从而提高了生成质量。
[41] Calibrated Multimodal Representation Learning with Missing Modalities
Xiaohao Liu,Xiaobo Xia,Jiaheng Wei,Shuo Yang,Xiu Su,See-Kiong Ng,Tat-Seng Chua
Main category: cs.CV
TL;DR: 提出了CalMRL方法来解决多模态表示学习中因模态缺失导致的锚点偏移问题,通过表示层面的模态补全和双步学习策略来校准不完整的对齐。
- Motivation: 现有方法需要所有模态都同时存在才能实现跨模态对齐,但在实际数据集中经常存在模态缺失的情况,这导致局部锚点偏离最优对齐状态。
- Method: 利用模态间的先验和内在联系,在表示层面对缺失模态进行建模补全;采用双步学习方法和共享潜变量的后验分布闭式解来解决优化困境。
- Result: 理论验证了该方法能够缓解锚点偏移并保证收敛;实验表明CalMRL在模态缺失场景下表现出优越性能。
- Conclusion: CalMRL为吸收具有缺失模态的数据提供了新的灵活性,解决了传统方法无法处理模态缺失的局限性。
[42] SRSplat: Feed-Forward Super-Resolution Gaussian Splatting from Sparse Multi-View Images
Xinyuan Hu,Changyue Shi,Chuxiao Yang,Minghao Chen,Jiajun Ding,Tao Wei,Chen Wei,Zhou Yu,Min Tan
Main category: cs.CV
TL;DR: SRSplat是一个前馈式3D重建框架,能从少量低分辨率图像重建高分辨率3D场景,通过结合外部参考图像和内部纹理线索来补偿纹理信息不足。
- Motivation: 现有方法在从稀疏低分辨率图像进行3D重建时,往往无法恢复精细纹理细节,这源于低分辨率输入中高频信息的固有缺失。
- Method: 首先使用多模态大语言模型和扩散模型为每个场景构建特定参考图库,然后通过参考引导特征增强模块对齐和融合低分辨率输入与参考图像的特征,最后训练解码器预测高斯基元,并通过纹理感知密度控制自适应调整高斯密度。
- Result: 在RealEstate10K、ACID和DTU等多个数据集上的广泛实验表明,SRSplat优于现有方法,并展现出强大的跨数据集和跨分辨率泛化能力。
- Conclusion: SRSplat通过有效利用外部参考图像和内部纹理线索,成功解决了从稀疏低分辨率图像重建高分辨率3D场景时的纹理细节恢复问题。
[43] FedSDA: Federated Stain Distribution Alignment for Non-IID Histopathological Image Classification
Cheng-Chang Tsai,Kai-Wen Cheng,Chun-Shien Lu
Main category: cs.CV
TL;DR: 提出FedSDA方法,通过扩散模型和染色分离技术对齐联邦学习中各客户端的染色分布,解决组织病理学图像的非IID数据问题,同时避免隐私泄露风险。
- Motivation: 联邦学习在非IID数据(特别是组织病理学图像)上面临挑战,现有方法很少从数据分布角度解决特征分布偏移问题。
- Method: 基于扩散模型拟合数据分布,利用染色分离提取关键特征,在FL框架中将每个客户端的染色分布与目标分布对齐。
- Result: 实验表明FedSDA能有效提升基线方法性能,优于其他从数据分布角度解决非IID问题的方法。
- Conclusion: FedSDA为计算病理学社区提供了有价值的实践洞察,能有效缓解客户端间的分布偏移问题。
[44] DCMM-Transformer: Degree-Corrected Mixed-Membership Attention for Medical Imaging
Huimin Cheng,Xiaowei Yu,Shushan Wu,Luyang Fang,Chao Cao,Jing Zhang,Tianming Liu,Dajiang Zhu,Wenxuan Zhong,Ping Ma
Main category: cs.CV
TL;DR: DCMM-Transformer是一种用于医学图像分析的新型ViT架构,通过将度校正混合成员模型作为自注意力中的加性偏置,解决了现有方法无法利用医学图像潜在解剖结构的问题。
- Motivation: 医学图像存在潜在的解剖分组(如器官、组织和病理区域),但标准的Vision Transformers无法利用这些结构。现有方法如SBM-Transformer存在不可微分性、训练不稳定性和无法建模复杂社区结构的问题。
- Method: 提出DCMM-Transformer,将度校正混合成员模型作为自注意力中的加性偏置引入,以完全可微分和可解释的方式建模社区结构和度异质性,避免了乘法掩码和二元采样的限制。
- Result: 在包括脑部、胸部、乳腺和眼部等多种医学成像数据集上的综合实验表明,该方法具有优越的性能和泛化能力。
- Conclusion: 所学习的群组结构和结构化注意力调制显著增强了可解释性,产生了具有解剖意义和语义一致性的注意力图。
[45] DeiTFake: Deepfake Detection Model using DeiT Multi-Stage Training
Saksham Kumar,Ashish Singh,Srinivasarao Thota,Sunil Kumar Singh,Chandan Kumar
Main category: cs.CV
TL;DR: 提出DeiTFake,一种基于DeiT的深度伪造检测方法,采用两阶段渐进训练策略,在OpenForensics数据集上达到99.22%的准确率和0.9997的AUROC。
- Motivation: 深度伪造对数字媒体完整性构成重大威胁,需要开发更有效的检测方法来应对这一挑战。
- Method: 使用DeiT-based transformer架构,采用新颖的两阶段渐进训练策略:第一阶段使用标准数据增强进行迁移学习,第二阶段使用高级仿射变换和深度伪造特定增强进行微调。
- Result: 在OpenForensics数据集(190,335张图像)上,第一阶段达到98.71%准确率,第二阶段达到99.22%准确率和0.9997 AUROC,超越了最新的OpenForensics基线方法。
- Conclusion: DeiTFake通过知识蒸馏模型捕捉细微的操作伪影,提高了检测模型的鲁棒性,为面部深度伪造检测提供了实用的基准。
[46] UniABG: Unified Adversarial View Bridging and Graph Correspondence for Unsupervised Cross-View Geo-Localization
Cuiqun Chen,Qi Chen,Bin Yang,Xingyi Zhang
Main category: cs.CV
TL;DR: UniABG是一个新颖的双阶段无监督跨视角地理定位框架,通过对抗性视角桥接和图基对应校准来解决跨视角域差距问题,无需成对标注即可实现高性能地理定位。
- Motivation: 监督方法依赖大量成对标注限制了可扩展性,而无监督方法由于跨视角域差距导致伪标签噪声严重。需要一种能够有效处理跨视角域差距的无监督方法。
- Method: 提出双阶段框架:1) 视图感知对抗桥接(VAAB)建模视图不变特征增强伪标签鲁棒性;2) 异构图过滤校准(HGFC)构建双视图间结构图来精化跨视角关联。
- Result: 在University-1652数据集上卫星→无人机AP提升+10.63%,在SUES-200数据集上提升+16.73%,甚至超越监督基线方法。
- Conclusion: UniABG通过结合对抗学习和图结构建模,在无监督跨视角地理定位中实现了最先进的性能,证明了该方法的有效性。
[47] PipeDiT: Accelerating Diffusion Transformers in Video Generation with Task Pipelining and Model Decoupling
Sijie Wang,Qiang Wang,Shaohuai Shi
Main category: cs.CV
TL;DR: PipeDiT是一个用于加速视频生成的流水线框架,通过序列并行、模块解耦和注意力协同处理等技术,显著提升了扩散变换器模型的推理速度。
- Motivation: 当前基于扩散变换器的视频生成模型虽然性能出色,但存在推理速度慢和内存消耗高的问题,限制了实际部署应用。
- Method: 提出PipeDiT框架,包含三个核心技术:1) PipeSP流水线序列并行算法;2) DeDiVAE将扩散模块和VAE模块解耦到不同GPU组;3) Aco注意力协同处理方法优化GPU资源利用。
- Result: 在8-GPU系统上的实验表明,PipeDiT在多种常见分辨率和时间步配置下,相比OpenSoraPlan和HunyuanVideo实现了1.06倍到4.02倍的加速。
- Conclusion: PipeDiT框架通过创新的流水线设计有效解决了视频生成模型的推理瓶颈,为实际部署提供了可行的解决方案。
[48] MovSemCL: Movement-Semantics Contrastive Learning for Trajectory Similarity
Zhichen Lai,Hua Lu,Huan Li,Jialiang Li,Christian S. Jensen
Main category: cs.CV
TL;DR: 提出MovSemCL框架,通过运动语义对比学习解决轨迹相似性计算中的语义建模不足、计算成本高和物理不合理增强问题,在真实数据集上优于现有方法。
- Motivation: 现有基于学习的方法存在三个关键局限:(1)轨迹语义和层次结构建模不足;(2)逐点编码导致计算成本高;(3)使用物理不合理的增强策略扭曲轨迹语义。
- Method: 首先将原始GPS轨迹转换为运动语义特征并分割为补丁,然后使用内部和跨补丁注意力编码局部和全局轨迹模式,采用曲率引导的增强策略保留信息段并屏蔽冗余段。
- Result: 在真实数据集上,MovSemCL在相似性搜索任务中达到接近理想值1的平均排名,在启发式近似中提升达20.3%,同时推理延迟降低达43.4%。
- Conclusion: MovSemCL通过有效的层次表示和物理合理的增强策略,显著提升了轨迹相似性计算的性能和效率。
[49] DCA-LUT: Deep Chromatic Alignment with 5D LUT for Purple Fringing Removal
Jialang Lu,Shuning Sun,Pu Wang,Chen Wu,Feng Gao,Lina Gong,Dianjie Lu,Guijuan Zhang,Zhuoran Zheng
Main category: cs.CV
TL;DR: 提出了DCA-LUT,首个基于深度学习的紫色边缘去除框架,通过色度感知坐标变换模块分离紫色边缘到专用维度,并使用5D查找表进行高效色彩校正。
- Motivation: 紫色边缘是由镜头纵向色差引起的持久伪影,传统解决方案依赖昂贵的复消色差镜头硬件和手工特征提取,忽视了数据驱动方法。
- Method: 引入色度感知坐标变换模块学习图像自适应色彩空间,将紫色边缘分离到专用维度;使用5D查找表进行非线性色彩映射;构建了大规模合成紫色边缘数据集。
- Result: 在合成和真实数据集上的广泛实验表明,该方法在紫色边缘去除方面达到了最先进的性能。
- Conclusion: DCA-LUT框架通过数据驱动方法有效解决了紫色边缘问题,无需昂贵的硬件设备,实现了准确的颜色恢复。
[50] Learning to Hear by Seeing: It's Time for Vision Language Models to Understand Artistic Emotion from Sight and Sound
Dengming Zhang,Weitao You,Jingxiong Li,Weishen Lin,Wenda Shi,Xue Zhao,Heda Zuo,Junxian Wu,Lingyun Sun
Main category: cs.CV
TL;DR: VAEmotionLLM是一个两阶段框架,通过有限的音频预训练教视觉语言模型具备听觉能力,并增强跨模态情感理解。第一阶段使用视觉引导音频对齐,第二阶段通过轻量级跨模态情感适配器注入情感敏感残差并应用情感监督。
- Motivation: 现有音频-视觉语言模型通常需要大规模音频预训练才能赋予视觉语言模型听觉能力,这限制了可扩展性。同时,大多数先前工作是人类中心或单模态的,忽略了艺术作品有意表达的情感。
- Method: 两阶段框架:1) VG-Align通过对齐同步音视频剪辑的共享LLM的下一个token分布,将冻结的视觉路径蒸馏到新的音频路径;2) EmoAdapter通过情感增强器和情感监督器注入情感敏感残差并应用情感监督。
- Result: 在ArtEmoBenchmark上实现了最先进的结果,优于音频、视觉和音频-视觉基线。消融研究表明所提出的组件是互补的。
- Conclusion: VAEmotionLLM证明了通过有限的音频预训练可以有效赋予视觉语言模型听觉能力,并显著提升跨模态情感理解性能。
[51] Point Cloud Quantization through Multimodal Prompting for 3D Understanding
Hongxuan Li,Wencheng Zhu,Huiying Xu,Xinzhong Zhu,Pengfei Zhu
Main category: cs.CV
TL;DR: 提出了一种基于多模态提示驱动的点云量化框架,利用文本嵌入作为原型先验,通过双约束量化空间和Gumbel-Softmax松弛实现几何与语义信息的联合编码。
- Motivation: 当前基于可训练向量或聚类质心的原型方法在代表性和可解释性方面存在不足,而多模态对齐在视觉语言模型中显示出潜力,需要解决这些局限性。
- Method: 使用预训练模型的文本嵌入作为原型先验,通过多模态提示自适应细化原型,引入双约束量化空间(紧凑性和分离性正则化),并采用Gumbel-Softmax实现可微分离散化。
- Result: 在ModelNet40和ScanObjectNN数据集上的广泛实验证明了该方法的优越有效性。
- Conclusion: 所提出的多模态提示驱动量化框架能够有效解决当前向量量化方法的局限性,实现几何和语义信息的联合编码,在点云分析任务中表现出色。
[52] Supervised Multilabel Image Classification Using Residual Networks with Probabilistic Reasoning
Lokender Singh,Saksham Kumar,Chandan Kumar
Main category: cs.CV
TL;DR: 提出了一种基于改进ResNet-101架构和概率推理的多标签图像分类方法,在COCO-2014数据集上取得了优于现有方法的结果。
- Motivation: 多标签图像分类在计算机视觉应用中具有重要意义,但传统方法难以有效处理标签间的依赖关系和不确定性。
- Method: 使用改进的ResNet-101架构,结合概率推理来建模标签依赖关系和不确定性,提升预测准确性。
- Result: 在COCO-2014数据集上达到0.794 mAP,优于ResNet-SRN(0.771)和Vision Transformer基线(0.785)。
- Conclusion: 将概率推理集成到深度学习模型中能有效解决多标签场景的挑战,为多标签图像分类提供了新的解决方案。
[53] SemanticStitch: Enhancing Image Coherence through Foreground-Aware Seam Carving
Ji-Ping Jin,Chen-Bin Feng,Rui Fan,Chi-Man Vong
Main category: cs.CV
TL;DR: SemanticStitch是一个基于深度学习的图像拼接框架,通过融入前景对象的语义先验来保持其完整性并增强视觉连贯性,解决了传统方法因忽略语义信息而导致的前景连续性中断问题。
- Motivation: 图像拼接常因拍摄角度、位置差异和物体移动而面临错位和视觉不一致的挑战。传统接缝雕刻方法忽视语义信息,导致前景连续性被破坏。
- Method: 提出SemanticStitch框架,包含一个新颖的损失函数,强调显著对象的语义完整性。还构建了两个专门的真实世界数据集来评估方法有效性。
- Result: 实验结果显示相比传统技术有显著改进,为实际应用提供了有力支持。
- Conclusion: SemanticStitch通过融入语义先验显著提升了图像拼接质量,解决了传统方法的前景连续性中断问题。
[54] Teaching Prompts to Coordinate: Hierarchical Layer-Grouped Prompt Tuning for Continual Learning
Shengqin Jiang,Tianqi Kong,Yuankai Qi,Haokui Zhang,Lina Yao,Quan Z. Sheng,Qingshan Liu,Ming-Hsuan Yang
Main category: cs.CV
TL;DR: 提出了一种分层分组提示调优方法,通过层分组共享提示和使用根提示生成子提示,减少层间过度独立调整,从而缓解持续学习中的灾难性遗忘问题。
- Motivation: 现有的基于提示的持续学习方法在每个层独立添加任务特定提示,虽然灵活性高但可能导致某些层不必要的更新,容易覆盖先前任务的关键特征表示,增加灾难性遗忘风险。
- Method: 提出分层分组提示调优:1) 同一组内的层共享大致相同的提示,通过位置编码调整;2) 使用单一任务特定根提示学习生成每个层组的子提示,增强子提示间的协同性。
- Result: 在四个基准测试上的广泛实验表明,该方法相比多个最先进方法取得了优越性能。
- Conclusion: 分层分组提示调优通过增强模型稳定性和减少层间过度独立调整,有效缓解了持续学习中的灾难性遗忘问题。
[55] Learning from Dense Events: Towards Fast Spiking Neural Networks Training via Event Dataset Distillatio
Shuhan Ye,Yi Yu,Qixin Zhang,Chenqi Kong,Qiangqiang Wu,Kun Wang,Xudong Jiang
Main category: cs.CV
TL;DR: PACE是首个针对SNN和事件视觉的数据集蒸馏框架,通过压缩大型训练数据集为紧凑的合成数据集,显著降低SNN训练成本,在多个数据集上表现优异。
- Motivation: SNN由于时间编码导致训练成本高昂,限制了实际部署。需要一种方法能够降低SNN的训练成本,使其更适用于实际应用。
- Method: PACE包含两个核心模块:ST-DSM使用残差膜电位来密集化基于脉冲的特征,并进行精细的时空幅度和相位匹配;PEQ-N提供即插即用的直通概率整数量化器,兼容标准事件帧流水线。
- Result: 在DVS-Gesture、CIFAR10-DVS和N-MNIST数据集上,PACE优于现有的核心集选择和数据集蒸馏基线方法,特别是在动态事件流和低/中等IPC情况下表现突出。在N-MNIST上达到84.4%准确率,约为完整训练集性能的85%,同时减少训练时间50倍以上,存储成本6000倍。
- Conclusion: PACE能够生成紧凑的替代数据集,实现分钟级的SNN训练和高效的边缘部署,为事件视觉和SNN的实际应用提供了可行的解决方案。
[56] Sparse by Rule: Probability-Based N:M Pruning for Spiking Neural Networks
Shuhan Ye,Yi Yu,Qixin Zhang,Chenqi Kong,Qiangqiang Wu,Xudong Jiang,Dacheng Tao
Main category: cs.CV
TL;DR: SpikeNM是首个面向SNN的半结构化N:M剪枝框架,通过M路基对数参数化和可微分top-k采样器,将块复杂度线性化到O(M),结合神经科学启发的资格蒸馏方法,在保持精度的同时实现硬件友好的稀疏模式。
- Motivation: 解决SNN深度架构参数膨胀和计算成本高的问题,现有非结构化剪枝难以硬件加速,结构化剪枝缺乏灵活性且精度下降,需要一种既能硬件友好又能保持精度的半结构化剪枝方法。
- Method: 提出SpikeNM框架:1)使用M路基对数参数化和可微分top-k采样器线性化块复杂度;2)引入资格蒸馏(EID)将时间累积信用转换为块级软目标,对齐掩码概率与脉冲动态。
- Result: 在2:4稀疏度下,SpikeNM在主流数据集上保持甚至提升精度,同时产生硬件友好的稀疏模式,补充了固有的脉冲稀疏性。
- Conclusion: SpikeNM成功实现了SNN的半结构化剪枝,平衡了硬件友好性和模型精度,为边缘部署提供了有效的解决方案。
[57] DINOv3-Guided Cross Fusion Framework for Semantic-aware CT generation from MRI and CBCT
Xianhao Zhou,Jianghao Wu,Ku Zhao,Jinlong He,Huangxuan Zhao,Lei Chen,Shaoting Zhang,Guotai Wang
Main category: cs.CV
TL;DR: 提出DGCF框架,结合冻结的DINOv3 Transformer和可训练的CNN编码器-解码器,通过交叉融合模块整合全局语义和局部特征,用于医学图像合成CT任务。
- Motivation: 解决现有CNN模型缺乏全局语义理解,而Transformer在小规模医学数据集上容易过拟合的问题。
- Method: 使用冻结的自监督DINOv3 Transformer与可训练CNN编码器-解码器结合,通过交叉融合模块分层融合全局和局部特征,并引入多层DINOv3感知损失。
- Result: 在SynthRAD2023骨盆数据集上,DGCF在MRI→CT和CBCT→CT转换任务中取得了最先进的性能,在MS-SSIM、PSNR和基于分割的指标上表现优异。
- Conclusion: 这是首个将DINOv3表示用于医学图像转换的工作,展示了自监督Transformer指导在语义感知CT合成中的潜力。
[58] Adaptive Begin-of-Video Tokens for Autoregressive Video Diffusion Models
Tianle Cheng,Zeyan Zhang,Kaifeng Gao,Jun Xiao
Main category: cs.CV
TL;DR: 本文提出自适应视频开始标记(ada-BOV)用于自回归视频扩散模型,通过自适应层归一化调制吸收去噪的前帧,保持全局一致性并改善局部动态质量,同时提出扰动增强训练噪声调度。
- Motivation: 现有视频扩散模型在生成长视频时存在两种主要范式:基于块的扩展存在去噪延迟和误差累积问题,流去噪方法则面临一致性脆弱和运动动态差的问题。
- Method: 提出自适应BOV标记,通过自适应层归一化调制吸收前帧;提出流去噪细化策略,解耦采样轨迹长度与注意力窗口大小约束;提出扰动增强训练噪声调度。
- Result: 在多个指标上取得了令人信服的定性和定量结果,显著提升了长视频生成的全局一致性和局部动态质量。
- Conclusion: ada-BOV方法有效解决了自回归视频扩散模型在长视频生成中的一致性和动态质量问题,为高质量长视频生成提供了可行的解决方案。
[59] Did Models Sufficient Learn? Attribution-Guided Training via Subset-Selected Counterfactual Augmentation
Yannan Chen,Ruoyu Chen,Bin Zeng,Wei Wang,Shiming Liu,Qunli Zhang,Zheng Hu,Laiyuan Wang,Yaowei Wang,Xiaochun Cao
Main category: cs.CV
TL;DR: 提出SS-CA方法,通过反事实解释增强训练,改善模型对关键特征的过度依赖,提升泛化能力和鲁棒性。
- Motivation: 当前视觉模型训练中,模型往往仅依赖有限的充分原因进行预测,导致对分布变化或关键特征缺失敏感。模型与人类在识别被遮蔽关键区域时的差异表明模型学习到的依赖关系可能不够因果充分。
- Method: 基于子集选择的LIMA归因方法开发Counterfactual LIMA,识别最小空间区域集合,其移除能选择性改变模型预测。利用这些归因,提出数据增强策略,将识别区域替换为自然背景,并在增强和原始样本上联合训练模型。
- Result: 在多个ImageNet变体上的广泛实验表明,SS-CA提高了在分布内测试数据的泛化能力,并在分布外基准(如ImageNet-R和ImageNet-S)上获得优越性能。在噪声等扰动下,SS-CA训练的模型也表现出增强的泛化能力。
- Conclusion: 该方法有效利用可解释性洞察纠正模型缺陷,同时提升性能和鲁棒性,证明将反事实解释整合到训练过程中可以缓解不完整的因果学习问题。
[60] BdSL-SPOTER: A Transformer-Based Framework for Bengali Sign Language Recognition with Cultural Adaptation
Sayad Ibna Azad,Md. Atiqur Rahman
Main category: cs.CV
TL;DR: BdSL-SPOTER是一个基于姿态的transformer框架,用于准确高效地识别孟加拉手语,在BdSLW60基准测试中达到97.92%的Top-1验证准确率,比基线提升22.82%,同时保持低计算成本。
- Motivation: 为孟加拉手语开发准确高效的识别系统,解决低资源区域手语识别问题,为实际可访问性应用提供实用框架。
- Method: 扩展SPOTER范式,采用文化特定预处理、紧凑的四层transformer编码器、优化的可学习位置编码,并使用课程学习来增强泛化能力和加速收敛。
- Result: 在BdSLW60基准测试中达到97.92%的Top-1验证准确率,比Bi-LSTM基线提升22.82%,参数量更少、FLOPs更低、FPS更高。
- Conclusion: BdSL-SPOTER为现实世界可访问性应用提供了实用框架,并可作为其他低资源区域手语的可扩展模型。
[61] TEMPO: Global Temporal Building Density and Height Estimation from Satellite Imagery
Tammy Glazer,Gilles Q. Hacheme,Akram Zaytar,Luana Marotti,Amy Michaels,Girmaw Abebe Tadesse,Kevin White,Rahul Dodhia,Andrew Zolli,Inbal Becker-Reshef,Juan M. Lavista Ferres,Caleb Robinson
Main category: cs.CV
TL;DR: TEMPO是一个全球性的、时间分辨的建筑密度和高度数据集,通过深度学习模型从高分辨率卫星图像中提取,提供季度更新的建筑密度和高度地图。
- Motivation: 现有的建筑数据集缺乏时间分辨率,无法捕捉建筑环境的动态变化。需要一种能够大规模监测发展模式和气候影响的方法,以支持全球韧性和适应工作。
- Method: 将现有建筑足迹和高度数据与季度PlanetScope卫星图像配对,训练多任务深度学习模型,预测37.6米/像素分辨率的建筑密度和高度,并应用于2018年第一季度至2025年第二季度的全球数据。
- Result: 验证显示F1分数在85%-88%之间,时间稳定性高(5年趋势一致性得分0.96),能够以较低计算成本捕获建成区的季度变化。
- Conclusion: TEMPO能够以较低计算成本实现大规模建成区监测,为全球发展模式和气候影响研究提供重要数据支持。
[62] Fine-Grained DINO Tuning with Dual Supervision for Face Forgery Detection
Tianxiang Zhang,Peipeng Yu,Zhihua Xia,Longchen Dai,Xiaoyu Zhou,Hui Gao
Main category: cs.CV
TL;DR: 提出了DFF-Adapter方法,通过轻量级多头部LoRA模块适配DINOv2,同时处理真实性检测和细粒度伪造方法分类,仅需3.5M可训练参数即可达到或超越现有复杂方法的检测精度。
- Motivation: 现有方法将DINOv2作为通用二元分类器,忽略了不同深度伪造方法产生的独特伪影特征,限制了检测性能。
- Method: 在DINOv2的每个transformer块中集成轻量级多头部LoRA模块,引入共享分支将细粒度伪造方法信息传播到真实性检测头,实现多任务协同优化。
- Result: 仅使用3.5M可训练参数,检测精度达到或超越了当前复杂的state-of-the-art方法。
- Conclusion: DFF-Adapter通过参数高效的方式显著提升了深度伪造检测性能,证明了利用细粒度伪造方法知识能有效增强真实性判别能力。
[63] MediRound: Multi-Round Entity-Level Reasoning Segmentation in Medical Images
Qinyue Tong,Ziqian Lu,Jun Liu,Rui Zuo,Zheming Lu
Main category: cs.CV
TL;DR: 提出了MEMR-Seg任务和MediRound模型,用于多轮实体级医学推理分割,通过构建MR-MedSeg数据集和引入判断校正机制来解决多轮分割中的错误传播问题。
- Motivation: 现有医学图像分割方法多为任务特定且缺乏交互性,文本提示方法局限于单轮对话,无法进行多轮推理。
- Method: 构建MR-MedSeg数据集,提出MediRound基线模型,在推理阶段引入轻量级的判断校正机制来缓解链式多轮分割中的错误传播。
- Result: 实验结果表明该方法能有效解决MEMR-Seg任务,性能优于传统的医学参考分割方法。
- Conclusion: MEMR-Seg任务和MediRound模型为多轮医学推理分割提供了有效解决方案,通过判断校正机制显著提升了多轮分割的准确性。
[64] RadarMP: Motion Perception for 4D mmWave Radar in Autonomous Driving
Ruiqi Cheng,Huijun Di,Jian Li,Feng Liu,Wei Liang
Main category: cs.CV
TL;DR: 提出RadarMP方法,通过联合建模雷达目标检测和运动估计,利用多普勒频移和回波强度进行自监督学习,实现在恶劣天气条件下的精确3D场景运动感知。
- Motivation: 4D毫米波雷达具有全天候工作能力,但稀疏和噪声的雷达点导致运动感知不精确,限制了自动驾驶系统在光学传感器性能下降时的感知能力。
- Method: 提出统一架构联合建模雷达目标检测和运动估计,设计基于多普勒频移和回波强度的自监督损失函数,无需显式标注即可监督空间和运动一致性。
- Result: 在公共数据集上的实验表明,RadarMP在各种天气和光照条件下实现了可靠的运动感知,优于基于雷达的解耦运动感知方法。
- Conclusion: RadarMP增强了全场景自动驾驶系统的感知能力,为恶劣天气条件下的可靠运动感知提供了有效解决方案。
[65] OAD-Promoter: Enhancing Zero-shot VQA using Large Language Models with Object Attribute Description
Quanxing Xu,Ling Zhou,Feifei Zhang,Jinyu Tian,Rubing Huang
Main category: cs.CV
TL;DR: 提出OAD-Promoter方法,通过减轻语言偏见和提升领域迁移鲁棒性来增强基于LLM的视觉问答性能
- Motivation: LLM在视觉问答中依赖大规模训练数据会继承语言偏见,导致预测不可靠且在分布外泛化方面表现不佳
- Method: 包含三个模块:对象集中示例生成模块(生成全局描述和对象集中样本)、记忆知识辅助模块(检索相关知识处理分布外样本)、OAD提示(整合模块输出优化LLM推理)
- Result: 实验表明OAD-Promoter在少样本或零样本设置下显著提升LLM-based VQA方法性能,达到新的最先进结果
- Conclusion: OAD-Promoter通过减轻语言偏见和增强领域迁移鲁棒性,有效提升了LLM在视觉问答中的性能
[66] Compression and Inference of Spiking Neural Networks on Resource-Constrained Hardware
Karol C. Jurzec,Tomasz Szydlo,Maciej Wielgosz
Main category: cs.CV
TL;DR: 提出了一个轻量级的C语言运行时,用于在边缘设备上进行SNN推理,通过优化减少延迟和内存使用,同时保持准确性。
- Motivation: SNN的事件驱动特性在时间处理和能效方面具有优势,但在资源受限的硬件上训练和部署仍然具有挑战性。
- Method: 将SNNTorch训练的模型转换为紧凑的C表示;使用静态、缓存友好的数据布局和预分配来避免解释器和分配开销;利用稀疏脉冲活动来修剪不活跃的神经元和突触。
- Result: 在N-MNIST和ST-MNIST上的实验显示与Python基线功能相当,在桌面CPU上实现约10倍加速,通过修剪获得额外增益,内存大幅减少,可在微控制器上部署。
- Conclusion: 当与优化的运行时和脉冲驱动的模型压缩配对时,SNN可以在传统的嵌入式平台上高效执行。
[67] MAVIS: A Benchmark for Multimodal Source Attribution in Long-form Visual Question Answering
Seokwon Song,Minsu Park,Gunhee Kim
Main category: cs.CV
TL;DR: MAVIS是首个评估多模态源归属系统的基准,包含15.7万视觉问答实例,开发了信息量、基础性和流畅性的自动评估指标,发现多模态RAG在图像文档上的基础性较弱,存在信息量与基础性的权衡。
- Motivation: 现有源归属研究主要关注纯文本场景,忽视了多模态的作用,需要开发能理解视觉问题意图、检索多模态证据并生成带引用的长文本答案的系统。
- Method: 构建包含15.7万视觉问答实例的数据集,每个答案都带有指向多模态文档的事实级引用,开发了三个维度的自动评估指标,比较了多模态RAG与单模态RAG的性能。
- Result: 多模态RAG比单模态RAG生成更信息和流畅的答案,但在图像文档上的基础性较弱;不同提示方法在信息量和基础性之间存在权衡;需要缓解图像文档解释中的上下文偏见。
- Conclusion: 多模态源归属系统在图像文档的基础性方面存在挑战,缓解上下文偏见是未来研究的关键方向,MAVIS基准为评估此类系统提供了重要工具。
[68] Breaking the Modality Wall: Time-step Mixup for Efficient Spiking Knowledge Transfer from Static to Event Domain
Yuqi Xie,Shuhan Ye,Yi Yu,Chong Wang,Qixin Zhang,Jiazhen Xu,Le Shen,Yuanbin Qian,Jiangbo Qian,Guoqi Li
Main category: cs.CV
TL;DR: TMKT是一个跨模态训练框架,通过时间步混合策略和轻量级模态感知目标,实现从RGB到事件相机的知识迁移,提升脉冲神经网络在视觉任务中的性能。
- Motivation: 事件相机和脉冲神经网络结合有望实现高效视觉智能,但事件数据稀缺和DVS输出稀疏性阻碍了有效训练。现有从RGB到DVS的知识迁移方法因模态间分布差异大而表现不佳。
- Method: 提出时间步混合知识迁移框架,包含概率性时间步混合策略,通过在不同时间步插值RGB和DVS输入来创建平滑课程;引入两个轻量级模态感知目标:模态感知指导和混合比感知,用于显式对齐时间特征与混合计划。
- Result: 在多个基准测试和SNN骨干网络上的广泛实验表明,该方法实现了更平滑的知识迁移,缓解了训练中的模态不匹配问题,在脉冲图像分类任务中取得了优越性能。
- Conclusion: TMKT框架通过时间步混合和模态感知目标,有效解决了跨模态知识迁移中的分布差异问题,为事件相机和脉冲神经网络的结合提供了有效的训练解决方案。
[69] FIA-Edit: Frequency-Interactive Attention for Efficient and High-Fidelity Inversion-Free Text-Guided Image Editing
Kaixiang Yang,Boyang Shen,Xin Li,Yuchen Dai,Yuxuan Luo,Yueran Ma,Wei Fang,Qiang Li,Zhiwei Wang
Main category: cs.CV
TL;DR: FIA-Edit是一个基于频率交互注意力的免反转图像编辑框架,通过频率表示交互和特征注入模块实现高保真编辑,支持临床医学图像增强应用。
- Motivation: 现有的基于流的免反转方法虽然效率高,但缺乏有效的源信息整合,导致背景保留差、空间不一致和过度编辑问题。
- Method: 提出频率交互注意力框架,包含频率表示交互模块(在自注意力中交换源和目标特征的频率分量)和特征注入模块(在交叉注意力中显式注入源侧查询、键、值和文本嵌入)。
- Result: 在RTX 4090上每张512*512图像编辑仅需约6秒,在视觉质量、背景保真度和可控性方面优于现有方法,并成功应用于医学出血分类的数据增强。
- Conclusion: FIA-Edit实现了高效高保真的图像编辑,首次将文本引导图像编辑扩展到临床应用,为医学数据增强开辟了新途径。
[70] Codebook-Centric Deep Hashing: End-to-End Joint Learning of Semantic Hash Centers and Neural Hash Function
Shuo Yin,Zhiyuan Yin,Yuqing Hou,Rui Liu,Yong Chen,Dell Zhang
Main category: cs.CV
TL;DR: 提出Center-Reassigned Hashing (CRH)方法,通过动态重新分配预设码本中的哈希中心来优化深度哈希学习,避免了传统两阶段方法的复杂性和性能损失。
- Motivation: 现有的基于哈希中心的方法存在随机初始化忽略类间语义关系的问题,而两阶段方法虽然能缓解但引入了额外复杂性和阶段间不一致性。
- Method: CRH采用端到端框架,从预设码本中动态重新分配哈希中心,同时联合优化哈希函数,无需显式的中心优化阶段,并引入多头机制增强哈希中心的表示能力。
- Result: 在三个基准数据集上的实验表明,CRH能够学习到具有语义意义的哈希中心,并在检索任务中优于现有的深度哈希方法。
- Conclusion: CRH通过动态哈希中心重新分配和端到端优化,有效整合了语义关系,提升了哈希检索性能。
[71] Rethinking Multimodal Point Cloud Completion: A Completion-by-Correction Perspective
Wang Luo,Di Wu,Hengyuan Na,Yinlin Zhu,Miao Hu,Guocong Quan
Main category: cs.CV
TL;DR: 提出了一种新的点云补全范式Completion-by-Correction,通过预训练图像到3D模型生成拓扑完整的形状先验,然后在特征空间进行校正,实现结构一致且与观测对齐的重建。
- Motivation: 传统基于修复的补全方法由于几何和语义约束有限,容易产生结构不一致和拓扑伪影。需要更稳健的补全范式来解决这些问题。
- Method: 提出PGNet多阶段框架:1) 双特征编码以约束生成先验;2) 合成结构对齐的粗粒度骨架;3) 通过分层校正逐步细化几何细节。
- Result: 在ShapeNetViPC数据集上,PGNet在平均Chamfer距离上比最先进方法降低23.5%,F-score提高7.1%。
- Conclusion: Completion-by-Correction范式将补全从无约束合成转变为引导式细化,能够实现结构一致且观测对齐的重建,优于传统方法。
[72] MixAR: Mixture Autoregressive Image Generation
Jinyuan Hu,Jiayou Zhang,Shaobo Cui,Kun Zhang,Guangyi Chen
Main category: cs.CV
TL;DR: MixAR是一个新颖的自回归图像生成框架,通过混合离散和连续表示来提升生成质量,解决了纯连续空间建模的挑战。
- Motivation: 传统自回归方法使用离散token会丢失细粒度信息,而纯连续空间建模面临效率挑战。需要结合两者的优势。
- Method: 提出MixAR框架,使用离散token作为先验指导连续自回归建模,探索了DC-SA、DC-CA、DC-Mix等混合策略,以及TI-Mix来弥合训练-推理差距。
- Result: 实验显示DC-Mix在计算效率和生成保真度之间达到良好平衡,TI-Mix带来一致改进。
- Conclusion: 混合离散和连续表示的自回归建模是提升图像生成质量的有效途径。
[73] MMRINet: Efficient Mamba-Based Segmentation with Dual-Path Refinement for Low-Resource MRI Analysis
Abdelrahman Elsayed,Ahmed Jaheen,Mohammad Yaqub
Main category: cs.CV
TL;DR: MMRINet是一种轻量级脑肿瘤分割架构,使用线性复杂度的Mamba状态空间模型替代二次复杂度的注意力机制,在BraTS-Lighthouse SSA 2025中仅用约250万参数就实现了0.752的平均Dice分数和12.23的平均HD95。
- Motivation: 在多参数MRI中自动脑肿瘤分割在资源受限环境下具有挑战性,因为深度3D网络计算成本过高。
- Method: 提出MMRINet架构,使用线性复杂度的Mamba状态空间模型进行高效体积上下文建模,包含双路径特征精炼模块和渐进特征聚合模块。
- Result: 在BraTS-Lighthouse SSA 2025中,模型仅用约250万参数就实现了平均Dice分数0.752和平均HD95 12.23的强性能。
- Conclusion: 该方法展示了在低资源临床环境中实现高效准确分割的可行性。
[74] Cross-View Cross-Modal Unsupervised Domain Adaptation for Driver Monitoring System
Aditi Bhalla,Christian Hellert,Enkelejda Kasneci
Main category: cs.CV
TL;DR: 提出一个两阶段跨视角、跨模态的无监督域自适应框架,用于解决驾驶员活动识别中的视角变化和域偏移问题,显著提升模型在真实部署中的性能。
- Motivation: 驾驶员分心是交通事故的主要原因,现有深度学习方法在真实部署中面临视角变化和域偏移的挑战,需要同时解决跨视角泛化和无监督域自适应问题。
- Method: 两阶段框架:第一阶段使用对比学习在多视角数据中学习视角不变和动作判别特征;第二阶段使用信息瓶颈损失进行跨模态域自适应,无需新域的标注数据。
- Result: 在Drive&Act数据集上,相比监督对比学习的跨视角方法,RGB视频数据的top-1准确率提升近50%;相比仅使用无监督域自适应的方法,性能提升达5%。
- Conclusion: 该联合框架能够有效解决驾驶员活动识别中的跨视角和跨模态挑战,为模型在多样化车辆配置中的鲁棒部署提供了可行方案。
[75] Bridging Granularity Gaps: Hierarchical Semantic Learning for Cross-domain Few-shot Segmentation
Sujun Sun,Haowen Gu,Cheng Xie,Yanxu Ren,Mingwu Ren,Haofeng Zhang
Main category: cs.CV
TL;DR: 提出Hierarchical Semantic Learning (HSL)框架解决跨域少样本分割中的语义粒度差距问题,通过双风格随机化和分层语义挖掘模块学习分层语义特征,在四个目标域数据集上达到SOTA性能。
- Motivation: 现有CD-FSS方法主要关注源域和目标域之间的风格差距,而忽略了分割粒度差距,导致对目标域中新类别的语义区分能力不足。
- Method: 提出HSL框架,包含三个模块:DSR模块通过前景和全局风格随机化模拟目标域数据;HSM模块利用多尺度超像素挖掘不同粒度的类内一致性和类间区分性;PCMT模块通过原型置信度调制阈值缓解分割模糊问题。
- Result: 在四个流行的目标域数据集上进行了广泛实验,结果表明该方法达到了最先进的性能。
- Conclusion: 提出的HSL框架有效解决了跨域少样本分割中的语义粒度差距问题,通过分层语义学习显著提升了模型在不同粒度上的语义识别能力。
[76] OmniSparse: Training-Aware Fine-Grained Sparse Attention for Long-Video MLLMs
Feng Chen,Yefei He,Shaoxuan He,Yuanyu He,Jing Liu,Lequan Lin,Akide Liu,Zhaoyang Li,Jiyuan Zhang,Zhenbang Sun,Bohan Zhuang,Qi Wu
Main category: cs.CV
TL;DR: OmniSparse是一个训练感知的细粒度稀疏注意力框架,用于长视频多模态大语言模型,在训练和推理中都能实现动态token预算分配,达到与全注意力相当的性能,同时实现2.7倍预填充加速和2.4倍解码内存减少。
- Motivation: 现有稀疏注意力方法主要针对推理时加速,在预定义稀疏模式下选择关键token,但无法弥合训练-推理差距,且缺乏在查询、键值对和注意力头等多个维度进行细粒度token选择的能力,导致性能次优和加速收益有限。
- Method: OmniSparse包含三个自适应互补机制:(1)通过惰性-主动分类进行查询选择,保留捕捉广泛语义相似性的主动查询,丢弃关注有限局部上下文且功能冗余的惰性查询;(2)基于头级动态预算分配的KV选择,根据最平坦头确定共享预算并统一应用于所有头以确保注意力召回;(3)KV缓存瘦身,根据头级解码查询模式选择性获取视觉KV缓存以减少头级冗余。
- Result: 实验结果显示,OmniSparse在保持与全注意力相当性能的同时,在预填充阶段实现了最高2.7倍的加速,在解码阶段实现了2.4倍的内存减少。
- Conclusion: OmniSparse框架成功弥合了训练-推理差距,通过细粒度的多维度token选择机制,在长视频MLLMs中实现了高效的稀疏注意力,为大规模视频理解任务提供了有效的加速解决方案。
[77] LSS3D: Learnable Spatial Shifting for Consistent and High-Quality 3D Generation from Single-Image
Zhuojiang Cai,Yiheng Zhang,Meitong Guo,Mingdao Wang,Yuwang Wang
Main category: cs.CV
TL;DR: 提出LSS3D方法,通过可学习空间偏移解决多视图不一致性和非正面输入问题,实现高质量图像到3D生成
- Motivation: 现有基于多视图扩散的3D生成方法存在形状和纹理不对齐问题,导致几何细节不完整和纹理重影,且对倾斜视角输入鲁棒性差
- Method: 为每个视图分配可学习空间偏移参数,通过重建网格引导调整各视图实现空间一致性,并加入输入视图作为额外约束增强对非正面输入的鲁棒性
- Result: 在几何和纹理评估指标上取得领先结果,对更灵活的输入视角具有更好表现
- Conclusion: LSS3D方法能有效处理多视图不一致性,在非正面输入下仍能生成高质量的3D模型
[78] GeoMVD: Geometry-Enhanced Multi-View Generation Model Based on Geometric Information Extraction
Jiaqi Wu,Yaosen Chen,Shuyuan Zhu
Main category: cs.CV
TL;DR: 提出几何引导的多视图扩散模型,通过提取多视图几何信息和调整几何特征强度,生成跨视图一致且细节丰富的图像
- Motivation: 解决现有基于单图像扩展的方法在保持跨视图一致性和生成高分辨率输出时面临的计算挑战
- Method: 设计多视图几何信息提取模块,使用深度图、法线图和前景分割掩码构建共享几何结构;开发解耦几何增强注意力机制;应用自适应学习策略;采用迭代细化过程;提出动态几何信息强度调整机制
- Result: 生成跨视图一致且细节丰富的图像,提高了整体图像质量和细节保持能力
- Conclusion: 该方法有效解决了多视图图像生成中的一致性和细节问题,为3D重建、虚拟现实和增强现实等应用提供了高质量的多视图图像生成方案
[79] A Novel AI-Driven System for Real-Time Detection of Mirror Absence, Helmet Non-Compliance, and License Plates Using YOLOv8 and OCR
Nishant Vasantkumar Hegde,Aditi Agarwal,Minal Moharir
Main category: cs.CV
TL;DR: 开发了一个基于YOLOv8和EasyOCR的AI系统,用于自动检测交通违规行为,包括头盔佩戴违规和摩托车后视镜缺失,并识别车牌号码,实现了高效的自动化交通执法。
- Motivation: 手动执行头盔法律和车辆安全标准检查资源密集且不一致,需要自动化解决方案来提高执法效率和道路安全。
- Method: 使用YOLOv8进行目标检测,EasyOCR进行车牌识别,基于自定义标注数据集(经过数据增强),并开发Streamlit界面进行实时监控和违规记录。
- Result: 模型整体精确度为0.9147,召回率为0.886,mAP@50为0.843,mAP@50-95为0.503,表明在严格IoU阈值下仍具有强大的检测能力。
- Conclusion: 该工作展示了一个实用有效的自动化交通规则执法解决方案,并讨论了实际部署的考虑因素。
[80] Mixture of States: Routing Token-Level Dynamics for Multimodal Generation
Haozhe Liu,Ding Liu,Mingchen Zhuge,Zijian Zhou,Tian Xie,Sen He,Yukang Yang,Shuming Liu,Yuren Cong,Jiadong Guo,Hongyu Xu,Ke Xu,Kam-Woh Ng,Juan C. Pérez,Juan-Manuel~Pérez-Rúa,Tao Xiang,Wei Liu,Shikun Liu,Jürgen Schmidhuber
Main category: cs.CV
TL;DR: MoS是一种新颖的多模态扩散模型融合范式,通过可学习的token-wise路由器在模态间创建状态交互,实现高效的多模态融合。
- Motivation: 现有多模态扩散模型在模态融合方面存在效率问题,需要更灵活和计算高效的融合方法来提升模型性能。
- Method: 使用可学习的token-wise路由器,基于去噪时间步和输入创建模态间隐藏状态的交互,通过ε-greedy策略稀疏选择top-k隐藏状态。
- Result: 在文本到图像生成和编辑任务中达到最先进水平,仅用3B-5B参数就能匹配或超越参数量4倍大的模型。
- Conclusion: MoS为扩展多模态扩散模型提供了一个灵活且计算高效的范式。
[81] FaNe: Towards Fine-Grained Cross-Modal Contrast with False-Negative Reduction and Text-Conditioned Sparse Attention
Peng Zhang,Zhihui Lai,Wenting Chen,Xu Wu,Heng Kong
Main category: cs.CV
TL;DR: FaNe是一个语义增强的医学视觉语言预训练框架,通过语义感知的正样本挖掘、文本条件稀疏注意力池化和硬负样本感知对比损失,解决了假阴性问题和细粒度跨模态对齐不足的挑战。
- Motivation: 现有医学视觉语言预训练方法存在由语义相似文本引起的假阴性问题,以及细粒度跨模态对齐不足的局限性。
- Method: 1. 基于文本-文本相似度的语义感知正样本挖掘策略;2. 文本条件稀疏注意力池化模块实现细粒度图像-文本对齐;3. 硬负样本感知对比损失增强模态内区分能力。
- Result: 在五个下游医学影像基准测试中,FaNe在图像分类、目标检测和语义分割任务上均达到最先进性能。
- Conclusion: FaNe框架通过解决假阴性和细粒度对齐问题,有效提升了医学视觉语言预训练的性能,在下游任务中表现出色。
[82] Suppressing VLM Hallucinations with Spectral Representation Filtering
Ameen Ali,Tamim Zoabi,Lior Wolf
Main category: cs.CV
TL;DR: 提出Spectral Representation Filtering (SRF)方法,通过分析模型表示协方差结构来抑制视觉语言模型中的幻觉现象,无需训练且不影响推理速度。
- Motivation: 视觉语言模型(VLMs)经常由于过度依赖语言先验和跨模态对齐不精确而产生幻觉,描述图像中不存在的对象、属性或关系。
- Method: SRF通过特征协方差矩阵的特征分解识别低秩幻觉模式,然后在深层vLLM层的前馈投影权重中应用软谱滤波器来衰减这些模式,均衡特征方差同时保持语义保真度。
- Result: 在LLaVA-1.5、MiniGPT-4和mPLUG-Owl2等三个VLM家族上,SRF在MSCOCO、POPE-VQA等视觉任务基准上持续降低幻觉率,达到最先进的忠实度且不降低描述质量。
- Conclusion: SRF是一种轻量级、无需训练的后处理方法,能有效抑制视觉语言模型中的幻觉,无需架构修改且零推理开销。
[83] Model Inversion Attack Against Deep Hashing
Dongdong Zhao,Qiben Xu,Ranxin Fang,Baogang Song
Main category: cs.CV
TL;DR: 提出了DHMI,首个针对深度哈希的扩散模型反演框架,能够在黑盒设置下成功重构高质量图像,揭示了深度哈希系统的严重隐私风险。
- Motivation: 深度哈希虽然提高了检索效率,但带来了严重的隐私风险,特别是从哈希码重构原始训练数据可能导致生物特征伪造和隐私泄露。然而,针对深度哈希模型的模型反演攻击尚未被探索。
- Method: DHMI首先对辅助数据集进行聚类得到语义哈希中心作为代理锚点,然后引入代理引导的去噪优化方法,使用融合分类一致性和哈希接近度的新攻击指标动态选择候选样本,通过代理模型簇指导候选样本的细化。
- Result: 在多个数据集上的实验表明,DHMI即使在最具挑战性的黑盒设置下也能成功重构高分辨率、高质量的图像,在黑盒场景中优于现有的最先进模型反演攻击方法。
- Conclusion: DHMI证实了深度哈希系统存在关键隐私风险,其方法在实际应用中具有显著效果,为深度哈希模型的安全性评估提供了重要参考。
[84] Fusionista2.0: Efficiency Retrieval System for Large-Scale Datasets
Huy M. Le,Dat Tien Nguyen,Phuc Binh Nguyen,Gia-Bao Le-Tran,Phu Truong Thien,Cuong Dinh,Minh Nguyen,Nga Nguyen,Thuy T. N. Nguyen,Huy Gia Ngo,Tan Nhat Nguyen,Binh T. Nguyen,Monojit Choudhury
Main category: cs.CV
TL;DR: Fusionista2.0是一个优化的视频检索系统,通过重新设计核心模块和用户界面,将检索时间减少75%,同时提高准确性和用户满意度。
- Motivation: Video Browser Showdown (VBS)挑战赛要求系统在严格时间限制下提供准确结果,需要开发高效快速的视频检索系统。
- Method: 重新设计核心模块:使用ffmpeg快速提取关键帧,Vintern-1B-v3.5进行多语言OCR,faster-whisper实时语音识别,轻量级视觉语言模型进行问答。同时改进用户界面响应性和工作流效率。
- Result: 检索时间减少高达75%,准确性和用户满意度均有提升,证明系统在大规模视频搜索中具有竞争力。
- Conclusion: Fusionista2.0是一个高效、用户友好的视频检索系统,在速度和准确性方面都表现出色,适合大规模视频搜索应用。
[85] Prompt-Conditioned FiLM and Multi-Scale Fusion on MedSigLIP for Low-Dose CT Quality Assessment
Tolga Demiroglu,Mehmet Ozan Unal,Metin Ertas,Isa Yildirim
Main category: cs.CV
TL;DR: 提出基于MedSigLIP的提示条件框架,通过FiLM和多尺度池化注入文本先验,在LDCTIQA2023数据集上取得优异性能,超越现有方法。
- Motivation: 开发能够根据临床意图进行条件化学习的数据高效方法,实现快速适应医学图像质量评估任务。
- Method: 使用提示条件框架,通过FiLM注入文本先验,结合全局、局部和纹理感知的多尺度池化,采用成对排序损失训练。
- Result: 在LDCTIQA2023数据集上取得PLCC=0.9575、SROCC=0.9561、KROCC=0.8301,超越已发表的最佳挑战提交结果。
- Conclusion: 提示引导方法在医学图像质量评估中表现出色,验证了文本条件化学习在数据效率和高性能方面的有效性。
[86] A Disease-Aware Dual-Stage Framework for Chest X-ray Report Generation
Puzhen Wu,Hexin Dong,Yi Lin,Yihao Ding,Yifan Peng
Main category: cs.CV
TL;DR: 提出了一种新颖的双阶段疾病感知框架用于胸部X光报告生成,通过疾病感知语义标记和视觉-语言对齐来提升临床准确性。
- Motivation: 现有方法在医学图像分析中缺乏足够的疾病感知能力和视觉-语言对齐,导致忽略关键病理特征和生成临床不准确的报告。
- Method: 双阶段框架:第一阶段通过交叉注意力和多标签分类学习疾病感知语义标记,同时通过对比学习对齐视觉和语言表示;第二阶段引入疾病-视觉注意力融合模块和双模态相似性检索机制。
- Result: 在多个基准数据集上的实验表明,该疾病感知框架在胸部X光报告生成方面达到了最先进的性能,临床准确性和语言质量显著提升。
- Conclusion: 所提出的疾病感知框架能够有效解决现有方法的局限性,生成更准确和临床相关的放射学报告。
[87] CrossVid: A Comprehensive Benchmark for Evaluating Cross-Video Reasoning in Multimodal Large Language Models
Jingyao Li,Jingyun Wang,Molin Tan,Haochen Wang,Cilin Yan,Likun Shi,Jiayin Cai,Xiaolong Jiang,Yao Hu
Main category: cs.CV
TL;DR: CrossVid是首个专门评估多模态大语言模型在跨视频推理任务中时空推理能力的基准测试,包含4个高级维度和10个具体任务,提供5331个视频和9015个问答对。
- Motivation: 现有视频理解基准主要关注单视频分析,无法评估MLLMs同时推理多个视频的能力。虽然近期基准评估多视角视频,但任务有限,无法全面评估真实跨视频推理场景。
- Method: 构建CrossVid基准,涵盖广泛的分层任务,包括单选、多选和开放式问题格式,通过大量实验评估各种开源和闭源MLLMs的性能。
- Result: Gemini-2.5-Pro在CrossVid上表现最佳,平均准确率为50.4%。案例研究表明大多数当前MLLMs在跨视频推理任务中表现不佳,主要原因是无法整合或比较分布在多个视频中的证据。
- Conclusion: CrossVid有潜力指导未来增强MLLMs跨视频推理能力的发展,当前模型在整合跨视频信息进行推理方面仍面临挑战。
[88] ZoomEarth: Active Perception for Ultra-High-Resolution Geospatial Vision-Language Tasks
Ruixun Liu,Bowen Fu,Jiayi Song,Kaiyu Li,Wanchen Li,Lanxuan Xue,Hui Qiao,Weizhan Zhang,Deyu Meng,Xiangyong Cao
Main category: cs.CV
TL;DR: 提出了ZoomEarth框架,通过主动感知范式在超高分辨率遥感图像处理中实现自适应裁剪缩放,在LRS-GRO基准和多个公开数据集上达到最先进性能。
- Motivation: 现有动态分辨率和token剪枝方法受限于被动感知范式,在获取更精细视觉输入时会产生冗余,需要探索主动感知范式让模型能够重新访问信息丰富区域。
- Method: 提出了ZoomEarth自适应裁剪缩放框架,采用区域引导奖励机制进行细粒度指导,通过监督微调和组相对策略优化进行训练。
- Result: 在LRS-GRO基准和三个公开超高分辨率遥感基准的零样本设置中达到最先进性能,并能通过简单工具接口与下游模型无缝集成。
- Conclusion: ZoomEarth框架展示了强大的多功能性和可扩展性,能够应用于云去除、去噪、分割和图像编辑等下游任务。
[89] TM-UNet: Token-Memory Enhanced Sequential Modeling for Efficient Medical Image Segmentation
Yaxuan Jiao,Qing Xu,Yuxiang Luo,Xiangjian He,Zhen Chen,Wenting Duan
Main category: cs.CV
TL;DR: TM-UNet是一个轻量级医学图像分割框架,通过多尺度令牌-内存块将2D空间特征转换为令牌序列,利用矩阵内存单元选择性保留和传播判别性上下文信息,实现线性复杂度的长距离依赖建模。
- Motivation: 基于transformer的方法在医学图像分割中取得了显著成果,但高计算成本阻碍了临床部署,因此需要开发轻量级高效框架。
- Method: 提出多尺度令牌-内存(MSTM)块,通过空间扫描将2D特征转换为令牌序列,使用矩阵内存单元选择性保留上下文信息,并引入指数门控识别令牌有效性,通过并行池化操作实现多尺度上下文提取。
- Result: 在多个医学分割任务上超越现有最先进方法,同时显著降低计算成本。
- Conclusion: TM-UNet通过创新的令牌-内存机制实现了高效的全局推理和层次表示学习,为临床部署提供了可行的轻量级解决方案。
[90] D ToM: Decider-Guided Dynamic Token Merging for Accelerating Diffusion MLLMs
Shuochen Chang,Xiaofeng Zhang,Qingyang Liu,Li Niu
Main category: cs.CV
TL;DR: 提出D³ToM方法,通过动态合并冗余视觉token来加速扩散式多模态大语言模型的推理速度,同时保持性能竞争力。
- Motivation: 扩散式多模态大语言模型虽然具有强大的非自回归生成能力,但推理速度显著慢于自回归模型,因为每个去噪步骤都需要对整个序列进行双向自注意力计算,导致立方级解码复杂度。
- Method: 使用决策器引导的动态token合并方法:在每个去噪步骤中,利用前一步生成的决策器token构建重要性图,保留最显著的token,通过相似性聚合合并冗余token,物理缩短视觉token序列。
- Result: 实验表明D³ToM能显著加速推理速度,同时在同等计算预算下保持竞争性性能。
- Conclusion: D³ToM是一种即插即用的模块,可有效解决扩散式多模态大语言模型推理速度慢的问题,为实际应用提供了可行的加速方案。
[91] One target to align them all: LiDAR, RGB and event cameras extrinsic calibration for Autonomous Driving
Andrea Bertogalli,Giacomo Boracchi,Luca Magri
Main category: cs.CV
TL;DR: 提出了一种新颖的多模态外参标定框架,能够同时估计事件相机、LiDAR和RGB相机之间的相对位姿,特别关注事件相机的标定挑战。
- Motivation: 在自动驾驶等复杂视觉系统中,精确的多传感器对齐至关重要。现有方法通常依赖分离的成对标定,需要一个能够同时被所有三种感知模态感知的联合标定方案。
- Method: 设计并构建了新颖的3D标定目标,包含平面特征、ChArUco图案和主动LED模式,分别针对LiDAR、RGB相机和事件相机的特性。实现了一次性联合外参标定过程。
- Result: 在自定义数据集上进行了广泛实验评估,使用先进的自动驾驶传感器设置记录数据,验证了方法的准确性和鲁棒性。
- Conclusion: 该框架能够准确标定复杂视觉系统,为自动驾驶等应用提供了精确的多传感器对齐解决方案。
[92] Rethinking Bias in Generative Data Augmentation for Medical AI: a Frequency Recalibration Method
Chi Liu,Jincheng Liu,Congcong Zhu,Minghao Wang,Sheng Shen,Jia Gu,Tianqing Zhu,Wanlei Zhou
Main category: cs.CV
TL;DR: 本文提出频率重校准(FreRec)方法来解决医学图像生成数据增强中的频率失准问题,通过统计高频替换和重建高频映射来改善AI合成图像的质量和下游任务性能。
- Motivation: 医学AI开发依赖大数据集但常面临数据稀缺问题,生成数据增强(GDA)可合成医学图像但存在偏差风险,特别是频率分布不一致可能损害下游任务性能。
- Method: 提出FreRec方法:1) 统计高频替换(SHR)粗略对齐高频分量;2) 重建高频映射(RHM)提升图像质量并重建高频细节。该方法可作为独立后处理步骤与任何生成模型兼容。
- Result: 在脑部MRI、胸部X光和眼底图像等多个医学数据集上的实验表明,FreRec显著提升了下游医学图像分类性能,优于未校准的AI合成样本。
- Conclusion: FreRec通过减少频率分布差异有效改善了医学生成数据增强的可靠性,是一个兼容性强且易于集成到现有GDA流程的解决方案。
[93] LiDAR-GS++:Improving LiDAR Gaussian Reconstruction via Diffusion Priors
Qifeng Chen,Jiarun Liu,Rengan Xie,Tao Tang,Sicong Du,Yiru Zhao,Yuchi Huo,Sheng Yang
Main category: cs.CV
TL;DR: LiDAR-GS++是一种基于扩散先验增强的LiDAR高斯溅射重建方法,通过可控生成模型和蒸馏机制实现实时高保真重模拟,在公共道路数据集上超越现有方法。
- Motivation: 现有基于高斯溅射的LiDAR渲染方法在单次扫描的不完整重建下,外推新视角合成时会产生伪影,需要解决几何一致性问题。
- Method: 提出LiDAR-GS++方法:1)使用可控LiDAR生成模型基于粗略外推渲染生成额外几何一致的扫描;2)采用有效的蒸馏机制进行扩展重建;3)将重建扩展到欠拟合区域。
- Result: 在多个公共数据集上的实验表明,LiDAR-GS++在插值和外推视角下都达到了最先进的性能,超越了现有的GS和NeRF方法。
- Conclusion: 该方法通过扩散先验增强,确保了外推新视角的全局几何一致性,同时保留了传感器捕获的详细场景表面,实现了高质量LiDAR重建。
[94] Learning Time in Static Classifiers
Xi Ding,Lei Wang,Piotr Koniusz,Yongsheng Gao
Main category: cs.CV
TL;DR: 提出了一种简单有效的框架,为前馈分类器添加时间推理能力,无需修改模型架构或引入循环模块。通过SEQ学习范式将训练数据组织成时间连贯轨迹,学习类别特定的时间原型,并使用soft-DTW损失对齐预测序列。
- Motivation: 现实世界视觉数据通常随时间逐渐演变,但传统分类器假设时间独立性,无法捕捉这种动态变化。需要在不改变模型架构的情况下为分类器添加时间推理能力。
- Method: 使用支持-样本-查询(SEQ)学习范式构建时间连贯轨迹,学习类别特定的时间原型,通过可微分的soft-DTW损失对齐预测序列,多目标函数促进语义一致性和时间平滑性。
- Result: 在细粒度和超细粒度图像分类中提升性能,在视频异常检测中提供精确且时间一致的预测,以模块化和数据高效的方式桥接静态和时间学习。
- Conclusion: 仅通过损失设计引入强时间归纳偏置,使用简单分类器在预提取特征上即可实现,有效桥接静态和时间学习,无需复杂架构修改。
[95] SpaceVLM: Sub-Space Modeling of Negation in Vision-Language Models
Sepehr Kazemi Ranjbar,Kumail Alhamoud,Marzyeh Ghassemi
Main category: cs.CV
TL;DR: 提出了一种无需训练的框架,将否定建模为联合嵌入空间中的子空间而非单点,通过在A和N的嵌入周围构建球冠区域来匹配图像,显著提升了视觉语言模型的否定理解能力。
- Motivation: 视觉语言模型在处理否定提示时表现不佳,现有方法通过在大规模否定数据集上微调来解决这个问题,但这往往会损害模型在肯定提示上的零样本性能。
- Method: 基于CLIP等模型的嵌入空间可划分为语义一致子空间的特性,构建两个围绕A和N嵌入的球冠区域,通过接近A且远离N的区域中心方向来评分图像。
- Result: 在检索、多项选择和文本到图像任务中,该方法将否定理解能力平均提升了约30%,缩小了肯定和否定提示之间的差距,同时保持了零样本性能。
- Conclusion: 该方法有效解决了VLMs的否定理解问题,无需训练即可显著提升性能,同时保持零样本能力,优于需要微调的现有方法。
[96] Ground Plane Projection for Improved Traffic Analytics at Intersections
Sajjad Pakdamansavoji,Kumar Vaibhav Jha,Baher Abdulhai,James H Elder
Main category: cs.CV
TL;DR: 通过将基础设施摄像头检测到的车辆反投影到地面平面进行3D坐标分析,可以提高转弯运动计数的准确性,单摄像头系统效果更好,多摄像头弱融合可进一步提高精度。
- Motivation: 交叉口的准确转弯运动计数对信号控制、交通管理和城市规划很重要,传统基于图像平面的计算机视觉系统存在局限性。
- Method: 将车辆检测从图像平面反投影到地面平面进行3D坐标分析,采用单摄像头和多摄像头弱融合两种方法。
- Result: 单摄像头反投影能提高轨迹分类和转弯运动计数的准确性,多摄像头弱融合可达到更高精度。
- Conclusion: 交通分析应该在地面平面而非图像平面上进行。
[97] CLAReSNet: When Convolution Meets Latent Attention for Hyperspectral Image Classification
Asmit Bandyopadhyay,Anindita Das Bhattacharjee,Rakesh Das
Main category: cs.CV
TL;DR: 提出CLAReSNet混合架构,结合多尺度卷积和变换器注意力,通过自适应潜在瓶颈解决高光谱图像分类中的高维度、复杂光谱-空间相关性和样本不平衡问题,在Indian Pines和Salinas数据集上达到99.71%和99.96%的准确率。
- Motivation: 高光谱图像分类面临高光谱维度、复杂光谱-空间相关性、训练样本有限且类别严重不平衡等关键挑战。CNN擅长局部特征提取,变换器能捕获长程依赖,但单独使用效果不佳。
- Method: CLAReSNet混合架构:多尺度卷积主干(深度残差块+增强卷积块注意力模块)提取层次空间特征;光谱编码层结合双向RNN和多尺度光谱潜在注意力(MSLA),MSLA通过自适应潜在token分配将复杂度从O(T²D)降至O(Tlog(T)D);层次交叉注意力融合动态聚合多级表示。
- Result: 在Indian Pines和Salinas数据集上分别达到99.71%和99.96%的总体准确率,显著超越HybridSN、SSRN和SpectralFormer。学习到的嵌入表现出优异的类间可分性和紧凑的类内聚类。
- Conclusion: CLAReSNet在有限样本和严重类别不平衡条件下有效,验证了混合架构在解决高光谱图像分类挑战方面的优势。
[98] Explainable AI-Generated Image Detection RewardBench
Michael Yang,Shijian Deng,William T. Doan,Kai Wang,Tianyu Yang,Harsh Singh,Yapeng Tian
Main category: cs.CV
TL;DR: 提出了XAIGID-RewardBench基准,评估多模态大语言模型在判断AI生成图像检测解释质量方面的能力,发现当前最佳模型得分88.76%,与人类98.30%的一致性存在明显差距。
- Motivation: 传统基于分类的AI生成图像检测方法无法提供人类专家可理解的解释,降低了检测工具的可信度和说服力。虽然MLLMs被用于生成解释,但它们在评估自身或其他MLLMs生成的解释质量方面的表现尚未得到充分研究。
- Method: 构建了包含约3000个标注三元组的基准数据集,这些数据来自不同图像生成模型和作为检测器的MLLMs,用于评估MLLMs作为奖励模型(评判者)的能力。
- Result: 当前最佳奖励模型在该基准上得分88.76%,而人类标注者间一致性达到98.30%,表明当前MLLMs的推理能力与人类水平存在明显差距。
- Conclusion: 需要进一步改进MLLMs的推理能力以缩小与人类水平的差距,同时分析了这些模型常见的缺陷。
[99] Constructing and Interpreting Digital Twin Representations for Visual Reasoning via Reinforcement Learning
Yiqing Shen,Mathias Unberath
Main category: cs.CV
TL;DR: DT-R1是一个基于强化学习的框架,通过训练大语言模型构建视觉输入的数字孪生表示,并基于这些高级表示进行统一视觉推理,在多种视觉推理任务中超越特定任务模型。
- Motivation: 现有视觉推理方法依赖特定任务的监督微调和架构设计,缺乏统一解决方案,限制了跨任务和跨模态的泛化能力。
- Method: 使用GRPO强化学习框架训练大语言模型构建数字孪生表示,并通过验证结构完整性和输出准确性的奖励函数进行优化。
- Result: 在涵盖两种模态和四种任务类型的六个视觉推理基准测试中,DT-R1始终优于最先进的特定任务模型。
- Conclusion: DT-R1开创了通过数字孪生表示的强化学习实现视觉推理的新方向。
[100] Fast Reasoning Segmentation for Images and Videos
Yiqing Shen,Mathias Unberath
Main category: cs.CV
TL;DR: FastReasonSeg是一种通过数字孪生表示实现高效推理分割的方法,使用知识蒸馏技术将大型多模态语言模型压缩到可在边缘设备部署的小型模型,在保持推理能力的同时显著提升效率。
- Motivation: 现有推理分割方法需要数十亿参数的大型多模态语言模型,超出了边缘设备的计算能力。传统蒸馏方法无法有效转移多步推理能力,需要新的蒸馏策略来保持推理链的完整性。
- Method: 采用数字孪生表示将感知与推理解耦,首先在教师模型生成的推理链上进行监督微调,然后通过强化学习进行联合奖励微调,同时评估分割准确性和推理质量对齐。
- Result: 在四个基准测试上达到最先进的推理分割性能,0.6B参数的蒸馏变体优于参数多20倍的模型,实现7.79 FPS吞吐量和仅2.1GB内存消耗。
- Conclusion: 该方法实现了高效的实时推理分割,能够在资源受限环境中部署,为具身智能系统在真实世界环境中的自主操作提供了可行解决方案。
[101] Changes in Real Time: Online Scene Change Detection with Multi-View Fusion
Chamuditha Jayanga Galappaththige,Jason Lai,Lloyd Windrim,Donald Dansereau,Niko Sünderhauf,Dimity Miller
Main category: cs.CV
TL;DR: 提出首个姿态无关、无标签、多视角一致性的在线场景变化检测方法,在10+FPS下超越现有离线方法的性能
- Motivation: 现有在线场景变化检测方法精度远低于离线方法,需要开发既快速又准确且不受视角限制的在线检测方案
- Method: 引入自监督融合损失从多线索推断场景变化,基于PnP的快速姿态估计,以及针对3D高斯溅射场景表示的快速变化引导更新策略
- Result: 在复杂真实数据集上的广泛实验表明,该方法超越了在线和离线基线方法,达到新的最先进性能
- Conclusion: 该方法首次实现了姿态无关、无标签、多视角一致的在线场景变化检测,在保持高速运行的同时超越了离线方法的精度
[102] Reasoning Text-to-Video Retrieval via Digital Twin Video Representations and Large Language Models
Yiqing Shen,Chenxiao Fan,Chenjia Li,Mathias Unberath
Main category: cs.CV
TL;DR: 提出了推理文本到视频检索新范式,通过数字孪生表示和LLM推理处理隐式查询,在多个基准测试中取得显著性能提升。
- Motivation: 现有方法只能处理显式查询,无法应对需要推理的隐式查询,这限制了文本到视频检索的实际应用能力。
- Method: 采用两阶段框架:首先通过数字孪生表示进行组合对齐识别候选视频,然后使用LLM进行推理并调用专业模型填补信息空白。
- Result: 在ReasonT2VBench-135上达到81.2% R@1,比最强基线提升50多个百分点;在扩展配置上保持81.7% R@1,并在三个传统基准测试中达到最先进水平。
- Conclusion: 通过数字孪生表示和LLM推理的结合,成功解决了隐式查询的文本到视频检索问题,显著提升了检索性能。
[103] AGGRNet: Selective Feature Extraction and Aggregation for Enhanced Medical Image Classification
Ansh Makwe,Akansh Agrawal,Prateek Jain,Akshan Agrawal,Priyanka Bagade
Main category: cs.CV
TL;DR: 提出了AGGRNet框架,通过提取信息性和非信息性特征来理解细粒度视觉模式,改善复杂医学图像分析任务的分类性能。
- Motivation: 医学图像分析面临类别间视觉模式复杂相似、标注数据稀缺、专家解释差异等挑战,现有注意力模型难以有效区分细微类别,导致误诊。
- Method: 提出AGGRNet框架,提取信息性和非信息性特征,以更好地理解细粒度视觉模式。
- Result: 在多个医学影像数据集上达到最先进性能,在Kvasir数据集上相比SOTA模型提升高达5%。
- Conclusion: AGGRNet能有效改善复杂医学图像分析任务的分类性能。
[104] Leveraging Quantum-Based Architectures for Robust Diagnostics
Shabnam Sodagari,Tommy Long
Main category: cs.CV
TL;DR: 本研究开发了一种混合量子-经典框架,使用CT图像诊断和区分肾结石、囊肿和肿瘤。结合预训练的ResNet50编码器和量子卷积神经网络,在8量子位和12量子位配置下均实现了99%的测试准确率。
- Motivation: 利用量子计算提升医学影像诊断性能,特别是针对肾脏疾病的CT图像分类问题。
- Method: 使用去噪和对比度受限自适应直方图均衡化预处理图像,通过数据增强和加权采样解决类别不平衡。将ResNet50提取的潜在特征通过角度编码转换为量子位,由QCNN处理。
- Result: 两种量子位配置均快速收敛且性能稳定,12量子位配置在囊肿检测中实现完美召回率,肿瘤F1分数达0.9956,混淆矩阵显示各类别分类可靠。
- Conclusion: 将经典预处理和深度特征提取与量子电路结合可显著提升医学诊断性能。
[105] Calibrated Decomposition of Aleatoric and Epistemic Uncertainty in Deep Features for Inference-Time Adaptation
Divake Kumar,Patrick Poggi,Sina Tayebati,Devashri Naik,Nilesh Ahuja,Amit Ranjan Trivedi
Main category: cs.CV
TL;DR: 提出了一个轻量级推理时间框架,通过分解数据驱动和模型驱动的不确定性来指导自适应模型选择,无需采样、集成或额外前向传播,显著降低计算成本。
- Motivation: 传统估计器将所有不确定性模式合并为单一置信度分数,无法可靠判断何时需要分配更多计算资源或调整推理过程。
- Method: 使用正则化全局密度模型估计数据不确定性,通过局部支持不足、流形谱崩溃和跨层特征不一致三个正交组件捕获模型不确定性,并集成到分布无关的保形校准过程中。
- Result: 在MOT17数据集上减少约60%计算量且精度损失可忽略,不确定性分解比总不确定性基线提高13.6个百分点的计算节省。
- Conclusion: 该方法实现了实用的自调节视觉推理,通过正交不确定性分解显著提升计算效率。
[106] MSLoRA: Multi-Scale Low-Rank Adaptation via Attention Reweighting
Xu Yang,Gady Agam
Main category: cs.CV
TL;DR: MSLoRA是一种与主干网络无关的参数高效适配器,通过重新加权特征响应而不是重新调整主干网络来实现迁移学习,统一支持CNN和ViT架构。
- Motivation: 现有的低秩适应方法主要局限于视觉变换器(ViTs),难以跨架构泛化,需要一种统一支持CNN和ViT的高效适配方法。
- Method: 结合低秩线性投影和多尺度非线性变换,通过点乘和残差连接融合两个组件,联合调制空间和通道注意力,保持预训练权重冻结。
- Result: 在分类、检测和分割任务上持续提升迁移性能,仅需主干网络约5%的参数,实现稳定优化、快速收敛和强跨架构泛化能力。
- Conclusion: MSLoRA通过重新加权而非重新调整,为冻结视觉主干网络的高效适应提供了一种简单通用的方法。
[107] VLA-R: Vision-Language Action Retrieval toward Open-World End-to-End Autonomous Driving
Hyunki Seong,Seongwoo Moon,Hojin Ahn,Jehun Kang,David Hyunchul Shim
Main category: cs.CV
TL;DR: 提出VLA-R框架,将开放世界感知与视觉-动作检索相结合,用于端到端自动驾驶,在非结构化环境中展现强泛化能力
- Motivation: 端到端自动驾驶在非结构化户外环境中常遇到训练时未见的情况,需要强大的泛化能力
- Method: 使用冻结的视觉语言模型进行开放世界检测和分割,通过Q-Former瓶颈聚合视觉特征,引入视觉-动作对比学习对齐视觉语言和动作嵌入
- Result: 在真实机器人平台上实验表明,在非结构化、未见环境中具有强泛化能力和探索性能,即使数据有限
- Conclusion: VLA-R框架成功整合开放世界感知与视觉-动作检索,为端到端自动驾驶提供了有效的开放世界推理和动作检索能力
[108] Self-Supervised Visual Prompting for Cross-Domain Road Damage Detection
Xi Xiao,Zhuxuanzi Wang,Mingqiao Mo,Chen Liu,Chenrui Ma,Yanshu Li,Smita Krishnaswamy,Xiao Wang,Tianyang Wang
Main category: cs.CV
TL;DR: 提出PROBE框架,通过自监督提示增强模块和域感知提示对齐目标,实现无需目标域标签的零样本跨域路面缺陷检测,在四个基准测试中表现优于现有方法。
- Motivation: 自动化路面缺陷检测面临跨域泛化能力差的问题,监督检测器需要昂贵的重新标注,标准自监督方法对域偏移仍然脆弱。
- Method: PROBE框架包含自监督提示增强模块(SPEM),从无标签目标数据生成缺陷感知提示来指导冻结的ViT骨干网络,以及域感知提示对齐(DAPA)目标,对齐提示条件下的源域和目标域表示。
- Result: 在四个挑战性基准测试中,PROBE始终优于强监督、自监督和适应基线方法,实现了稳健的零样本迁移、对域变化更强的鲁棒性,以及在少样本适应中的高数据效率。
- Conclusion: 自监督提示是构建可扩展和自适应视觉检测系统的实用方向。
[109] Towards Rotation-only Imaging Geometry: Rotation Estimation
Xinrui Li,Qi Cai,Yuanxin Wu
Main category: cs.CV
TL;DR: 提出基于旋转流形的旋转优化框架,将平移表示为旋转的函数,在重投影误差基础上实现两视图和多视图的旋转估计,精度和鲁棒性优于现有方法。
- Motivation: 基于姿态成像几何的成功,探索场景结构、旋转和平移之间的关键关系,将成像几何表示压缩到旋转流形上,实现更准确高效的3D视觉计算。
- Method: 将平移表示为旋转的函数,在旋转流形上构建重投影误差优化框架,支持两视图和多视图场景的旋转估计。
- Result: 实验结果显示该方法在旋转估计精度和鲁棒性方面优于当前最先进方法,甚至可与多次光束法平差迭代结果相媲美。
- Conclusion: 这项工作为实现更准确、高效和可靠的3D视觉计算做出了贡献,展示了旋转流形表示在运动恢复结构任务中的潜力。
[110] Seeing Through the Rain: Resolving High-Frequency Conflicts in Deraining and Super-Resolution via Diffusion Guidance
Wenjie Li,Jinglei Shi,Jin Han,Heng Guo,Zhanyu Ma
Main category: cs.CV
TL;DR: DHGM模型通过整合预训练扩散先验和高通滤波器,同时去除雨滴伪影并增强结构细节,解决了天气恢复和超分辨率之间的冲突问题。
- Motivation: 真实世界图像常受恶劣天气影响而退化,现有的天气恢复方法可能会牺牲对分析小物体至关重要的高频细节。简单地级联恢复和超分辨率方法存在内在冲突:恢复旨在去除高频天气噪声,而超分辨率旨在从现有细节中生成高频纹理。
- Method: 提出DHGM模型,整合预训练扩散先验与高通滤波器,以同时去除雨滴伪影并增强结构细节。
- Result: 大量实验表明,DHGM在性能上优于现有方法,且成本更低。
- Conclusion: DHGM能够有效解决天气恢复和超分辨率之间的冲突,生成干净且高分辨率的图像。
[111] MFI-ResNet: Efficient ResNet Architecture Optimization via MeanFlow Compression and Selective Incubation
Nuolin Sun,Linyuan Wang,Haonan Wei,Lei Li,Bin Yan
Main category: cs.CV
TL;DR: 提出MFI-ResNet,通过压缩-扩展策略结合MeanFlow模块,在减少ResNet参数的同时提升性能,验证了生成流场能有效表征ResNet特征变换过程。
- Motivation: 受ResNet作为ODE离散形式和MeanFlow一步生成模型的启发,探索生成流场在判别学习中的潜力,提高参数效率和性能。
- Method: 采用压缩-扩展策略:压缩阶段用1-2个MeanFlow模块简化ResNet阶段结构;扩展阶段对前三个阶段选择性孵化匹配基线配置,保持最后阶段为MeanFlow形式并微调。
- Result: 在CIFAR-10和CIFAR-100上,相比ResNet-50分别减少46.28%和45.59%参数,同时准确率提升0.23%和0.17%。
- Conclusion: 生成流场能有效表征ResNet特征变换过程,为理解生成建模与判别学习关系提供了新视角。
[112] RedVTP: Training-Free Acceleration of Diffusion Vision-Language Models Inference via Masked Token-Guided Visual Token Pruning
Jingqi Xu,Jingxi Lu,Chenghao Li,Sreetama Sarkar,Souvik Kundu,Peter A. Beerel
Main category: cs.CV
TL;DR: 提出了RedVTP方法,一种基于扩散视觉语言模型推理动态的响应驱动视觉令牌剪枝策略,通过利用掩码响应令牌的注意力来估计视觉令牌重要性,在保持准确性的同时显著提升推理效率。
- Motivation: 扩散视觉语言模型虽然支持并行令牌解码,但大量视觉令牌仍然严重阻碍其推理效率。现有的视觉令牌剪枝研究主要集中在自回归视觉语言模型,对于扩散视觉语言模型的剪枝研究还很缺乏。
- Method: RedVTP方法利用扩散视觉语言模型的推理动态,使用掩码响应令牌的注意力来估计视觉令牌的重要性。基于重要性分数在推理步骤间保持一致的观察,在第一个推理步骤后从掩码令牌中剪枝重要性较低的视觉令牌。
- Result: 实验显示RedVTP将LLaDA-V和LaViDa的令牌生成吞吐量分别提升了最高186%和28.05%,推理延迟分别降低了最高64.97%和21.87%,同时没有损害准确性,在某些情况下甚至提高了准确性。
- Conclusion: RedVTP是一种有效的扩散视觉语言模型视觉令牌剪枝方法,能够在不牺牲准确性的情况下显著提升推理效率,为扩散视觉语言模型的实际应用提供了重要支持。
[113] Text-Guided Channel Perturbation and Pretrained Knowledge Integration for Unified Multi-Modality Image Fusion
Xilai Li,Xiaosong Li,Weijun Jiang
Main category: cs.CV
TL;DR: 提出了UP-Fusion框架,通过通道扰动和预训练知识集成解决多模态图像融合中的梯度冲突问题,在保持模态判别性的同时提升融合质量。
- Motivation: 统一模型在多模态图像融合中面临模态差异导致的梯度冲突问题,而引入模态特定编码器的方法又降低了跨不同融合任务的泛化能力。
- Method: 提出语义感知通道剪枝模块(SCPM)利用预训练模型的语义感知能力筛选增强多模态特征通道,几何仿射调制模块(GAM)保持特征编码器的模态判别性,文本引导通道扰动模块(TCPM)在解码时重塑通道分布。
- Result: 在多个多模态图像融合任务和下游任务上的实验表明,该方法优于现有方法。
- Conclusion: UP-Fusion框架有效解决了多模态图像融合中的梯度冲突和泛化问题,通过通道扰动和预训练知识集成显著提升了融合性能。
[114] Real-Time Drivers' Drowsiness Detection and Analysis through Deep Learning
ANK Zaman,Prosenjit Chatterjee,Rajat Sharma
Main category: cs.CV
TL;DR: 开发基于深度卷积神经网络和OpenCV的实时驾驶员疲劳检测系统,通过面部特征识别疲劳状态,准确率高达99.6%和97%
- Motivation: 长途驾驶容易导致驾驶员疲劳,疲劳驾驶对驾驶员和其他道路使用者构成生命威胁,需要实时检测系统来预防事故
- Method: 使用OpenCV实时捕获驾驶员面部图像,分析眼部开合和打哈欠等面部特征,通过预训练的深度卷积神经网络模型检测疲劳状态
- Result: 在NTHU-DDD和Yawn-Eye数据集上分别达到99.6%和97%的疲劳检测分类准确率
- Conclusion: 该系统提供了一种非侵入式、低成本且高效的疲劳检测方法,能够实时预警,有望挽救道路上的生命
[115] CoTBox-TTT: Grounding Medical VQA with Visual Chain-of-Thought Boxes During Test-time Training
Jiahe Qian,Yuhao Shen,Zhangtianyi Chen,Juexiao Zhou,Peisong Wang
Main category: cs.CV
TL;DR: CoTBox-TTT是一种测试时训练方法,通过视觉思维链信号识别问题相关区域,并保持答案在原始图像和局部裁剪中的一致性,从而提高医学视觉问答在领域偏移下的可靠性。
- Motivation: 当前医学视觉问答系统在领域偏移下可靠性不足,容易关注虚假区域,且在部署时重新训练或添加标签不切实际。
- Method: 采用证据优先的测试时训练方法,在推理时仅更新少量连续软提示,通过视觉思维链识别问题相关区域,并确保原始图像和局部裁剪的答案一致性。
- Result: 在医学VQA实验中,该方法显著提升性能,例如在LLaVA模型上使用CoTBox-TTT后,在pathVQA上的闭端准确率提高了12.3%。
- Conclusion: CoTBox-TTT是一种实用且易于部署的方法,能够有效提高医学视觉问答系统在领域偏移下的可靠性和证据基础。
[116] MOON2.0: Dynamic Modality-balanced Multimodal Representation Learning for E-commerce Product Understanding
Zhanheng Nie,Chenghan Fu,Daoze Zhang,Junxian Wu,Wanxian Guan,Pengjie Wang,Jian Xu,Bo Zheng
Main category: cs.CV
TL;DR: MOON2.0是一个动态模态平衡的多模态表示学习框架,用于解决电商产品理解中的模态不平衡、语义对齐利用不足和数据噪声问题,在多个数据集上实现了最先进的零样本性能。
- Motivation: 解决电商多模态模型面临的三个挑战:模态混合训练导致的模态不平衡、产品内视觉和文本信息内在对齐关系的利用不足,以及电商多模态数据中噪声的有限处理能力。
- Method: 提出MOON2.0框架,包含:模态驱动的混合专家模块实现多模态联合学习、双级对齐方法利用产品内语义对齐特性、基于MLLM的图像-文本协同增强策略结合动态样本过滤。
- Result: 在MBE2.0基准和多个公共数据集上实现了最先进的零样本性能,注意力热图可视化提供了改进多模态对齐的定性证据。
- Conclusion: MOON2.0通过动态模态平衡、双级对齐和数据增强策略,有效解决了电商多模态理解中的关键挑战,显著提升了模型性能。
[117] DenseAnnotate: Enabling Scalable Dense Caption Collection for Images and 3D Scenes via Spoken Descriptions
Xiaoyu Lin,Aniket Ghorpade,Hansheng Zhu,Justin Qiu,Dea Rrozhani,Monica Lama,Mick Yang,Zixuan Bian,Ruohan Ren,Alan B. Hong,Jiatao Gu,Chris Callison-Burch
Main category: cs.CV
TL;DR: DenseAnnotate是一个音频驱动的在线标注平台,通过语音标注创建密集、细粒度的图像和3D资产注释,解决了传统文本标注在表达性和效率上的限制。
- Motivation: 当前多模态大语言模型的训练数据主要依赖稀疏的互联网挖掘或手动输入注释,这些方法只能捕捉图像视觉内容的一小部分。密集注释更有价值但稀缺,传统文本标注管道在表达性、速度和专业领域(如多元文化图像和3D资产)存在明显不足。
- Method: 开发了DenseAnnotate平台,允许标注者通过语音叙述观察内容,同时将口语短语同步链接到图像区域或3D场景部分。平台整合了语音转文本转录和注意力区域标记功能。
- Result: 通过超过1,000名标注者在两个领域的案例研究,创建了包含3,531张图像、898个3D场景和7,460个3D对象的多模态数据集,包含20种语言的音频对齐密集注释。基于该数据集训练的模型在多语言能力上提升5%,文化对齐提升47%,3D空间能力提升54%。
- Conclusion: DenseAnnotate平台为未来视觉语言研究提供了可行方法,可应用于各种任务和多样化数据类型,显著提升了标注效率和注释质量。
[118] Co-Layout: LLM-driven Co-optimization for Interior Layout
Chucheng Xiang,Ruchao Bao,Biyin Feng,Wenzheng Wu,Zhongyuan Liu,Yirui Guan,Ligang Liu
Main category: cs.CV
TL;DR: 提出结合大语言模型和网格整数规划的自动化室内设计框架,联合优化房间布局和家具摆放。
- Motivation: 解决传统两阶段设计流程在解决方案质量和计算效率方面的不足,实现更智能、高效的自动化室内设计。
- Method: 使用LLM从文本提示中提取结构化设计约束,编码到基于Modulor的网格表示中,采用粗到细优化策略,先低分辨率简化问题再全分辨率求解。
- Result: 在多样化场景中,联合优化方法显著优于现有两阶段设计流程,通过粗到细策略实现了显著的计算效率提升。
- Conclusion: 该框架成功实现了房间布局和家具摆放的联合优化,在解决方案质量和计算效率方面均表现出色,为自动化室内设计提供了有效方法。
[119] MaskAnyNet: Rethinking Masked Image Regions as Valuable Information in Supervised Learning
Jingshan Hong,Haigen Hu,Huihuang Zhang,Qianwei Zhou,Zhao Li
Main category: cs.CV
TL;DR: 提出MaskAnyNet方法,将图像掩码区域作为辅助知识而非丢弃信息,通过重新学习机制同时利用可见和掩码区域,增强特征语义多样性并保留细粒度细节。
- Motivation: 传统图像掩码存在像素利用不足和关键特征丢失问题,而掩码图像建模显示掩码区域具有与原图的强上下文一致性,可作为语义多样性来源。
- Method: 提出MaskAnyNet,结合掩码和重新学习机制,通过额外分支从重新组合的掩码区域联合学习,利用掩码区域的语义多样性。
- Result: 在CNN和Transformer骨干网络上的实验显示在多个基准测试中取得一致提升,分析确认方法通过重用掩码内容提高了语义多样性。
- Conclusion: 掩码区域应被视为辅助知识而非被忽略,提出的方法能有效利用掩码内容增强模型性能。
[120] Towards Temporal Fusion Beyond the Field of View for Camera-based Semantic Scene Completion
Jongseong Bae,Junwoo Ha,Jinnyeong Heo,Yeongin Lee,Ha Young Kim
Main category: cs.CV
TL;DR: 提出C3DFusion模块,通过显式对齐当前和历史帧的3D特征来解决相机基3D语义场景补全中侧方不可见区域重建困难的问题,在多个数据集上显著优于现有方法。
- Motivation: 现有基于相机的3D语义场景补全方法主要关注增强帧内区域,但难以重建自车侧方关键不可见区域,尽管历史帧通常包含这些区域的宝贵上下文信息。
- Method: 提出当前中心上下文3D融合(C3DFusion)模块,通过历史上下文模糊化和当前中心特征致密化两种互补技术,抑制不准确扭曲历史点特征的噪声并增强当前点特征的体积贡献。
- Result: 在SemanticKITTI和SSCBench-KITTI-360数据集上显著优于最先进方法,并在其他基线模型上表现出强大的泛化能力,获得显著的性能提升。
- Conclusion: C3DFusion模块通过显式对齐当前和历史帧的3D特征,有效解决了相机基3D语义场景补全中侧方不可见区域的重建问题,具有强有效性和泛化能力。
[121] Visible Structure Retrieval for Lightweight Image-Based Relocalisation
Fereidoon Zangeneh,Leonard Bruns,Amit Dekel,Alessandro Pieropan,Patric Jensfelt
Main category: cs.CV
TL;DR: 提出一种新的结构重定位范式,通过神经网络直接从图像观测中学习可见场景结构,避免依赖图像检索或搜索启发式方法。
- Motivation: 现有基于结构的方法在大型场景中需要复杂的搜索启发式或图像检索,导致复杂流程或存储需求随观测数量增长。
- Method: 训练一个紧凑的神经网络,通过前向传播从查询图像中直接获取地图中可见的3D结构点子集,减少2D-3D对应搜索空间。
- Result: 所提方法在定位精度上可与最先进方法相媲美,同时计算和存储需求更低。
- Conclusion: 该方法为结构重定位提供了一种更高效的新范式,通过神经网络直接映射替代传统检索机制。
[122] DINO-Detect: A Simple yet Effective Framework for Blur-Robust AI-Generated Image Detection
Jialiang Shen,Jiyang Zheng,Yunqi Xue,Huajie Chen,Yu Yao,Hui Kang,Ruiqi Liu,Helin Gong,Yang Yang,Dadong Wang,Tongliang Liu
Main category: cs.CV
TL;DR: 提出基于师生知识蒸馏的模糊鲁棒AI生成图像检测框架,通过冻结教师模型将清晰图像的特征知识迁移到处理模糊图像的学生模型,提升在运动模糊条件下的检测性能。
- Motivation: 现有AI生成图像检测器在真实世界运动模糊条件下性能严重下降,因为模糊会扭曲纹理细节并抑制高频伪影,限制了实际应用。
- Method: 使用DINOv3作为教师模型,在清晰图像上训练提供稳定语义表示;冻结教师模型,通过知识蒸馏将其特征和logit响应迁移到处理模糊图像的学生模型。
- Result: 在运动模糊和清晰条件下均达到最先进性能,表现出更好的泛化能力和实际应用价值。
- Conclusion: 所提出的模糊鲁棒检测框架有效解决了运动模糊对AI生成图像检测的影响,提升了在真实场景中的适用性。
[123] MdaIF: Robust One-Stop Multi-Degradation-Aware Image Fusion with Language-Driven Semantics
Jing Li,Yifan Wang,Jiafeng Yan,Renlong Zhang,Bin Yang
Main category: cs.CV
TL;DR: 提出了一个基于大语言模型的退化感知图像融合框架MdaIF,用于处理多退化场景下的红外与可见光图像融合问题,通过混合专家系统和语义先验指导,在复杂退化条件下实现鲁棒融合。
- Motivation: 现有方法存在两个问题:1) 未考虑恶劣天气条件下可见光图像的退化,影响融合性能;2) 依赖固定网络架构,难以适应多样化退化场景。
- Method: 采用混合专家系统处理多退化场景,使用预训练视觉语言模型提取语义先验,提出退化感知通道注意力模块,通过退化原型分解促进多模态特征交互,并利用语义先验指导专家路由。
- Result: 大量实验验证了MdaIF的有效性,在复杂退化场景下表现出优于现有最先进方法的性能。
- Conclusion: 所提出的MdaIF框架能够有效处理多退化场景下的图像融合问题,通过退化感知机制和语义先验指导,实现了在复杂条件下的鲁棒融合性能。
[124] D -VPR: A Parameter-efficient Visual-foundation-model-based Visual Place Recognition Method via Knowledge Distillation and Deformable Aggregation
Zheyuan Zhang,Jiwei Zhang,Boyu Zhou,Linzhimeng Duan,Hong Chen
Main category: cs.CV
TL;DR: 提出了D²-VPR框架,通过知识蒸馏和可变形聚合器在保持视觉基础模型强大特征提取能力的同时,显著减少模型参数和计算开销,实现更好的性能-效率权衡。
- Motivation: DINOv2等视觉基础模型虽然显著提升了视觉位置识别性能,但模型复杂度和计算开销过大,难以在资源受限设备上部署。
- Method: 采用两阶段训练策略(知识蒸馏+微调),引入蒸馏恢复模块对齐师生模型特征空间,设计基于自上而下注意力的可变形聚合器动态调整感兴趣区域。
- Result: 在保持竞争力的性能同时,参数减少约64.2%,FLOPs减少约62.6%(相比CricaVPR)。
- Conclusion: D²-VPR框架成功平衡了性能与效率,为资源受限环境下的视觉位置识别提供了有效解决方案。
[125] ReaSon: Reinforced Causal Search with Information Bottleneck for Video Understanding
Yuan Zhou,Litao Hua,Shilong Jin,Wentao Huang,Haoran Duan
Main category: cs.CV
TL;DR: 提出了ReaSon框架,通过因果信息瓶颈原理优化关键帧选择,在有限帧设置下优于现有方法
- Motivation: 由于输入token限制和视频帧中相关信息的时间稀疏性,关键帧选择对于视频理解至关重要。需要选择既信息丰富又具有因果决定性的关键帧。
- Method: 将关键帧选择构建为优化问题,使用因果信息瓶颈(CIB)定义关键帧需满足预测充分性和因果必要性。通过可学习策略网络从视觉相关候选帧中选择关键帧,并通过反事实干预评估因果必要性,使用强化学习优化选择策略。
- Result: 在NExT-QA、EgoSchema和Video-MME数据集上的广泛实验表明,ReaSon在有限帧设置下始终优于现有最先进方法。
- Conclusion: ReaSon框架通过因果信息瓶颈原理有效解决了关键帧选择问题,验证了其有效性和泛化能力。
[126] HiGFA: Hierarchical Guidance for Fine-grained Data Augmentation with Diffusion Models
Zhiguang Lu,Qianqian Xu,Peisong Wen,Siran Da,Qingming Huang
Main category: cs.CV
TL;DR: 提出了HiGFA方法,通过分层引导策略在扩散模型采样过程中结合文本、轮廓和细粒度分类器指导,生成高质量细粒度图像用于数据增强。
- Motivation: 解决生成扩散模型在细粒度任务中难以准确捕捉类别定义细微特征的问题,避免标准文本引导方法生成误导性样本导致分类器性能下降。
- Method: HiGFA方法:早期采样阶段使用强文本和变换轮廓引导建立整体场景和结构,后期采样阶段激活细粒度分类器引导并基于预测置信度动态调制所有引导信号强度。
- Result: 在多个细粒度视觉分类数据集上的实验证明了HiGFA的有效性。
- Conclusion: 分层、置信度驱动的引导策略能够在保持多样性的同时生成忠实于原始类别的合成图像,平衡全局结构形成与精确细节优化。
[127] EmoVerse: A MLLMs-Driven Emotion Representation Dataset for Interpretable Visual Emotion Analysis
Yijie Guo,Dexiang Hong,Weidong Chen,Zihan She,Cheng Ye,Xiaojun Chang,Zhendong Mao
Main category: cs.CV
TL;DR: EmoVerse是一个大规模开源数据集,通过多层次的基于知识图谱的注释实现可解释的视觉情感分析,包含219k+图像,支持离散和连续情感表示。
- Motivation: 现有视觉情感分析研究缺乏开源和可解释的数据集,通常只给整张图像分配单一离散情感标签,无法揭示视觉元素如何影响情感。
- Method: 提出EmoVerse数据集,将情感分解为背景-属性-主体三元组,并将每个元素定位到视觉区域;采用多阶段标注流程确保高可靠性;引入可解释模型将视觉线索映射到维度情感空间。
- Result: 构建了包含219k+图像的大规模数据集,提供词级和主体级情感推理,支持分类情感状态和维度情感空间的双重标注。
- Conclusion: EmoVerse数据集、标注流程和模型共同为推进可解释的高层次情感理解提供了全面基础。
[128] SEMC: Structure-Enhanced Mixture-of-Experts Contrastive Learning for Ultrasound Standard Plane Recognition
Qing Cai,Guihao Yan,Fan Zhang,Cheng Zhang,Zhi Liu
Main category: cs.CV
TL;DR: 提出SEMC框架,结合结构感知特征融合和专家引导对比学习,解决超声标准平面识别中浅层结构信息利用不足和细粒度语义差异捕捉困难的问题。
- Motivation: 现有方法无法有效利用浅层结构信息,且难以通过图像增强生成的对比样本来捕捉细粒度语义差异,导致超声标准平面的结构和判别性细节识别效果不佳。
- Method: 提出SEMC框架:1)语义-结构融合模块(SSFM)利用多尺度结构信息,对齐浅层和深层特征;2)专家混合对比识别模块(MCRM)使用MoE机制在多级特征上进行分层对比学习和分类。
- Result: 在自建的大规模肝脏超声数据集和两个公共数据集上的实验结果表明,SEMC在各种指标上均优于现有最先进方法。
- Conclusion: SEMC框架通过结构增强和专家混合对比学习,显著提升了超声标准平面识别的性能,特别是在结构和判别性细节的识别方面表现出色。
[129] Through-Foliage Surface-Temperature Reconstruction for early Wildfire Detection
Mohamed Youssef,Lukas Brunner,Klaus Rundhammer,Gerald Czech,Oliver Bimber
Main category: cs.CV
TL;DR: 提出了一种结合信号处理和机器学习的新方法,用于通过遮挡的森林植被重建地表温度,实现无人机自动化的野火监测和早期地面火灾检测。
- Motivation: 目标是实现完全自动化的空中野火监测,使用自主无人机在烟雾或火焰可见之前早期检测地面火灾。合成孔径感知虽然减轻了树冠和阳光的遮挡,但引入了热模糊,掩盖了实际的地表温度。
- Method: 训练视觉状态空间模型从模糊数据中恢复部分遮挡的土壤和火灾热点的细微热信号。通过将潜在扩散模型集成到矢量量化中,从真实野火记录生成大量真实的地表温度模拟数据,并通过温度增强和程序化热森林模拟进一步扩展。
- Result: 在模拟数据中,相比传统热成像和未校正的SA成像,该方法将RMSE降低了2到2.5倍。在针对高温热点的现场实验中,改进更为显著,与传统热成像相比RMSE增益达12.8倍,与未校正SA图像相比增益达2.6倍。
- Conclusion: 该方法不仅显著提高了温度重建精度,还能重建火灾和人体特征的完整形态,而传统成像因部分遮挡而失效。模型还展示了在其他热信号(如搜救中的人体特征)上的泛化能力。
[130] Beyond Pixels: Semantic-aware Typographic Attack for Geo-Privacy Protection
Jiayi Zhu,Yihao Huang,Yue Cao,Xiaojun Jia,Qing Guo,Felix Juefei-Xu,Geguang Pu,Bin Wang
Main category: cs.CV
TL;DR: 提出了一种基于文本攻击的地理隐私保护方法,通过在图像外部添加欺骗性文本,有效降低大型视觉语言模型的地理位置推断准确率,同时保持图像视觉质量。
- Motivation: 大型视觉语言模型能够从社交媒体图像中推断用户地理位置,造成严重的隐私泄露威胁。现有的对抗性图像扰动方法需要强失真才能有效,但会显著降低图像视觉质量。
- Method: 采用两阶段语义感知的文本攻击方法,在图像视觉内容外部添加欺骗性文本,研究哪些文本语义能有效干扰地理位置推断。
- Result: 在三个数据集上的广泛实验表明,该方法显著降低了五个最先进商业LVLMs的地理位置预测准确率。
- Conclusion: 该方法建立了一种实用且视觉保持的地理隐私保护策略,有效应对新兴的地理隐私威胁。
[131] TempoMaster: Efficient Long Video Generation via Next-Frame-Rate Prediction
Yukuo Ma,Cong Liu,Junke Wang,Junqi Liu,Haibin Huang,Zuxuan Wu,Chi Zhang,Xuelong Li
Main category: cs.CV
TL;DR: TempoMaster是一个新颖的长视频生成框架,通过将长视频生成建模为下一帧率预测,首先生成低帧率视频作为粗粒度蓝图,然后逐步提高帧率来细化视觉细节和运动连续性。
- Motivation: 解决长视频生成中的长程时间一致性问题,同时实现高效并行合成。
- Method: 采用双向注意力机制在每个帧率级别内处理,同时在帧率之间进行自回归预测,逐步从低帧率到高帧率生成视频。
- Result: 在长视频生成任务中达到了新的最先进水平,在视觉质量和时间质量方面都表现出色。
- Conclusion: TempoMaster通过帧率渐进式生成策略,成功实现了长视频的高质量生成,在保持时间一致性的同时提高了生成效率。
[132] Rank-Aware Agglomeration of Foundation Models for Immunohistochemistry Image Cell Counting
Zuqi Huang,Mengxin Tian,Huan Liu,Wentao Li,Baobao Liang,Jie Wu,Fang Yan,Zhaoqing Tang,Zhongyu Li
Main category: cs.CV
TL;DR: 提出了CountIHC框架,通过排名感知的教师选择策略和多模态微调,实现IHC图像中多类细胞的高效计数,在12种生物标志物和5种组织类型上超越现有方法。
- Motivation: 解决IHC图像中细胞计数面临的挑战:染色体重叠、生物标志物染色变异和细胞形态多样性。回归方法在重叠细胞处理上有优势,但缺乏端到端多类计数能力,且基础模型潜力未被充分挖掘。
- Method: 1. 排名感知聚合框架:选择性蒸馏多个基础模型知识;2. RATS策略:通过全局到局部补丁排名评估教师计数能力,实现样本级教师选择;3. 多模态微调:将任务重构为视觉-语言对齐,使用结构化文本提示的语义锚点指导类别特异性密度图回归。
- Result: 在12种IHC生物标志物和5种组织类型上超越最先进方法,与病理学家评估高度一致,在H&E染色数据上也表现有效,证实方法可扩展性。
- Conclusion: CountIHC通过创新的教师选择策略和多模态方法,有效解决了IHC图像多类细胞计数问题,为癌症诊断提供了可靠工具。
[133] Fine-Grained Representation for Lane Topology Reasoning
Guoqing Xu,Yiheng Li,Yang Yang
Main category: cs.CV
TL;DR: TopoFG是一个细粒度的车道拓扑推理框架,通过分层先验提取、区域聚焦解码和鲁棒边界点拓扑推理,精确建模复杂车道结构,在OpenLane-V2基准测试中达到最先进性能。
- Motivation: 现有方法通常使用单一查询表示每个车道,基于车道查询之间的相似性推断拓扑连接性,但难以准确建模复杂车道结构,导致拓扑预测不可靠。
- Method: TopoFG将BEV特征到拓扑预测的过程分为三个阶段:分层先验提取器从BEV掩码提取全局空间先验和车道内关键点序列提取局部顺序先验;区域聚焦解码器构建细粒度查询并采样RoI区域参考点;鲁棒边界点拓扑推理基于边界点查询特征建模车道连接性并采用拓扑去噪策略。
- Result: 在OpenLane-V2基准测试中,TopoFG在subsetA上达到48.0%的OLS,在subsetB上达到45.4%的OLS,创造了新的最先进性能。
- Conclusion: 通过将空间和顺序先验整合到细粒度查询中,并对边界点拓扑推理应用去噪策略,TopoFG能够精确建模复杂车道结构并提供可信的拓扑预测。
[134] Seg-VAR: Image Segmentation with Visual Autoregressive Modeling
Rongkun Zheng,Lu Qi,Xi Chen,Yi Wang,Kun Wang,Hengshuang Zhao
Main category: cs.CV
TL;DR: Seg-VAR将分割任务重新定义为条件自回归掩码生成问题,通过多阶段训练策略在多个分割任务上超越之前的判别式和生成式方法。
- Motivation: 视觉自回归建模在图像生成中已显示出潜力,但其在需要精确空间感知的分割任务中的应用尚未探索。受Mask2Former多尺度建模启发,研究分割作为自回归掩码生成问题的可能性。
- Method: 提出Seg-VAR框架,包含三个核心组件:图像编码器生成潜在先验、空间感知的seglat编码器将分割掩码映射为离散潜在token、解码器从潜在重建掩码。采用三阶段训练策略:seglat表示学习、潜在变换精炼、图像编码器潜在与seglat分布对齐。
- Result: 实验表明Seg-VAR在各种分割任务和验证基准上优于之前的判别式和生成式方法。
- Conclusion: 通过将分割构建为顺序层次预测任务,Seg-VAR为将自回归推理集成到空间感知视觉系统中开辟了新途径。
[135] LoRA-Enhanced Vision Transformer for Single Image based Morphing Attack Detection via Knowledge Distillation from EfficientNet
Ria Shekhawat,Sushrut Patwardhan,Raghavendra Ramachandra,Praveen Kumar Chandaliya,Kishor P. Upla
Main category: cs.CV
TL;DR: 提出了一种基于师生框架的单图像形态攻击检测方法,使用CNN教师模型优化ViT学生模型,并集成LoRA进行微调以提高效率。
- Motivation: 人脸识别系统对安全至关重要,但容易受到形态攻击,即合成图像融合多个个体的生物特征。
- Method: 采用师生框架,CNN教师模型指导ViT学生模型,并集成LoRA进行高效微调。在三个公开人脸数据集上构建形态数据集,包含十种不同形态生成算法。
- Result: 与六种最先进的S-MAD技术相比,该方法显示出优越的检测性能和计算效率。
- Conclusion: 所提出的方法在形态攻击检测方面表现出色,同时保持了高计算效率。
[136] Pixels or Positions? Benchmarking Modalities in Group Activity Recognition
Drishya Karki,Merey Ramazanova,Anthony Cioppa,Silvio Giancola,Bernard Ghanem
Main category: cs.CV
TL;DR: 本文介绍了SoccerNet-GAR多模态数据集,比较了基于视频和基于跟踪的群体活动识别方法,发现跟踪方法在准确性和效率上均优于视频方法。
- Motivation: 群体活动识别(GAR)主要研究视频模态,但位置跟踪模态相对较少探索。需要标准化基准来公平比较这两种模态在GAR中的表现。
- Method: 构建了基于2022年世界杯64场比赛的多模态数据集,包含94,285个同步标注的群体活动。提出了统一的评估协议,比较视频分类器和基于图神经网络的跟踪分类器,其中跟踪模型采用角色感知图架构。
- Result: 跟踪模型达到67.2%的平衡准确率,而最佳视频基线为58.1%。跟踪模型训练速度快4.25倍,参数少438倍(197K vs 86.3M)。
- Conclusion: 跟踪模态在群体活动识别中优于视频模态,强调了模态选择和角色感知建模对GAR的重要性。
[137] Open-World Test-Time Adaptation with Hierarchical Feature Aggregation and Attention Affine
Ziqiong Liu,Yushun Tang,Junyang Ji,Zhihai He
Main category: cs.CV
TL;DR: 提出了一种分层阶梯网络和注意力仿射网络,通过结合OOD检测和自适应注意力机制来提升测试时适应在分布外样本下的性能。
- Motivation: 解决测试时适应方法在遇到分布外样本时性能显著下降的问题,避免将OOD样本误分类为ID类别而影响后续适应过程。
- Method: 使用分层阶梯网络从所有Transformer层提取OOD特征,结合原始预测进行加权概率融合;引入注意力仿射网络自适应调整自注意力机制;采用加权熵机制动态抑制低置信度样本的影响。
- Result: 在基准数据集上的实验结果表明,该方法显著提升了在广泛使用的分类数据集上的性能。
- Conclusion: 提出的方法有效提升了模型在测试时适应过程中对分布外样本的鲁棒性和整体分类性能。
[138] OPFormer: Object Pose Estimation leveraging foundation model with geometric encoding
Artem Moroz,Vít Zeman,Martin Mikšík,Elizaveta Isianova,Miroslav David,Pavel Burget,Varun Burde
Main category: cs.CV
TL;DR: 提出一个统一的端到端框架,集成了物体检测和姿态估计,支持通过3D CAD模型或多视角图像快速重建神经表示来生成物体表示。
- Motivation: 解决传统方法中物体检测与姿态估计分离的问题,提供既能处理有模型场景又能处理无模型场景的通用解决方案。
- Method: 使用CNOS检测器定位目标物体,OPFormer姿态估计模块基于transformer架构,结合基础模型特征提取,通过多模板视图联合编码和NOCS几何先验建立2D-3D对应关系。
- Result: 在BOP基准测试中表现出良好的准确性和效率平衡,在模型基础和无模型场景下都具有实际应用价值。
- Conclusion: 该集成系统在物体检测和6D姿态估计任务上实现了统一高效的解决方案,适用于多种实际应用场景。
[139] C3Net: Context-Contrast Network for Camouflaged Object Detection
Baber Jan,Aiman H. El-Maleh,Abdul Jabbar Siddiqui,Abdul Bais,Saeed Anwar
Main category: cs.CV
TL;DR: 提出了C3Net来解决伪装物体检测的六大挑战,通过双路径解码器架构实现边界精化和上下文定位,在多个数据集上达到最先进性能。
- Motivation: 伪装物体检测面临传统分割方法和基础模型的失败,需要解决内在相似性、边缘破坏、尺度变化等六大核心挑战。
- Method: C3Net采用双路径解码器架构:边缘精化路径使用梯度初始化边缘增强模块恢复精确边界;上下文定位路径使用图像上下文引导机制实现内在显著性抑制;通过注意力融合模块协同整合两个路径。
- Result: 在COD10K数据集上S-measure达到0.898,CAMO达到0.904,NC4K达到0.913,保持高效处理。
- Conclusion: C3Net证明复杂多方面的检测挑战需要架构创新,专门化组件协同工作才能实现超越孤立改进的全面覆盖。
[140] Multivariate Diffusion Transformer with Decoupled Attention for High-Fidelity Mask-Text Collaborative Facial Generation
Yushe Cao,Dianxi Shi,Xing Fu,Xuechao Zou,Haikuo Peng,Xueqi Li,Chun Yu,Junliang Xing
Main category: cs.CV
TL;DR: MDiTFace是一个基于扩散变换器的多模态人脸生成框架,通过统一的标记化策略处理语义掩码和文本输入,采用解耦注意力机制显著减少计算开销,在面部保真度和条件一致性方面优于现有方法。
- Motivation: 传统的多模态特征融合方法难以实现有效的跨模态交互,导致生成结果不理想。需要解决异构模态表示之间的差异问题。
- Method: 提出MDiTFace框架:1)统一标记化策略处理语义掩码和文本输入;2)堆叠多元变换器块实现同步多模态特征交互;3)设计解耦注意力机制,分离掩码标记和时间嵌入的隐式依赖,将计算分为动态和静态路径,可缓存和重用静态路径特征。
- Result: 该方法将掩码条件引入的额外计算开销减少了94%以上,同时保持性能。在面部保真度和条件一致性方面显著优于其他竞争方法。
- Conclusion: MDiTFace通过统一的标记化策略和解耦注意力机制,有效解决了多模态人脸生成中的跨模态交互问题,在减少计算开销的同时提升了生成质量。
[141] Denoising Vision Transformer Autoencoder with Spectral Self-Regularization
Xunzhi Xiang,Xingye Tian,Guiyu Zhang,Yabo Chen,Shaofeng Zhang,Xuebo Wang,Xin Tao,Qi Fan
Main category: cs.CV
TL;DR: 提出了Denoising-VAE,一种基于ViT的自编码器,通过频谱自正则化策略抑制高维潜在空间中的冗余高频噪声,从而改善扩散模型的生成质量和训练收敛速度。
- Motivation: 传统VAE在高维潜在空间中存在优化困境:高维空间能提高重建保真度但会损害生成性能。现有方法使用外部视觉基础模型进行正则化,但高维潜在如何影响生成模型优化仍不清楚。
- Method: 提出频谱自正则化策略来抑制冗余高频噪声同时保持重建质量;引入频谱对齐策略来优化基于Denoising-VAE的生成模型;构建不依赖VFM的ViT自编码器。
- Result: 在ImageNet 256×256基准上,扩散模型收敛速度比SD-VAE快约2倍,达到最先进的重建质量(rFID=0.28,PSNR=27.26)和竞争性生成性能(gFID=1.82)。
- Conclusion: 分析揭示了高维潜在空间中冗余高频分量阻碍扩散模型训练收敛,提出的Denoising-VAE通过频谱正则化产生更干净的潜在表示,显著提升了生成质量和优化效率。
[142] Medical Knowledge Intervention Prompt Tuning for Medical Image Classification
Ye Du,Nanxi Yu,Shujun Wang
Main category: cs.CV
TL;DR: CILMP是一种结合大型语言模型和视觉语言模型的提示调优方法,通过LLM提取疾病特定表示并在低秩子空间中进行干预,生成疾病特定的自适应提示,显著提升医学图像分类性能。
- Motivation: 现有提示调优方法无法精确区分不同类型的医学概念,缺乏特定疾病相关特征。LLM具有丰富的医学知识,可以弥补这一缺陷。
- Method: 提出CILMP方法:从LLM提取疾病特定表示,在低秩线性子空间进行干预,生成疾病特定提示,并加入条件机制实现实例自适应提示。
- Result: 在多个医学图像数据集上的实验表明,CILMP持续优于最先进的提示调优方法。
- Conclusion: CILMP有效桥接LLM和VLM,将医学知识转移到VLM提示中,显著提升医学图像分类任务的性能。
[143] DPVO-QAT++: Heterogeneous QAT and CUDA Kernel Fusion for High-Performance Deep Patch Visual Odometry
Cheng Liao
Main category: cs.CV
TL;DR: DPVO-QAT++是一个层次化量化优化框架,通过可学习尺度参数化、视觉里程计前后端异构精度设计(前端FP16/FP32伪量化,后端全精度)以及GPU原生核融合技术,显著降低了内存占用并提升了处理速度,同时保持了原始模型的轨迹精度。
- Motivation: 基于深度学习的视觉SLAM系统虽然具有出色的几何推理能力,但其过高的计算开销严重限制了在资源受限的自主平台上的部署。
- Method: 采用异构量化感知训练架构:前端使用浮点伪量化(FP16/FP32),后端保持全精度,并结合可学习尺度参数化和自定义CUDA核融合技术实现GPU原生优化。
- Result: 在TartanAir数据集上:平均FPS提升52.1%,中位延迟降低29.1%,峰值GPU内存占用减少64.9%;在EuRoC数据集上:平均FPS提升30.1%,中位延迟降低23.1%,峰值GPU内存占用减少37.7%,同时保持与原始模型相当的轨迹精度。
- Conclusion: DPVO-QAT++有效弥合了高精度深度视觉里程计与实际部署效率需求之间的差距,为在真实嵌入式平台上应用该技术提供了可行的工程范式。
[144] Toward Real-world Text Image Forgery Localization: Structured and Interpretable Data Synthesis
Zeqin Yu,Haotao Xie,Jian Zhang,Jiangqun Ni,Wenkan Su,Jiwu Huang
Main category: cs.CV
TL;DR: 提出了FSTS框架,通过分析真实篡改行为参数来合成逼真的文本图像篡改数据,解决了现有方法因合成数据与真实分布差异导致的泛化能力差的问题。
- Motivation: 现有文本图像伪造定位方法因真实数据集规模有限,且合成数据无法捕捉真实篡改复杂性,导致泛化能力差。
- Method: FSTS框架:收集16,750个真实篡改实例,通过结构化流程记录编辑痕迹;建立分层建模框架,将篡改参数表示为基操作配置的组合,构建群体级分布;基于傅里叶级数思想进行可解释逼近。
- Result: 在四个评估协议上的实验表明,使用FSTS数据训练的模型在真实数据集上实现了显著改进的泛化能力。
- Conclusion: FSTS通过建模真实篡改行为分布合成的训练数据,能有效提升文本图像伪造定位模型的泛化性能。
[145] Hi-Reco: High-Fidelity Real-Time Conversational Digital Humans
Hongbin Huang,Junwei Li,Tianxin Xie,Zhuang Li,Cekai Weng,Yaodong Yang,Yue Luo,Li Liu,Jing Tang,Zhijing Shao,Zeyu Wang
Main category: cs.CV
TL;DR: 提出一个高保真、实时的对话数字人系统,结合逼真的3D虚拟形象、个性化语音合成和知识驱动的对话生成,通过异步执行管道实现低延迟多模态交互。
- Motivation: 解决数字人在保持视觉真实性的同时实现实时响应的挑战,满足沉浸式应用中对自然交互的需求。
- Method: 采用异步执行管道协调多模态组件,结合检索增强方法(历史增强和意图路由)实现上下文感知的响应生成。
- Result: 系统支持唤醒词检测、情感表达韵律和准确的上下文响应生成,实现了响应性和可信度高的数字人交互。
- Conclusion: 该系统为通信、教育和娱乐等沉浸式应用提供了集成化的高保真实时数字人解决方案。
[146] DensePercept-NCSSD: Vision Mamba towards Real-time Dense Visual Perception with Non-Causal State Space Duality
Tushar Anand,Advik Sinha,Abhijit Das
Main category: cs.CV
TL;DR: 提出了一种基于非因果选择性状态空间的实时光学流和视差估计模型,通过融合成对输入图像实现准确且实时的密集感知任务
- Motivation: 解决实时应用中光学流和视差估计的高精度与低延迟需求之间的矛盾,满足实时3D密集感知任务的性能要求
- Method: 使用非因果Mamba块构建模型,融合成对输入图像,在非因果选择性状态空间中处理密集感知任务
- Result: 模型在保持高精度的同时显著减少了推理时间,降低了GPU使用率,在真实场景中验证了有效性
- Conclusion: 该模型适用于统一、实时且准确的3D密集感知估计任务,在速度和精度之间取得了良好平衡
[147] Appreciate the View: A Task-Aware Evaluation Framework for Novel View Synthesis
Saar Stern,Ido Sobol,Or Litany
Main category: cs.CV
TL;DR: 提出了一个任务感知的新视角合成评估框架,使用Zero123模型特征和轻量调优来增强判别能力,包含基于参考和无参考的两个互补指标,能可靠识别错误生成并符合人类偏好。
- Motivation: 现有评估指标难以判断生成图像是否既真实又忠实于源视图和视角变换,标准指标经常错误排名,无法捕捉源图像、视角变化和生成输出之间的微妙关系。
- Method: 利用强NVS基础模型Zero123的特征,结合轻量调优步骤增强判别能力,提出了基于参考的D_PRISM和无参考的MMD_PRISM两个评估指标。
- Result: 在Toys4K、Google Scanned Objects和OmniObject3D三个基准测试中,MMD_PRISM产生了清晰稳定的模型排名,较低分数一致表示更强的模型。
- Conclusion: 该框架为新视角合成评估提供了原则性和实用性的方法,为更可靠的进展铺平了道路,两个指标都能可靠识别错误生成并与人类偏好研究一致。
[148] BridgeEQA: Virtual Embodied Agents for Real Bridge Inspections
Subin Varghese,Joshua Gao,Asad Ur Rahman,Vedhus Hoskere
Main category: cs.CV
TL;DR: 提出了BridgeEQA基准测试,用于真实世界桥梁检查中的开放词汇体现问答,包含2200个问题-答案对,并提出了新的评估指标和EMVR方法来解决现有模型的性能差距。
- Motivation: 解决在真实世界环境中部署能够回答周围环境问题的体现智能体的困难,特别是缺乏能够忠实捕捉实际操作条件的基准测试。桥梁检查领域自然地需要多尺度推理、长距离空间理解和复杂语义关系。
- Method: 提出了BridgeEQA基准测试,包含2200个开放词汇问题-答案对,基于200个真实桥梁场景的专业检查报告。同时提出了Embodied Memory Visual Reasoning (EMVR)方法,将检查建模为在基于图像的场景图上的顺序导航。
- Result: 对最先进的视觉语言模型的评估揭示了在情景记忆EQA设置下的显著性能差距。提出的EMVR方法在基准测试上表现出优于基线模型的性能。
- Conclusion: BridgeEQA为体现问答提供了一个具有挑战性的基准测试,EMVR方法展示了解决多图像推理和空间理解问题的有效性,数据集和代码已公开发布。
[149] R Seg: Training-Free OOD Medical Tumor Segmentation via Anatomical Reasoning and Statistical Rejection
Shuaike Shen,Ke Liu,Jiaqing Xie,Shangde Gao,Chunhua Shen,Ge Liu,Mireia Crispin-Ortuzar,Shangqi Gao
Main category: cs.CV
TL;DR: R²Seg是一个无需训练的两阶段框架,通过推理-拒绝过程提升医学图像分割在分布外肿瘤上的鲁棒性,使用LLM引导的解剖推理和统计拒绝过滤来抑制假阳性。
- Motivation: 医学图像分割基础模型在分布外偏移下表现不佳,容易产生碎片化的假阳性结果,特别是在OOD肿瘤分割任务中。
- Method: 采用两阶段方法:1) 推理阶段使用LLM引导的解剖推理规划器定位器官锚点并生成多尺度ROI;2) 拒绝阶段对基础模型生成的候选区域应用双样本统计检验,仅保留与正常组织显著不同的候选区域。
- Result: 在多中心多模态肿瘤分割基准测试中,R²Seg在Dice系数、特异性和敏感性方面显著优于强基线方法和原始基础模型。
- Conclusion: R²Seg无需参数更新,兼容零更新测试时增强,避免灾难性遗忘,为OOD肿瘤分割提供了有效的训练免费解决方案。
[150] HEDGE: Hallucination Estimation via Dense Geometric Entropy for VQA with Vision-Language Models
Sushant Gautam,Michael A. Riegler,Pål Halvorsen
Main category: cs.CV
TL;DR: HEDGE是一个统一的幻觉检测框架,通过视觉扰动、语义聚类和不确定性度量来检测视觉语言模型的幻觉问题。
- Motivation: 视觉语言模型容易产生幻觉,需要系统化的检测方法来评估多模态可靠性。
- Method: 结合受控视觉扰动、语义聚类(基于蕴含和嵌入)和鲁棒不确定性度量,构建可复现的检测流水线。
- Result: 评估显示幻觉可检测性在密集视觉标记化模型中最高,VASE度量提供最鲁棒的幻觉信号,提示设计对检测效果有重要影响。
- Conclusion: HEDGE将幻觉检测构建为几何鲁棒性问题,为评估多模态可靠性提供了原则性基础。
[151] X-VMamba: Explainable Vision Mamba
Mohamed A. Mabrok,Yalda Zafari
Main category: cs.CV
TL;DR: 提出了一个基于可控性的可解释性框架,用于理解视觉状态空间模型(SSMs)如何处理空间信息,通过量化输入序列不同部分对内部状态动态的影响。
- Motivation: 由于缺乏类似注意力的透明机制,理解视觉SSMs如何处理空间信息具有挑战性,需要开发专门的可解释性方法。
- Method: 提出了两种互补方法:适用于任何SSM架构的基于雅可比矩阵的方法,以及针对对角SSMs的基于格拉姆矩阵的方法,两者都在单次前向传播中运行且具有线性复杂度。
- Result: 在三种不同医学成像模态上的实验表明,SSMs自然地实现了从早期层的扩散低层纹理到更深层聚焦的临床有意义模式的分层特征细化。
- Conclusion: 该框架确立了可控性分析作为跨所有领域的SSMs的统一、基础可解释性范式。
[152] Counting Through Occlusion: Framework for Open World Amodal Counting
Safaeid Hossain Arib,Rabeya Akter,Abdul Monaf Chowdhury,Md Jubair Ahmed Sourov,Md Mehedi Hasan
Main category: cs.CV
TL;DR: CountOCC是一个处理遮挡条件下物体计数的模态计数框架,通过多模态引导重建被遮挡物体特征,在多个数据集上显著提升了遮挡场景下的计数性能。
- Motivation: 现有物体计数方法在遮挡场景下表现不佳,因为主干网络会编码遮挡表面而非目标物体,导致特征表示被破坏。需要解决遮挡条件下的准确计数问题。
- Method: 使用层次化多模态引导显式重建被遮挡物体特征,整合可见片段的空间上下文与文本和视觉嵌入的语义先验,在多个金字塔层级生成类别区分性特征;引入视觉等价目标确保遮挡和非遮挡视图产生空间对齐的注意力图。
- Result: 在FSC 147验证集和测试集上分别实现26.72%和20.80%的MAE降低;在CARPK上实现49.89% MAE降低;在CAPTUREReal上实现28.79% MAE降低,在多个数据集上达到SOTA性能。
- Conclusion: CountOCC通过互补机制在遮挡条件下保持区分性特征,实现了跨视觉领域的鲁棒模态计数,显著提升了遮挡场景下的计数准确性。
[153] FSDAM: Few-Shot Driving Attention Modeling via Vision-Language Coupling
Kaiser Hamid,Can Cui,Khandakar Ashrafi Akbar,Ziran Wang,Nade Liang
Main category: cs.CV
TL;DR: FSDAM是一个少样本驾驶员注意力建模框架,仅需约100个标注样本即可实现注意力预测和字幕生成,比现有方法少两个数量级。
- Motivation: 现有模型依赖大规模注视数据集,但这些数据集收集耗时且标注困难。需要开发在数据受限场景下仍能有效工作的驾驶员注意力系统。
- Method: 采用双路径架构,分别处理空间预测和字幕生成,通过跨模态对齐保持语义一致性。
- Result: 在注意力预测方面表现有竞争力,能生成连贯且上下文感知的解释,并在多个驾驶基准测试中展示出强大的零样本泛化能力。
- Conclusion: 证明在有限监督下可以实现有效的注意力条件生成,为在数据受限场景中部署可解释的驾驶员注意力系统开辟了新可能性。
[154] Backdoor Attacks on Open Vocabulary Object Detectors via Multi-Modal Prompt Tuning
Ankita Raj,Chetan Arora
Main category: cs.CV
TL;DR: 本文首次研究开放词汇目标检测器(OVODs)的后门攻击,提出TrAP攻击方法,通过联合优化图像和文本模态的提示参数与视觉触发器,在不重新训练基础模型权重的情况下植入后门。
- Motivation: 随着OVODs在机器人、自动驾驶等高风险应用中的普及,理解其安全风险变得至关重要。本文旨在揭示提示调优引入的新攻击面。
- Method: 提出TrAP多模态后门注入策略,采用课程式训练策略逐步缩小触发器尺寸,在推理时使用小触发补丁有效激活后门。
- Result: 在多个数据集上的实验表明,TrAP在对象误分类和对象消失攻击中均实现高攻击成功率,同时在下游数据集上相比零样本设置提高了干净图像性能。
- Conclusion: TrAP攻击方法展示了OVODs面临的新型安全威胁,强调了在部署前进行严格安全评估的必要性。
[155] Direct Visual Grounding by Directing Attention of Visual Tokens
Parsa Esmaeilkhani,Longin Jan Latecki
Main category: cs.CV
TL;DR: 论文发现视觉语言模型(VLMs)在最终层对视觉标记关注不足,导致视觉问答错误。作者提出KL注意力损失(KLAL)来直接监督视觉标记的注意力分布,结合标准的下一个标记预测损失,显著提升了视觉任务的性能。
- Motivation: 当前VLMs在LLM模块的最终层中,与查询最相关的视觉标记几乎不被答案标记关注,这可能导致视觉问答错误。标准的NTP损失在引导注意力到视觉标记方面信号不足。
- Method: 提出KL注意力损失(KLAL),通过KL散度将视觉标记的注意力分布与真实注意力图对齐。真实注意力图来自合成案例的任务几何或真实图像的标注(如边界框),无需新标签即可在LLM内进行注意力监督。
- Result: 在几何任务、指向和指代表达理解等任务上,KLAL与NTP结合显著提升了性能。还创建了新数据集评估VLMs的线条追踪能力,发现即使是商业VLMs在此任务上表现也不佳。
- Conclusion: 直接监督视觉标记的注意力分布能有效提升VLMs在视觉任务上的性能,KLAL方法在合成和真实数据上都取得了显著改进。
[156] Deep Imbalanced Multi-Target Regression: 3D Point Cloud Voxel Content Estimation in Simulated Forests
Amirhossein Hassanzadeh,Bartosz Krawczyk,Michael Saunders,Rob Wible,Keith Krause,Dimah Dera,Jan van Aardt
Main category: cs.CV
TL;DR: 该研究探索从体素化LiDAR点云数据推断低层级体素内容信息(目标占用百分比),提出基于核点卷积的多目标回归方法,通过密度相关性和多种优化技术处理类别不平衡问题,并对不同体素尺寸进行敏感性分析。
- Motivation: 体素化是降低LiDAR数据处理计算成本的有效方法,但会导致细尺度结构信息丢失。研究旨在探索是否可以从高层级体素化LiDAR点云数据推断低层级体素内容信息,特别是目标在体素内的占用百分比。
- Method: 提出基于核点卷积的多目标回归方法,采用密度相关性处理类别不平衡问题,使用加权均方误差、焦点回归和正则化来优化KPConv,并对体素尺寸(0.25-2米)进行敏感性分析。
- Result: 敏感性分析显示,较大体素尺寸(如2米)由于变异性降低而误差较小,而较小体素尺寸(如0.25或0.5米)误差较高,特别是在变异性最大的冠层内。树皮和叶片目标在较小体素尺寸数据集中的误差显著高于较大体素尺寸数据集。
- Conclusion: 体素尺寸的选择取决于具体应用。该研究填补了深度不平衡学习模型在多目标回归和森林3D LiDAR点云模拟数据集方面的空白。
[157] SAGE: Saliency-Guided Contrastive Embeddings
Colton R. Crum,Adam Czajka
Main category: cs.CV
TL;DR: SAGE是一种通过对比嵌入将人类显著性先验整合到神经网络训练中的方法,在图像空间之外使用潜在空间嵌入来引导训练,提升分类性能。
- Motivation: 现有显著性引导方法主要依赖图像空间内的内部模型机制,但研究表明这些机制可能不可靠。本文旨在通过将引导方法从图像空间转移到潜在空间来解决显著性引导训练中的挑战。
- Method: 提出SAGE损失函数,应用显著性保留和显著性退化信号增强,使用对比三元组损失引导模型关注显著特征并忽略非显著特征,同时对logit分布进行完整性检查。
- Result: 在开放集和封闭集场景下,SAGE相比最先进的显著性方法在分类性能上均有提升,并在各种骨干网络和任务中表现出良好的泛化能力。
- Conclusion: 通过将人类显著性引导从图像空间转移到潜在空间,SAGE方法有效提升了模型性能,证明了潜在空间引导在整合人类先验知识方面的优势。
[158] Which Way from B to A: The role of embedding geometry in image interpolation for Stable Diffusion
Nicholas Karris,Luke Durell,Javier Flores,Tegan Emerson
Main category: cs.CV
TL;DR: 论文发现Stable Diffusion的CLIP嵌入具有置换不变性,可视为Wasserstein空间中的点云而非欧几里得空间中的矩阵。通过将嵌入插值问题重构为最优传输问题,能生成更平滑、更连贯的中间图像。
- Motivation: 受Stable Diffusion对CLIP嵌入矩阵行置换不变性的启发,探索将嵌入解释为Wasserstein空间中的点云而非欧几里得空间中的矩阵,以更好地理解嵌入空间的几何结构。
- Method: 将嵌入插值问题重构为最优传输问题,通过求解最优传输问题计算嵌入之间的最短路径(测地线),在嵌入空间中实现更自然和几何平滑的过渡。
- Result: 实验表明,基于最优传输的插值方法相比其他标准插值方法能产生更平滑的图像插值结果。
- Conclusion: 将嵌入视为点云而非矩阵能更好地反映和利用嵌入空间的几何结构,基于最优传输的插值方法确实能产生更平滑的图像插值。
[159] RoCoISLR: A Romanian Corpus for Isolated Sign Language Recognition
Cătălin-Alexandru Rîpanu,Andrei-Theodor Hotnog,Giulia-Stefania Imbrea,Dumitru-Clementin Cercel
Main category: cs.CV
TL;DR: 提出了RoCoISLR数据集,这是首个大规模罗马尼亚孤立手语识别数据集,包含9000多个视频样本和近6000个标准化词汇,并评估了7种最先进的视频识别模型。
- Motivation: 目前大多数手语识别数据集都关注美国手语,而罗马尼亚孤立手语识别缺乏大规模标准化数据集,限制了研究进展。
- Method: 构建RoCoISLR数据集,包含9000+视频样本和近6000个标准化词汇,并在统一实验设置下评估I3D、SlowFast、Swin Transformer、TimeSformer、Uniformer、VideoMAE和PoseConv3D等7种模型。
- Result: 基于Transformer的架构优于卷积基线,Swin Transformer达到34.1%的Top-1准确率,同时揭示了低资源手语中长尾类分布的挑战。
- Conclusion: RoCoISLR为系统性的罗马尼亚孤立手语识别研究提供了基础,证明了Transformer模型在该任务上的优势。
[160] Lightweight Optimal-Transport Harmonization on Edge Devices
Maria Larchenko,Dmitry Guskov,Alexander Lobashev,Georgy Derevyanko
Main category: cs.CV
TL;DR: 提出一种轻量级颜色协调方法MKL-Harmonizer,支持设备端实时推理,用于增强现实中的无缝图像合成。
- Motivation: 解决增强现实中颜色协调算法缺乏实时解决方案的问题,使颜色协调能够集成到AR流水线中。
- Method: 利用经典最优传输理论,训练紧凑编码器预测Monge-Kantorovich传输映射。
- Result: 在真实AR合成图像上,该方法获得了最佳综合得分,并发布了专用AR数据集和采集工具包。
- Conclusion: 提出的MKL-Harmonizer算法能够有效实现AR场景中的实时颜色协调,为AR应用提供了实用的解决方案。
[161] Enhancing Neuro-Oncology Through Self-Assessing Deep Learning Models for Brain Tumor Unified Model for MRI Segmentation
Andrew Zhou
Main category: cs.CV
TL;DR: 提出了一种不确定性感知的脑肿瘤分割框架,在nnUNet基础上增加体素级不确定性通道,同时结合正常脑结构和肿瘤分割,为手术决策提供更全面的信息。
- Motivation: 当前深度学习方法缺乏不确定性估计,无法提供分割错误的置信度,且不能同时分割肿瘤和周围健康脑结构,限制了临床应用的可靠性。
- Method: 在nnUNet中增加不确定性通道,使用BraTS2023数据集训练;开发统一模型结合正常脑结构和肿瘤数据集,实现全脑上下文分割。
- Result: 不确定性预测达到0.750的相关性和0.047的RMSD,不影响肿瘤分割精度;统一模型在脑结构分割上DSC为0.81,肿瘤分割DSC为0.86。
- Conclusion: 该框架首次同时输出肿瘤在自然环境中的分割结果和不确定性图谱,为临床手术决策提供关键洞察,能够评估预测质量并修正错误。
[162] MSRNet: A Multi-Scale Recursive Network for Camouflaged Object Detection
Leena Alghamdi,Muhammad Usman,Hafeez Anwar,Abdul Bais,Saeed Anwar
Main category: cs.CV
TL;DR: 提出了一种多尺度递归网络MSRNet,通过金字塔视觉Transformer提取多尺度特征,结合注意力机制和递归解码策略,在伪装目标检测任务中实现了最先进的性能。
- Motivation: 伪装目标检测面临复杂场景下小目标和多目标检测困难的问题,现有方法在精确检测方面仍有改进空间。
- Method: 使用金字塔视觉Transformer作为骨干网络提取多尺度特征,通过注意力尺度集成单元选择性融合特征,解码器采用多粒度融合单元和递归反馈策略进行特征优化。
- Result: 在两个基准数据集上达到最先进性能,在另外两个数据集上排名第二,能够成功检测小目标和多目标伪装对象。
- Conclusion: 通过多尺度学习和递归特征优化的联合利用,提出的方法在伪装目标检测任务中取得了显著性能提升。
[163] SAGA: Source Attribution of Generative AI Videos
Rohit Kundu,Vishal Mohanty,Hao Xiong,Shan Jia,Athula Balachandran,Amit K. Roy-Chowdhury
Main category: cs.CV
TL;DR: SAGA是首个全面的AI生成视频溯源框架,通过多粒度归因识别具体生成模型,仅需0.5%的标注数据即可达到全监督性能,并提出了可解释性方法T-Sigs。
- Motivation: 生成式AI的普及导致超逼真合成视频泛滥,传统二元真伪检测已无法应对,迫切需要能识别具体生成模型的大规模溯源方法。
- Method: 提出SAGA框架,采用视频transformer架构和预训练-归因策略,引入Temporal Attention Signatures(T-Sigs)可解释性方法,在五个粒度级别进行归因。
- Result: 在公共数据集上的广泛实验表明,SAGA在合成视频溯源方面设立了新基准,在跨域场景下表现优异,仅需0.5%标注数据即可匹配全监督性能。
- Conclusion: SAGA为法证和监管应用提供了关键的可解释溯源能力,解决了AI生成视频的大规模溯源需求。
[164] Video Finetuning Improves Reasoning Between Frames
Ruiqi Yang,Tian Yun,Zihan Wang,Ellie Pavlick
Main category: cs.CV
TL;DR: 本文提出了视觉思维链(vCoT)方法,通过生成帧间过渡事件描述来增强多模态大语言模型的视频理解能力。研究发现视频微调模型已隐式掌握时间推理能力,而图像模型通过vCoT可获得显著提升。
- Motivation: 当前多模态大语言模型从图像扩展到视频时,通常只是简单拼接帧标记,缺乏对帧间时间关系的显式建模。本文旨在研究视频微调对多模态LLMs的实际贡献。
- Method: 提出视觉思维链(vCoT)方法,生成连续帧之间的过渡事件描述作为显式推理过程。系统比较了仅图像模型和视频微调模型在有/无vCoT提示下的表现。
- Result: vCoT显著提升了仅图像模型在长视频问答任务上的性能,但对视频微调模型只有边际增益。视频模型能将时间推理能力迁移到静态场景,在关系视觉推理任务上超越图像模型基线。
- Conclusion: 视频微调模型已隐式掌握帧间过渡推理能力,而vCoT为图像模型提供了有效的时间推理支持。视频模型的时间推理能力具有可迁移性,能提升静态场景的关系推理表现。
[165] View-aware Cross-modal Distillation for Multi-view Action Recognition
Trung Thanh Nguyen,Yasutomo Kawanishi,Vijay John,Takahiro Komamizu,Ichiro Ide
Main category: cs.CV
TL;DR: 提出了ViCoKD框架,通过跨模态知识蒸馏,让模态和标注有限的学生模型从全监督多模态教师模型中学习,解决了部分重叠多视图动作识别中的视图不对齐问题。
- Motivation: 多传感器系统中,部分重叠设置下的动作识别研究不足,现实场景中往往只有有限输入模态和序列级标注,而非密集帧级标注。
- Method: 使用跨模态适配器和跨模态注意力,让学生模型能够利用多模态相关性;提出视图感知一致性模块,通过人类检测掩码和置信度加权的Jensen-Shannon散度来强制共视动作的预测对齐。
- Result: 在MultiSensor-Home数据集上的实验表明,ViCoKD在多种骨干网络和环境设置下均优于竞争性蒸馏方法,在有限条件下甚至超越了教师模型。
- Conclusion: ViCoKD框架有效解决了部分重叠多视图动作识别中的挑战,通过知识蒸馏和视图一致性约束,在模态和标注受限条件下实现了优异的性能。
[166] Uni-Hand: Universal Hand Motion Forecasting in Egocentric Views
Junyi Ma,Wentao Bao,Jingyi Xu,Guanzhong Sun,Yu Zheng,Erhang Zhang,Xieyuanli Chen,Hesheng Wang
Main category: cs.CV
TL;DR: 提出了EgoLoc方法,用于在自我中心视频中零样本定位手与物体接触和分离的时间戳,无需对象掩码和动词-名词分类法。
- Motivation: 现有研究主要关注交互行为范式建模("如何交互"),但更挑战性的手与目标物体接触和分离关键时刻的捕捉("何时交互")仍未充分探索,这对混合现实中的沉浸式交互体验和机器人运动规划至关重要。
- Method: EgoLoc引入手动力学引导采样生成高质量视觉提示,利用视觉语言模型识别接触/分离属性、定位特定时间戳,并提供闭环反馈进行进一步优化。
- Result: 在公共数据集和新基准上的综合实验表明,EgoLoc在自我中心视频中实现了可信的时间交互定位,并能有效促进自我中心视觉和机器人操作任务中的多个下游应用。
- Conclusion: EgoLoc消除了对对象掩码和动词-名词分类法的需求,实现了可泛化的零样本实现,为自我中心视频中的时间交互定位提供了有效解决方案。
[167] Simple Lines, Big Ideas: Towards Interpretable Assessment of Human Creativity from Drawings
Zihao Lin,Zhenshan Shi,Sasa Zhao,Hanwei Zhu,Lingyu Zhu,Baoliang Chen,Lei Mo
Main category: cs.CV
TL;DR: 提出一个数据驱动的自动可解释绘图创造力评估框架,将创造力重新解释为内容(画什么)和风格(如何画)两个互补维度的函数
- Motivation: 当前绘图创造力评估主要依赖专家主观评分,既费时又主观,需要自动化和可解释的评估方法
- Method: 多模态多任务学习框架,同时预测创造力分数、分类内容类型和提取风格特征,引入条件学习机制根据绘图的风格和语义线索动态调整视觉特征提取
- Result: 模型在现有回归方法中达到最先进性能,并提供与人类判断一致的可解释可视化
- Conclusion: 该框架为自动、可解释的创造力评估提供了有效解决方案,代码和注释将公开
[168] ActVAR: Activating Mixtures of Weights and Tokens for Efficient Visual Autoregressive Generation
Kaixin Zhang,Ruiqing Yang,Yuan Zhang,Shan You,Tao Huang
Main category: cs.CV
TL;DR: ActVAR是一个动态激活框架,通过双重稀疏化(模型权重和token序列)提升VAR模型效率,在不牺牲容量的情况下减少21.2%计算量。
- Motivation: 现有静态剪枝方法会永久移除权重或token,破坏预训练依赖关系,导致性能下降。需要动态方法来平衡效率和性能。
- Method: 将前馈网络分解为轻量级专家子网络,使用可学习路由器动态选择token特定的专家子集;同时使用门控token选择器识别高更新潜力token进行计算,重建未选择token以保持全局上下文和序列对齐;采用两阶段知识蒸馏策略。
- Result: 在ImageNet 256×256基准测试中,ActVAR实现了高达21.2%的FLOPs减少,性能下降最小。
- Conclusion: ActVAR通过动态激活和双重稀疏化有效解决了VAR模型计算成本随序列长度增长的问题,在保持性能的同时显著提升效率。
[169] Reconstructing 3D Scenes in Native High Dynamic Range
Kaixuan Zhang,Minxian Li,Mingwu Ren,Jiankang Deng,Xiatian Zhu
Main category: cs.CV
TL;DR: 提出了首个直接从原生HDR数据重建3D场景的方法NH-3DGS,通过新颖的亮度-色度分解技术,在重建流程中完整保留高动态范围信息。
- Motivation: 专业数字媒体制作需要HDR成像,但现有3D重建方法主要基于LDR数据,限制了在专业工作流程中的应用。现有HDR重建方法依赖多曝光融合或逆色调映射,增加了捕获复杂性。
- Method: 提出Native High dynamic range 3D Gaussian Splatting (NH-3DGS),采用亮度-色度分解的颜色表示方法,直接从原生HDR相机数据进行优化。
- Result: 在合成和真实多视角HDR数据集上,NH-3DGS在重建质量和动态范围保持方面显著优于现有方法。
- Conclusion: 该方法实现了直接从原生HDR捕获进行专业级3D重建,为专业数字媒体制作提供了有效解决方案。
[170] FDP: A Frequency-Decomposition Preprocessing Pipeline for Unsupervised Anomaly Detection in Brain MRI
Hao Li,Zhenfeng Zhuang,Jingyu Lin,Yu Liu,Yifei Chen,Qiong Peng,Lequan Yu,Liansheng Wang
Main category: cs.CV
TL;DR: 本文提出了一种基于频域分解预处理(FDP)的无监督脑MRI异常检测方法,通过分析病理特征的频域特性来区分异常和正常解剖结构,显著提升了现有方法的检测性能。
- Motivation: 由于脑部解剖结构的多样性和标注数据的稀缺性,监督式脑MRI异常检测面临挑战。现有无监督方法使用人工生成的噪声扰动来训练模型,但这些模拟异常缺乏真实临床病变的生物物理保真度和形态复杂性。
- Method: 提出了频域分解预处理(FDP)框架,这是首个利用频域重建同时实现病理抑制和解剖保留的无监督异常检测方法。FDP通过分析病理特征的频域特性,发现异常具有独特的频率模式,而低频信号在健康扫描中保持一致性。
- Result: 实验结果表明,FDP与现有方法集成时能持续提升异常检测性能。特别是与LDM结合时,DICE分数提高了17.63%,并在多个基线方法上都保持了稳健的改进。
- Conclusion: FDP框架通过频域分析有效区分脑MRI中的异常和正常解剖结构,为无监督异常检测提供了新的解决方案,能够无缝集成到现有技术中并显著提升检测性能。
[171] DeepSport: A Multimodal Large Language Model for Comprehensive Sports Video Reasoning via Agentic Reinforcement Learning
Junbo Zou,Haotian Xia,Zhen Ye,Shengjie Zhang,Christopher Lai,Vicente Ordonez,Weining Shen,Hanjie Chen
Main category: cs.CV
TL;DR: DeepSport是首个端到端训练的多模态大语言模型框架,专为多任务、多运动的视频理解设计,通过主动推理和专门帧提取工具实现"视频思考",在6.7k问题测试基准上达到最先进性能。
- Motivation: 解决体育视频理解中的独特挑战:感知高速动态、理解复杂规则和长时序推理。现有方法要么局限于单一运动或特定任务,要么依赖无训练范式缺乏稳健的学习推理过程。
- Method: 提出数据蒸馏管道从10个数据源合成高质量思维链轨迹,创建78k训练数据;采用两阶段训练策略:监督微调后接强化学习,使用新颖的门控工具使用奖励优化推理过程;通过专门帧提取工具实现主动迭代推理。
- Result: 在6.7k问题的测试基准上,DeepSport实现了最先进的性能,显著优于专有模型和开源模型的基线。
- Conclusion: 这项工作为领域特定视频推理建立了新基础,以应对多样化体育的复杂性。
[172] CASL: Curvature-Augmented Self-supervised Learning for 3D Anomaly Detection
Yaohua Zha,Xue Yuerong,Chunlin Fan,Yuansong Wang,Tao Dai,Ke Chen,Shu-Tao Xia
Main category: cs.CV
TL;DR: 本文提出了一种基于曲率增强自监督学习的3D异常检测框架CASL,通过多尺度曲率提示引导重建过程,在不依赖特定异常检测机制的情况下实现了领先性能,并能泛化到其他3D理解任务。
- Motivation: 现有3D异常检测方法通常针对特定任务设计,泛化性差;而经典自监督点云模型在统一微调范式下对异常检测效果不佳,需要开发更通用的3D模型。
- Method: 基于重建范式,在经典U-Net架构上引入多尺度曲率提示,引导解码器预测每个点的空间坐标,通过简单的异常分类微调实现检测。
- Result: 仅使用点曲率作为异常分数就超越了多个经典自监督和专用异常检测模型,CASL框架在不依赖专用机制的情况下实现了领先的检测性能,且学到的表示能很好泛化到点云分类等标准3D理解任务。
- Conclusion: 曲率在3D异常检测中具有关键作用,提出的CASL框架展示了在不依赖任务特定设计的情况下实现高性能异常检测的可能性,同时具备良好的泛化能力。
[173] Explore How to Inject Beneficial Noise in MLLMs
Ruishu Zhu,Sida Huang,Ziheng Jiao,Hongyuan Zhang
Main category: cs.CV
TL;DR: 提出了一种通过注入有益随机噪声的新型微调策略MuNG,仅需调整1-2%的额外参数就能超越全参数微调和其他现有方法。
- Motivation: 现有微调方法往往忽略跨模态异质性,限制了多模态大语言模型的潜力。
- Method: 从变分推理角度重新制定MLLMs的推理过程,设计多模态噪声生成器动态分析图像-文本对的跨模态关系,生成任务自适应的有益噪声。
- Result: 在QwenVL和LLaVA上的实验表明,该方法超越了全参数微调和其他现有微调方法。
- Conclusion: 注入定制化噪声能有效抑制不相关语义成分,显著改善跨模态表示对齐,提升下游任务性能。
[174] CoordAR: One-Reference 6D Pose Estimation of Novel Objects via Autoregressive Coordinate Map Generation
Dexin Zuo,Ang Li,Wei Wang,Wenxian Yu,Danping Zou
Main category: cs.CV
TL;DR: CoordAR提出了一种基于自回归框架的单参考6D姿态估计方法,通过将3D-3D对应关系建模为离散标记序列,解决了现有方法在对称性和遮挡场景下的局限性。
- Motivation: 减少对3D模型的依赖,解决现有基于坐标回归的方法在全局一致性和对称性场景下的不足。
- Method: 使用坐标映射标记化、模态解耦编码和自回归Transformer解码器,将3D-3D对应关系表示为离散标记序列进行概率预测。
- Result: 在多个基准测试中显著优于现有方法,在对称性、遮挡等挑战性场景下表现出强鲁棒性。
- Conclusion: CoordAR通过自回归概率建模有效解决了单参考6D姿态估计中的对称性和遮挡问题,为实际应用提供了可靠解决方案。
[175] Generative Photographic Control for Scene-Consistent Video Cinematic Editing
Huiqiang Sun,Liao Shen,Zhan Peng,Kun Wang,Size Wu,Yuhang Zang,Tianqi Liu,Zihao Huang,Xingyu Zeng,Zhiguo Cao,Wei Li,Chen Change Loy
Main category: cs.CV
TL;DR: CineCtrl是首个视频电影化编辑框架,提供对专业相机参数(如散景、快门速度)的精细控制,解决了生成视频模型中摄影效果控制的挑战。
- Motivation: 电影叙事深受摄影元素(如景深和曝光)艺术性操控的影响,但现有生成视频方法大多仅限于相机运动控制,难以控制这些关键的摄影效果。
- Method: 提出解耦交叉注意力机制,将相机运动与摄影输入分离,实现细粒度独立控制;开发综合数据生成策略,利用模拟摄影效果和真实世界收集管道构建大规模数据集。
- Result: 模型能够生成具有精确控制、用户指定摄影相机效果的高保真视频。
- Conclusion: CineCtrl框架成功实现了对专业相机参数的精细控制,为视频电影化编辑提供了有效解决方案。
[176] Text2Traffic: A Text-to-Image Generation and Editing Method for Traffic Scenes
Feng Lv,Haoxuan Feng,Zilu Zhang,Chunlong Xia,Yanfeng Li
Main category: cs.CV
TL;DR: 提出统一的文本驱动框架,通过可控掩码机制结合图像生成和编辑,利用多视角数据增强交通场景几何多样性,采用两阶段训练策略提升文本-图像对齐和细节质量,引入掩码区域加权损失改善小尺度交通元素生成效果。
- Motivation: 解决智能交通系统中文本驱动图像生成和编辑面临的挑战:交通元素语义丰富度不足、相机视角有限、合成图像视觉保真度低、文本描述与生成内容对齐差。
- Method: 1) 统一文本驱动框架结合可控掩码机制;2) 融合车端和路端多视角数据;3) 两阶段训练:大规模粗粒度文本-图像数据概念学习 + 细粒度描述数据微调;4) 掩码区域加权损失动态关注关键小区域。
- Result: 在交通场景的文本驱动图像生成和编辑任务中取得领先性能,显著提升了小尺度交通元素的生成保真度。
- Conclusion: 所提方法有效解决了交通场景文本驱动视觉内容生成的关键挑战,为智能交通系统提供了高质量的视觉场景数据支持。
[177] PFAvatar: Pose-Fusion 3D Personalized Avatar Reconstruction from Real-World Outfit-of-the-Day Photos
Dianbing Xi,Guoyuan An,Jingsen Zhu,Zhijian Liu,Yuan Liu,Ruiyuan Zhang,Jiayuan Lu,Rui Wang,Yuchi Huo
Main category: cs.CV
TL;DR: PFAvatar是一种从"每日穿搭"照片重建高质量3D虚拟形象的新方法,通过两阶段流程:姿势感知扩散模型微调和NeRF 3D虚拟形象蒸馏,实现了快速个性化(5分钟)和高保真重建。
- Motivation: 解决从现实世界"每日穿搭"照片重建3D虚拟形象的挑战,这些照片包含多样姿势、遮挡和复杂背景,传统方法分解图像为服装配饰进行3D组装容易导致不一致。
- Method: 两阶段方法:1) 使用ControlNet进行姿势估计和条件先验保持损失(CPPL)微调扩散模型,避免分解直接建模全身外观;2) 通过规范SMPL-X空间采样和多分辨率3D-SDS优化NeRF表示,处理遮挡和保持高频纹理。
- Result: 相比现有方法实现48倍加速(5分钟完成个性化),在重建保真度、细节保持和遮挡/截断鲁棒性方面优于最先进方法,支持虚拟试穿、动画和视频重演等应用。
- Conclusion: PFAvatar推进了从现实世界OOTD相册生成实用3D虚拟形象的能力,提供快速、高保真且多功能的重建方案。
[178] ProtoAnomalyNCD: Prototype Learning for Multi-class Novel Anomaly Discovery in Industrial Scenarios
Botong Zhao,Qijun Shi,Shujing Lyu,Yue Lu
Main category: cs.CV
TL;DR: ProtoAnomalyNCD是一个基于原型学习的框架,用于发现和分类多种未见异常类型,通过结合对象定位和异常图引导的注意力机制来提升性能。
- Motivation: 现有工业异常检测方法主要判断是否存在异常,但实际应用需要发现和分类多种异常类型。由于工业异常语义细微且现有方法未充分利用图像先验,直接聚类方法效果不佳。
- Method: 1) 使用Grounded SAM和文本提示定位对象区域作为先验;2) 提出异常图引导注意力块,包含区域引导因子区分背景、对象和异常区域;3) 在统一原型学习框架下发现未见异常类并进行多类型异常分类。
- Result: 在MVTec AD、MTD和Real-IAD数据集上优于最先进方法,并能扩展到检测未见异常值,实现任务级统一。
- Conclusion: ProtoAnomalyNCD通过结合对象定位和异常图引导的注意力机制,有效解决了工业异常发现和分类问题,在多个数据集上表现出优越性能。
[179] Semi-Supervised High Dynamic Range Image Reconstructing via Bi-Level Uncertain Area Masking
Wei Jiang,Jiahao Cui,Yizheng Wu,Zhan Peng,Zhiyu Pan,Zhiguo Cao
Main category: cs.CV
TL;DR: 提出一种基于半监督学习的高动态范围图像重建方法,通过教师模型生成伪HDR标签,并使用不确定性掩码机制过滤不可靠区域,仅需6.7%的HDR真实标签即可达到全监督方法的性能
- Motivation: 解决基于学习的HDR图像重建方法对LDR-HDR图像对的依赖问题,这些配对数据难以获取,需要研究如何在有限HDR真实标签下实现可比较性能
- Method: 采用半监督学习框架,教师模型为无标签的LDR样本生成伪HDR标签,学生模型从伪标签学习;提出基于不确定性的掩码机制,在像素和补丁级别丢弃伪标签中不可靠的部分
- Result: 该方法不仅优于之前的标注高效算法,而且仅使用6.7%的HDR真实标签就达到了最新全监督方法的可比性能
- Conclusion: 提出的不确定性掩码机制有效缓解了确认偏差问题,使半监督HDR重建方法在有限标注数据下实现优异性能
[180] Recurrent Autoregressive Diffusion: Global Memory Meets Local Attention
Taiye Chen,Zihan Ding,Anjian Li,Christina Zhang,Zeqi Xiao,Yisen Wang,Chi Jin
Main category: cs.CV
TL;DR: 提出RAD框架,在扩散变换器中引入LSTM来增强长期视频生成中的历史信息保留,解决了现有方法在记忆压缩和检索方面的局限性。
- Motivation: 现有视频扩散模型在生成长视频时,由于缺乏有效的记忆压缩和检索机制,存在遗忘和时空不一致的问题。
- Method: 在扩散变换器框架中引入LSTM,提出RAD框架,通过逐帧自回归进行内存更新和检索,在训练和推理时保持一致。
- Result: 在Memory Maze和Minecraft数据集上的实验表明,RAD在长视频生成方面具有优越性,LSTM在序列建模中表现出高效性。
- Conclusion: RAD框架通过结合LSTM和扩散变换器,有效解决了长视频生成中的记忆保留问题,提升了生成质量。
[181] T2I-Based Physical-World Appearance Attack against Traffic Sign Recognition Systems in Autonomous Driving
Chen Ma,Ningfei Wang,Junhao Zheng,Qing Guo,Qian Wang,Qi Alfred Chen,Chao Shen
Main category: cs.CV
TL;DR: DiffSign是一个基于文本到图像生成的新型交通标志识别攻击框架,能够生成物理鲁棒、高效、可迁移、实用且隐蔽的外观攻击。
- Motivation: 现有交通标志识别系统的对抗性外观攻击存在局限性:像素级扰动方法缺乏隐蔽性且过拟合特定模型,扩散模型方法效果有限且泛化能力差。
- Method: 提出精心设计的攻击流程,集成CLIP损失和掩码提示以提高攻击聚焦性和可控性;提出两种新颖的风格定制方法指导视觉外观,提高跨域交通标志攻击泛化能力和隐蔽性。
- Result: 在多种真实世界条件下进行广泛评估,包括不同距离、角度、光照条件和标志类别,平均物理世界攻击成功率达到83.3%。
- Conclusion: DiffSign在攻击可迁移性方面表现出高效性,为交通标志识别系统安全提供了重要洞见。
[182] EndoSight AI: Deep Learning-Driven Real-Time Gastrointestinal Polyp Detection and Segmentation for Enhanced Endoscopic Diagnostics
Daniel Cavadia
Main category: cs.CV
TL;DR: EndoSight AI是一个深度学习系统,用于实时检测和分割胃肠道息肉,在Hyper-Kvasir数据集上达到88.3% mAP检测精度和69% Dice分割系数,推理速度超过35fps。
- Motivation: 内窥镜手术中精确实时检测胃肠道息肉对于结直肠癌的早期诊断和预防至关重要。
- Method: 开发了EndoSight AI深度学习架构,采用热感知训练程序确保模型鲁棒性,在公开的Hyper-Kvasir数据集上进行训练和评估。
- Result: 系统实现了88.3%的平均精度用于息肉检测,分割Dice系数高达69%,在GPU硬件上实时推理速度超过35帧/秒。
- Conclusion: 该集成AI解决方案旨在无缝部署到内窥镜工作流程中,有望提高胃肠道医疗的诊断准确性和临床决策能力。
[183] CalibrateMix: Guided-Mixup Calibration of Image Semi-Supervised Models
Mehrab Mustafy Rahman,Jayanth Mohan,Tiberiu Sosea,Cornelia Caragea
Main category: cs.CV
TL;DR: 提出CalibrateMix方法,通过有针对性的mixup策略改善半监督学习模型的校准性能,在保持分类准确率的同时降低预期校准误差
- Motivation: 现有半监督学习方法存在校准性能差的问题,模型会产生过度自信的预测。虽然mixup在监督学习中表现出良好的校准效果,但在半监督学习中由于伪标签的不可靠性而面临挑战
- Method: 利用训练动态识别"易学习"和"难学习"样本,然后对这些样本进行有针对性的mixup操作
- Result: 在多个基准图像数据集上的实验结果表明,该方法相比现有半监督学习方法实现了更低的预期校准误差和更高的准确率
- Conclusion: CalibrateMix方法有效改善了半监督学习模型的校准性能,同时保持或提高了分类准确率
[184] GrOCE:Graph-Guided Online Concept Erasure for Text-to-Image Diffusion Models
Ning Han,Zhenyu Ge,Feng Han,Yuhua Sun,Chengqing Li,Jingjing Chen
Main category: cs.CV
TL;DR: GrOCE是一个无需训练的框架,通过基于图的语义推理实现精确自适应的概念擦除,在概念相似度和FID指标上达到最先进性能。
- Motivation: 解决现有概念擦除方法需要昂贵微调或粗粒度语义分离的问题,避免无关概念退化并适应动态概念集。
- Method: 构建动态语义图建模概念间关系,包含动态拓扑图构建、自适应聚类识别和选择性边切断三个组件。
- Result: 在概念相似度和FID指标上达到最先进性能,实现高效、准确且稳定的概念擦除。
- Conclusion: GrOCE提供了一种无需重新训练的高效概念擦除方法,能够精确隔离不需要的内容同时保留全局语义。
[185] HiFusion: Hierarchical Intra-Spot Alignment and Regional Context Fusion for Spatial Gene Expression Prediction from Histopathology
Ziqiao Weng,Yaoyu Fang,Jiahe Qian,Xinkun Wang,Lee AD Cooper,Weidong Cai,Bo Zhou
Main category: cs.CV
TL;DR: HiFusion是一个深度学习框架,通过分层建模和跨尺度融合从H&E染色全玻片图像预测基因表达,在空间转录组学中实现最先进性能。
- Motivation: 现有方法难以捕捉spot内的生物异质性,且容易受到周围组织形态学噪声的影响,阻碍了空间转录组学的临床应用。
- Method: 包含两个互补组件:分层spot内建模模块通过多分辨率子块分解提取细粒度形态表征;上下文感知跨尺度融合模块使用交叉注意力选择性整合生物相关区域上下文。
- Result: 在两个基准ST数据集上的实验表明,HiFusion在2D切片交叉验证和更具挑战性的3D样本特定场景中都实现了最先进性能。
- Conclusion: HiFusion作为从常规组织病理学进行ST推断的稳健、准确且可扩展的解决方案具有巨大潜力。
[186] MCAQ-YOLO: Morphological Complexity-Aware Quantization for Efficient Object Detection with Curriculum Learning
Yoonjae Seo,Ermal Elbasani,Jaehong Lee
Main category: cs.CV
TL;DR: MCAQ-YOLO是一种基于形态复杂度的自适应量化框架,通过五种形态学指标动态调整空间位精度,在目标检测任务中实现比均匀量化更高的精度和压缩效率。
- Motivation: 传统神经网络量化方法在空间区域上采用统一的位精度,忽视了视觉数据的异构结构和纹理复杂性。
- Method: 使用五种形态学指标(分形维度、纹理熵、梯度方差、边缘密度和轮廓复杂度)来表征局部视觉形态,指导空间自适应位分配;采用课程式量化感知训练方案逐步增加量化难度。
- Result: 在安全设备数据集上达到85.6% mAP@0.5,平均4.2位精度,7.6倍压缩比,比4位均匀量化高3.5个百分点mAP,每张图像仅增加1.8ms运行时开销。
- Conclusion: 形态驱动的空间量化能够提升计算受限、安全关键视觉识别任务的效率和鲁棒性。
[187] ArtiWorld: LLM-Driven Articulation of 3D Objects in Scenes
Yixuan Yang,Luyang Xie,Zhen Luo,Zixiang Zhao,Mingqi Gao,Feng Zheng
Main category: cs.CV
TL;DR: ArtiWorld是一个场景感知管道,能够从文本场景描述中定位可关节化物体,并重建可执行的URDF模型,同时保持原始几何形状。
- Motivation: 现有3D模拟资产大多是刚性的,手动将其转换为关节化对象极其耗时耗力,需要自动化解决方案。
- Method: 使用Arti4URDF,结合3D点云、大型语言模型先验知识和URDF导向的提示设计,快速将刚性对象转换为交互式URDF关节化对象。
- Result: 在3D模拟对象、完整3D模拟场景和真实世界扫描场景三个层面评估,均优于现有方法并达到最先进性能。
- Conclusion: 该方法为直接从现有3D资产构建交互式、机器人就绪的模拟环境提供了实用路径。
[188] Concept Regions Matter: Benchmarking CLIP with a New Cluster-Importance Approach
Aishwarya Agarwal,Srikrishna Karanam,Vineet Gandhi
Main category: cs.CV
TL;DR: 提出CCI方法,利用CLIP的patch嵌入将空间块聚类,通过掩蔽评估模型预测变化,在忠实性基准测试中达到新SOTA。结合GroundedSAM可自动分类预测为前景或背景驱动。还引入COVAR基准来系统评估前景和背景变化对模型的影响。
- Motivation: 解决对比视觉语言模型(如CLIP)对虚假相关性(特别是背景过度依赖)的脆弱性问题,需要更准确的解释性方法和评估基准。
- Method: CCI方法:1)使用CLIP的patch嵌入将空间块聚类成语义连贯的簇;2)掩蔽这些簇;3)评估模型预测的相对变化。结合GroundedSAM实现前景/背景驱动的自动分类。
- Result: CCI在忠实性基准测试中大幅超越现有方法,如在MS COCO检索上的删除AUC指标提升超过两倍。通过COVAR基准对18个CLIP变体进行全面评估。
- Conclusion: CCI提供了更准确的模型解释能力,COVAR基准能系统评估前景和背景变化的影响,为开发更鲁棒的视觉语言模型指明了方向。
[189] UNSEEN: Enhancing Dataset Pruning from a Generalization Perspective
Furui Xu,Shaobo Wang,Jiajun Zhang,Chenghao Sun,Haixiang Tang,Linfeng Zhang
Main category: cs.CV
TL;DR: UNSEEN是一个从泛化角度进行数据集剪枝的框架,通过使用未见过训练样本的模型来评分,解决了传统方法中样本分数密集分布的问题,并在多步场景中优化核心集质量。
- Motivation: 传统数据集剪枝方法依赖训练阶段模型性能来评分样本,导致样本分数在狭窄数值范围内密集分布,降低了样本间的区分度,影响有效选择。
- Method: 提出UNSEEN框架,从泛化角度对样本评分,使用未接触过样本的模型;扩展到多步场景,通过在不同核心集上训练的评分模型进行增量选择,动态优化核心集质量。
- Result: 在CIFAR-10、CIFAR-100和ImageNet-1K上的实验表明,UNSEEN显著优于现有SOTA方法,在ImageNet-1K上减少30%训练数据的同时实现无损性能。
- Conclusion: 从泛化角度进行数据集剪枝能有效解决传统方法的局限性,UNSEEN框架在多个数据集上表现出优越性能,证明了其有效性。
[190] Semantic Prioritization in Visual Counterfactual Explanations with Weighted Segmentation and Auto-Adaptive Region Selection
Lintong Zhang,Kang Yin,Seong-Whan Lee
Main category: cs.CV
TL;DR: 提出WSAE-Net方法,通过加权语义图和自适应候选编辑序列,优化视觉反事实解释的语义相关性和计算效率。
- Motivation: 传统视觉反事实解释方法在替换图像区域时忽略了语义相关性,损害了模型可解释性并阻碍编辑流程。
- Method: WSAE-Net包含两个关键创新:加权语义图生成(减少非语义特征单元计算)和自适应候选编辑序列(确定特征单元最优计算顺序)。
- Result: 通过全面实验验证,该方法展现出优越性能,有助于更清晰深入地理解视觉反事实解释。
- Conclusion: WSAE-Net方法有效解决了传统视觉反事实解释中的语义相关性问题,提升了计算效率和解释质量。
[191] PerTouch: VLM-Driven Agent for Personalized and Semantic Image Retouching
Zewei Chang,Zheng-Peng Duan,Jianxing Zhang,Chun-Le Guo,Siyu Liu,Hyungju Chun,Hyunhee Park,Zikun Liu,Chongyi Li
Main category: cs.CV
TL;DR: PerTouch是一个基于扩散模型的图像润色框架,支持语义级图像润色并保持全局美学,通过参数映射实现细粒度控制,结合VLM驱动代理处理用户指令。
- Motivation: 解决图像润色中平衡可控性和主观性的挑战,满足用户个性化审美偏好。
- Method: 使用包含语义区域属性值的参数映射作为输入,构建显式的参数到图像映射;引入语义替换和参数扰动机制改善语义边界感知;开发VLM驱动代理处理强弱用户指令;配备反馈驱动重思考和场景感知记忆机制。
- Result: 广泛实验证明各组件有效性,PerTouch在个性化图像润色中表现优异。
- Conclusion: PerTouch能够更好地与用户意图对齐并捕捉长期偏好,在个性化图像润色方面具有优越性能。
[192] Medal S: Spatio-Textual Prompt Model for Medical Segmentation
Pengcheng Shi,Jiawei Chen,Jiaqi Liu,Xinglin Zhang,Tao Chen,Lei Li
Main category: cs.CV
TL;DR: Medal S是一个医学分割基础模型,支持原生分辨率空间和文本提示的端到端训练框架,在5种医学影像模态上实现高效的多类别分割,性能优于现有方法。
- Motivation: 解决现有文本提示方法缺乏空间感知能力的问题,以及分辨率不匹配导致的精度损失,实现空间精度与语义文本指导的协调。
- Method: 采用通道级对齐的体素提示和文本嵌入,轻量级3D卷积模块进行体素空间细化,支持文本提示和混合提示两种模式,提出动态重采样、两阶段推理策略等优化技术。
- Result: 在BiomedSegFM数据集验证集上,5种模态平均DSC为75.44(vs SAT 69.83),NSD为77.34(vs 71.06),并行空间提示比顺序提示减少90%以上推理时间。
- Conclusion: Medal S通过协调空间精度与语义文本指导,在多类别医学分割任务中展现出卓越的效率和准确性,优于基于顺序提示的方法。
[193] Infinite-Story: A Training-Free Consistent Text-to-Image Generation
Jihun Park,Kyoungmin Lee,Jongmin Gim,Hyeonseo Jo,Minseok Oh,Wonhyeok Choi,Kyumin Hwang,Jaeyeul Kim,Minwoo Choi,Sunghoon Im
Main category: cs.CV
TL;DR: Infinite-Story是一个无需训练的文本到图像生成框架,专门用于多提示词讲故事场景,通过身份提示替换和统一注意力引导机制解决身份和风格不一致问题,推理速度比现有最快模型快6倍以上。
- Motivation: 解决多提示词文本到图像生成中的两个关键挑战:身份不一致和风格不一致,同时避免现有扩散模型需要微调或推理速度慢的问题。
- Method: 基于尺度自回归模型,引入三种互补技术:身份提示替换(缓解文本编码器中的上下文偏差)、自适应风格注入和同步引导适应的统一注意力引导机制。
- Result: 在多样提示词下实现高身份和风格一致性,推理速度达到每张图像1.72秒,比现有最快一致T2I模型快6倍以上,生成性能达到最先进水平。
- Conclusion: Infinite-Story是一个高效实用的视觉讲故事框架,无需训练即可实现高质量的一致文本到图像生成,具有显著的速度优势。
[194] SAGE: Spuriousness-Aware Guided Prompt Exploration for Mitigating Multimodal Bias
Wenqian Ye,Di Wang,Guangtao Zheng,Bohan Liu,Aidong Zhang
Main category: cs.CV
TL;DR: 提出SAGE方法,通过引导提示选择来缓解CLIP模型中的多模态伪偏差,无需训练或微调即可提升零样本分类的鲁棒性。
- Motivation: CLIP等大视觉语言模型在零样本分类中存在多模态伪偏差,即模型倾向于依赖虚假特征(如背景)而非核心特征进行推断,这严重影响了在分布外数据上的鲁棒性。现有方法需要微调或先验知识,破坏了CLIP的开箱即用性。
- Method: 提出SAGE方法:首先理论分析多模态伪偏差的影响,然后通过探索提示模板空间,选择能诱导类别间最大语义分离的提示,从而改善最差组鲁棒性。该方法无需训练、微调或外部标注。
- Result: 在4个真实世界基准数据集和5个流行骨干模型上的广泛实验表明,SAGE能持续提升零样本性能和泛化能力,优于先前无需外部知识或模型更新的零样本方法。
- Conclusion: SAGE是一种简单有效的零样本方法,能够缓解多模态伪偏差,提高CLIP模型在分布外数据上的鲁棒性,同时保持其开箱即用的优势。
[195] Beyond Darkness: Thermal-Supervised 3D Gaussian Splatting for Low-Light Novel View Synthesis
Qingsen Ma,Chen Zou,Dianyun Wang,Jia Wang,Liuyu Xiang,Zhaofeng He
Main category: cs.CV
TL;DR: DTGS是一个统一框架,将Retinex启发的光照分解与热引导的3D高斯泼溅相结合,用于极端低光条件下的新视角合成,解决了标准3DGS在欠曝光输入下的几何和颜色一致性问题。
- Motivation: 在极端低光条件下,标准3D高斯泼溅管道直接应用于欠曝光输入时会失败,因为跨视图的独立增强会导致光照不一致和几何失真。
- Method: 通过循环增强-重建机制,将增强、几何和热监督进行联合优化;嵌入Retinex分解模块实现物理可解释的反射-光照分离;热监督分支动态平衡增强、结构和热损失。
- Result: 在构建的RGBT-LOW数据集上,DTGS显著优于现有低光增强和3D重建基线,在极端光照下实现了优异的辐射一致性、几何保真度和颜色稳定性。
- Conclusion: DTGS通过紧密耦合光照分解和热引导的3D高斯泼溅,成功解决了极端低光条件下的新视角合成问题,提供了物理可解释且一致的增强重建结果。
[196] You Only Look Omni Gradient Backpropagation for Moving Infrared Small Target Detection
Guoyi Zhang,Guangsheng Xu,Siyang Chen,Han Wang,Xiaohu Zhang
Main category: cs.CV
TL;DR: 提出BP-FPN,一种从反向传播角度设计的特征金字塔架构,用于解决红外小目标检测中的特征表示瓶颈问题
- Motivation: 现有深度学习方法主要关注时空特征聚合,但收益有限,根本瓶颈在于模糊的单帧特征表示而非时空建模本身
- Method: 引入梯度隔离低层捷径(GILS)来有效融合细粒度目标细节而不引发捷径学习,以及方向梯度正则化(DGR)来在反向传播中强制层次特征一致性
- Result: 在多个公共数据集上的广泛实验表明,BP-FPN持续建立了新的最先进性能
- Conclusion: 这是首个完全从反向传播角度为该任务设计的FPN架构,理论上有依据,计算开销可忽略,并能无缝集成到现有框架中
[197] Geometry Meets Light: Leveraging Geometric Priors for Universal Photometric Stereo under Limited Multi-Illumination Cues
King-Man Tam,Satoshi Ikehata,Yuta Asano,Zhaoyi An,Rei Kawakami
Main category: cs.CV
TL;DR: GeoUniPS是一个通用光度立体网络,通过结合合成监督和来自大规模3D重建模型的几何先验,解决了复杂野外场景中多光照线索不可靠的问题。
- Motivation: 传统通用光度立体方法在复杂野外场景中,当多光照线索不可靠时(如偏置光照、阴影或自遮挡区域)表现不佳,需要引入更强的几何先验。
- Method: 设计光-几何双分支编码器,从冻结的3D重建模型中提取多光照线索和几何先验;引入PS-Perp数据集支持透视投影学习;结合合成监督和几何先验。
- Result: 在多个数据集上实现最先进的性能,特别是在复杂野外场景中,定量和定性评估都表现出色。
- Conclusion: 利用3D重建模型作为视觉几何基础模型,结合几何先验能够显著提升通用光度立体在复杂场景下的性能。
[198] MeanFlow Transformers with Representation Autoencoders
Zheyuan Hu,Chieh-Hsin Lai,Ge Wu,Yuki Mitsufuji,Stefano Ermon
Main category: cs.CV
TL;DR: 本文提出了一种在表示自编码器(RAE)潜在空间中训练MeanFlow(MF)的高效方法,通过一致性中期训练和两阶段方案解决了梯度爆炸问题,显著降低了训练和推理成本,在ImageNet数据集上取得了优异性能。
- Motivation: 传统的MeanFlow训练计算量大且不稳定,推理时SD-VAE解码器成本高,且需要复杂的引导超参数进行类别条件生成。
- Method: 在RAE潜在空间中训练MF,采用一致性中期训练进行轨迹感知初始化,使用两阶段方案:从预训练的流匹配教师蒸馏加速收敛,然后使用单点速度估计器进行可选的自举阶段。
- Result: 在ImageNet 256上实现1步FID 2.03,优于vanilla MF的3.43,同时减少采样GFLOPS 38%,总训练成本降低83%。在ImageNet 512上达到1步FID 3.23,在所有基线中GFLOPS最低。
- Conclusion: 该方法消除了对引导的需求,简化了训练配置,显著降低了训练和采样计算成本,同时保持了优异的生成质量。
[199] SpectralAdapt: Semi-Supervised Domain Adaptation with Spectral Priors for Human-Centered Hyperspectral Image Reconstruction
Yufei Wen,Yuting Zhang,Jingdan Kang,Hao Ren,Weibin Cheng,Jintai Chen,Kaishun Wu
Main category: cs.CV
TL;DR: 提出SpectralAdapt框架,通过半监督域适应方法解决医学HSI重建中的数据稀缺问题,利用光谱密度掩码和光谱端元表示对齐来提升跨域泛化能力。
- Motivation: 解决医学应用中HSI数据获取成本高、技术难度大以及人类HSI数据稀缺的问题,通过从RGB图像重建HSI数据来推进医疗应用。
- Method: 提出SpectralAdapt框架,包含光谱密度掩码(SDM)和光谱端元表示对齐(SERA)两个核心组件,通过自适应掩码和物理可解释的端元表示来提升光谱推理能力。
- Result: 在基准数据集上实验表明,该方法在光谱保真度、跨域泛化能力和训练稳定性方面均有显著提升。
- Conclusion: SSDA为医疗领域的高光谱成像提供了一种高效的解决方案,能够有效缓解域偏移、光谱退化和数据稀缺等问题。
[200] REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding
Jiaze Li,Hao Yin,Wenhui Tan,Jingyang Chen,Boshen Xu,Yuxun Qu,Yijing Chen,Jianzhong Ju,Zhenbo Luo,Jian Luan
Main category: cs.CV
TL;DR: REVISOR是一个用于长视频理解的多模态反思框架,通过文本和视觉模态的协作反思过程,增强MLLMs的推理能力,无需额外监督微调或外部模型。
- Motivation: 纯文本反思机制在长视频理解中存在两个主要限制:(1)仅反思文本信息不足以处理丰富的动态视觉输入;(2)缺乏跨模态交互能力,无法在反思中充分整合视觉信息。
- Method: 提出REVISOR框架,支持文本和视觉模态的协作反思过程,并设计了双归因解耦奖励机制(DADR),集成到GRPO训练策略中,确保模型推理与所选视频证据之间的因果对齐。
- Result: 在VideoMME、LongVideoBench、MLVU和LVBench四个基准测试中取得了令人印象深刻的结果,显著提升了MLLMs的长视频理解能力。
- Conclusion: REVISOR框架通过跨模态协作反思有效解决了长视频理解中纯文本反思的局限性,显著提升了模型性能且无需额外训练资源。
[201] Towards 3D Object-Centric Feature Learning for Semantic Scene Completion
Weihua Wang,Yubo Cui,Xiangru Lin,Zhiheng Li,Zheng Fang
Main category: cs.CV
TL;DR: Ocean是一个面向对象的3D语义场景补全框架,通过将场景分解为独立对象实例来提升语义占用预测精度,在SemanticKITTI和SSCBench-KITTI360基准测试中达到最先进性能。
- Motivation: 现有的视觉3D语义场景补全方法通常采用以自我为中心的范式,在整个场景中聚合和扩散特征,但忽略了细粒度的对象级细节,导致在复杂环境中出现语义和几何模糊问题。
- Method: 1) 使用轻量级分割模型MobileSAM从输入图像提取实例掩码;2) 引入3D语义组注意力模块,利用线性注意力在3D空间聚合面向对象的特征;3) 设计全局相似性引导注意力模块处理分割错误和缺失实例;4) 提出实例感知局部扩散模块,通过生成过程改进实例特征并在BEV空间细化场景表示。
- Result: 在SemanticKITTI和SSCBench-KITTI360基准测试中分别达到17.40和20.28的mIoU分数,实现了最先进的性能。
- Conclusion: Ocean框架通过对象中心的分解方法有效解决了现有方法在复杂环境中的语义和几何模糊问题,证明了面向对象方法在3D语义场景补全任务中的有效性。
[202] Uni-Inter: Unifying 3D Human Motion Synthesis Across Diverse Interaction Contexts
Sheng Liu,Yuanzhi Liang,Jiepeng Wang,Sidan Du,Chi Zhang,Xuelong Li
Main category: cs.CV
TL;DR: Uni-Inter是一个统一的人类运动生成框架,支持人-人、人-物、人-场景等多种交互场景,通过统一的交互体积表示实现异构实体的空间编码和关系推理。
- Motivation: 现有方法依赖任务特定设计,泛化能力有限,需要开发一个能够统一建模多种交互场景的通用框架。
- Method: 引入统一交互体积(UIV)作为体积表示,将异构交互实体编码到共享空间场中,通过关节级概率预测生成运动,捕捉细粒度空间依赖关系。
- Result: 在三个代表性交互任务上的实验表明,Uni-Inter实现了竞争性性能,并能很好地泛化到新的实体组合。
- Conclusion: 统一建模复合交互为复杂环境中的可扩展运动合成提供了有前景的方向。
[203] uCLIP: Parameter-Efficient Multilingual Extension of Vision-Language Models with Unpaired Data
Dahyun Chung,Donghyun Shin,Yujin Sung,Seunggi Moon,Jinwoo Jeon,Byung-Jun Lee
Main category: cs.CV
TL;DR: 提出了一种轻量级、数据高效的多语言视觉-语言对齐框架,无需图像-文本对或文本-文本对,仅训练1.7M参数的投影模块,通过英语表示作为语义锚点实现稳健的多语言对齐。
- Motivation: 解决CLIP模型在低资源语言上的扩展限制,特别是在捷克语、芬兰语、克罗地亚语、匈牙利语和罗马尼亚语等代表性不足语言上的检索性能低下问题。
- Method: 冻结预训练的图像编码器和多语言文本编码器,仅训练紧凑的投影模块,使用对比损失以英语表示为语义锚点进行多语言对齐。
- Result: 在多个多语言检索基准测试中表现出色,在五个代表性不足语言上显著提升了现有模型的性能。
- Conclusion: 基于枢轴的参数高效对齐策略对于包容性多模态学习具有显著效果,为低资源语言提供了可行的解决方案。
[204] MGCA-Net: Multi-Grained Category-Aware Network for Open-Vocabulary Temporal Action Localization
Zhenying Fang,Richang Hong
Main category: cs.CV
TL;DR: 提出了多粒度类别感知网络(MGCA-Net)来解决开放词汇时序动作定位问题,通过多粒度分类器提升基类和新增类动作的识别精度。
- Motivation: 现有方法大多在单一粒度上识别动作类别,这会降低基类和新增类动作类别的识别准确性。
- Method: MGCA-Net包含定位器、动作存在预测器、传统分类器和粗到细分类器。定位器生成类别无关的动作提议,动作存在预测器估计提议属于动作实例的概率,传统分类器在片段粒度预测基类动作,粗到细分类器在视频粒度识别动作存在并在提议粒度分配粗类别。
- Result: 在THUMOS'14和ActivityNet-1.3基准测试中达到最先进性能,并在零样本时序动作定位设置下取得最佳结果。
- Conclusion: 通过多粒度类别感知机制,有效提升了动作定位性能,特别是对新增类动作的识别能力。
[205] DiffPixelFormer: Differential Pixel-Aware Transformer for RGB-D Indoor Scene Segmentation
Yan Gong,Jianli Lu,Yongsheng Gao,Jie Zhao,Xiaojuan Zhang,Susanto Rahardja
Main category: cs.CV
TL;DR: DiffPixelFormer是一个用于RGB-D室内场景语义分割的差分像素感知Transformer,通过Intra-Inter Modal Interaction Block(IIMIB)同时增强模态内表示和建模模态间交互,在SUN RGB-D和NYUDv2基准测试中优于现有方法。
- Motivation: 现有RGB-D融合方法依赖计算密集的跨注意力机制,对模态内和模态间特征关系建模不足,导致特征对齐不精确和判别性表示有限。
- Method: 提出DiffPixelFormer,核心是IIMIB模块:通过自注意力捕获模态内长程依赖,使用Differential-Shared Inter-Modal(DSIM)模块建模模态间交互以解耦模态特定和共享线索,实现像素级跨模态对齐,并采用动态融合策略平衡模态贡献。
- Result: 在SUN RGB-D和NYUDv2基准测试中,DiffPixelFormer-L分别达到54.28%和59.95%的mIoU,比DFormer-L分别提升1.78%和2.75%。
- Conclusion: DiffPixelFormer通过增强模态内表示和精细建模模态间交互,有效提升了RGB-D室内场景语义分割性能。
[206] ViSS-R1: Self-Supervised Reinforcement Video Reasoning
Bo Fang,Yuxin Song,Qiangqiang Wu,Haoyuan Sun,Wenhao Wu,Antoni B. Chan
Main category: cs.CV
TL;DR: 提出Pretext-GRPO自监督强化学习算法和ViSS-R1框架,通过视觉变换任务增强MLLMs的视频推理能力,避免文本中心化导致的视觉信息利用不足和幻觉问题。
- Motivation: 当前基于R1的多模态大语言模型在视频推理中过度依赖文本中心化策略,未能充分利用丰富的视觉信息,容易产生捷径学习和幻觉问题。
- Method: 1. 提出Pretext-GRPO自监督强化学习算法,通过视觉变换任务的正向奖励机制;2. 开发ViSS-R1框架,将自监督学习直接集成到MLLM的R1后训练中,同时处理变换相关问题和真实用户查询。
- Result: 在六个广泛使用的视频推理和理解基准测试上进行了全面评估,证明了Pretext-GRPO和ViSS-R1在复杂视频推理中的有效性和优越性。
- Conclusion: 该方法通过强制模型处理变换后的视觉输入并重构原始视频,显著提升了MLLMs在复杂视频推理任务中的表现,代码和模型将公开。
[207] Monocular 3D Lane Detection via Structure Uncertainty-Aware Network with Curve-Point Queries
Ruixin Liu,Zejian Yuan
Main category: cs.CV
TL;DR: MonoUnc是一个免BEV的单目3D车道线检测器,通过局部车道结构建模随机不确定性,在ONCE-3DLanes和OpenLane数据集上优于现有方法。
- Motivation: 现有方法依赖简化的几何假设(如独立点预测或全局平面建模),无法捕捉真实场景中的结构变化和随机不确定性。
- Method: 将3D车道线投影到前视空间并用参数曲线近似,基于曲线预测动态生成曲线点查询嵌入,将相邻点形成的线段建模为3D高斯分布,并设计3D高斯匹配损失函数。
- Result: 在ONCE-3DLanes和OpenLane数据集上,MonoUnc在更严格的评估标准下优于所有现有最先进方法。
- Conclusion: MonoUnc通过显式建模局部车道结构的不确定性,有效提升了单目3D车道线检测的性能。
[208] FGNet: Leveraging Feature-Guided Attention to Refine SAM2 for 3D EM Neuron Segmentation
Zhenghua Li,Hang Chen,Zihao Sun,Kai Li,Xiaolin Hu
Main category: cs.CV
TL;DR: 提出了一种将Segment Anything 2 (SAM2)从自然图像预训练迁移到电子显微镜图像神经结构分割的新框架,通过特征引导注意力模块和双亲和度解码器,在冻结SAM2权重时达到SOTA水平,微调后显著超越现有方法。
- Motivation: 电子显微镜图像中的神经结构分割面临形态复杂、信噪比低和标注稀缺等挑战,现有方法的准确性和泛化能力有限,需要利用视觉基础模型在大量自然图像上学到的先验知识来解决这些问题。
- Method: 使用SAM2提取通用特征,引入特征引导注意力模块利用SAM2的语义线索指导轻量级精细编码器关注困难区域,最后通过双亲和度解码器生成粗粒度和精细化亲和度图。
- Result: 实验结果表明,在冻结SAM2权重时性能与SOTA方法相当,在EM数据上微调后显著超越现有SOTA方法。
- Conclusion: 研究表明,结合针对性领域自适应指导,将自然图像预训练的表征迁移可以有效解决神经元分割中的特定挑战。
[209] RobustGait: Robustness Analysis for Appearance Based Gait Recognition
Reeshoon Sayera,Akash Kumar,Sirshapan Mitra,Prudvi Kamtam,Yogesh S Rawat
Main category: cs.CV
TL;DR: 提出了RobustGait框架,用于系统评估基于外观的步态识别系统在真实世界干扰和轮廓变化下的鲁棒性,涵盖四种扰动类型、不同轮廓提取方法和模型架构,发现RGB层面噪声能更好反映真实退化,步态精度对轮廓提取器偏差高度敏感。
- Motivation: 现有基于外观的步态识别方法在受控数据集上表现良好,但缺乏对其在真实世界干扰和轮廓变化下鲁棒性的系统评估。
- Method: 开发RobustGait框架,在四个维度进行评估:扰动类型(数字、环境、时间、遮挡)、轮廓提取方法、步态识别模型架构容量和部署场景,引入15种干扰类型和5个严重级别,在多个数据集上评估6个最先进的步态系统。
- Result: 发现RGB层面噪声能更好反映真实退化;步态精度对轮廓提取器偏差高度敏感;鲁棒性同时依赖于扰动类型和架构设计;噪声感知训练和知识蒸馏能提升性能。
- Conclusion: 该研究揭示了步态识别系统中被忽视的基准偏差来源,提出了鲁棒性增强策略,推动系统向可部署方向发展。
[210] Decoupling Scene Perception and Ego Status: A Multi-Context Fusion Approach for Enhanced Generalization in End-to-End Autonomous Driving
Jiacheng Tang,Mingyue Feng,Jiachao Liu,Yaonong Wang,Jian Pu
Main category: cs.CV
TL;DR: 提出AdaptiveAD架构,通过双分支结构解耦场景感知和自车状态,解决现有端到端自动驾驶系统过度依赖自车状态的问题,提升泛化能力和场景理解鲁棒性。
- Motivation: 现有模块化规划导向自动驾驶架构过度依赖自车状态,限制了泛化能力和鲁棒场景理解。根本原因是自车状态在上游BEV编码器中过早融合,导致下游规划模块过度依赖这一强先验信息。
- Method: 采用多上下文融合策略的双分支架构:一个分支基于多任务学习进行场景驱动推理(BEV编码器中故意省略自车状态),另一个分支仅基于规划任务进行自车驱动推理。通过场景感知融合模块自适应整合两个分支的互补决策。引入路径注意力机制用于自车-BEV交互,并添加BEV单向蒸馏和自回归在线映射两个辅助任务。
- Result: 在nuScenes数据集上的广泛评估表明,AdaptiveAD实现了最先进的开环规划性能,显著减轻了对自车状态的过度依赖,并在多样化场景中展现出令人印象深刻的泛化能力。
- Conclusion: AdaptiveAD通过架构层面的解耦设计有效解决了端到端自动驾驶系统中自车状态过度依赖的问题,为提升系统泛化能力和鲁棒性提供了有效解决方案。
[211] Rethinking Saliency Maps: A Cognitive Human Aligned Taxonomy and Evaluation Framework for Explanations
Yehonatan Elisha,Seffi Cohen,Oren Barkan,Noam Koenigstein
Main category: cs.CV
TL;DR: 提出了RFxG分类法,将显著性解释按参考框架(点式vs对比式)和粒度(细粒度vs粗粒度)两个维度组织,揭示了现有评估指标的局限性,并开发了四个新的忠实度指标来系统评估解释质量。
- Motivation: 显著性图在深度学习视觉解释中广泛使用,但对其预期目的和与不同用户查询的对齐缺乏共识,这种模糊性阻碍了解释方法的有效评估和实际效用。
- Method: 引入RFxG分类法框架,提出四个新的忠实度指标,对十种最先进的显著性方法、四种模型架构和三个数据集进行全面评估。
- Result: 发现现有评估指标过度优先考虑点式忠实度,而忽视了对比推理和语义粒度,通过RFxG视角揭示了现有方法的局限性。
- Conclusion: 通过倡导向用户意图驱动的评估转变,为开发既忠实于底层模型行为又与人理解复杂性有意义的视觉解释提供了概念基础和实践工具。
[212] MergeSlide: Continual Model Merging and Task-to-Class Prompt-Aligned Inference for Lifelong Learning on Whole Slide Images
Doanh C. Bui,Ba Hung Ngo,Hoai Luan Pham,Khang Nguyen,Maï K. Nguyen,Yasuhiko Nakashima
Main category: cs.CV
TL;DR: MergeSlide是一个用于全切片图像终身学习的框架,将终身学习视为模型合并问题,利用视觉语言病理学基础模型,通过正交持续合并策略和任务到类别提示对齐推理来缓解灾难性遗忘。
- Motivation: 全切片图像的终身学习旨在按顺序训练或微调统一模型处理癌症相关任务,减少数据传输和处理所需资源,特别是考虑到WSI的千兆字节级大小。
- Method: 1) 使用类别感知提示定义新任务;2) 使用无MLP的主干网络进行少量轮次的微调;3) 采用正交持续合并策略将模型合并到统一模型中;4) 在类别增量学习设置下引入任务到类别提示对齐推理。
- Result: 在六个TCGA数据集的流式实验上,MergeSlide优于基于排练的持续学习和视觉语言零样本基线方法。
- Conclusion: MergeSlide通过模型合并方法有效解决了全切片图像终身学习问题,在保持性能的同时缓解了灾难性遗忘问题。
[213] CapeNext: Rethinking and refining dynamic support information for category-agnostic pose estimation
Yu Zhu,Dan Zeng,Shuiwang Li,Qijun Zhao,Qiaomu Shen,Bo Tang
Main category: cs.CV
TL;DR: 提出CapeNext框架,通过层次化跨模态交互和双流特征细化解决静态关节嵌入的歧义性和区分性不足问题,在MP-100数据集上显著优于现有CAPE方法。
- Motivation: 现有类别无关姿态估计方法使用固定文本关键点描述作为语义先验,但存在两个局限:(1)多义词导致的跨类别歧义问题,(2)对细粒度类内变化区分性不足。
- Method: 提出新框架,集成层次化跨模态交互与双流特征细化,从文本描述和具体图像中获取类别级和实例特定线索来增强关节嵌入。
- Result: 在MP-100数据集上的实验表明,无论使用何种网络骨干,CapeNext都大幅优于最先进的CAPE方法。
- Conclusion: 所提出的框架有效解决了静态关节嵌入的局限性,显著提升了类别无关姿态估计的性能。
[214] PlugTrack: Multi-Perceptive Motion Analysis for Adaptive Fusion in Multi-Object Tracking
Seungjae Kim,SeungJoon Lee,MyeongAh Cho
Main category: cs.CV
TL;DR: PlugTrack是一个新颖的多目标跟踪框架,通过自适应融合卡尔曼滤波器和数据驱动的运动预测器来解决线性与非线性运动模式的问题,在多个数据集上取得了显著性能提升。
- Motivation: 现实世界跟踪场景同时包含线性和非线性运动模式,但卡尔曼滤波器无法处理非线性运动,而数据驱动预测器存在领域泛化性差和计算开销大的问题。研究发现即使在非线性运动主导的数据集中,卡尔曼滤波器在34%的情况下仍优于数据驱动方法。
- Method: 提出PlugTrack框架,通过多感知运动理解自适应融合卡尔曼滤波器和数据驱动运动预测器。该方法使用多感知运动分析生成自适应混合因子,无需修改现有运动预测器。
- Result: 在MOT17/MOT20数据集上取得显著性能提升,在DanceTrack数据集上达到最先进水平。
- Conclusion: PlugTrack是首个通过自适应融合桥接经典与现代运动预测范式的多目标跟踪框架,有效利用了两种方法的互补性。
[215] Low-Level Dataset Distillation for Medical Image Enhancement
Fengzhi Xu,Ziyuan Yang,Mengyu Sun,Joey Tianyi Zhou,Yi Zhang
Main category: cs.CV
TL;DR: 提出了首个用于医学图像增强的低级数据集蒸馏方法,通过共享解剖先验和结构保持个性化生成模块,在保护隐私的同时实现高效训练。
- Motivation: 现有医学图像增强方法需要大规模数据集学习复杂像素级映射,但训练和存储成本高昂。现有数据集蒸馏方法主要针对高级任务,不适用于需要像素级保真度的低级任务。
- Method: 利用患者间的解剖相似性构建共享解剖先验,通过结构保持个性化生成模块将患者特定解剖信息整合到蒸馏数据中,同时保持像素级保真度。通过梯度对齐将患者特定知识注入蒸馏数据。
- Result: 提出的方法能够生成包含抽象训练信息的蒸馏数据集,无需访问原始患者数据,保护隐私的同时实现高效训练。
- Conclusion: 该方法成功解决了低级医学图像增强任务中的数据蒸馏问题,在保护患者隐私的前提下实现了高效模型训练。
[216] DGS-Net: Distillation-Guided Gradient Surgery for CLIP Fine-Tuning in AI-Generated Image Detection
Jiazhen Yan,Ziqiang Li,Fan Wang,Boyu Wang,Zhangjie Fu
Main category: cs.CV
TL;DR: 提出DGS-Net框架,通过梯度空间分解解决CLIP模型在AI生成图像检测任务中的灾难性遗忘问题,在50个生成模型上取得最优性能
- Motivation: 生成模型快速发展导致AI生成图像泛滥,引发错误信息传播等担忧。CLIP等预训练模型虽能检测合成内容,但微调时会出现灾难性遗忘,损害预训练先验并限制跨域泛化
- Method: 提出蒸馏引导的梯度手术网络(DGS-Net),通过梯度空间分解在优化过程中分离有害和有益下降方向,将任务梯度投影到有害方向的正交补空间,并与冻结CLIP编码器蒸馏的有益方向对齐
- Result: 在50个生成模型上的实验表明,DGS-Net平均优于最先进方法6.6个百分点,实现了优异的检测性能和跨不同生成技术的泛化能力
- Conclusion: DGS-Net通过统一优化先验保持和无关抑制,有效解决了CLIP模型在AI生成图像检测中的灾难性遗忘问题
[217] Learning Implicit Neural Degradation Representation for Unpaired Image Dehazing
Shuaibin Fan,Senming Zhong,Wenchao Yan,Minglong Xue
Main category: cs.CV
TL;DR: 提出了一种基于隐式神经退化表示的无监督去雾方法,通过结合通道独立和通道依赖机制来增强非线性依赖学习能力,并设计密集残差增强模块来消除冗余信息。
- Motivation: 现有方法在处理复杂场景时难以在细粒度特征表示和全局一致性建模之间取得平衡,且需要更好地学习雾霾在空间变化中的共同退化表示。
- Method: 1. 基于Kolmogorov-Arnold表示定理,结合通道独立和通道依赖机制;2. 设计隐式神经表示将雾霾退化建模为连续函数;3. 设计密集残差增强模块学习雾霾特征的隐式表示。
- Result: 在多个公共和真实世界数据集上实现了具有竞争力的去雾性能,在复杂场景中获得了良好的视觉感知效果。
- Conclusion: 该方法通过隐式神经退化表示实现了高质量图像恢复,无需显式特征提取和物理模型依赖,代码将在GitHub上开源。
[218] Semantics and Content Matter: Towards Multi-Prior Hierarchical Mamba for Image Deraining
Zhaocheng Yu,Kui Jiang,Junjun Jiang,Xianming Liu,Guanglu Sun,Yi Xiao
Main category: cs.CV
TL;DR: 提出MPHM网络用于图像去雨,通过整合文本和视觉先验,结合分层Mamba模块,在多个数据集上实现SOTA性能
- Motivation: 现有去雨方法在处理语义和空间细节保真度方面存在不足,需要更好地保留图像的结构和语义信息
- Method: 多先验分层Mamba网络,整合CLIP文本先验和DINOv2视觉先验,采用渐进式先验融合注入策略,配备傅里叶增强的双路径分层Mamba模块
- Result: 在Rain200H数据集上获得0.57 dB PSNR增益,在真实世界雨景中表现出优越的泛化能力
- Conclusion: MPHM网络通过有效整合异构先验和分层Mamba架构,显著提升了图像去雨的性能和细节保真度
[219] A Lightweight 3D Anomaly Detection Method with Rotationally Invariant Features
Hanzhe Liang,Jie Zhou,Can Gao,Bingyang Guo,Jinbao Wang,Linlin Shen
Main category: cs.CV
TL;DR: 提出了一种旋转不变特征框架用于3D异常检测,通过坐标映射和轻量级网络解决点云旋转和位置变化带来的特征不一致问题。
- Motivation: 现有3D异常检测方法在处理旋转和位置变化的点云时,由于特征变化显著而面临挑战,需要开发旋转不变的特征表示。
- Method: 使用点坐标映射技术将点映射到旋转不变空间,设计轻量级卷积变换特征网络提取特征,并采用迁移学习预训练特征提取器。
- Result: 在Anomaly-ShapeNet数据集上P-AUROC平均提升17.7%,在Real3D-AD数据集上提升1.6%,展现出强泛化能力。
- Conclusion: 该方法通过旋转不变特征有效解决了点云方向变化问题,在多个数据集上表现优异,具有工业应用潜力。
[220] CloseUpShot: Close-up Novel View Synthesis from Sparse-views via Point-conditioned Diffusion Model
Yuqi Zhang,Guanying Chen,Jiaxing Chen,Chuanyu Fu,Chuan Huang,Shuguang Cui
Main category: cs.CV
TL;DR: CloseUpShot:基于扩散的框架,通过点条件视频扩散从稀疏输入合成特写新视角,解决了特写场景下像素扭曲条件稀疏和背景泄漏的问题。
- Motivation: 从稀疏输入视图重建3D场景和合成新视角具有挑战性。现有方法主要针对适度视角变化设计,在特写场景中由于输入信息严重受限而难以捕捉细粒度细节。
- Method: 提出分层扭曲和遮挡感知噪声抑制,提升条件图像质量;引入全局结构引导,利用密集融合点云为扩散过程提供一致几何上下文。
- Result: 在多个数据集上的广泛实验表明,该方法优于现有方法,特别是在特写新视角合成方面。
- Conclusion: 该方法有效解决了特写场景下稀疏输入的视角合成问题,验证了所提设计的有效性。
[221] Region-Point Joint Representation for Effective Trajectory Similarity Learning
Hao Long,Silin Zhou,Lisi Chen,Shuo Shang
Main category: cs.CV
TL;DR: RePo是一种联合编码区域级和点级特征的轨迹相似度计算方法,通过捕捉空间上下文和细粒度移动模式,在轨迹相似度计算上比现有方法平均准确率提升22.2%。
- Motivation: 现有学习方法虽然降低了轨迹相似度计算的计算复杂度,但未能充分利用轨迹信息的全面谱系进行相似度建模。
- Method: 提出RePo方法:1)区域级表示:将GPS轨迹映射为网格序列,通过结构特征和视觉特征增强的语义上下文捕捉空间上下文;2)点级表示:使用三个轻量级专家网络从密集GPS序列中提取局部、相关性和连续移动模式;3)通过路由器网络自适应融合点级特征,再与区域级特征通过交叉注意力结合生成最终轨迹嵌入;4)使用带有困难负样本的对比损失进行训练。
- Result: 实验结果显示,RePo在所有评估指标上比现有最优基线方法平均准确率提升22.2%。
- Conclusion: RePo通过联合编码区域级和点级特征,有效捕捉了轨迹的空间上下文和细粒度移动模式,显著提升了轨迹相似度计算的性能。
[222] VEIL: Jailbreaking Text-to-Video Models via Visual Exploitation from Implicit Language
Zonghao Ying,Moyang Chen,Nizhang Li,Zhiqiang Wang,Wenxin Zhang,Quanchen Zou,Zonglei Jing,Aishan Liu,Xianglong Liu
Main category: cs.CV
TL;DR: VEIL是一种针对文本到视频模型的越狱攻击框架,通过包含中性场景锚点、潜在听觉触发器和风格调制器的模块化提示设计,利用跨模态关联模式生成语义不安全但表面良性的视频。
- Motivation: 现有文本到视频模型的安全防护存在盲点,传统对抗性扰动攻击容易被检测和防御,而表面良性的提示可能诱导模型生成违反安全政策的视频。
- Method: 提出VEIL框架,采用模块化提示设计:中性场景锚点提供表面场景描述,潜在听觉触发器利用音频-视觉共现先验,风格调制器通过电影指令增强效果。通过约束优化和引导搜索平衡隐蔽性和有效性。
- Result: 在7个文本到视频模型上的实验显示,该方法在商业模型中的平均攻击成功率提高了23%。
- Conclusion: 文本到视频模型存在通过跨模态关联被诱导生成不安全内容的风险,需要更强大的安全防护机制。
[223] Shedding Light on VLN Robustness: A Black-box Framework for Indoor Lighting-based Adversarial Attack
Chenyang Li,Wenbing Tang,Yihao Huang,Sinong Simon Zhan,Ming Hu,Xiaojun Jia,Yang Liu
Main category: cs.CV
TL;DR: 提出了基于室内光照的对抗攻击框架ILA,通过操纵全局光照来干扰视觉语言导航(VLN)代理,包含静态和动态两种攻击模式,显著提高了VLN代理的失败率。
- Motivation: 现有对抗评估通常依赖不常见的纹理扰动,缺乏实际意义。室内光照是真实环境中常见且影响导航的关键因素,但被现有研究忽视。
- Method: 提出ILA黑盒攻击框架,包含两种攻击模式:SILA(静态光照攻击,光照强度恒定)和DILA(动态光照攻击,在关键时刻开关灯造成光照突变)。
- Result: 在两个最先进的VLN模型和三个导航任务上的评估显示,ILA显著提高了失败率并降低了轨迹效率,揭示了VLN代理对真实室内光照变化的脆弱性。
- Conclusion: VLN代理对真实室内光照变化存在严重脆弱性,这在之前未被认识到,强调了在实际部署中考虑光照鲁棒性的重要性。
[224] MedGEN-Bench: Contextually entangled benchmark for open-ended multimodal medical generation
Junjie Yang,Yuhao Yan,Gang Wu,Yuxuan Wang,Ruoyu Liang,Xinjie Jiang,Xiang Wan,Fenglei Fan,Yongquan Zhang,Feiwei Qin,Changmiao Wan
Main category: cs.CV
TL;DR: 提出了MedGEN-Bench医学多模态基准,包含6422个专家验证的图像-文本对,涵盖6种成像模态、16个临床任务和28个子任务,旨在解决现有医学视觉基准的局限性。
- Motivation: 随着视觉语言模型在医疗应用中的普及,临床医生期望AI系统不仅能生成文本诊断,还能生成与真实临床工作流程无缝集成的医学图像。现有医学视觉基准存在查询模糊、诊断推理简化、忽视图像生成能力等问题。
- Method: 构建了包含三种格式(视觉问答、图像编辑、上下文多模态生成)的基准,采用三层评估框架:像素级指标、语义文本分析和专家指导的临床相关性评分,评估了10个组合框架、3个统一模型和5个VLM。
- Result: 系统评估了多种模型在医学多模态任务上的表现,为医学AI研究提供了全面的基准测试工具。
- Conclusion: MedGEN-Bench通过上下文交织的指令和开放式生成输出,推动了医学AI研究的进展,超越了传统多项选择题的限制。
[225] WinMamba: Multi-Scale Shifted Windows in State Space Model for 3D Object Detection
Longhui Zheng,Qiming Xia,Xiaolu Chen,Zhaoliang Liu,Chenglu Wen
Main category: cs.CV
TL;DR: WinMamba是一种基于Mamba的3D特征编码骨干网络,通过窗口尺度自适应模块和窗口移位策略,在保持计算效率的同时有效捕获长距离空间依赖关系,在KITTI和Waymo数据集上显著优于基线方法。
- Motivation: 现有3D目标检测方法难以同时最大化计算效率和捕获长距离空间依赖关系。Mamba模型通过线性状态空间设计以较低成本捕获长距离依赖,但现有方法采用固定窗口内的轴对齐扫描,不可避免地丢弃了空间信息。
- Method: 提出WinMamba块组成的骨干网络,包含窗口尺度自适应模块在不同分辨率采样时补偿体素特征,以及带有可学习位置编码和窗口移位策略的WinMamba层来在线性状态空间中获取丰富上下文线索。
- Result: 在KITTI和Waymo数据集上的广泛实验表明,WinMamba显著优于基线方法。消融研究进一步验证了WSF和AWF模块在提高检测精度方面的各自贡献。
- Conclusion: WinMamba通过创新的窗口尺度自适应和窗口移位策略,成功解决了3D目标检测中效率与长距离依赖捕获的平衡问题,为自动驾驶场景提供了有效的解决方案。
[226] Automated Road Distress Detection Using Vision Transformersand Generative Adversarial Networks
Cesar Portocarrero Rodriguez,Laura Vandeweyen,Yosuke Yamamoto
Main category: cs.CV
TL;DR: 该研究探索使用计算机视觉技术进行道路损坏分割,评估GAN生成合成数据的有效性,并比较CNN和MaskFormer模型在道路损坏检测中的性能。
- Motivation: 美国基础设施状况不佳,道路系统评级为D。传统道路检测方法效率低下且成本高昂,而自动驾驶车辆提供的实时视觉数据为应用计算机视觉技术进行道路监控提供了机会。
- Method: 首先评估GAN生成的合成数据对模型训练的有效性,然后应用CNN进行道路损坏分割,最后研究基于transformer的MaskFormer模型。
- Result: GAN生成的数据能提升模型性能,MaskFormer在mAP50和IoU两个指标上优于CNN模型。
- Conclusion: 计算机视觉方法特别是MaskFormer模型在道路损坏分割方面具有良好应用前景,合成数据能有效提升模型训练效果。
[227] Skeletons Speak Louder than Text: A Motion-Aware Pretraining Paradigm for Video-Based Person Re-Identification
Rifen Lin,Alex Jinpeng Wang,Jiawei Mo,Min Li
Main category: cs.CV
TL;DR: CSIP-ReID是首个基于骨架的预训练框架,通过对比学习对齐骨架和视觉特征,结合动态原型融合和骨架引导的时间建模,在视频行人重识别任务中取得SOTA性能。
- Motivation: 现有基于文本的多模态预训练方法存在两个根本限制:缺乏真正的多模态预训练,以及文本无法捕捉细粒度时间运动信息。骨架序列提供了与视频帧对齐的时空信息模态。
- Method: 两阶段方法:第一阶段使用对比学习在序列级别对齐骨架和视觉特征;第二阶段引入动态原型融合更新器(PFU)来优化多模态身份原型,融合运动和外观线索;并提出骨架引导时间建模(SGTM)模块从骨架数据中提取时间线索并整合到视觉特征中。
- Result: 在标准视频ReID基准(MARS、LS-VID、iLIDS-VID)上达到新的SOTA结果,在骨架only ReID任务(BIWI、IAS)上也表现出强大的泛化能力,显著优于先前方法。
- Conclusion: CSIP-ReID开创了无标注和运动感知的ReID预训练范式,为多模态表示学习开辟了新前沿。
[228] SOMA: Feature Gradient Enhanced Affine-Flow Matching for SAR-Optical Registration
Haodong Wang,Tao Zhuo,Xiuwei Zhang,Hanlin Yin,Wencong Wu,Yanning Zhang
Main category: cs.CV
TL;DR: SOMA是一个SAR-光学图像密集配准框架,通过整合结构梯度先验到深度特征中,并使用混合匹配策略来提升配准精度。
- Motivation: SAR和光学图像由于成像机制和视觉特性不同,像素级配准仍然具有挑战性。虽然深度学习在许多跨模态任务中取得成功,但在SAR-光学配准任务中表现仍不理想,梯度信息在深度学习中未被有效利用。
- Method: 提出SOMA框架:1) 特征梯度增强器(FGE),通过注意力和重建机制将多尺度、多方向梯度滤波器嵌入特征空间;2) 全局-局部仿射流匹配器(GLAM),在粗到细架构中结合仿射变换和基于流的细化。
- Result: 在SEN1-2数据集上CMR@1px提高了12.29%,在GFGE_SO数据集上提高了18.50%,表现出强大的鲁棒性,在不同场景和分辨率下泛化良好。
- Conclusion: SOMA通过有效利用梯度信息和混合匹配策略,显著提升了SAR-光学图像的配准精度和鲁棒性。
[229] THIR: Topological Histopathological Image Retrieval
Zahra Tabatabaei,Jon Sporring
Main category: cs.CV
TL;DR: THIR是一个基于拓扑数据分析的医学图像检索框架,使用Betti数和持续同调来表征组织病理学图像的结构模式,无需监督训练即可实现高效检索。
- Motivation: 乳腺癌是全球女性主要死因之一,早期诊断和准确临床决策至关重要。传统深度学习方法需要大量标注数据和GPU资源,限制了临床应用。
- Method: 使用立方体持续性直接从RGB组织病理学图像提取拓扑指纹,将环的演化编码为紧凑可解释的特征向量,通过计算拓扑描述符间的距离进行相似性检索。
- Result: 在BreaKHis数据集上的实验表明,THIR优于现有监督和无监督方法,在标准CPU上20分钟内处理整个数据集,提供快速可扩展的无训练解决方案。
- Conclusion: THIR为临床图像检索提供了一种快速、可扩展且无需训练的高效解决方案,在乳腺癌诊断中具有重要应用价值。
[230] HDW-SR: High-Frequency Guided Diffusion Model based on Wavelet Decomposition for Image Super-Resolution
Chao Yang,Boqian Zhang,Jinghao Xu,Guang Jiang
Main category: cs.CV
TL;DR: 提出了基于小波分解的高频引导扩散网络HDW-SR,通过在残差图上进行扩散来专注高频信息恢复,使用小波下采样实现多尺度频率分解,并通过稀疏交叉注意力实现显式高频引导。
- Motivation: 现有基于扩散模型的单图像超分辨率方法在高频域指导不足,导致恢复的细节模糊,需要改进高频信息恢复能力。
- Method: 1) 仅在残差图上进行扩散;2) 使用小波下采样替代传统CNN下采样;3) 引入稀疏交叉注意力机制;4) 设计动态阈值块优化高频选择;5) 利用小波变换的可逆性进行低损失特征重建。
- Result: 在合成和真实数据集上的实验表明,HDW-SR在超分辨率性能上具有竞争力,特别是在恢复细粒度图像细节方面表现出色。
- Conclusion: HDW-SR通过高频引导机制有效提升了扩散模型在图像超分辨率中的细节恢复能力,特别是在高频信息恢复方面取得了显著改进。
[231] GenTract: Generative Global Tractography
Alec Sargood,Lemuel Puglisi,Elinor Thompson,Mirco Musolesi,Daniel C. Alexander
Main category: cs.CV
TL;DR: GenTract是首个用于全局纤维束追踪的生成模型,将纤维束追踪构建为生成任务,直接从dMRI数据生成完整、解剖学上合理的流线。相比现有方法,在精度上显著提升,特别是在低分辨率和噪声数据上表现优异。
- Motivation: 解决传统局部纤维束追踪方法容易累积误差和产生高假阳性率的问题,以及全局方法计算成本高的问题。
- Method: 将纤维束追踪构建为生成任务,学习从dMRI到完整流线的直接映射,比较了基于扩散和流匹配的两种范式。
- Result: GenTract的精度比次优方法TractOracle高2.1倍,在低分辨率和噪声设置下优势更明显,比最接近的竞争对手高一个数量级。
- Conclusion: GenTract在研究级数据和低分辨率数据上都能产生高精度的纤维束图谱,是全局纤维束追踪的有前景解决方案。
[232] Large Language Models Meet Extreme Multi-label Classification: Scaling and Multi-modal Framework
Diego Ortego,Marlon Rodríguez,Mario Almagro,Kunal Dahiya,David Jiménez,Juan C. SanMiguel
Main category: cs.CV
TL;DR: 本文提出ViXML框架,将视觉信息高效整合到极端多标签分类中,通过解码器模型和视觉基础模型提升性能,在保持计算效率的同时显著超越现有方法。
- Motivation: 现有XMC方法主要基于小型编码器模型,未能充分利用大型解码器模型和视觉信息的潜力,需要在效率和性能之间找到更好的平衡。
- Method: 提出ViXML框架,整合数十亿参数的解码器模型和视觉基础模型,通过每张图像池化单个嵌入来限制计算增长,同时解锁多模态能力。
- Result: 在四个公开数据集上验证,ViXML在最大数据集上P@1指标提升达+8.21%,小型编码器加视觉信息优于纯文本解码器。
- Conclusion: 视觉信息在XMC中具有巨大价值,ViXML框架成功平衡了性能与效率,为多模态极端多标签分类提供了有效解决方案。
[233] Video Spatial Reasoning with Object-Centric 3D Rollout
Haoran Tang,Meng Cao,Ruyang Liu,Xiaoxi Liang,Linglong Li,Ge Li,Xiaodan Liang
Main category: cs.CV
TL;DR: 提出Object-Centric 3D Rollout (OCR)方法,通过结构化扰动3D几何来增强多模态大语言模型的视频空间推理能力,在VSI-Bench上达到47.5%准确率。
- Motivation: 现有方法存在查询锁定推理问题,仅关注提示中明确提到的对象而忽略关键上下文线索,限制了视频空间推理能力的发展。
- Method: OCR方法在训练期间对选定对象的3D几何引入结构化扰动,通过降级对象特定视觉线索并将改变的几何投影到2D空间,迫使模型进行整体场景推理。
- Result: 3B参数模型在VSI-Bench上达到47.5%准确率,优于多个7B基线模型,消融实验证实OCR优于先前方法。
- Conclusion: OCR方法通过结构化几何扰动有效解决了查询锁定推理问题,显著提升了多模态大语言模型的视频空间推理能力。
[234] Birth of a Painting: Differentiable Brushstroke Reconstruction
Ying Jiang,Jiayin Lu,Yunuo Chen,Yumeng He,Kui Wu,Yin Yang,Chenfanfu Jiang
Main category: cs.CV
TL;DR: 提出了一个可微分笔触重建框架,统一了绘画、风格化纹理和涂抹操作,能够真实再现人类绘画-涂抹循环过程
- Motivation: 现有生成方法主要关注最终图像生成或基于补丁的过程模拟,缺乏明确的笔触结构,无法产生平滑逼真的阴影效果
- Method: 使用可微分笔触重建框架,通过并行可微分绘画渲染器优化单色和双色贝塞尔笔触,结合风格生成模块合成几何条件纹理,并引入可微分涂抹算子实现自然色彩混合和阴影
- Result: 在油画、水彩、水墨和数字绘画上的广泛实验表明,该方法能产生逼真且富有表现力的笔触重建、平滑的色调过渡和丰富的风格化外观
- Conclusion: 该方法为表达性数字绘画创作提供了一个统一模型,能够真实再现绘画过程的各个方面
[235] Difficulty-Aware Label-Guided Denoising for Monocular 3D Object Detection
Soyul Lee,Seungmin Baek,Dongbo Min
Main category: cs.CV
TL;DR: MonoDLGD是一个基于难度感知标签引导去噪的单目3D目标检测框架,通过自适应扰动和重建真实标签来提供几何监督,在KITTI基准测试中达到最先进性能。
- Motivation: 单目3D目标检测由于深度线索模糊而存在根本性困难,现有DETR方法仍受限于不准确的深度估计,且忽略了不同实例的检测难度差异(如遮挡、距离、截断等),导致检测性能不佳。
- Method: 提出难度感知标签引导去噪框架:1)根据检测不确定性自适应扰动真实标签(对简单实例施加强扰动,对困难实例施加弱扰动);2)重建被扰动的标签以提供显式几何监督;3)联合优化标签重建和3D目标检测任务。
- Result: 在KITTI基准测试上的广泛实验表明,MonoDLGD在所有难度级别上都达到了最先进的性能。
- Conclusion: MonoDLGD通过难度感知的标签扰动和重建机制,促进了几何感知的表征学习,提高了对不同复杂度目标的鲁棒性,有效解决了单目3D检测中的深度模糊问题。
[236] Self-Supervised Ultrasound Screen Detection
Alberto Gomez,Jorge Oliveira,Ramon Casero,Agis Chartsias
Main category: cs.CV
TL;DR: 提出一种自监督管道,从超声监视器照片中提取图像,绕过DICOM瓶颈,实现快速算法测试和原型开发。
- Motivation: 超声设备内置显示器显示图像,但常规传输到医院系统依赖DICOM格式,存在传输瓶颈。
- Method: 使用自监督管道从超声监视器照片中提取和校正图像。
- Result: 在概念验证研究中,校正后的图像保持了足够的视觉保真度,与原始DICOM图像相比,心脏视图分类的平衡准确率达到0.79。
- Conclusion: 该方法能够有效绕过DICOM传输瓶颈,为快速测试和开发新算法提供了可行方案。
[237] RefineVAD: Semantic-Guided Feature Recalibration for Weakly Supervised Video Anomaly Detection
Junhee Lee,ChaeBeen Bang,MyoungChul Kim,MyeongAh Cho
Main category: cs.CV
TL;DR: RefineVAD是一个弱监督视频异常检测框架,通过模仿人类感知异常的双重过程,联合建模时间运动模式和语义结构来检测多样化异常事件。
- Motivation: 现有方法将异常事件视为单一类别,忽略了真实异常在语义和时间特征上的多样性。受人类感知异常方式的启发,需要同时理解时间运动模式和不同异常类型的语义结构。
- Method: 框架包含两个核心模块:MoTAR模块通过运动感知时间注意力估计运动显著性并动态调整时间焦点;CORE模块通过跨注意力将片段级特征与可学习类别原型对齐,注入软异常类别先验。
- Result: 在WVAD基准测试上的广泛实验验证了RefineVAD的有效性,并强调了整合语义上下文来引导特征细化朝向异常相关模式的重要性。
- Conclusion: 通过联合利用时间动态和语义结构,RefineVAD能够显式建模运动如何演化以及它类似于什么语义类别,从而更有效地检测多样化异常事件。
[238] End-to-End Multi-Person Pose Estimation with Pose-Aware Video Transformer
Yonghui Yu,Jiahang Cai,Xun Wang,Wenwu Yang
Main category: cs.CV
TL;DR: PAVE-Net是首个用于多人视频2D姿态估计的端到端框架,消除了传统两阶段方法中的启发式操作,通过姿态感知注意力机制实现跨帧关联,在准确性和效率上均有显著提升。
- Motivation: 现有的多人视频姿态估计方法采用两阶段流程(检测+时序建模),依赖检测、RoI裁剪和NMS等启发式操作,限制了准确性和效率。本文旨在开发完全端到端的框架来消除这些限制。
- Method: 提出PAVE-Net框架,包含空间编码器建模帧内关系,以及时空姿态解码器捕获跨帧全局依赖。核心创新是姿态感知注意力机制,使每个姿态查询能够选择性地聚合跨连续帧中对应同一人的特征。
- Result: 在PoseTrack2017上比基于图像的端到端方法提升6.0 mAP,与最先进的基于视频的两阶段方法精度相当,同时在效率上有显著提升。
- Conclusion: PAVE-Net证明了端到端方法在多人视频姿态估计中的有效性,通过消除启发式操作实现了更好的准确性和效率平衡。
[239] 3DAlign-DAER: Dynamic Attention Policy and Efficient Retrieval Strategy for Fine-grained 3D-Text Alignment at Scale
Yijia Fan,Jusheng Zhang,Kaitong Cai,Jing Yang,Jian Wang,Keze Wang
Main category: cs.CV
TL;DR: 3DAlign-DAER是一个统一框架,通过动态注意力策略和高效检索策略实现文本与3D几何的细粒度对齐,在大规模3D数据库中表现出色。
- Motivation: 现有方法难以将细粒度文本语义与详细几何结构对齐,且在大规模3D数据库上性能显著下降。
- Method: 提出动态注意力策略(DAP),使用分层注意力融合模块表示可学习的细粒度token到点注意力,并利用蒙特卡洛树搜索动态校准注意力权重;在推理时采用高效检索策略(ERS)进行分层搜索。
- Result: 在多个基准测试中表现出优越性能,构建了包含200万文本-3D对的大规模数据集Align3D-2M。
- Conclusion: 3DAlign-DAER在文本-3D跨模态对齐任务中实现了显著改进,特别是在细粒度语义对齐和大规模检索方面。
[240] Hybrid-Domain Adaptative Representation Learning for Gaze Estimation
Qida Tan,Hongyu Yang,Wenchao Du
Main category: cs.CV
TL;DR: 提出HARL框架,通过混合域自适应表示学习从多源数据中学习鲁棒的视线表示,在跨数据集评估中达到SOTA性能。
- Motivation: 解决基于外观的视线估计方法在跨域评估中因表情、佩戴物和图像质量等无关因素干扰而性能显著下降的问题。
- Method: 1) 通过无监督域自适应对齐高质量近眼图像特征来解耦视线相关表示;2) 设计稀疏图融合模块探索视线方向与头部姿态的几何约束。
- Result: 在EyeDiap、MPIIFaceGaze和Gaze360数据集上分别达到5.02°、3.36°和9.26°的SOTA精度,并在跨数据集评估中表现优异。
- Conclusion: HARL框架能有效学习鲁棒的视线表示,显著提升跨域性能,且几乎不增加计算或推理成本。
[241] MRIQT: Physics-Aware Diffusion Model for Image Quality Transfer in Neonatal Ultra-Low-Field MRI
Malek Al Abed,Sebiha Demir,Anne Groteklaes,Elodie Germani,Shahrooz Faghihroohi,Hemmen Sabir,Shadi Albarqouni
Main category: cs.CV
TL;DR: MRIQT是一个3D条件扩散框架,用于将便携式超低场MRI图像质量提升到高场MRI水平,通过物理一致的K空间降级模拟、稳定生成和感知损失实现解剖保真度。
- Motivation: 便携式超低场MRI在新生儿护理中具有可及性优势,但信噪比低、诊断质量差,需要提升图像质量以达到高场MRI的诊断标准。
- Method: 结合K空间降级模拟实现物理一致的超低场模拟,使用v预测和分类器自由引导进行稳定生成,采用SNR加权的3D感知损失保持解剖结构,利用体积注意力-UNet架构进行结构保持转换。
- Result: 在新生儿队列上训练,MRIQT在PSNR上比现有GAN和CNN方法提升15.3%,85%的输出被医生评为良好质量且病理清晰可见。
- Conclusion: MRIQT能够实现高保真度的扩散基增强,为便携式超低场MRI提供可靠的新生儿脑部评估能力。
[242] MMD-Thinker: Adaptive Multi-Dimensional Thinking for Multimodal Misinformation Detection
Junjie Wu,Guohong Fu
Main category: cs.CV
TL;DR: 提出了MMD-Thinker框架,通过自适应多维思维进行多模态虚假信息检测,解决了通用MLLMs在推理不足和推理偏见方面的局限性。
- Motivation: 多模态虚假信息在社交媒体上泛滥,且随着AIGC时代不断演变。现有基于通用MLLMs的检测方法存在推理不足和推理偏见两个关键限制。
- Method: 两阶段框架:1)为多模态虚假信息检测设计定制化思维模式;2)通过任务特定指令调优将定制思维注入通用MLLMs;3)使用混合优势函数的强化学习策略激励推理能力。构建了包含8K+图像-文本对的MMR数据集。
- Result: 在域内和域外基准数据集上实现了最先进的性能,同时保持灵活的推理和token使用效率。
- Conclusion: MMD-Thinker通过自适应多维思维有效提升了多模态虚假信息检测能力,为应对快速演变的虚假信息提供了有效解决方案。
[243] Referring Camouflaged Object Detection With Multi-Context Overlapped Windows Cross-Attention
Yu Wen,Shuyong Gao,Shuping Zhang,Miao Huang,Lili Tao,Han Yang,Haozhe Xing,Lihe Zhang,Boxue Hou
Main category: cs.CV
TL;DR: 本文提出RFMNet用于指代伪装目标检测,通过多阶段特征融合和重叠窗口交叉注意力机制,在Ref-COD基准测试中达到最先进性能。
- Motivation: 现有研究将参考图像转换为1D提示,作者希望利用丰富的显著图像特征和伪装目标特征的多上下文融合来提升性能。
- Method: 提出RFMNet,利用参考显著图像的多编码阶段特征与伪装特征进行交互融合,采用重叠窗口交叉注意力机制关注局部信息匹配,并使用指代特征聚合模块进行渐进式解码分割。
- Result: 在Ref-COD基准测试上的大量实验表明,该方法实现了最先进的性能。
- Conclusion: 通过多阶段特征融合和局部注意力机制,RFMNet在指代伪装目标检测任务中表现出色。
[244] GeoX-Bench: Benchmarking Cross-View Geo-Localization and Pose Estimation Capabilities of Large Multimodal Models
Yushuo Zheng,Jiangyong Ying,Huiyu Duan,Chunyi Li,Zicheng Zhang,Jing Liu,Xiaohong Liu,Guangtao Zhai
Main category: cs.CV
TL;DR: GeoX-Bench是一个用于评估大型多模态模型在跨视角地理定位和姿态估计任务中能力的基准测试,包含10,859个全景-卫星图像对和755,976个问答对。评估显示当前模型在地理定位任务中表现良好,但在更复杂的姿态估计任务中表现显著下降。
- Motivation: 大型多模态模型在多个任务中表现出色,但其在跨视角地理定位和姿态估计领域的能力尚未被探索,尽管这些能力在导航、自动驾驶、户外机器人等领域具有重要应用价值。
- Method: 构建了包含10,859个全景-卫星图像对和755,976个问答对的GeoX-Bench基准测试,涵盖128个城市的49个国家。使用该基准评估了25个最先进的大型多模态模型,并探索了指令调优对模型能力的增强效果。
- Result: 当前大型多模态模型在地理定位任务中取得了令人印象深刻的表现,但在更复杂的姿态估计任务中效果显著下降。在GeoX-Bench训练数据上进行指令调优可以显著提高模型的跨视角地理感知能力。
- Conclusion: GeoX-Bench揭示了大型多模态模型在跨视角地理定位和姿态估计方面的能力差距,特别是在姿态估计任务中的不足,这为未来的改进指明了方向。指令调优是提升模型地理感知能力的有效方法。
[245] Building Egocentric Procedural AI Assistant: Methods, Benchmarks, and Challenges
Junlong Li,Huaiyuan Xu,Sijie Cheng,Kejun Wu,Kim-Hui Yap,Lap-Pui Chau,Yi Wang
Main category: cs.CV
TL;DR: 本文提出了以自我为中心的程序AI助手(EgoProceAssist)概念,旨在通过第一人称视角逐步支持日常程序性任务,定义了三个核心任务:错误检测、程序学习和问答,并对现有技术进行了全面评估。
- Motivation: 受视觉语言模型和自我中心感知研究的推动,需要开发专门针对第一人称视角日常程序性任务的AI助手,以提供逐步支持。
- Method: 通过识别三个核心任务构建新的分类体系,全面回顾现有技术、相关数据集和评估指标,并对代表性VLM方法进行实验评估。
- Result: 明确了EgoProceAssist与现有VLM助手之间的差距,识别了当前挑战,并建立了持续更新的公开资源库。
- Conclusion: 该研究为构建自我中心程序AI助手奠定了基础,指出了未来研究方向,并提供了持续更新的资源平台。
[246] SymGS : Leveraging Local Symmetries for 3D Gaussian Splatting Compression
Keshav Gupta,Akshat Sanghvi,Shreyas Reddy Palley,Astitva Srivastava,Charu Sharma,Avinash Sharma
Main category: cs.CV
TL;DR: SymGS提出了一种基于对称感知的3D高斯泼溅压缩框架,通过引入可学习镜像来消除局部和全局的反射冗余,实现108倍的平均压缩率。
- Motivation: 3D高斯泼溅技术在渲染速度和真实感方面表现出色,但其内存占用随场景复杂度快速增长。现有压缩方法主要利用基元级冗余进行压缩,但仍有提升空间。
- Method: 提出SymGS框架,引入可学习镜像来检测和消除场景中的对称冗余,可作为即插即用模块增强现有压缩方法(如HAC)。
- Result: 相比HAC方法,在基准数据集上实现1.66倍压缩(大规模场景可达3倍),平均压缩率达到108倍,同时保持渲染质量。
- Conclusion: SymGS通过利用对称性有效解决了3D高斯泼溅的内存问题,为大规模场景应用提供了可行的压缩解决方案。
[247] Is your VLM Sky-Ready? A Comprehensive Spatial Intelligence Benchmark for UAV Navigation
Lingfeng Zhang,Yuchen Zhang,Hongsheng Li,Haoxiang Fu,Yingbo Tang,Hangjun Ye,Long Chen,Xiaojun Liang,Xiaoshuai Hao,Wenbo Ding
Main category: cs.CV
TL;DR: 提出了SpatialSky-Bench基准测试来评估VLMs在无人机导航中的空间智能能力,并开发了Sky-VLM模型在基准测试中达到最先进性能。
- Motivation: 现有视觉语言模型在无人机场景中的空间智能能力尚未充分探索,存在导航和解释动态环境的有效性担忧。
- Method: 构建了包含环境感知和场景理解两大类别、13个子类别的基准测试,并开发了包含100万样本的SpatialSky-Dataset数据集,基于此训练了专门用于无人机空间推理的Sky-VLM模型。
- Result: 主流VLMs在复杂无人机导航场景中表现不佳,而Sky-VLM在所有基准任务中达到了最先进的性能。
- Conclusion: Sky-VLM为开发适用于无人机场景的VLMs铺平了道路,填补了现有模型在空间智能能力方面的空白。
[248] Recognition of Abnormal Events in Surveillance Videos using Weakly Supervised Dual-Encoder Models
Noam Tsfaty,Avishai Weizman,Liav Cohen,Moshe Tshuva,Yehudit Aperstein
Main category: cs.CV
TL;DR: 提出基于双骨干网络和top-k池化的视频级监督异常检测方法,在UCF-Crime数据集上达到90.7% AUC
- Motivation: 解决在仅有视频级监督的情况下检测监控视频中罕见且多样的异常行为的挑战
- Method: 使用卷积和Transformer双骨干网络,通过top-k池化结合两种表示
- Result: 在UCF-Crime数据集上取得了90.7%的AUC性能
- Conclusion: 双骨干网络结合top-k池化的方法能有效检测监控视频中的异常行为
[249] SF-Recon: Simplification-Free Lightweight Building Reconstruction via 3D Gaussian Splatting
Zihan Li,Tengfei Wang,Wentian Gan,Hao Zhan,Xin Wang,Zongqian Zhan
Main category: cs.CV
TL;DR: SF-Recon是一种直接从多视角图像重建轻量级建筑表面的方法,无需后处理网格简化,通过3D高斯溅射、法向梯度引导优化和多视角一致性修剪实现高效重建。
- Motivation: 传统多视角几何流程依赖密集重建、网格化和后续简化,过程繁琐且质量敏感,需要一种直接重建轻量级建筑表面的方法。
- Method: 首先训练3D高斯溅射场获得视图一致表示,然后通过法向梯度引导的高斯优化选择与屋顶和墙壁边界对齐的基元,接着进行多视角边缘一致性修剪增强结构锐度,最后通过多视角深度约束的Delaunay三角剖分生成轻量网格。
- Result: 在提出的SF数据集上,SF-Recon能够直接从多视角图像重建轻量级建筑模型,显著减少面和顶点数量,同时保持计算效率。
- Conclusion: SF-Recon方法能够有效直接重建轻量级建筑表面模型,在减少网格复杂度的同时保持结构保真度。
[250] Towards Metric-Aware Multi-Person Mesh Recovery by Jointly Optimizing Human Crowd in Camera Space
Kaiwen Wang,Kaili Zheng,Yiming Shi,Chenyi Guo,Ji Wu
Main category: cs.CV
TL;DR: 提出DTO方法解决多人人体网格恢复中的场景一致性缺失问题,创建DTO-Humans数据集,并开发Metric-Aware HMR网络实现度量尺度的人体网格恢复。
- Motivation: 现有野外训练数据稀缺,且单人体中心化的伪真值生成方法缺乏场景一致性,导致同一图像中不同个体的深度和尺度冲突。
- Method: 提出深度条件平移优化(DTO)方法,在MAP框架下联合优化所有个体的相机空间平移;开发Metric-Aware HMR网络,通过相机分支和相对度量损失直接估计度量尺度的人体网格。
- Result: 构建了DTO-Humans数据集(56万张高质量场景一致图像),在相对深度推理和人体网格恢复方面达到最先进性能。
- Conclusion: DTO方法有效解决了多人场景一致性问题,Metric-Aware HMR网络实现了度量尺度的人体网格恢复,显著提升了多人人体网格恢复的性能。
[251] TabFlash: Efficient Table Understanding with Progressive Question Conditioning and Token Focusing
Jongha Kim,Minseong Bae,Sanghyeok Lee,Jinsung Yoon,Hyunwoo J. Kim
Main category: cs.CV
TL;DR: TabFlash是一个高效的表格理解多模态大语言模型,通过渐进式问题条件化、剪枝策略和令牌聚焦训练,在减少计算开销的同时实现了最先进的性能。
- Motivation: 表格图像存在冗余背景区域和需要问题特定关注的特点,现有MLLM方法忽视了这些特性,导致视觉表示信息不足且冗余。
- Method: 1. 渐进式问题条件化:将问题信息以递增频率注入ViT层;2. 剪枝策略:丢弃背景令牌提高效率;3. 令牌聚焦训练:鼓励模型在保留令牌中集中关键信息。
- Result: TabFlash在表格理解任务中实现了最先进性能,优于开源和专有MLLM,相比次优模型减少27% FLOPs和30%内存使用。
- Conclusion: TabFlash通过生成信息丰富且紧凑的视觉特征,有效解决了表格图像理解中的效率和效果问题,为表格理解任务提供了高效解决方案。
[252] SkyReels-Text: Fine-grained Font-Controllable Text Editing for Poster Design
Yunjie Yu,Jingchen Wu,Junchen Zhu,Chunze Lin,Guibin Chen
Main category: cs.CV
TL;DR: SkyReels-Text是一个无需字体标签或微调的字体可控框架,用于精确的海报文本编辑,支持同时编辑多个不同字体样式的文本区域,同时保持非编辑区域的视觉外观。
- Motivation: 解决现代图像编辑模型在细粒度、字体感知的文本操作方面的不足,满足专业设计工作流程(如海报编辑)中对快速精确修改文本内容的需求。
- Method: 提出一种字体可控框架,用户只需提供所需字体的裁剪字形补丁,即可实现多文本区域的同时编辑,无需字体标签或推理时的微调。
- Result: 在多个数据集(包括手写文本基准)上的广泛实验表明,SkyReels-Text在文本保真度和视觉真实感方面达到了最先进的性能。
- Conclusion: 这项工作弥合了通用图像编辑与专业级排版设计之间的差距,提供了对字体家族和风格细微差别的前所未有的控制。
[253] CorrectAD: A Self-Correcting Agentic System to Improve End-to-end Planning in Autonomous Driving
Enhui Ma,Lijun Zhou,Tao Tang,Jiahuan Zhang,Junpeng Jiang,Zhan Zhang,Dong Han,Kun Zhan,Xueyang Zhang,XianPeng Lang,Haiyang Sun,Xia Zhou,Di Lin,Kaicheng Yu
Main category: cs.CV
TL;DR: 提出CorrectAD系统,通过扩散模型和3D布局生成高保真视频数据,自动纠正端到端自动驾驶规划器的失败案例,显著降低碰撞率。
- Motivation: 解决端到端自动驾驶规划方法因长尾问题导致的鲁棒性不足,特别是罕见但安全关键的失败案例。
- Method: 使用PM-Agent制定数据需求,提出DriveSora生成与3D布局对齐的时空一致视频,构建模型无关的自纠正代理系统CorrectAD。
- Result: 在nuScenes和内部数据集上,CorrectAD分别纠正了62.5%和49.8%的失败案例,碰撞率分别降低39%和27%。
- Conclusion: CorrectAD提供了一种有效的端到端模型无关方法,能够显著提升自动驾驶规划器的安全性和鲁棒性。
[254] DriveLiDAR4D: Sequential and Controllable LiDAR Scene Generation for Autonomous Driving
Kaiwen Cai,Xinze Liu,Xia Zhou,Hengtong Hu,Jie Xiang,Luyao Zhang,Xueyang Zhang,Kun Zhan,Yifei Zhan,Xianpeng Lang
Main category: cs.CV
TL;DR: DriveLiDAR4D是一个新颖的LiDAR生成流水线,能够生成时序一致的LiDAR场景,具有高度可控的前景对象和逼真的背景,在nuScenes数据集上超越了现有最佳方法。
- Motivation: 现有的3D LiDAR点云生成方法存在缺乏序列生成能力、无法产生精确定位的前景对象和逼真背景等限制,阻碍了其实际应用。
- Method: 提出DriveLiDAR4D流水线,包含多模态条件和新颖的序列噪声预测模型LiDAR4DNet,以端到端方式实现具有完整场景操作能力的LiDAR场景序列生成。
- Result: 在nuScenes和KITTI数据集上评估,在nuScenes数据集上获得FRD分数743.13和FVD分数16.96,比当前最佳方法UniScene分别提升了37.2%和24.1%。
- Conclusion: 这是首个以端到端方式解决具有完整场景操作能力的LiDAR场景序列生成的工作,在性能指标上显著超越了现有方法。
[255] Computer Vision based group activity detection and action spotting
Narthana Sivalingam,Santhirarajah Sivasthigan,Thamayanthi Mahendranathan,G. M. R. I. Godaliyadda,M. P. B. Ekanayake,H. M. V. R. Herath
Main category: cs.CV
TL;DR: 提出一个结合深度学习和图关系推理的群体活动检测框架,通过Mask R-CNN进行精确定位,融合掩码信息优化特征表示,构建演员关系图建模交互,使用图卷积网络预测个体动作和群体活动。
- Motivation: 多人场景中的群体活动检测面临复杂人体交互、遮挡和时间外观变化的挑战,需要有效建模个体间关系和群体动态。
- Method: 使用Mask R-CNN进行演员定位,多种骨干网络提取特征,RoIAlign保持空间对齐,融合掩码信息优化特征表示,构建演员关系图编码外观相似性和位置关系,图卷积网络进行关系推理。
- Result: 在Collective Activity数据集上的实验表明,基于掩码的特征优化、鲁棒相似性搜索和图神经网络推理的组合在拥挤和非拥挤场景下都能提升识别性能。
- Conclusion: 该方法展示了整合分割、特征提取和关系图推理在复杂视频理解任务中的潜力。
[256] YOLO Meets Mixture-of-Experts: Adaptive Expert Routing for Robust Object Detection
Ori Meiraz,Sharon Shalev,Avishai Weizman
Main category: cs.CV
TL;DR: 提出了一种基于YOLOv9-T的混合专家框架,通过自适应路由实现动态特征专业化,在目标检测任务中获得了比单一YOLOv9-T模型更高的mAP和AR指标。
- Motivation: 为了提升目标检测性能,需要解决单一模型在处理多样化特征时的局限性,通过专家混合框架实现更精细的特征处理。
- Method: 构建基于YOLOv9-T的混合专家框架,采用自适应路由机制在多个专家模型间进行动态选择,实现特征的专业化处理。
- Result: 相比单一YOLOv9-T模型,该框架在目标检测任务中获得了更高的平均精度(mAP)和平均召回率(AR)。
- Conclusion: 混合专家框架通过自适应路由和特征专业化,能够有效提升目标检测模型的性能表现。
[257] Semi-Supervised Multi-Task Learning for Interpretable Quality As- sessment of Fundus Images
Lucas Gabriel Telesco,Danila Nejamkin,Estefanía Mata,Francisco Filizzola,Kevin Wignall,Lucía Franco Troilo,María de los Angeles Cenoz,Melissa Thompson,Mercedes Leguía,Ignacio Larrabide,José Ignacio Orlando
Main category: cs.CV
TL;DR: 提出了一种混合半监督学习方法,通过结合整体质量的人工标签和质量细节的伪标签,在多任务框架下改进视网膜图像质量评估,无需大量手动标注即可获得更可解释的模型。
- Motivation: 现有视网膜图像质量评估工具大多只分类整体图像质量,无法指示采集缺陷以指导重新采集,这主要是由于详细标注成本高昂。
- Method: 使用在小型数据集上训练的教师模型生成伪标签,然后在多任务设置中微调预训练模型,采用ResNet-18骨干网络。
- Result: 多任务模型在EyeQ数据集上F1得分为0.875(vs. 0.863),在DeepDRiD数据集上为0.778(vs. 0.763),匹配或超越现有方法。在新标注的EyeQ子集上表现与专家相当。
- Conclusion: 所提出的半监督方法不仅改善了整体质量评估,还提供了关于采集条件(光照、清晰度、对比度)的可解释反馈,增强了可解释性且无需额外手动标注成本。
[258] Generalized Denoising Diffusion Codebook Models (gDDCM): Tokenizing images using a pre-trained diffusion model
Fei Kong
Main category: cs.CV
TL;DR: 提出了广义去噪扩散压缩模型(gDDCM),将DDCM扩展到主流扩散模型及其变体,包括DDPM、基于分数的模型、一致性模型和整流流,在图像压缩任务中实现性能提升。
- Motivation: DDCM只能应用于DDPM方法,无法扩展到其他扩散模型,限制了其应用范围。
- Method: 将DDCM中的随机噪声替换为根据预定义规则从特定集合中采样的噪声,使该方法能够适用于DDPM、基于分数的模型、一致性模型和整流流等多种扩散模型。
- Result: 在CIFAR-10和LSUN Bedroom数据集上的实验结果表明,该方法成功将DDCM推广到上述模型,并实现了性能改进。
- Conclusion: gDDCM有效扩展了DDCM的应用范围,使其能够适用于多种主流扩散模型,在图像压缩任务中表现出更好的性能。
[259] Descriptor: Distance-Annotated Traffic Perception Question Answering (DTPQA)
Nikos Theodoridis,Tim Brophy,Reenu Mohandas,Ganesh Sistu,Fiachra Collins,Anthony Scanlan,Ciaran Eising
Main category: cs.CV
TL;DR: 提出了DTPQA基准测试,专门用于评估视觉语言模型在交通场景中的感知能力,特别是关注物体距离对性能的影响。
- Motivation: 自动驾驶领域需要可靠的视觉语言模型,但现有模型在复杂交通场景中的感知能力,特别是在远距离物体识别方面存在不足,需要专门的评估方法。
- Method: 创建了包含合成数据和真实数据的DTPQA基准测试,每个样本包含图像、问题、正确答案和物体距离信息,用于分析VLM性能随距离增加而下降的情况。
- Result: 开发了一个专门用于评估VLM在交通场景中感知能力的基准测试数据集,包含距离标注,可用于系统性地分析模型性能。
- Conclusion: DTPQA基准测试为评估视觉语言模型在自动驾驶领域的感知能力提供了专门工具,有助于推动更可靠的自动驾驶系统发展。
[260] TripleFDS: Triple Feature Disentanglement and Synthesis for Scene Text Editing
Yuchen Bao,Yiting Wang,Wenjian Huang,Haowei Wang,Shen Chen,Taiping Yao,Shouhong Ding,Jianguo Zhang
Main category: cs.CV
TL;DR: 提出TripleFDS框架和SCB Synthesis数据集,通过三重特征解耦实现场景文本编辑,在保持视觉一致性的同时支持文本内容、样式和背景的灵活编辑。
- Motivation: 解决现有场景文本编辑方法在可编辑属性解耦不完整的问题,通常只能编辑文本内容,限制了可控性和视觉一致性。
- Method: 使用SCB Group构造作为基本训练单元,通过组间对比正则化确保语义准确性,组内多特征正交性减少冗余;在合成阶段进行特征重映射防止重建时的"捷径"现象。
- Result: 在主流STE基准测试中达到最先进的图像保真度(SSIM 44.54)和文本准确率(ACC 93.58%),支持样式替换和背景转移等新操作。
- Conclusion: TripleFDS通过三重特征解耦实现了更灵活的场景文本编辑,在保持高质量的同时扩展了编辑能力。
[261] What Color Is It? A Text-Interference Multimodal Hallucination Benchmark
Jinkun Zhao,Lei Huang,Wenjun Wu
Main category: cs.CV
TL;DR: 论文提出了一个名为"What Color Is It"的数据集,用于测试多模态大模型在颜色感知方面的视觉幻觉问题,并探讨了解决方案。
- Motivation: 随着多模态大模型的快速发展,这些模型在视觉感知(特别是颜色感知)方面容易受到信息干扰,增加了幻觉风险。
- Method: 构建了"What Color Is It"数据集,采用简单方法触发多模态大模型的单模态视觉幻觉,并基于此数据集分析幻觉原因。
- Result: 验证了多模态大模型在颜色感知方面存在视觉幻觉问题,并识别了导致幻觉的潜在原因。
- Conclusion: 提出了增强多模态大模型鲁棒性的潜在解决方案,以应对视觉模态中的幻觉问题。
[262] Delineate Anything Flow: Fast, Country-Level Field Boundary Detection from Any Source
Mykola Lavreniuk,Nataliia Kussul,Andrii Shelestov,Yevhenii Salii,Volodymyr Kuzin,Sergii Skakun,Zoltan Szantoi
Main category: cs.CV
TL;DR: DelAnyFlow是一种分辨率无关的大规模农田边界制图方法,结合DelAny实例分割模型和结构化后处理流程,能够快速生成拓扑一致的矢量边界,在乌克兰603,000km²区域仅用6小时就完成了农田边界提取。
- Motivation: 现有农田边界提取方法存在边界不完整、相邻农田合并以及难以扩展的问题,需要开发可扩展的准确农田边界制图方法。
- Method: 基于YOLOv11骨干网络构建DelAny实例分割模型,在FBIS 22M数据集上训练,结合结构化后处理、合并和矢量化流程生成拓扑一致的矢量边界。
- Result: DelAny模型比SAM2准确率提高100%以上,推理速度快400倍;在乌克兰提取了375万(5米分辨率)和515万(2.5米分辨率)个农田,远超现有产品。
- Conclusion: DelAnyFlow为缺乏数字地籍数据的地区提供了可扩展、经济高效的农田边界制图方法,支持国家级应用。
[263] VOPE: Revisiting Hallucination of Vision-Language Models in Voluntary Imagination Task
Xingming Long,Jie Zhang,Shiguang Shan,Xilin Chen
Main category: cs.CV
TL;DR: 提出了VOPE方法,用于评估大型视觉语言模型在自愿想象任务中的幻觉问题,发现现有模型在想象任务中普遍存在严重幻觉,且现有缓解方法效果有限。
- Motivation: 现有研究主要关注禁止输出图像中不存在内容的描述任务中的幻觉问题,而忽视了自愿想象任务(如故事创作)中的幻觉评估,这些任务需要模型生成超越图像的新内容。
- Method: 提出VOPE方法,通过基于重新检查的问题来评估LVLM如何解释其响应中想象对象的存在性,利用模型解释与图像中对象存在性的一致性来判断是否产生幻觉。
- Result: 应用VOPE评估主流LVLM和幻觉缓解方法发现:(1)大多数LVLM在自愿想象中严重幻觉,对想象对象的存在性评估表现差;(2)现有幻觉缓解方法在自愿想象任务中效果有限。
- Conclusion: 自愿想象任务中的幻觉问题是一个重要的研究方向,现有方法对此类任务效果不佳,需要进一步研究专门的缓解策略。
[264] FUSE: A Flow-based Mapping Between Shapes
Lorenzo Olearo,Giulio Viganò,Daniele Baieri,Filippo Maggioli,Simone Melzi
Main category: cs.CV
TL;DR: 提出基于流匹配模型的3D形状映射神经表示方法,支持跨表示形式的形状匹配,无需大规模训练或数据驱动过程。
- Motivation: 现有3D形状映射方法通常需要大规模训练数据或特定表示形式,限制了跨不同表示(点云、网格、SDF等)的形状匹配能力。
- Method: 将3D形状表示为从固定锚分布通过连续可逆流映射诱导的概率分布,通过源形状到锚分布的逆流与锚分布到目标形状的正向流组合,实现形状间的连续映射。
- Result: 在多样化基准测试和挑战性设置中,该方法始终实现高覆盖率和准确率,并在UV映射和人体点云扫描配准等任务中展现良好效果。
- Conclusion: 该流匹配框架为3D形状映射提供了高效、可逆且模态无关的表示,在形状匹配及相关任务中表现出色。
[265] Unlocking the Forgery Detection Potential of Vanilla MLLMs: A Novel Training-Free Pipeline
Rui Zuo,Qinyue Tong,Zhe-Ming Lu,Ziqian Lu
Main category: cs.CV
TL;DR: Foresee是一个无需训练的MLLM图像伪造分析框架,通过类型先验驱动策略和灵活特征检测器,在多种伪造类型上实现高精度定位和丰富文本解释。
- Motivation: 现有图像伪造检测方法泛化能力有限且可解释性不足,而大规模训练的MLLM方法计算成本高,未能充分利用原始MLLM的内在泛化潜力。
- Method: 提出训练免费的Foresee框架,采用类型先验驱动策略和灵活特征检测器模块,特别针对复制-移动伪造进行处理,无需额外训练即可实现轻量级推理。
- Result: 在多种伪造类型上超越现有MLLM方法,同时实现更高的定位精度和更丰富的文本解释,展现出更强的泛化能力。
- Conclusion: Foresee有效释放了原始MLLM在取证领域的潜力,无需训练即可在多种伪造类型上实现优越性能,为图像伪造分析提供了高效解决方案。
[266] Semantic Document Derendering: SVG Reconstruction via Vision-Language Modeling
Adam Hazimeh,Ke Wang,Mark Collier,Gilles Baechler,Efi Kokiopoulou,Pascal Frossard
Main category: cs.CV
TL;DR: SliDer是一个使用视觉语言模型将幻灯片图像转换为可编辑SVG格式的框架,解决了现有几何光栅矢量化方法无法保留文档高层结构的问题。
- Motivation: 多媒体文档(如幻灯片和海报)通常以静态光栅格式分发,限制了编辑和定制。现有几何矢量化方法无法保留文档的高层语义结构,导致图像和文本元素的语义区分丢失。
- Method: SliDer使用视觉语言模型检测和提取光栅输入中的图像和文本元素属性,将其组织成连贯的SVG格式。模型在推理过程中迭代优化预测,生成更忠实重建原始光栅的SVG代码。
- Result: SliDer实现了0.069的重建LPIPS,在82.9%的情况下被人类评估者认为优于最强的零样本VLM基线。
- Conclusion: SliDer框架能够有效地将幻灯片图像转换为紧凑且可编辑的SVG表示,保留了文档的高层语义结构,为语义文档反渲染提供了新的解决方案。
[267] InterMoE: Individual-Specific 3D Human Interaction Generation via Dynamic Temporal-Selective MoE
Lipeng Wang,Hongxing Fan,Haohua Chen,Zehuan Huang,Lu Sheng
Main category: cs.CV
TL;DR: InterMoE是一个基于动态时间选择性专家混合框架,用于生成高质量3D人体交互动作,通过路由机制结合高级文本语义和低级运动上下文,在保持个体特征的同时确保语义保真度。
- Motivation: 现有方法在生成人体交互时难以保持个体独特特征并完全遵循文本描述,需要解决个体特征保持和语义保真度的问题。
- Method: 采用动态时间选择性专家混合框架,核心是路由机制,结合文本语义和运动上下文将时间运动特征分配给专门专家,专家动态确定选择能力并关注关键时间特征。
- Result: 在InterHuman数据集上FID分数降低9%,在InterX数据集上降低22%,实现了最先进的个体特异性高保真3D人体交互生成性能。
- Conclusion: InterMoE框架在保持个体特征身份和语义保真度方面表现出色,为高质量人体交互生成提供了有效解决方案。
[268] Language-Guided Invariance Probing of Vision-Language Models
Jae Joong Lee
Main category: cs.CV
TL;DR: LGIP基准测试评估视觉语言模型在图像文本匹配中对语义保持改写的不变性和对语义翻转的敏感性,发现EVA02-CLIP和大型OpenCLIP变体表现最佳,而SigLIP系列存在明显缺陷。
- Motivation: 现有视觉语言模型在零样本任务中表现良好,但其对受控语言扰动的响应可靠性尚不清楚,需要专门基准来评估模型的语义鲁棒性。
- Method: 使用4万张MS COCO图像及其人工标注,自动生成语义保持的改写和基于规则的语义翻转(改变对象类别、颜色或数量),通过不变性误差、语义敏感度差距和正率统计来总结模型行为。
- Result: EVA02-CLIP和大型OpenCLIP变体在不变性-敏感性边界上表现最佳,而SigLIP和SigLIP2显示出更大的不变性误差,且经常偏好翻转后的描述而非原始人工描述。
- Conclusion: LGIP提供了模型无关的诊断工具,能够揭示标准检索指标无法发现的视觉语言模型语言鲁棒性问题。
[269] Mapping the Vanishing and Transformation of Urban Villages in China
Wenyu Zhang,Yao Tong,Yiqiu Liu,Rui Cao
Main category: cs.CV
TL;DR: 本研究提出基于深度学习的框架监测中国城中村的时空变化,发现城中村改造过程漫长且呈现碎片化特征,揭示了三种时空转型路径,强调需要分层和因地制宜的规划策略。
- Motivation: 中国城中村经历了大规模拆迁改造,但缺乏对拆迁后土地利用有效性的系统评估,需要关注当前改造实践的成效和可持续性。
- Method: 使用多时相遥感影像的语义分割来绘制城中村边界变化,然后将拆迁后土地利用分为六类:未完成拆迁、闲置土地、建筑工地、建筑物、绿地和其他。
- Result: 1) 城中村改造过程普遍漫长;2) 改造主要发生在城市外围区域,城市核心区相对稳定;3) 揭示了三种时空转型路径:同步改造、延迟改造和逐步优化。
- Conclusion: 城中村改造具有碎片化、复杂和非线性特征,需要分层和因地制宜的规划策略,研究结果为支持更包容、高效和可持续的城市更新提供了实证依据。
[270] Minimax Multi-Target Conformal Prediction with Applications to Imaging Inverse Problems
Jeffrey Wen,Rizwan Ahmad,Philip Schniter
Main category: cs.CV
TL;DR: 提出一种渐近极小极大方法用于多目标共形预测,在保证联合边际覆盖的同时提供紧密的预测区间,应用于多指标盲图像质量评估、多任务不确定性量化和多轮测量采集。
- Motivation: 在不适定成像逆问题中,不确定性量化是基本挑战,现有方法只能处理标量估计目标,而实际应用常涉及多个目标。
- Method: 提出渐近极小极大多目标共形预测方法,确保联合边际覆盖的同时最小化预测区间宽度。
- Result: 数值实验证明该方法相对于现有多目标共形预测方法的优势,在合成数据和MRI数据上均表现良好。
- Conclusion: 该方法为多目标不确定性量化提供了有效的解决方案,在多个实际应用中具有重要价值。
[271] Accuracy is Not Enough: Poisoning Interpretability in Federated Learning via Color Skew
Farhin Farhad Riya,Shahinul Hoque,Jinyuan Stella Sun,Olivera Kotevska
Main category: cs.CV
TL;DR: 本文提出了一种新的对抗性攻击方法,通过在联邦学习中应用微小的颜色扰动,能够在不影响模型准确率的情况下破坏模型的可解释性,使显著性映射偏离语义相关区域。
- Motivation: 随着机器学习模型在安全关键领域的部署,模型可解释性变得至关重要。本文旨在揭示一种新的攻击面——即使模型预测正确,其解释也可能被恶意篡改,挑战了模型审计中"正确预测意味着忠实解释"的常见假设。
- Method: 提出了色度扰动模块(Chromatic Perturbation Module),通过系统性地改变前景和背景之间的颜色对比度来制作对抗样本,在联邦学习环境中这些扰动会在训练轮次中累积,以隐蔽且持久的方式毒化全局模型的内部特征归因。
- Result: 攻击将Grad-CAM解释中的峰值激活重叠减少了高达35%,同时在所有评估数据集上保持分类准确率超过96%。标准训练流程无法检测或缓解这种解释退化,特别是在联邦学习环境中,细微的颜色扰动更难被察觉。
- Conclusion: 研究表明模型可解释性本身可以成为攻击面,在联邦学习环境中,即使模型保持高准确率,其解释也可能被恶意篡改,这对模型审计和可信AI系统提出了新的安全挑战。
[272] BootOOD: Self-Supervised Out-of-Distribution Detection via Synthetic Sample Exposure under Neural Collapse
Yuanchao Wang,Tian Qin,Eduardo Valle,Bruno Abrahao
Main category: cs.CV
TL;DR: BootOOD是一个完全自监督的OOD检测框架,通过从ID数据中合成伪OOD特征,利用神经坍缩现象,使用基于特征范数的轻量级辅助头进行OOD检测,在语义相似的OOD样本上表现优异。
- Motivation: 现有的OOD检测器在处理与ID类别语义相似的OOD样本时表现不佳,需要一种能够专门处理语义挑战性OOD样本的检测方法。
- Method: 从ID数据中合成伪OOD特征,利用神经坍缩现象,设计基于特征范数的轻量级辅助分类头,将OOD检测与主分类器解耦,学习让OOD样本具有比ID特征更小的特征范数。
- Result: 在CIFAR-10、CIFAR-100和ImageNet-200上的实验表明,BootOOD优于先验的后处理方法,在没有异常暴露的情况下超越基于训练的方法,与最先进的异常暴露方法竞争,同时保持或提高了ID准确率。
- Conclusion: BootOOD提供了一种有效的自监督OOD检测解决方案,特别适用于处理语义相似的OOD样本,在多个数据集上表现出色。
[273] Robust Defense Strategies for Multimodal Contrastive Learning: Efficient Fine-tuning Against Backdoor Attacks
Md. Iqbal Hossain,Afia Sajeeda,Neeresh Kumar Perla,Ming Shao
Main category: cs.CV
TL;DR: 提出了一种增强多模态对比学习模型对抗后门攻击鲁棒性的创新策略,能够识别后门触发器、定位受害样本和标签,并通过紧凑微调数据集修复中毒模型。
- Motivation: 多模态深度学习模型(如CLIP)容易受到后门攻击,现有防御方法通常需要从头训练或使用大量数据微调,无法精确定位受影响的标签。
- Method: 引入图像分割"oracle"作为监督器,开发两种算法:1)区分CLIP和Oracle的知识来识别潜在触发器;2)定位受影响标签和受害样本,构建紧凑微调数据集。
- Result: 在视觉识别基准测试上的广泛实验表明,该策略在基于CLIP的后门防御中有效。
- Conclusion: 该方法能够有效识别后门触发器并修复中毒的CLIP模型,消除后门影响。
[274] TSE-Net: Semi-supervised Monocular Height Estimation from Single Remote Sensing Images
Sining Chen,Xiao Xiang Zhu
Main category: cs.CV
TL;DR: 提出TSE-Net半监督学习框架,通过教师-学生-考试网络结构,利用未标注数据提升单目高度估计性能,解决标注数据稀缺问题。
- Motivation: 单目高度估计在遥感3D感知中很重要,但深度学习方法的性能受限于标注数据的稀缺性和获取成本。需要利用大量未标注数据来提升模型泛化能力。
- Method: 提出TSE-Net自训练管道,包含教师、学生和考试网络。教师网络生成伪标签,学生网络在未标注数据上训练,考试网络作为学生网络的时间集成以稳定性能。教师网络采用回归和分类联合建模,通过分层双切策略处理高度值的长尾分布,使用Plackett-Luce模型校准类别概率。
- Result: 在三个不同分辨率和成像模式的数据集上进行了评估,代码已开源。
- Conclusion: TSE-Net框架有效利用未标注数据,通过半监督学习显著提升了单目高度估计的性能,为解决标注数据稀缺问题提供了可行方案。
[275] Opt3DGS: Optimizing 3D Gaussian Splatting with Adaptive Exploration and Curvature-Aware Exploitation
Ziyang Huang,Jiagang Chen,Jin Liu,Shunping Ji
Main category: cs.CV
TL;DR: Opt3DGS是一个增强3D高斯泼溅优化过程的框架,通过两阶段优化(自适应探索和曲率引导利用)解决局部最优和收敛质量不足的问题,在不改变底层表示的情况下实现最先进的渲染质量。
- Motivation: 3D高斯泼溅在新型视图合成中表现出色,但其核心优化问题尚未充分探索,存在陷入次优局部最优和收敛质量不足两个关键问题。
- Method: 提出两阶段优化框架:探索阶段使用自适应加权随机梯度Langevin动力学增强全局搜索;利用阶段使用局部拟牛顿方向引导的Adam优化器利用曲率信息进行精确收敛。
- Result: 在多个基准数据集上的广泛实验表明,Opt3DGS通过改进3DGS优化过程实现了最先进的渲染质量。
- Conclusion: Opt3DGS提供了一个稳健的框架,通过两阶段优化过程有效解决了3DGS的优化挑战,在不修改底层表示的情况下显著提升了渲染质量。
[276] Hierarchical Prompt Learning for Image- and Text-Based Person Re-Identification
Linhan Zhou,Shuang Li,Neng Dong,Yonghang Tai,Yafei Zhang,Huafeng Li
Main category: cs.CV
TL;DR: 提出了Hierarchical Prompt Learning (HPL)统一框架,通过任务感知提示建模联合优化图像到图像(I2I)和文本到图像(T2I)的人员重识别任务,解决了现有方法分别处理这两个任务导致的表示纠缠和性能不佳问题。
- Motivation: 人员重识别中I2I和T2I任务虽然共享检索目标,但面临不同挑战:I2I强调判别性身份学习,T2I需要准确的跨模态语义对齐。现有方法通常分别处理这两个任务,可能导致表示纠缠和次优性能。
- Method: 1) 任务路由Transformer:在共享视觉编码器中引入双分类令牌,分别路由I2I和T2I分支特征;2) 分层提示生成:集成身份级可学习令牌与实例级伪文本令牌;3) 跨模态提示正则化:在提示令牌空间强制语义对齐,确保伪提示保留源模态特性同时增强跨模态可转移性。
- Result: 在多个ReID基准测试上的广泛实验验证了该方法的有效性,在I2I和T2I任务上均实现了最先进的性能。
- Conclusion: HPL框架通过统一处理I2I和T2I任务,有效解决了表示纠缠问题,在两个任务上都取得了优异性能,证明了任务感知提示建模在人员重识别中的有效性。
[277] Adaptive Multi-Scale Integration Unlocks Robust Cell Annotation in Histopathology Images
Yinuo Xu,Yan Cui,Mingyao Li,Zhi Huang
Main category: cs.CV
TL;DR: NuClass是一个病理学家工作流程启发的多尺度细胞分类框架,通过整合核形态和微环境上下文来识别细胞类型和亚型,解决了现有方法缺乏组织上下文和细粒度标注的问题。
- Motivation: 现有基于图像块的方法能捕捉详细的核形态但缺乏更广泛的组织上下文,且可用的人类标注通常是粗粒度和不均匀分布的,难以获得细粒度的亚型级监督。
- Method: NuClass包含两个主要组件:Path local(关注224x224像素裁剪的核形态)和Path global(建模周围1024x1024像素邻域)。通过可学习的门控模块自适应平衡局部细节和上下文线索,并采用不确定性引导目标促进互补学习。
- Result: 在三个完全保留的队列上评估,NuClass在最佳类别上达到96%的F1分数,优于强基线方法。构建了来自Xenium空间转录组学测定的标记引导数据集,包含八个器官和16个类别的超过200万个细胞的单细胞分辨率标签。
- Conclusion: 多尺度、不确定性感知融合可以弥合幻灯片级病理基础模型与可靠的细胞级表型预测之间的差距。
[278] VVS: Accelerating Speculative Decoding for Visual Autoregressive Generation via Partial Verification Skipping
Haotian Dong,Ye Li,Rongwei Lu,Chen Tang,Shu-Tao Xia,Zhi Wang
Main category: cs.CV
TL;DR: 本文提出VVS框架,通过部分验证跳过机制加速视觉自回归模型的生成过程,将目标模型前向传递次数减少2.8倍,同时保持生成质量。
- Motivation: 视觉自回归生成模型存在推理延迟问题,传统的推测解码方法由于'一步起草、一步验证'的范式无法有效减少前向传递次数,限制了加速潜力。
- Method: 提出VVS框架,包含三个互补模块:动态截断的无验证令牌选择器、令牌级特征缓存与重用、细粒度的跳过步骤调度,实现部分验证跳过。
- Result: VVS将目标模型前向传递次数减少2.8倍,相比传统AR解码,在保持竞争力的生成质量的同时提供了更优的速度-质量权衡。
- Conclusion: VVS框架展示了重塑推测解码范式的强大潜力,为视觉自回归模型的高效生成提供了新思路。
[279] ICLR: Inter-Chrominance and Luminance Interaction for Natural Color Restoration in Low-Light Image Enhancement
Xin Xu,Hao Liu,Wei Liu,Wei Wang,Jiayi Wu,Kui Jiang
Main category: cs.CV
TL;DR: 提出了ICLR框架,通过双流交互增强模块和协方差校正损失,解决低光图像增强中色度和亮度分支交互的分布差异问题,提升互补特征提取能力。
- Motivation: 解决低光图像增强中色度与亮度分支交互的两个关键问题:1)自然图像中两分支的分布差异限制了互补特征提取;2)大均匀色域图像中色度分支间弱相关性导致传统像素级损失的梯度冲突。
- Method: 提出ICLR框架,包含双流交互增强模块(DIEM)从融合和增强两个维度改进互补信息提取,以及协方差校正损失(CCL)利用亮度残差统计惩罚色度误差并平衡梯度冲突。
- Result: 在多个数据集上的实验结果表明,所提出的ICLR框架优于现有最先进方法。
- Conclusion: ICLR框架通过改进色度与亮度分支的交互机制,有效解决了低光图像增强中的关键挑战,取得了优越的性能表现。
[280] AtlasMorph: Learning conditional deformable templates for brain MRI
Marianne Rakic,Andrew Hoopes,S. Mazdak Abulnaga,Mert R. Sabuncu,John V. Guttag,Adrian V. Dalca
Main category: cs.CV
TL;DR: 提出了一种基于卷积配准神经网络的机器学习框架,能够根据特定属性(如年龄、性别)快速生成条件化模板,并支持生成对应的解剖分割图。
- Motivation: 传统可变形模板开发计算成本高,可用模板数量有限,导致分析常使用不具代表性的模板,特别是在群体变异较大时。
- Method: 使用卷积配准神经网络学习一个函数,该函数能根据受试者特定属性输出条件化模板,并利用分割信息生成解剖分割图。
- Result: 在3D脑部MRI数据集上验证,该方法能学习到高质量且具有代表性的群体模板,带标注的条件模板比无标注模板配准效果更好。
- Conclusion: 该方法优于其他模板构建方法,能够高效生成具有代表性的条件化模板,并支持图像配准任务。
[281] Tissue Aware Nuclei Detection and Classification Model for Histopathology Images
Kesi Xu,Eleni Chiou,Ali Varamesh,Laura Acqualagna,Nasir Rajpoot
Main category: cs.CV
TL;DR: TAND是一个用于计算病理学中细胞核检测和分类的新框架,通过组织掩码条件增强的点级监督实现联合检测和分类,在PUMA基准测试中达到最先进性能。
- Motivation: 现有方法依赖详细的专家标注且未能充分利用组织上下文信息,需要减少标注负担并提高细胞核检测和分类的准确性。
- Method: 结合ConvNeXt编码器-解码器与冻结的Virchow-2组织分割分支,通过新颖的多尺度空间特征线性调制选择性调节分类流。
- Result: 在PUMA基准测试中达到最先进性能,超越组织不可知基线和掩码监督方法,在组织依赖性细胞类型(如上皮细胞、内皮细胞和基质细胞)上表现显著提升。
- Conclusion: 这是首个基于学习组织掩码进行单细胞分类的方法,为减少标注负担提供了实用途径。
[282] A Real-Time Driver Drowsiness Detection System Using MediaPipe and Eye Aspect Ratio
Ashlesha G. Sawant,Shreyash S. Kamble,Raj S. Kanade,Raunak N. Kanugo,Tanishq A. Kapse,Karan A. Bhapse
Main category: cs.CV
TL;DR: 开发基于面部特征和眼动分析的驾驶员疲劳检测系统,通过摄像头实时监测眨眼频率和闭眼时长,在检测到疲劳迹象时发出警报
- Motivation: 驾驶员疲劳是导致道路事故的主要原因之一,每年造成数千人死亡和受伤,需要开发有效的疲劳检测系统来提高道路安全
- Method: 使用标准网络摄像头,结合MediaPipe Face Mesh框架进行面部关键点检测,采用眼宽高比(EAR)方法分析眼动,通过OpenCV进行图像处理
- Result: 实验分析表明系统具有高准确性和快速响应时间,能够有效检测疲劳迹象
- Conclusion: 该系统可作为高级驾驶辅助系统(ADAS)的组成部分,提供高性能、低成本的驾驶员监控解决方案
[283] Alpha Divergence Losses for Biometric Verification
Dimitrios Koutsianos,Ladislav Mosner,Yannis Panagakis,Themos Stafylakis
Main category: cs.CV
TL;DR: 本文提出了两种基于α-散度的边缘损失函数:Q-Margin(在参考度量中引入边缘)和A3M(在对数中引入边缘),解决了α-散度损失在面部和说话人验证任务中难以集成角度边缘的问题。
- Motivation: 现有的α-散度损失函数虽然能诱导稀疏解,但在面部和说话人验证任务中难以集成角度边缘,而角度边缘对于验证任务的性能至关重要。
- Method: 提出了两种集成角度边缘的方法:通过参考度量(Q-Margin)和通过对数(A3M),并针对A3M的训练不稳定性提出了原型重新初始化策略。
- Result: 在IJB-B、IJB-C面部验证基准和VoxCeleb说话人验证任务上取得了显著性能提升,特别是在低误接受率(FAR)下表现优异。
- Conclusion: 提出的两种边缘化α-散度损失函数在面部和说话人验证任务中表现优异,特别适用于需要最小化误认证的高安全性应用场景。
[284] CacheFlow: Compressive Streaming Memory for Efficient Long-Form Video Understanding
Shrenik Patel,Daivik Patel
Main category: cs.CV
TL;DR: CacheFlow是一种无需训练的长视频问答解决方案,通过动态令牌丢弃和压缩长期记忆机制,在保持答案准确性的同时大幅减少处理令牌数量(高达87%),特别适合实时流媒体VQA。
- Motivation: 当前视觉语言模型在处理长视频问答时面临注意力机制和KV缓存随运行时间增长的问题,导致推理成本高昂或只能使用短视的滑动窗口方法。
- Method: 结合动态令牌丢弃(基于余弦相似度在线修剪每帧的补丁令牌)和压缩长期记忆(使用小型循环编码器总结关键信息形成检索索引,同时将完整KV对卸载并在生成时重新加载)。
- Result: 在离线和流媒体VQA基准测试中,CacheFlow优于当前强基线方法,同时处理令牌数量减少高达87%。
- Conclusion: CacheFlow的双重方法使视觉语言模型既能高效处理又能保持上下文感知,为实用的长视频理解铺平了道路。
[285] Part-X-MLLM: Part-aware 3D Multimodal Large Language Model
Chunshi Wang,Junliang Ye,Yunhan Yang,Yang Li,Zizhuo Lin,Jun Zhu,Zhuo Chen,Yawei Luo,Chunchao Guo
Main category: cs.CV
TL;DR: Part-X-MLLM是一个原生3D多模态大语言模型,通过结构化可执行语法将多样3D任务统一为程序。给定RGB点云和自然语言提示,模型自回归生成编码部件级边界框、语义描述和编辑命令的单一连贯标记序列。
- Motivation: 统一多样3D任务,通过解耦符号规划与几何合成,使任何兼容的几何引擎都能通过单一语言原生前端进行控制。
- Method: 预训练双编码器架构以分离结构与语义,并在大规模部件中心数据集上进行指令调优。模型将3D任务表述为结构化可执行语法中的程序。
- Result: 实验表明模型在生成高质量结构化规划方面表现出色,通过统一接口在基于问答、组合生成和局部编辑方面实现最先进性能。
- Conclusion: Part-X-MLLM提供了一个通用接口,能够驱动下游几何感知模块进行部件级生成和编辑,实现了3D多模态任务的统一处理。
[286] PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image
Ziang Cao,Fangzhou Hong,Zhaoxi Chen,Liang Pan,Ziwei Liu
Main category: cs.CV
TL;DR: PhysX-Anything是首个仿真就绪的物理3D生成框架,能从单张图像生成具有明确几何、关节和物理属性的高质量仿真就绪3D资产。
- Motivation: 现有3D生成方法大多忽略了关键的物理和关节属性,限制了在具身AI中的应用。需要将3D建模从静态视觉表示转向可直接用于仿真和交互的物理化、可关节化资产。
- Method: 提出了首个基于VLM的物理3D生成模型,采用新的3D表示方法将几何体token化,token数量减少193倍。构建了PhysX-Mobility数据集,包含2000多个常见真实世界物体,类别数量是现有物理3D数据集的2倍以上。
- Result: 在PhysX-Mobility数据集和真实世界图像上的实验表明,PhysX-Anything具有强大的生成性能和鲁棒泛化能力。在MuJoCo风格环境中的仿真实验验证了生成的仿真就绪资产可直接用于接触密集的机器人策略学习。
- Conclusion: PhysX-Anything能够显著赋能广泛的下游应用,特别是在具身AI和基于物理的仿真领域。
[287] Distribution Matching Distillation Meets Reinforcement Learning
Dengyang Jiang,Dongyang Liu,Zanyi Wang,Qilong Wu,Xin Jin,David Liu,Zhen Li,Mengmeng Wang,Peng Gao,Harry Yang
Main category: cs.CV
TL;DR: DMDR结合强化学习和蒸馏技术,将多步扩散模型蒸馏为少步模型,通过RL指导蒸馏过程,突破传统蒸馏的性能上限,甚至超越教师模型。
- Motivation: 传统蒸馏方法中少步模型的性能受限于多步教师模型,需要突破这一限制来提升少步模型的生成质量。
- Method: 将强化学习融入蒸馏过程,使用DMD损失作为正则化,设计动态分布引导和动态重噪声采样训练策略。
- Result: DMDR在少步方法中达到领先的视觉质量和提示一致性,甚至超越了多步教师模型的性能。
- Conclusion: RL与蒸馏的结合能够有效提升少步扩散模型的生成能力,突破传统蒸馏的性能限制。
[288] OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation
Henry Herzog,Favyen Bastani,Yawen Zhang,Gabriel Tseng,Joseph Redmon,Hadrien Sablon,Ryan Park,Jacob Morrison,Alexandra Buraczynski,Karen Farley,Joshua Hansen,Andrew Howe,Patrick Alan Johnson,Mark Otterlee,Ted Schmitt,Hunter Pitelka,Stephen Daspit,Rachel Ratner,Christopher Wilhelm,Sebastian Wood,Mike Jacobi,Hannah Kerner,Evan Shelhamer,Ali Farhadi,Ranjay Krishna,Patrick Beukema
Main category: cs.CV
TL;DR: OlmoEarth是一个多模态时空基础模型,专门为地球观测数据设计,在多个基准测试和实际任务中达到最先进性能。
- Motivation: 地球观测数据具有空间性(如图像)、序列性(如视频或文本)和多模态特性,需要专门设计的模型来处理这些复杂特征。
- Method: 采用新颖的自监督学习公式、掩码策略和损失函数,专门为地球观测领域设计。
- Result: 在24个任务中的15个任务上嵌入性能最佳,在29个任务中的19个任务上微调后性能最佳,优于其他12个基础模型。
- Conclusion: OlmoEarth作为端到端平台的核心,为非营利组织和NGO提供前沿基础模型和强大数据管理工具,用于解决全球重大问题。
[289] Training-Free Multi-View Extension of IC-Light for Textual Position-Aware Scene Relighting
Jiangnan Ye,Jiedong Zhuang,Lianrui Mu,Wenjie Zheng,Jiaqi Hu,Xingze Zou,Jing Wang,Haoji Hu
Main category: cs.CV
TL;DR: GS-Light是一个基于高斯泼溅的高效文本引导3D场景重光照方法,通过训练免费的扩散模型处理多视角输入,结合几何语义约束生成高质量重光照结果。
- Motivation: 现有方法在文本引导的3D场景重光照方面存在精度不足和效率低下的问题,特别是在光照方向控制方面难以满足用户期望。
- Method: 使用大视觉语言模型解析用户提示为光照先验,结合几何语义信息计算光照图,通过多视角重光照模型生成高质量重光照图像,最后微调3D高斯泼溅场景。
- Result: 在室内外场景评估中,GS-Light在多项定量指标(多视角一致性、图像质量、美学评分等)和用户研究中均优于现有基线方法。
- Conclusion: GS-Light提供了一种高效、精确的文本引导3D场景重光照解决方案,能够更好地满足用户对光照效果的控制需求。
[290] TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models
Harold Haodong Chen,Disen Lan,Wen-Jie Shu,Qingyang Liu,Zihan Wang,Sirui Chen,Wenkai Cheng,Kanghao Chen,Hongfei Zhang,Zixin Zhang,Rongjin Guo,Yu Cheng,Ying-Cong Chen
Main category: cs.CV
TL;DR: 提出了TiViBench基准来评估图像到视频生成模型的推理能力,并开发了VideoTPO测试时优化策略来提升模型推理性能。
- Motivation: 现有视频生成模型主要关注视觉保真度和时间一致性,缺乏对高阶推理能力的评估,需要专门基准来评估物理合理性和逻辑一致性。
- Method: 设计了TiViBench分层基准,从四个维度评估推理能力:结构推理与搜索、空间与视觉模式推理、符号与逻辑推理、动作规划与任务执行。同时提出VideoTPO测试时策略,通过LLM自分析生成候选来识别优缺点。
- Result: 商业模型(如Sora 2、Veo 3.1)展现出更强的推理潜力,开源模型因训练规模和数据多样性限制而潜力未充分挖掘。VideoTPO显著提升了推理性能,无需额外训练、数据或奖励模型。
- Conclusion: TiViBench和VideoTPO为评估和推进视频生成模型的推理能力奠定了基础,为该新兴领域的未来研究设定了框架。
[291] Free-Form Scene Editor: Enabling Multi-Round Object Manipulation like in a 3D Engine
Xincheng Shuai,Zhenyuan Qin,Henghui Ding,Dacheng Tao
Main category: cs.CV
TL;DR: FFSE是一个3D感知的自回归框架,能够在真实图像上实现直观、物理一致的物体编辑,通过建模为学习到的3D变换序列来支持平移、缩放、旋转等任意操作,同时保持背景效果和全局场景一致性。
- Motivation: 现有的文本到图像扩散模型在语义图像编辑方面取得进展,但大多数方法在3D感知物体操作方面表现不足,要么在图像空间操作,要么需要缓慢且容易出错的3D重建。
- Method: FFSE框架将编辑建模为学习到的3D变换序列,使用3DObjectEditor混合数据集(从模拟编辑序列构建)进行训练,支持多轮和动态条件下的有效学习。
- Result: 大量实验表明,FFSE在单轮和多轮3D感知编辑场景中都显著优于现有方法。
- Conclusion: FFSE提供了一个有效的3D感知物体编辑框架,能够实现直观、物理一致的操作,同时保持场景的真实性和一致性。
[292] UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity
Junwei Yu,Trevor Darrell,XuDong Wang
Main category: cs.CV
TL;DR: UnSAMv2是一个无需人工标注就能实现任意粒度分割的模型,通过发现丰富的掩码-粒度对和引入粒度控制嵌入,显著提升了SAM-2的分割性能。
- Motivation: 解决SAM系列模型在控制分割粒度方面的局限性,用户通常需要手动细化结果才能达到所需细节水平,这个过程既模糊又昂贵。
- Method: 扩展了UnSAM的分治策略,发现丰富的掩码-粒度对,并引入新颖的粒度控制嵌入,实现对分割尺度的精确连续控制。
- Result: 仅使用6K未标注图像和0.02%额外参数,UnSAMv2显著提升了SAM-2,在交互式、全图像和视频分割任务中实现了任意粒度分割。在11+个基准测试中,NoC90从5.69提升到4.75,1-IoU从58.0提升到73.1,AR1000从49.6提升到68.3。
- Conclusion: 少量未标注数据结合粒度感知的自监督学习方法可以释放视觉基础模型的潜力。
[293] Segment Anything Across Shots: A Method and Benchmark
Hengrui Hu,Kaining Ying,Henghui Ding
Main category: cs.CV
TL;DR: 提出了SAAS模型和TMA数据增强策略,用于解决多镜头半监督视频对象分割问题,通过模拟镜头转换来提升跨镜头分割性能,并在新基准Cut-VOS上取得SOTA结果。
- Motivation: 现有VOS方法主要针对单镜头视频,难以处理镜头不连续性,限制了实际应用。需要解决多镜头视频对象分割问题。
- Method: 提出TMA数据增强策略,用单镜头数据模拟跨镜头泛化;开发SAAS模型,能有效检测和理解镜头转换;建立Cut-VOS新基准。
- Result: 在YouMVOS和Cut-VOS上的大量实验表明,SAAS通过有效模拟、理解和分割复杂转换,实现了最先进的性能。
- Conclusion: SAAS模型和TMA策略成功解决了多镜头视频对象分割问题,为MVOS领域提供了有效的解决方案和新基准。
[294] Scaling Spatial Intelligence with Multimodal Foundation Models
Zhongang Cai,Ruisi Wang,Chenyang Gu,Fanyi Pu,Junxiang Xu,Yubo Wang,Wanqi Yin,Zhitao Yang,Chen Wei,Qingping Sun,Tongxi Zhou,Jiaqi Li,Hui En Pang,Oscar Qian,Yukun Wei,Zhiqian Lin,Xuanke Shi,Kewang Deng,Xiaoyang Han,Zukai Chen,Xiangyu Fan,Hanming Deng,Lewei Lu,Liang Pan,Bo Li,Ziwei Liu,Quan Wang,Dahua Lin,Lei Yang
Main category: cs.CV
TL;DR: SenseNova-SI通过构建800万空间智能数据样本,在多个空间智能基准测试中取得突破性性能,同时保持强大的通用多模态理解能力。
- Motivation: 尽管多模态基础模型取得了显著进展,但在空间智能方面仍存在明显不足,需要专门提升模型的空间理解能力。
- Method: 基于现有多模态基础模型(Qwen3-VL、InternVL3、Bagel),系统构建包含800万多样化数据样本的SenseNova-SI-8M数据集,采用严格的空间能力分类法。
- Result: 在多个空间智能基准测试中表现优异:VSI-Bench 68.7%、MMSI 43.3%、MindCube 85.6%、ViewSpatial 54.6%、SITE 50.1%,同时保持通用多模态理解能力(MMBench-En 84.9%)。
- Conclusion: SenseNova-SI项目展示了通过大规模多样化数据训练可以显著提升空间智能,并观察到早期涌现的泛化能力,所有模型已公开发布以促进相关研究。
[295] Back to Basics: Let Denoising Generative Models Denoise
Tianhong Li,Kaiming He
Main category: cs.CV
TL;DR: 本文提出JiT方法,直接预测干净图像而非噪声,利用流形假设让低容量网络在超高维空间中有效工作,使用简单的大块Transformer在像素级别实现强生成模型。
- Motivation: 当前扩散模型预测噪声而非干净图像,但根据流形假设,自然数据位于低维流形而噪声数据不在,因此直接预测干净数据能让网络更有效地在超高维空间中操作。
- Method: 使用简单的大块Transformer(patch size 16和32)直接在像素级别操作,无需tokenizer、预训练或额外损失函数,直接预测干净图像。
- Result: 在ImageNet 256×256和512×512分辨率上取得有竞争力的结果,而预测高维噪声的方法在这些情况下会灾难性失败。
- Conclusion: 通过让网络映射回流形基础,JiT为基于Transformer的扩散模型提供了一个自包含的范式,回归到在原始自然数据上的基础方法。
cs.AR
[296] TIMERIPPLE: Accelerating vDiTs by Understanding the Spatio-Temporal Correlations in Latent Space
Wenxuan Miao,Yulin Sun,Aiyue Chen,Jing Lin,Yiwu Yao,Yiming Gan,Jieru Zhao,Jingwen Leng,Mingyi Guo,Yu Feng
Main category: cs.AR
TL;DR: 提出一种基于时空相关性的轻量级自适应注意力重用策略,在保持视频质量的同时显著加速视频扩散变换器中的自注意力计算
- Motivation: 现有视频生成模型基于vDiT架构,但自注意力机制导致推理延迟严重。先前研究主要关注减少自注意力冗余计算,但忽略了视频流中固有的时空相关性特征
- Method: 利用潜在空间中的时空相关性,通过重用空间或时间相关token在单个通道上的部分注意力分数来近似注意力计算
- Result: 在4个vDiT模型上实现了85%的计算节省,同时视频质量损失极小(VBench上<0.06%)
- Conclusion: 该方法通过有效利用视频的时空相关性特征,在保持生成质量的同时显著提升了vDiT的计算效率
[297] Neo: Real-Time On-Device 3D Gaussian Splatting with Reuse-and-Update Sorting Acceleration
Changhun Oh,Seongryong Oh,Jinwoo Hwang,Yoonsung Kim,Hardik Sharma,Jongse Park
Main category: cs.AR
TL;DR: Neo通过重用和更新排序算法,利用连续帧间高斯排序的时间冗余性,显著降低3D高斯泼溅渲染中的排序瓶颈,实现资源受限设备上的实时高质量渲染。
- Motivation: 在资源受限设备上实现3D高斯泼溅的实时渲染对AR/VR体验至关重要,但现有解决方案难以实现高帧率,特别是高分辨率渲染时,排序阶段成为主要瓶颈。
- Method: 提出重用和更新排序算法,利用连续帧间高斯排序的时间冗余性,设计专为此算法优化的硬件加速器,通过跟踪和更新高斯深度排序而非从头重新排序来减少冗余计算。
- Result: Neo相比最先进的边缘GPU和ASIC解决方案分别实现了10.0倍和5.6倍的吞吐量提升,同时将DRAM流量减少了94.5%和81.3%。
- Conclusion: 这些改进使得高质量、低延迟的设备端3D渲染更加实用可行。
[298] QUILL: An Algorithm-Architecture Co-Design for Cache-Local Deformable Attention
Hyunwoo Oh,Hanning Chen,Sanggeon Yun,Yang Ni,Wenjun Huang,Tamoghno Das,Suyeon Jang,Mohsen Imani
Main category: cs.AR
TL;DR: QUILL是一个针对可变形注意力机制的硬件加速器,通过距离排序和预取技术将不规则内存访问转换为缓存友好的单次处理,显著提升了检测任务的性能和能效。
- Motivation: 可变形transformer在检测任务中表现优异,但由于不规则内存访问和低算术强度,难以在硬件上高效实现。
- Method: 采用距离排序查询(DOOQ)按空间邻近性排序查询,通过前瞻驱动区域预取,融合MSDeformAttn引擎在单次处理中完成插值、Softmax、聚合和投影操作。
- Result: 相比RTX 4090,QUILL实现了7.29倍吞吐量和47.3倍能效提升;相比现有加速器,吞吐量提升3.26-9.82倍,能效提升2.01-6.07倍。混合精度量化下精度损失小于0.9 AP。
- Conclusion: QUILL通过将稀疏性转换为局部性,再将局部性转换为利用率,实现了端到端的持续加速效果。
cs.DC
[299] Range Asymmetric Numeral Systems-Based Lightweight Intermediate Feature Compression for Split Computing of Deep Neural Networks
Mingyu Sung,Suhwan Im,Vikas Palakonda,Jae-Mo Kang
Main category: cs.DC
TL;DR: 提出了一种轻量级压缩框架,利用rANS编码结合非对称整数量化和稀疏张量表示,显著减少分割计算中的传输开销,无需复杂概率建模或网络修改。
- Motivation: 分割计算在边缘设备和云服务器之间分配深度神经网络推理,但在传输中间特征时面临显著的通信瓶颈问题。
- Method: 结合非对称整数量化和稀疏表示技术,利用张量固有稀疏性实现带宽减少;开发近似理论模型优化张量重塑维度以最大化压缩效率;实现GPU加速的编码/解码,延迟低于毫秒级。
- Result: 在多种神经网络架构(ResNet、VGG16、MobileNetV2等)上评估,在CIFAR100和ImageNet基准测试中保持接近基线的准确率;在Llama2 7B和13B等NLP任务上也验证了有效性,展示了超越计算机视觉的广泛适用性。
- Conclusion: 该方法解决了在带宽受限环境中部署复杂人工智能系统的根本瓶颈,且不损害模型性能。
cs.CR
[300] BackWeak: Backdooring Knowledge Distillation Simply with Weak Triggers and Fine-tuning
Shanmin Wang,Dongdong Zhao
Main category: cs.CR
TL;DR: BackWeak是一种简单、无需代理模型的KD后门攻击方法,通过使用弱触发器以极小学习率微调良性教师模型,即可在标准蒸馏过程中可靠地将后门转移到各种学生架构中。
- Motivation: 现有KD后门方法通常复杂且计算密集,依赖代理学生模型和模拟蒸馏来保证可转移性,且触发器类似通用对抗扰动,在幅度上不隐蔽且具有强对抗性。本研究质疑这种复杂性是否必要。
- Method: 提出BackWeak攻击范式:使用弱触发器(不可感知的扰动,具有可忽略的对抗效果)以极小学习率微调良性教师模型,无需代理模型。
- Result: 在多个数据集、模型架构和KD方法上的广泛实验表明,BackWeak高效、简单,且通常比先前复杂方法更隐蔽,能够实现高攻击成功率。
- Conclusion: 这项工作呼吁研究KD后门攻击的研究者特别关注触发器的隐蔽性及其潜在的对抗特性。
[301] AttackVLA: Benchmarking Adversarial and Backdoor Attacks on Vision-Language-Action Models
Jiayu Li,Yunhan Zhao,Xiang Zheng,Zonghuan Xu,Yige Li,Xingjun Ma,Yu-Gang Jiang
Main category: cs.CR
TL;DR: 提出了AttackVLA统一框架来评估Vision-Language-Action模型的安全漏洞,并开发了BackdoorVLA攻击方法,能在触发条件下强制VLA执行指定长序列动作。
- Motivation: 现有VLA模型攻击方法缺乏统一评估框架,且大多数未在真实场景验证,难以公平比较攻击效果。不同架构的动作分词器差异也阻碍了可复现性。
- Method: 构建AttackVLA统一框架,涵盖数据构建、模型训练和推理全流程。实现多种攻击方法,包括现有VLA攻击和适配的视觉语言模型攻击。提出BackdoorVLA后门攻击,强制VLA执行指定长序列动作。
- Result: 在模拟和真实机器人场景中评估,BackdoorVLA平均目标成功率58.4%,在特定任务中可达100%。现有攻击主要导致无目标失败或静态动作状态。
- Conclusion: 提供了标准化VLA漏洞评估框架,展示了精确对抗操控的可能性,推动VLA嵌入式系统的安全研究。
[302] SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization
Xuankun Rong,Wenke Huang,Tingfeng Wang,Daiguo Zhou,Bo Du,Mang Ye
Main category: cs.CR
TL;DR: SafeGRPO是一个自奖励的多模态安全对齐框架,通过将规则治理的奖励构建集成到GRPO中,优化推理安全性,提高多模态安全意识和组合鲁棒性。
- Motivation: 多模态大语言模型在文本-图像交互中产生新的组合安全风险,即使单个输入是良性的,跨模态耦合也可能产生不安全语义,暴露当前MLLMs脆弱的安全意识。
- Method: 基于构建的SafeTag-VL-3K数据集,SafeGRPO执行步骤引导的安全思考来强制执行结构化推理和行为对齐,将规则治理的奖励构建集成到GRPO中。
- Result: 在多样化基准测试中显著提高了多模态安全意识、组合鲁棒性和推理稳定性,且不牺牲通用能力。
- Conclusion: SafeGRPO框架通过可解释和可验证的优化方法,有效解决了多模态模型中的组合安全风险问题。
astro-ph.IM
[303] Towards Mitigating Systematics in Large-Scale Surveys via Few-Shot Optimal Transport-Based Feature Alignment
Sultan Hassan,Sambatra Andrianomena,Benjamin D. Wandelt
Main category: astro-ph.IM
TL;DR: 提出一种通过优化预训练ID模型表示的特征对齐损失来对齐ID和OOD样本学习特征的新方法,以解决系统误差导致的分布偏移问题。
- Motivation: 系统误差会污染观测值,导致相对于理论模拟信号的分布偏移,这对使用预训练模型标记此类观测值构成重大挑战。由于系统误差通常难以理解和建模,直接完全移除可能不可行。
- Method: 通过优化从预训练ID模型中提取表示的特征对齐损失来对齐ID和OOD样本的学习特征。实验验证了包括均方误差和最优传输在内的可能对齐损失。
- Result: 结果表明,当ID和OOD样本之间的奇偶性未知时,最优传输在特征对齐方面特别有效,即使在有限数据条件下也能很好地工作,这模拟了从大规模调查中提取信息的真实世界条件。
- Conclusion: 提出的特征对齐方法能有效处理系统误差导致的分布偏移问题,最优传输在未知奇偶性情况下表现出色,适用于大规模调查中的实际应用。
stat.CO
[304] Bregman geometry-aware split Gibbs sampling for Bayesian Poisson inverse problems
Elhadji Cisse Faye,Mame Diarra Fall,Nicolas Dobigeon,Eric Barat
Main category: stat.CO
TL;DR: 提出了一种新的贝叶斯框架,通过蒙特卡洛采样算法解决泊松逆问题,考虑了非欧几里得几何结构。该方法利用精确和渐近精确的数据增强,通过Bregman散度构建增强模型,实现高效Gibbs采样,并结合Hessian黎曼朗之万蒙特卡洛处理正则化项。
- Motivation: 解决泊松似然带来的挑战,如非Lipschitz梯度和正性约束,同时考虑问题的内在几何结构。
- Method: 使用基于Burg熵的Bregman散度构建增强模型,结合Gibbs采样和Hessian黎曼朗之万蒙特卡洛算法,在镜像流形上进行采样以满足正性约束。
- Result: 在去噪、去模糊和正电子发射断层扫描实验中,该方法在重建质量方面与基于优化和采样的方法相比具有竞争力。
- Conclusion: 所提出的贝叶斯框架能够有效处理泊松逆问题,通过几何感知的采样方法获得高质量的重建结果。
q-bio.NC
[305] Predicting upcoming visual features during eye movements yields scene representations aligned with human visual cortex
Sushrut Thorat,Adrien Doerig,Alexander Kroner,Carmen Amme,Tim C. Kietzmann
Main category: q-bio.NC
TL;DR: 通过主动视觉中的下一瞥预测任务,GPNs模型能够自监督学习与人类大脑对齐的场景表征。
- Motivation: 场景是复杂但有结构的部件集合,需要统一的表征来关联部件的位置和共现关系。假设这种结构可以通过主动视觉的时间规律性来自监督学习。
- Method: 提出Glimpse Prediction Networks (GPNs) - 循环模型,通过人类扫描路径预测下一瞥的特征嵌入,学习共现结构和空间排列敏感性。
- Result: GPNs成功学习共现结构,循环变体能整合多瞥信息形成统一场景表征,与人类fMRI响应高度对齐,优于语义目标训练的对照组。
- Conclusion: 主动视觉中的下一瞥预测是生物学上合理的自监督途径,能从自然视觉经验学习与大脑对齐的场景表征。
cs.LG
[306] Learning with Preserving for Continual Multitask Learning
Hanchen David Wang,Siwoo Bae,Zirong Chen,Meiyi Ma
Main category: cs.LG
TL;DR: 提出了Learning with Preserving (LwP)框架,通过保持共享表示空间的几何结构来解决持续多任务学习中的灾难性遗忘问题,无需重放缓冲区。
- Motivation: 关键领域的人工智能系统需要持续学习新任务而不遗忘已学能力,现有方法因学习碎片化的任务特定特征而失败。
- Method: 引入动态加权距离保持(DWDP)损失,通过正则化潜在数据表示之间的成对距离来防止表示漂移。
- Result: 在时间序列和图像基准测试中,LwP不仅缓解了灾难性遗忘,而且持续优于最先进的基线方法。
- Conclusion: LwP是唯一超越强单任务学习基线的方法,在现实动态环境中表现出卓越的有效性和鲁棒性。
[307] A neural optimization framework for free-boundary diffeomorphic mapping problems and its applications
Zhehao Xu,Lok Ming Lui
Main category: cs.LG
TL;DR: 提出了SBN-Opt框架,通过神经代理模型SBN嵌入LSQC能量,优化自由边界微分同胚映射,有效控制局部几何畸变,在密度均衡映射和不一致表面配准中表现优异。
- Motivation: 自由边界微分同胚优化在表面映射中至关重要但极具挑战性,因为边界不受约束且在大变形下必须保持局部双射性。传统数值LSQC算法需要地标条件且无法应用于基于梯度的优化。
- Method: 提出SBN神经代理模型,将LSQC能量嵌入多尺度网格谱架构中;然后提出SBN-Opt优化框架,优化自由边界微分同胚,显式控制局部几何畸变。
- Result: 在密度均衡映射和不一致表面配准上的大量实验表明,SBN-Opt优于传统数值算法。
- Conclusion: SBN-Opt框架成功解决了自由边界微分同胚优化问题,提供了可控的局部几何畸变,在表面映射任务中表现出色。
[308] Probabilistic Wildfire Susceptibility from Remote Sensing Using Random Forests and SHAP
Udaya Bhasker Cheerala,Varun Teja Chirukuri,Venkata Akhil Kumar Gummadi,Jintu Moni Bhuyan,Praveen Damacharla
Main category: cs.LG
TL;DR: 本研究使用随机森林算法结合可解释AI(SHAP)开发了加利福尼亚州野火风险地图,识别了森林和草原生态系统的关键风险驱动因素,并评估了模型的空间和时间泛化能力。
- Motivation: 野火对全球生态系统构成重大威胁,加利福尼亚州由于气候、地形、植被和人类活动等因素经常发生火灾,需要开发全面的野火风险评估方法来支持决策。
- Method: 采用随机森林算法结合SHAP可解释AI技术,使用空间和时间验证策略评估模型性能,识别不同生态系统的关键风险因素。
- Result: RF模型表现出强大的预测性能,森林和草原的AUC分别达到0.997和0.996。空间交叉验证显示中等可迁移性,而时间分割验证显示更好的泛化能力。SHAP分析识别出土壤有机碳、树木覆盖和NDVI是森林的关键驱动因素,LST、海拔和植被健康指数是草原的关键驱动因素。
- Conclusion: RF-SHAP框架为野火风险评估提供了稳健、可理解和适应性强的方法,能够支持知情决策并制定有针对性的风险缓解策略。
[309] MPCM-Net: Multi-scale network integrates partial attention convolution with Mamba for ground-based cloud image segmentation
Penghui Niu,Jiashuai She,Taotao Cai,Yajuan Zhang,Ping Zhang,Junhua Gu,Jianxin Li
Main category: cs.LG
TL;DR: 提出MPCM-Net网络,结合部分注意力卷积和Mamba架构,用于地面云图像分割,在CSRC数据集上实现分割精度和推理速度的最佳平衡。
- Motivation: 现有深度学习方法存在三个主要局限:依赖空洞卷积缺乏通道间互操作性;注意力机制忽视精度-吞吐量平衡;解码器修改未能建立层次局部特征的全局依赖关系。
- Method: 编码器包含MPAC模块(MPC块和MPA块),实现多尺度云形成的全局空间交互和低计算复杂度特征提取;解码器使用M2B模块通过SSHD保持线性复杂度,实现跨空间和尺度维度的深度特征聚合。
- Result: 在CSRC数据集上的广泛实验表明,MPCM-Net优于现有最先进方法,在分割精度和推理速度之间达到最佳平衡。
- Conclusion: MPCM-Net通过集成部分注意力卷积和Mamba架构,有效解决了现有云图像分割方法的局限性,同时发布了新的CSRC数据集作为社区贡献。
[310] Stratified Knowledge-Density Super-Network for Scalable Vision Transformers
Longhua Li,Lei Qi,Xin Geng
Main category: cs.LG
TL;DR: 提出WPAC和PIAD方法,将预训练ViT转换为分层知识密度超网络,实现灵活提取不同大小的子网络,同时保持最大知识保留
- Motivation: 为不同资源约束训练和部署多个ViT模型成本高且效率低,需要一种能够灵活提取不同大小子网络的解决方案
- Method: WPAC通过加权PCA压缩注意力层知识到关键权重;PIAD通过渐进重要性感知dropout促进知识分层组织
- Result: WPAC在知识集中方面优于现有剪枝标准,与PIAD结合为模型压缩和扩展提供了强大的替代方案
- Conclusion: 提出的方法能够有效构建分层知识密度超网络,实现灵活的模型大小调整和知识保留
[311] Hierarchical Schedule Optimization for Fast and Robust Diffusion Model Sampling
Aihua Zhu,Rui Su,Qinglin Zhao,Li Feng,Meng Shen,Shibo He
Main category: cs.LG
TL;DR: HSO是一种新颖的双层优化框架,通过全局搜索和局部优化交替进行,在极低NFE下实现扩散模型的高效采样加速,无需重新训练。
- Motivation: 现有扩散模型采样方法在满足有效性、自适应性、实用鲁棒性和计算效率四个核心原则方面存在不足,需要更先进的解决方案。
- Method: 提出HSO双层优化框架:上层全局搜索最优初始化策略,下层局部优化时间步细化,使用中点误差代理和间距惩罚适应度函数指导优化过程。
- Result: 在仅5次函数评估下,HSO在LAION-Aesthetics数据集上达到11.94的FID,优化成本不到8秒。
- Conclusion: HSO为训练自由的扩散模型加速提供了一个高效实用的新范式,在极低NFE下实现了最先进的采样性能。
[312] Doubly Debiased Test-Time Prompt Tuning for Vision-Language Models
Fei Song,Yi Li,Rui Wang,Jiahuan Zhou,Changwen Zheng,Jiangmeng Li
Main category: cs.LG
TL;DR: 提出双重去偏测试时提示调优方法,通过动态检索增强调制和可靠性感知提示优化,缓解视觉语言模型在零样本设置下的提示优化偏差问题。
- Motivation: 测试时提示调优仅基于未标记测试数据可能导致提示优化偏差,造成次优性能。从模型和数据角度分析偏差原因:模型方面,熵最小化目标关注降低预测熵但忽略正确性;数据方面,偏差提示会加剧视觉-文本模态不对齐。
- Method: 1) 动态检索增强调制模块:用测试图像特征检索动态知识库中的高置信度知识来调制预测;2) 可靠性感知提示优化模块:基于置信度加权集成和跨模态一致性蒸馏,在提示调优中施加正则化约束。
- Result: 在15个基准数据集上的广泛实验表明,该方法在自然分布偏移和跨数据集泛化场景下均优于基线方法,验证了其缓解提示优化偏差的有效性。
- Conclusion: 提出的双重去偏测试时提示调优方法能有效缓解提示优化偏差,在零样本设置下展现出优异的泛化能力。
[313] AnchorDS: Anchoring Dynamic Sources for Semantically Consistent Text-to-3D Generation
Jiayin Zhu,Linlin Yang,Yicong Li,Angela Yao
Main category: cs.LG
TL;DR: 本文提出AnchorDS方法,通过将文本到3D优化重新表述为动态演化的源分布到固定目标分布的映射,解决了现有方法中语义过度平滑的问题。
- Motivation: 现有基于优化的文本到3D方法将2D生成模型的指导视为静态,忽略了源动态,导致语义线索被抑制或合并,产生"语义过度平滑"伪影。
- Method: 将问题转化为双条件潜空间,同时以文本提示和中间渲染图像为条件。提出AnchorDS机制,提供状态锚定指导,并设计了轻量级过滤策略和微调策略来细化锚点。
- Result: AnchorDS能够产生更精细的细节、更自然的颜色和更强的语义一致性,特别是在复杂提示下表现优异,同时在质量和效率上都超越了先前方法。
- Conclusion: 通过将文本到3D优化重新表述为动态源分布到固定目标分布的映射,并引入状态锚定指导,AnchorDS有效解决了语义过度平滑问题,提升了生成质量和效率。
[314] Toward Dignity-Aware AI: Next-Generation Elderly Monitoring from Fall Detection to ADL
Xun Shao,Aoba Otani,Yuto Hirasuka,Runji Cai,Seng W. Loke
Main category: cs.LG
TL;DR: 本文提出了下一代老年人监控系统,从跌倒检测扩展到日常生活活动识别,旨在开发隐私保护、边缘部署的联邦AI系统,支持老龄化社会的独立性和尊严。
- Motivation: 当前老年人监控系统主要关注跌倒检测,但需要向更全面的日常生活活动识别发展,以更好地支持老年人的独立生活和尊严。
- Method: 使用SISFall数据集及其GAN增强变体进行可行性验证,将跌倒检测作为代理任务,并在非独立同分布条件下进行联邦学习实验,在Jetson Orin Nano设备上进行嵌入式部署。
- Result: 报告了在非独立同分布条件下联邦学习的初步结果,以及嵌入式部署的可行性,为全面ADL监控提供了早期证据。
- Conclusion: 本文强调了从单任务检测向全面日常活动识别的转变,为可持续和以人为本的老年人护理AI提供了路线图,同时指出了领域偏移、数据稀缺和隐私风险等开放挑战。
[315] Simple Vision-Language Math Reasoning via Rendered Text
Matvey Skripkin,Elizaveta Goncharova,Andrey Kuznetsov
Main category: cs.LG
TL;DR: 提出一种轻量级方法,通过将LaTeX方程渲染为图像并配合结构化思维链提示来训练视觉语言模型解决数学问题,在保持广泛领域能力的同时实现最先进的推理精度。
- Motivation: 现有数学问题解决方法通常依赖复杂架构或专门模型,需要一种简单有效的方法来提升视觉语言模型在数学推理任务上的表现,同时保持其通用领域能力。
- Method: 将LaTeX编码的方程渲染成图像,并与结构化的思维链提示配对,使用文本到视觉的数据增强方法来训练紧凑的多模态架构。
- Result: 在广泛使用的基准测试中,该方法持续匹配或超越了开源和专有的数学专用视觉语言求解器,同时在MMMU、ChartQA和DocVQA等任务上获得高达20%的性能提升。
- Conclusion: 渲染保真度和提示设计是性能的主要驱动因素,这种简单的方法能够在保持广泛领域能力的同时,显著提升数学推理的准确性。
[316] Multimodal ML: Quantifying the Improvement of Calorie Estimation Through Image-Text Pairs
Arya Narang
Main category: cs.LG
TL;DR: 研究通过多模态模型(图像+文本)相比仅图像模型,将卡路里估计的MAE从84.76千卡降低到83.70千卡,改善了1.25%,但改进幅度较小。
- Motivation: 探究短文本输入(如菜品名称)能否显著改善卡路里估计精度,并与仅使用图像的基线模型进行比较。
- Method: 使用TensorFlow库和Nutrition5k数据集,训练仅图像CNN和多模态CNN(同时接受文本和图像输入)。
- Result: 多模态模型将卡路里估计的MAE从84.76千卡降低到83.70千卡,改善了1.06千卡(1.25%)。
- Conclusion: 短文本输入对卡路里估计有轻微改善,但改进幅度有限,需要进一步研究其统计显著性。
[317] Context-Aware Multimodal Representation Learning for Spatio-Temporally Explicit Environmental modelling
Julia Peters,Karin Mora,Miguel D. Mahecha,Chaonan Ji,David Montero,Clemens Mosig,Guido Kraemer
Main category: cs.LG
TL;DR: 提出一个统一的多模态地球观测表示学习框架,能够在高时空分辨率下整合不同传感器数据,解决现有模型固定尺度限制的问题。
- Motivation: 现有地球观测基础模型通常在固定空间或时间尺度上运行,限制了需要精细空间细节和高时间保真度的生态分析应用。
- Method: 采用两阶段设计:首先独立建模各传感器特征,然后将表征融合到共享模型中。使用Sentinel-1和Sentinel-2数据作为代表性模态,生成10米分辨率、无云Sentinel-2采集频率的潜在空间。
- Result: 学习到的嵌入在异质景观中表现出高空间和语义一致性,在总初级生产力建模中编码了生态学意义模式并保持了足够的时间保真度。
- Conclusion: 该框架为需要不同空间和时间分辨率的环境应用提供了一个灵活、分析就绪的表示学习方法。
[318] Fast 3D Surrogate Modeling for Data Center Thermal Management
Soumyendu Sarkar,Antonio Guillen-Perez,Zachariah J Carmichael,Avisek Naug,Refik Mert Cam,Vineet Gundecha,Ashwin Ramesh Babu,Sahand Ghorbanpour,Ricardo Luna Gutierrez
Main category: cs.LG
TL;DR: 开发基于视觉的替代建模框架,用于数据中心3D温度场实时预测,实现20,000倍加速,支持实时冷却控制和负载重分配,节省7%能源。
- Motivation: 降低数据中心能耗和碳排放,传统CFD求解器计算成本高且需要专家网格划分,不适合实时应用。
- Method: 使用3D体素化表示数据中心,结合服务器负载、风扇速度和HVAC温度设定点,评估3D CNN U-Net变体、3D傅里叶神经算子和3D视觉变换器等多种架构。
- Result: 替代模型在数据中心配置间具有良好泛化能力,实现20,000倍加速(数百毫秒vs数小时),准确估计热点和温度分布。
- Conclusion: 快速准确的温度预测支持实时冷却控制和负载重分配,显著节省能源(7%)并减少碳足迹。
[319] Optimizing Input of Denoising Score Matching is Biased Towards Higher Score Norm
Tongda Xu
Main category: cs.LG
TL;DR: 本文指出在扩散模型中优化条件输入会破坏去噪分数匹配与精确分数匹配的等价性,导致分数范数偏高的偏差问题,影响多个领域的研究。
- Motivation: 许多近期工作使用去噪分数匹配来优化扩散模型的条件输入,但作者发现这种优化会破坏理论等价性并产生偏差。
- Method: 通过理论分析和实验验证,证明优化条件输入会导致去噪分数匹配与精确分数匹配不等价,并产生分数范数偏高的偏差。
- Result: 发现这种偏差不仅出现在条件输入优化中,在利用预训练扩散模型优化数据分布时也会出现类似问题。
- Conclusion: 这种偏差问题广泛影响多个领域的研究,包括自回归生成的MAR、图像压缩的PerCo和文本到3D生成的DreamFusion等。
[320] Improving a Hybrid Graphsage Deep Network for Automatic Multi-objective Logistics Management in Supply Chain
Mehdi Khaleghi,Nastaran Khaleghi,Sobhan Sheykhivand,Sebelan Danishvar
Main category: cs.LG
TL;DR: 提出了一种混合GraphSAGE网络(H-GSN)用于供应链物流管理的多任务预测,包括货物类型、物流状态、交通状况、物流ID和物流延迟等目标,在三个不同数据集上取得了97.8%-100%的准确率。
- Motivation: 系统化物流、运输设施和仓储信息对供应链盈利发展至关重要。需要自动预测方法来提高供应链管理效率,增强供应链的韧性和可持续性。
- Method: 使用混合GraphSAGE网络(H-GSN)进行多任务物流管理预测,在三个Kaggle供应链物流数据库(DataCo、Shipping和Smart Logistics)上进行实验。
- Result: 在Smart Logistics数据集上,物流ID预测准确率97.8%,交通状况预测准确率100%;在DataCo数据集上货物类型预测准确率98.7%;在Shipping数据集上物流延迟预测准确率99.4%。
- Conclusion: 所提出的方法在不同物流场景下的评估指标证实了其有效性,能够提高供应链的韧性和可持续性。
[321] Coordinate Descent for Network Linearization
Vlad Rakhlin,Amir Jevnisek,Shai Avidan
Main category: cs.LG
TL;DR: 提出了一种基于坐标下降的离散优化方法,直接在离散域中减少ReLU激活函数的数量,以解决私有推理中的延迟瓶颈问题。
- Motivation: ReLU激活函数是基于ResNet网络的私有推理中的主要瓶颈,会导致显著的推理延迟。现有方法使用平滑近似进行联合优化,但在最后的硬阈值步骤中通常会产生较大的性能损失。
- Method: 采用坐标下降作为优化框架,直接在离散域中工作,通过设计产生稀疏解。
- Result: 通过大量实验证明,该方法在常见基准测试中达到了最先进的性能。
- Conclusion: 提出的基于坐标下降的离散优化方法能够有效减少ReLU数量,同时保持网络精度,在私有推理任务中表现出色。
[322] Transformers vs. Recurrent Models for Estimating Forest Gross Primary Production
David Montero,Miguel D. Mahecha,Francesco Martinuzzi,César Aybar,Anne Klosterhalfen,Alexander Knohl,Jesús Anaya,Clemens Mosig,Sebastian Wieneke
Main category: cs.LG
TL;DR: 比较GPT-2和LSTM两种深度学习模型在预测森林CO₂吸收量(GPP)方面的表现,发现LSTM整体精度更高但GPT-2在极端事件中表现更好,同时分析了不同输入特征的重要性。
- Motivation: 解决传统遥感方法难以捕捉GPP复杂时间动态的问题,利用深度学习和多模态数据融合来改进森林碳吸收监测。
- Method: 使用GPT-2(Transformer架构)和LSTM(循环神经网络)两种代表性模型,结合多变量输入数据预测GPP,并分析时间上下文长度的影响。
- Result: 两种模型达到相似精度,LSTM整体表现更好但GPT-2在极端事件中表现更优;LSTM使用更短的输入窗口即可达到相似精度;辐射是最重要的预测因子。
- Conclusion: 模型架构、上下文长度和多模态输入共同决定GPP预测性能,为未来开发监测陆地碳动态的深度学习框架提供指导。
[323] A Systematic Analysis of Out-of-Distribution Detection Under Representation and Training Paradigm Shifts
C. César Claros Olivares,Austin J. Brockmeier
Main category: cs.LG
TL;DR: 本文系统比较了CLIP分层机制下的OOD检测方法,发现特征空间对OOD检测效果起决定性作用,并为不同分布偏移下的方法选择提供统计依据。
- Motivation: 当前缺乏对不同OOD检测方法在CLIP分层机制下的系统性比较,需要为方法选择提供统计依据。
- Method: 使用AURC和AUGRC作为主要指标,比较CNN和ViT两种表示范式,采用多重比较控制的基于排名的分析流程(Friedman检验和Conover-Holm事后检验)以及Bron-Kerbosch团分析。
- Result: 概率性得分在误分类检测中占主导;在强分布偏移下,几何感知得分在CNN上表现更好,而GradNorm和KPCA重建误差在ViT上保持竞争力;MCD存在类别数量相关的权衡;PCA投影可改进多个检测器。
- Conclusion: 学习到的特征空间在很大程度上决定了OOD检测效果,支持以表示为中心的OOD检测观点,并为分布偏移下的方法选择提供统计指导。
[324] Selecting Fine-Tuning Examples by Quizzing VLMs
Tenghao Ji,Eytan Adar
Main category: cs.LG
TL;DR: QZLoRA是一个通过QuizRank方法自动选择高质量训练图像来改进LoRA微调的框架,能够用更少样本生成更对齐、更逼真的图像。
- Motivation: 在微调文本到图像扩散模型时,从质量参差不齐的图像集(如维基共享资源)中选择训练样本往往导致输出质量不佳。需要选择能代表目标概念的高质量图像来确保生成图像具有典型特征。
- Method: 提出QZLoRA框架,利用QuizRank方法自动对图像进行排名,将图像视为'教育干预'并通过视觉语言模型进行'测验'来选择最佳训练样本,用于低秩适应(LoRA)微调。
- Result: QZLoRA能够用更少样本生成更对齐、更逼真的图像,并且这些微调后的模型也能生成具有代表性的风格化图像(如插图)。
- Conclusion: 将自动视觉推理与参数高效微调相结合,为主题自适应生成建模提供了有前景的解决方案。
[325] Variation-Bounded Loss for Noise-Tolerant Learning
Jialiang Wang,Xiong Zhou,Xianming Liu,Gangfeng Hu,Deming Zhai,Junjun Jiang,Haoliang Li
Main category: cs.LG
TL;DR: 提出了一种新的鲁棒损失函数家族VBL,通过限制变化比率来提升对噪声标签的鲁棒性,理论上证明了较小变化比率能带来更好鲁棒性,并在多个数据集上验证了有效性。
- Motivation: 缓解噪声标签对监督学习的负面影响是一个长期问题,鲁棒损失函数是解决该问题的流行方法。
- Method: 引入变化比率作为损失函数鲁棒性的新属性,提出变化有界损失函数家族VBL,对变化比率进行理论分析,并将常用损失函数重新表述为变化有界形式。
- Result: 在多个数据集上的实验验证了该方法的有效性和灵活性。
- Conclusion: 变化比率提供了一个可行的方法来放宽对称条件,并为实现非对称条件提供了更简洁的路径。
[326] Calibrated Adversarial Sampling: Multi-Armed Bandit-Guided Generalization Against Unforeseen Attacks
Rui Wang,Zeming Wei,Xiyue Zhang,Meng Sun
Main category: cs.LG
TL;DR: 提出了一种名为校准对抗采样(CAS)的高效微调方法,通过多臂老虎机框架动态设计奖励并平衡探索与利用,以提升DNN对多种攻击类型的整体鲁棒性。
- Motivation: 现有的对抗训练框架主要关注单一或有限类型的攻击,导致DNN在实际应用中仍面临未在训练中处理过的攻击类型的安全隐患。
- Method: CAS方法基于多臂老虎机优化视角,考虑多个鲁棒性维度的动态和相互依赖特性,动态设计奖励并平衡探索与利用。
- Result: 在基准数据集上的实验表明,CAS实现了优越的整体鲁棒性,同时保持了较高的干净准确率。
- Conclusion: CAS为DNN的鲁棒泛化提供了一个新的范式,能够有效应对多种类型的对抗攻击。
[327] BSO: Binary Spiking Online Optimization Algorithm
Yu Liang,Yu Yang,Wenjie Wei,Ammar Belatreche,Shuai Wang,Malu Zhang,Yang Yang
Main category: cs.LG
TL;DR: 提出了BSO和T-BSO两种二进制脉冲神经网络在线训练算法,显著减少训练内存需求,通过翻转信号直接更新权重,无需存储潜在权重。
- Motivation: 二进制脉冲神经网络(BSNNs)在资源受限计算中具有效率优势,但其训练算法需要大量内存开销存储潜在权重和处理时序需求。
- Method: BSO算法通过翻转信号直接更新权重,当梯度动量与权重的乘积超过阈值时触发翻转;T-BSO是时序感知变体,利用BSNNs的时序动态特性,跨时间步捕获梯度信息进行自适应阈值调整。
- Result: 理论分析证明了BSO和T-BSO的收敛保证,实验表明两种算法相比现有BSNNs训练方法都实现了更优的优化性能。
- Conclusion: BSO和T-BSO是高效的BSNNs在线训练算法,显著降低内存需求,同时保持良好性能,为资源受限环境下的脉冲神经网络训练提供了有效解决方案。
[328] Linear time small coresets for k-mean clustering of segments with applications
David Denisov,Shlomi Dolev,Dan Felmdan,Michael Segal
Main category: cs.LG
TL;DR: 提出了首个针对任意输入线段k-means问题的核心集构造方法,在常数k和ε下生成大小为O(log²n)的核心集,计算时间为O(nd),实验验证了其在实际应用中的高效性。
- Motivation: 解决线段集合的k-means聚类问题,传统方法处理线段数据效率低下,需要开发能够高效处理任意线段输入的核心集方法,以支持流式、分布式和并行计算。
- Method: 设计了一种核心集构造算法,能够处理任意输入线段,通过加权子集近似原始线段集合的距离函数,在常数k和ε参数下实现对数大小的核心集。
- Result: 理论证明核心集大小为O(log²n),计算复杂度为O(nd)。实验结果表明在视频跟踪等实际应用中,该方法能显著加速计算且聚类精度损失极小。
- Conclusion: 该研究首次为线段k-means问题提供了可证明有效的核心集构造方法,兼具理论保证和实际应用价值,为大规模线段数据处理提供了高效解决方案。
[329] Functional Mean Flow in Hilbert Space
Zhiqi Li,Yuchen Sun,Greg Turk,Bo Zhu
Main category: cs.LG
TL;DR: FMF是一种在无限维希尔伯特空间中定义的一步生成模型,将Mean Flow框架扩展到函数域,提供函数流匹配的理论公式和高效训练采样的实际实现。
- Motivation: 将一步Mean Flow框架扩展到函数域,解决函数数据生成任务的需求。
- Method: 提出函数流匹配的理论公式,引入
-预测变体以提高稳定性,提供高效训练和采样的实际实现。 - Result: 开发出实用的函数流匹配方法,适用于时间序列、图像、PDE和3D几何等多种函数数据生成任务。
- Conclusion: FMF是函数域中实用的一步流匹配框架,为广泛的函数数据生成任务提供了有效解决方案。
[330] Angular Gradient Sign Method: Uncovering Vulnerabilities in Hyperbolic Networks
Minsoo Jo,Dongyoon Yang,Taesup Kim
Main category: cs.LG
TL;DR: 提出了一种针对双曲网络的几何感知对抗攻击方法,通过在双曲空间的切空间中计算梯度并仅使用角度方向进行扰动,生成更有效的对抗样本
- Motivation: 现有对抗攻击方法如FGSM和PGD未考虑双曲网络的非欧几何结构,可能导致效率低下或几何不一致的攻击
- Method: 在双曲空间的切空间中计算损失函数梯度,将其分解为径向(深度)和角度(语义)分量,仅使用角度方向进行扰动
- Result: 在图像分类、跨模态检索任务和网络架构上的实验表明,该方法比传统对抗攻击获得更高的欺骗率,产生高影响力的扰动
- Conclusion: 这项工作强调了在弯曲表示空间中几何感知对抗策略的重要性,并为攻击层次嵌入提供了原则性框架
[331] Real-time prediction of breast cancer sites using deformation-aware graph neural network
Kyunghyun Lee,Yong-Min Shin,Minwoo Shin,Jihun Kim,Sunghwan Lim,Won-Yong Shin,Kyungho Yoon
Main category: cs.LG
TL;DR: 开发基于图神经网络的实时变形预测模型,用于乳腺癌活检中准确预测肿瘤位置变形,提高活检精度和效率。
- Motivation: 解决间接MRI引导活检中实时变形乳腺模型准确性不足的问题,克服直接MRI引导活检时间长、成本高的限制。
- Method: 结合MRI图像结构信息构建个体特异性有限元模型模拟变形行为,使用图神经网络处理表面位移和距离图数据预测组织位移。
- Result: 在幻影和真实患者数据验证中,癌症节点位移预测误差小于0.2毫米,与实际癌区空间重叠度DSC达0.977,计算速度比传统有限元模拟快4000倍。
- Conclusion: 该变形感知GNN模型为乳腺癌活检提供了高精度实时肿瘤位移预测解决方案,有望显著提升乳腺癌诊断的精确性和效率。
[332] Uncovering and Mitigating Transient Blindness in Multimodal Model Editing
Xiaoqi Han,Ru Li,Ran Yi,Hongye Tan,Zhuomin Liang,Víctor Gutiérrez-Basulto,Jeff Z. Pan
Main category: cs.LG
TL;DR: Error
- Motivation: Error
- Method: Error
- Result: Error
- Conclusion: Error
[333] Tuning for Two Adversaries: Enhancing the Robustness Against Transfer and Query-Based Attacks using Hyperparameter Tuning
Pascal Zimmer,Ghassan Karame
Main category: cs.LG
TL;DR: 本文首次系统分析了优化超参数(学习率、权重衰减、动量、批大小)对迁移攻击和查询攻击鲁棒性的影响,发现两者存在显著差异:降低学习率增强对迁移攻击的鲁棒性(提升64%),而提高学习率增强对查询攻击的鲁棒性(提升28%)。分布式模型通过超参数调优能同时有效缓解两种攻击。
- Motivation: 研究优化超参数如何影响对抗攻击鲁棒性,填补了现有研究中对超参数与鲁棒性关系系统性分析的空白,为在实际部署中设计更鲁棒的模型提供指导。
- Method: 通过理论分析和实验验证,在集中训练、集成学习和分布式训练等多种实际部署场景下,系统测试不同优化超参数对迁移攻击和查询攻击鲁棒性的影响。
- Result: 发现学习率对两种攻击的鲁棒性影响存在明显二分现象:降低学习率显著提升对迁移攻击的鲁棒性(最高64%),提高学习率则增强对查询攻击的鲁棒性(最高28%)。分布式模型通过超参数调优能最佳地平衡两种攻击的防御效果。
- Conclusion: 优化超参数是影响模型对抗攻击鲁棒性的关键因素,且对不同类型的攻击影响方向相反。通过精心设计超参数,特别是对分布式模型进行调优,可以同时有效提升对迁移攻击和查询攻击的鲁棒性。
cs.HC
[334] Enhancing XR Auditory Realism via Multimodal Scene-Aware Acoustic Rendering
Tianyu Xu,Jihan Li,Penghe Zu,Pranav Sahay,Maruchi Kim,Jack Obeng-Marnu,Farley Miller,Xun Qian,Katrina Passarella,Mahitha Rachumalla,Rajeev Nongpiur,D. Shin
Main category: cs.HC
TL;DR: SAMOSA是一个在设备上实时渲染空间音频的系统,通过融合房间几何、表面材料和语义驱动的声学上下文来动态适应物理环境,提升XR体验的听觉真实感。
- Motivation: 现有XR空间音频渲染方法难以实时适应不同物理场景,导致视觉和听觉线索不匹配,破坏用户沉浸感。
- Method: 利用多模态场景表示融合实时估计的房间几何、表面材料和语义驱动的声学上下文,通过场景先验进行高效声学校准,合成高度真实的房间脉冲响应。
- Result: 通过声学指标和专家评估验证了SAMOSA在各种房间配置和声音类型下的可行性,显著提升了XR听觉真实感。
- Conclusion: SAMOSA系统证明了在设备上实现动态适应物理环境的空间音频渲染的可行性和有效性。
[335] Trust in Vision-Language Models: Insights from a Participatory User Workshop
Agnese Chiatti,Lara Piccolo,Sara Bernardini,Matteo Matteucci,Viola Schiaffonati
Main category: cs.HC
TL;DR: 该论文通过用户工作坊初步探讨了用户对视觉语言模型(VLMs)信任度的建立与演变过程,为未来研究提供基础。
- Motivation: 随着视觉语言模型的广泛部署,需要开发工具帮助用户判断何时信任这些系统,但目前对用户信任如何建立和演变的研究仍不充分。
- Method: 采用以用户为中心的方法,与潜在VLM用户进行工作坊,收集初步见解。
- Result: 从试点工作坊获得的见解为未来研究提供了基础,旨在将信任度指标和参与者参与策略情境化,以适应用户-VLM交互的情况。
- Conclusion: 需要进一步研究来理解用户对VLMs的信任动态,并为用户提供更好的信任判断工具。
stat.AP
[336] Scalable Vision-Guided Crop Yield Estimation
Harrison H. Li,Medhanie Irgau,Nabil Janmohamed,Karen Solveig Rieckmann,David B. Lobell
Main category: stat.AP
TL;DR: 提出基于预测驱动推理(PPI)的方法,结合田间照片补充传统作物切割测量,提高作物产量估计精度和不确定性量化,在撒哈拉以南非洲水稻和玉米田上验证有效。
- Motivation: 传统作物切割测量方法耗时,需要更高效的方法来精确估计作物产量和不确定性,以支持农业监测和决策。
- Method: 使用预测驱动推理(PPI),训练计算机视觉模型从田间照片预测产量,学习控制函数重新校准预测,结合空间坐标信息,利用有照片但无作物切割的田块提高区域平均产量估计精度。
- Result: 在仅有20个田块的区域,点估计相比基线显著改善,水稻有效样本量增加73%,玉米增加12-23%,置信区间更短且覆盖性良好。
- Conclusion: 低成本图像技术可提高作物保险可负担性,促进可持续农业实践投资。
cs.CL
[337] Seeing is Believing: Rich-Context Hallucination Detection for MLLMs via Backward Visual Grounding
Pinxue Guo,Chongruo Wu,Xinyu Zhou,Lingyi Hong,Zhaoyu Chen,Jinglun Li,Kaixun Jiang,Sen-ching Samson Cheung,Wei Zhang,Wenqiang Zhang
Main category: cs.CL
TL;DR: VBackChecker是一个无需参考的幻觉检测框架,通过像素级定位LLM验证MLLM生成响应与视觉输入的一致性,在R²-HalBench基准上达到SOTA性能,甚至媲美GPT-4o。
- Motivation: 多模态大语言模型虽然具备强大的跨模态能力,但存在严重的幻觉问题,需要准确检测以确保在实际应用中的可靠性。
- Method: 基于"眼见为实"原则,利用具备推理和参考分割能力的像素级定位LLM,设计了创新的指令调优数据生成管道(R-Instruct),包含丰富上下文描述、定位掩码和困难负样本。
- Result: 在R²-HalBench基准上超越先前复杂框架,达到最先进性能,与GPT-4o能力相当;在像素级定位任务中比先前方法提升超过10%。
- Conclusion: VBackChecker提供了一个无需参考、可解释的幻觉检测解决方案,有效处理丰富上下文场景,在幻觉检测和像素级定位方面均表现出色。
[338] Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data
Yunxin Li,Xinyu Chen,Shenyuan Jiang,Haoyuan Shi,Zhenyu Liu,Xuanyu Zhang,Nanhao Deng,Zhenran Xu,Yicheng Ma,Meishan Zhang,Baotian Hu,Min Zhang
Main category: cs.CL
TL;DR: Uni-MoE 2.0是一个全开源的跨模态大模型,基于Qwen2.5-7B架构构建,通过动态容量MoE设计、渐进式训练策略和跨模态数据匹配技术,实现了语言中心的多模态理解、推理和生成能力。
- Motivation: 推进Lychee的Uni-MoE系列在语言中心多模态理解、推理和生成方面的能力,构建一个能够处理10种跨模态输入的全能模型。
- Method: 采用动态容量MoE框架(共享、路由和空专家)、Omni-Modality 3D RoPE实现跨模态对齐、渐进式监督微调策略,以及迭代GSPO-DPO方法稳定强化学习训练。
- Result: 在85个基准测试中达到SOTA或极具竞争力性能,在76个基准中超过50个优于Qwen2.5-Omni(使用1.2T token训练),在视频理解、跨模态理解和视听推理方面表现突出。
- Conclusion: Uni-MoE 2.0证明了通过精心设计的MoE架构和训练策略,可以在相对较少的数据(75B token)下实现与更大规模模型相媲美的跨模态性能。
[339] From Perception to Reasoning: Deep Thinking Empowers Multimodal Large Language Models
Wenxin Zhu,Andong Chen,Yuchen Song,Kehai Chen,Conghui Zhu,Ziyan Chen,Tiejun Zhao
Main category: cs.CL
TL;DR: 本文系统综述了多模态思维链(MCoT)的研究进展,分析了其背景动机、主流方法、评估基准和应用场景,并讨论了当前挑战和未来研究方向。
- Motivation: 随着多模态大语言模型在感知任务中的成功,提升其复杂推理能力成为关键研究方向。现有模型存在推理路径不透明和泛化能力不足等问题,而思维链推理在语言模型中已证明能增强推理透明度和输出可解释性,有望在跨模态领域提升模型推理能力。
- Method: 从三个维度介绍主流MCoT方法:思维链范式、后训练阶段和推理阶段,并分析其底层机制。
- Result: 总结了现有的评估基准和指标,讨论了MCoT的应用场景。
- Conclusion: 分析了MCoT当前面临的挑战,并对其未来研究方向进行了展望。
[340] Crossing Borders: A Multimodal Challenge for Indian Poetry Translation and Image Generation
Sofia Jamil,Kotla Sai Charan,Sriparna Saha,Koustava Goswami,Joseph K J
Main category: cs.CL
TL;DR: 提出了TAI框架,利用LLM和潜在扩散模型,通过翻译和图像生成增强印度诗歌的可访问性,支持联合国可持续发展目标。
- Motivation: 印度诗歌具有语言复杂性和文化深度,但现有研究忽视了印度语言诗歌,且其多层含义和文化典故对非母语读者构成理解挑战。
- Method: TAI框架包含:(1)使用几率比偏好对齐算法的翻译模块,准确翻译形态丰富的诗歌;(2)使用语义图捕捉标记、依赖关系和隐喻语义关系的图像生成模块。
- Result: 综合实验评估显示TAI Diffusion在诗歌图像生成任务中优于强基线,并创建了包含21种低资源印度语言的1,570首诗歌的MorphoVerse数据集。
- Conclusion: 通过解决诗歌翻译和视觉理解的空白,该工作旨在扩大可访问性并丰富读者体验。
cs.RO
[341] Tactile Data Recording System for Clothing with Motion-Controlled Robotic Sliding
Michikuni Eguchi,Takekazu Kitagishi,Yuichi Hiroi,Takefumi Hiraki
Main category: cs.RO
TL;DR: 提出基于机械臂的系统,通过模拟指尖滑动运动收集服装触觉数据,创建带运动标签的多模态触觉数据库,证明运动相关参数能提高识别精度。
- Motivation: 服装的触感对穿着舒适度至关重要,需要系统收集滑动运动中的触觉数据来揭示影响舒适度的物理特性。
- Method: 使用机械臂系统对完整服装进行触觉数据收集,通过模拟指尖进行滑动测量,精确控制速度和方向。
- Result: 机器学习评估显示,包含运动相关参数提高了音频和加速度数据的识别准确率,证明了运动相关标签在表征服装触感方面的有效性。
- Conclusion: 该系统提供了一种可扩展、非破坏性的服装触觉数据采集方法,有助于未来织物感知和再现的研究。
[342] Image-based Morphological Characterization of Filamentous Biological Structures with Non-constant Curvature Shape Feature
Jie Fan,Francesco Visentin,Barbara Mazzolai,Emanuela Del Dottore
Main category: cs.RO
TL;DR: 提出一种基于图像的3D几何建模方法,用于分析卷须在机械刺激下的形状变化,该方法比深度学习更高效且可解释,揭示了卷须顶端区域具有更高的响应性。
- Motivation: 研究攀援植物卷须的形状变化与机械刺激触发事件及接触位置之间的关系,以深入理解植物生物力学。
- Method: 采用基于3D分段回旋曲线的几何方法重建卷须在机械摩擦后的形态配置,通过图像分析时间序列形状变化。
- Result: 重建方法具有高鲁棒性和可靠性(R2 > 0.99),显示卷须顶端区域响应性更高,可能对应该区域更高的敏感性和组织柔韧性。
- Conclusion: 该方法为植物生物力学研究提供了新工具,并为受攀援植物启发的智能机器人系统设计奠定了基础。
[343] Large Language Models and 3D Vision for Intelligent Robotic Perception and Autonomy: A Review
Vinit Mehta,Charu Sharma,Karthick Thiyagarajan
Main category: cs.RO
TL;DR: 本文综述了大型语言模型与3D视觉在机器人感知技术中的融合应用,分析了现有方法、应用场景和挑战,并展望了未来研究方向。
- Motivation: 随着人工智能和机器人技术的快速发展,将LLMs与3D视觉结合能够增强机器对复杂环境的感知、推理和交互能力,弥合语言智能与空间感知之间的鸿沟。
- Method: 首先介绍LLMs和3D数据表示的基础原理,深入分析机器人3D感知技术,探讨场景理解、文本到3D生成、物体定位和具身智能体等关键进展,包括零样本3D分割、动态场景合成和语言引导操作等先进技术。
- Result: 综述了多模态LLMs整合3D数据与触觉、听觉和热输入的方法,增强了环境理解和机器人决策能力,并整理了专门用于3D-语言和视觉任务的基准数据集和评估指标。
- Conclusion: 识别了关键挑战和未来研究方向,包括自适应模型架构、增强跨模态对齐和实时处理能力,这些将为更智能、上下文感知和自主的机器人感知系统铺平道路。
[344] PIGEON: VLM-Driven Object Navigation via Points of Interest Selection
Cheng Peng,Zhenzhe Zhang,Cheng Chi,Xiaobao Wei,Yanhao Zhang,Heng Wang,Pengwei Wang,Zhongyuan Wang,Jing Liu,Shanghang Zhang
Main category: cs.RO
TL;DR: PIGEON是一种基于兴趣点引导的物体导航方法,使用视觉语言模型选择探索过程中的兴趣点,通过分层决策提高决策频率,并生成可验证奖励的强化学习数据。
- Motivation: 当前物体导航方法难以平衡决策频率与智能性,导致决策缺乏前瞻性或动作不连续,需要一种能在未知环境中高效导航到指定物体的方法。
- Method: 使用PIGEON-VL视觉语言模型在探索过程中选择兴趣点,维护轻量级语义对齐快照记忆,通过低级规划器输出动作,并生成RLVR数据用于模拟器训练。
- Result: 在经典物体导航基准测试中,零样本迁移方法达到最先进性能,RLVR进一步增强了模型的语义引导能力,实现实时导航中的深度推理。
- Conclusion: PIGEON方法通过兴趣点引导和分层决策有效解决了物体导航中的决策频率与智能性平衡问题,RLVR数据增强了语义理解能力。
cs.IR
[345] Attention Grounded Enhancement for Visual Document Retrieval
Wanqing Cui,Wei Huang,Yazhi Guo,Yibo Hu,Meiguang Jin,Junfeng Ma,Keping Bi
Main category: cs.IR
TL;DR: 提出了AGREE框架,通过多模态大语言模型的跨模态注意力作为局部监督信号,结合全局监督共同优化文档检索器,提升对非抽取式查询的处理能力。
- Motivation: 现有检索器仅使用粗粒度的全局相关性标签进行训练,无法识别支持匹配的具体文档区域,导致依赖表面线索且难以处理隐含语义连接。
- Method: AGREE框架利用多模态大语言模型的跨模态注意力作为代理局部监督,指导识别相关文档区域,在训练中结合局部信号和全局信号联合优化检索器。
- Result: 在ViDoRe V2基准测试中,AGREE显著优于仅使用全局监督的基线方法,定量和定性分析表明其促进了查询词与文档区域的深度对齐。
- Conclusion: AGREE框架通过局部监督使检索器能够学习驱动相关性的具体内容,超越了表面级匹配,实现了更准确和可解释的检索。
cs.GR
[346] TR-Gaussians: High-fidelity Real-time Rendering of Planar Transmission and Reflection with 3D Gaussian Splatting
Yong Liu,Keyang Ye,Tianjia Shao,Kun Zhou
Main category: cs.GR
TL;DR: 提出了TR-Gaussians,一种基于3D高斯的新型表示方法,用于平面透射和反射的高保真渲染,在室内场景中实现实时高质量新视角合成。
- Motivation: 室内场景中普遍存在平面透射和反射现象,现有方法难以对这些复杂外观效果进行高保真渲染。
- Method: 结合3D高斯与可学习反射平面,明确建模具有视角相关反射强度的玻璃平面。透射分量由3D高斯建模,反射分量由相对于反射平面的镜像高斯建模,采用基于菲涅耳的视角相关权重方案进行混合。
- Result: 在不同数据集上的实验表明,TR-Gaussians在具有平面透射和反射的场景中实现了实时高保真新视角合成,在定量和定性评估上都优于最先进方法。
- Conclusion: TR-Gaussians能够有效建模平面透射和反射,为室内场景渲染提供了一种高效的解决方案。
eess.IV
[347] Slow - Motion Video Synthesis for Basketball Using Frame Interpolation
Jiantang Huang
Main category: eess.IV
TL;DR: 提出基于RIFE网络的实时篮球慢动作合成系统,通过在SportsSloMo数据集上进行微调,显著提升了篮球视频慢动作生成质量。
- Motivation: 传统篮球转播帧率(30-60 fps)限制了观众欣赏快速动作(如扣篮和变向)的能力,需要高质量的实时慢动作合成技术。
- Method: 从SportsSloMo数据集中提取篮球子集,使用人体感知随机裁剪技术微调RIFE网络,构建端到端的4倍慢动作生成系统。
- Result: 微调后的RIFE模型达到平均PSNR 34.3 dB和SSIM 0.949,分别比Super SloMo和基线RIFE高出2.1 dB和1.3 dB,在RTX 4070 Ti Super上实现约30 fps的实时处理。
- Conclusion: 任务特定的适应对体育慢动作至关重要,RIFE在消费者应用中提供了理想的精度-速度权衡。
[348] A Deep Learning Framework for Thyroid Nodule Segmentation and Malignancy Classification from Ultrasound Images
Omar Abdelrazik,Mohamed Elsayed,Noorul Wahab,Nasir Rajpoot,Adam Shephard
Main category: eess.IV
TL;DR: 提出一个完全自动化的两阶段框架,用于甲状腺结节超声图像的恶性预测,通过TransUNet分割结节并使用ResNet-18分类,实现高F1分数0.852。
- Motivation: 解决超声甲状腺结节风险分层中观察者间差异大的问题,同时提供可解释的深度学习模型。
- Method: 两阶段框架:首先用TransUNet自动分割甲状腺结节,然后用分割掩码创建感兴趣区域,最后用ResNet-18分类器进行恶性预测。
- Result: 在349张临床图像上通过5折交叉验证获得F1分数0.852,优于使用手工形态特征的随机森林基线(F1分数0.829)。
- Conclusion: 这是首个完全自动化的端到端管道,既能检测超声图像中的甲状腺结节,又能预测其恶性程度,表明从局部结节学习的隐式视觉特征比显式形状特征更具预测性。
[349] Recursive Threshold Median Filter and Autoencoder for Salt-and-Pepper Denoising: SSIM analysis of Images and Entropy Maps
Petr Boriskov,Kirill Rudkovskii,Andrei Velichko
Main category: eess.IV
TL;DR: 该论文研究了使用中值滤波器和简单三层自编码器在递归阈值算法中去除图像椒盐噪声的方法,提出了两种可扩展方案,并验证了新的SSIMMap指标对模糊评估和去噪参数调优的实用价值。
- Motivation: 研究图像椒盐噪声去除方法,探索中值滤波器和自编码器在不同噪声水平下的性能,并开发更敏感的评估指标来补充传统的SSIMImg指标。
- Method: 采用递归阈值算法结合中值滤波器和简单三层自编码器,提出了两种可扩展方案:2MF(使用两个不同窗口大小的中值滤波器加最终阈值处理)和MFs-AE(通过自编码器聚合多个中值滤波器的特征)。
- Result: 实验表明递归阈值中值滤波器在强噪声(50-60%)下仍能稳健恢复图像,而简单自编码器仅适用于低噪声水平(<30%)。SSIMMap指标对模糊和局部强度转换更敏感,能有效补充SSIMImg。
- Conclusion: 中值滤波器因其简单性和计算效率,在资源受限平台上更受青睐;自编码器在没有预去噪的情况下表现不佳。SSIMMap在客观模糊评估和去噪参数调优中具有实用价值。
[350] Deep Unfolded BM3D: Unrolling Non-local Collaborative Filtering into a Trainable Neural Network
Kerem Basim,Mehmet Ozan Unal,Metin Ertas,Isa Yildirim
Main category: eess.IV
TL;DR: 提出了DU-BM3D,一种将BM3D展开为可训练架构的混合框架,用可学习的U-Net去噪器替代固定协作滤波,在低剂量CT去噪中优于传统BM3D和独立U-Net。
- Motivation: BM3D利用非局部自相似性先验进行去噪但依赖固定参数,而深度模型如U-Net更灵活但缺乏可解释性且无法跨噪声机制泛化。
- Method: 通过将BM3D展开为可训练架构,用可学习的U-Net去噪器替代其固定协作滤波,保留BM3D的非局部结构先验同时支持端到端优化。
- Result: 在低剂量CT去噪评估中,DU-BM3D在不同噪声水平下均优于传统BM3D和独立U-Net,获得更高的PSNR和SSIM,特别是在高噪声条件下。
- Conclusion: DU-BM3D成功结合了BM3D的结构先验和深度学习的灵活性,在CT去噪任务中表现出优越性能。
[351] Multimodal RGB-HSI Feature Fusion with Patient-Aware Incremental Heuristic Meta-Learning for Oral Lesion Classification
Rupam Mukherjee,Rajkumar Daniel,Soujanya Hazra,Shirin Dasgupta,Subhamoy Mandal
Main category: eess.IV
TL;DR: 提出了一种统一的口腔病变四分类器,结合深度RGB嵌入、高光谱重建、手工光谱纹理特征和人口统计学元数据,通过增量启发式元学习器提升口腔癌筛查的鲁棒性。
- Motivation: 在低资源环境中,由于标注数据有限,口腔癌和潜在恶性病变的早期检测具有挑战性。
- Method: 使用微调的ConvNeXt-v2编码器处理口腔图像,进行RGB到HSI重建生成31波段高光谱立方体,提取血红蛋白敏感指数、纹理特征和光谱形状度量,与深度特征和临床特征融合,采用增量启发式元学习器结合校准基分类器。
- Result: 在未见患者分割上,该框架实现了66.23%的宏观F1分数和64.56%的准确率。
- Conclusion: 高光谱重建和不确定性感知元学习显著提高了现实世界口腔病变筛查的鲁棒性。
[352] RAA-MIL: A Novel Framework for Classification of Oral Cytology
Rupam Mukherjee,Rajkumar Daniel,Soujanya Hazra,Shirin Dasgupta,Subhamoy Mandal
Main category: eess.IV
TL;DR: 提出了首个弱监督深度学习框架用于口腔细胞学全玻片图像的病人级别诊断,通过多实例学习和区域亲和注意力机制,在未见测试集上达到72.7%的平均准确率。
- Motivation: 手动检查口腔细胞学全玻片图像速度慢、主观性强且依赖专家病理学家,需要开发AI辅助的自动化诊断方法。
- Method: 使用多实例学习框架,将每个病人病例表示为细胞学补丁包,并提出区域亲和注意力MIL模型来建模玻片内区域间的空间关系。
- Result: RAA-MIL模型在未见测试集上达到72.7%的平均准确率和0.69的加权F1分数,优于基线模型。
- Conclusion: 这项研究建立了首个病人级别弱监督的口腔细胞学基准,推动了可靠的AI辅助数字病理学发展。
[353] MTMed3D: A Multi-Task Transformer-Based Model for 3D Medical Imaging
Fan Li,Arun Iyengar,Lanyu Xu
Main category: eess.IV
TL;DR: 提出了MTMed3D,首个基于Transformer的多任务学习模型,在3D医学影像中同时执行检测、分割和分类任务,显著降低计算成本并保持性能。
- Motivation: 当前医学影像AI主要使用单任务模型,忽略了任务间的共享信息,导致实际应用效率低下。
- Method: 使用Transformer作为共享编码器生成多尺度特征,结合CNN任务特定解码器,在BraTS数据集上进行端到端多任务学习。
- Result: 在BraTS 2018和2019数据集上取得良好结果,检测任务表现优于先前工作,多任务模型比单任务变体显著降低计算成本并加速推理。
- Conclusion: 这是首个在3D医学影像中同时处理检测、分割和分类的Transformer多任务学习工作,展示了提升诊断流程的潜力。
[354] DEMIST: \underline{DE}coupled \underline{M}ulti-stream latent d\underline{I}ffusion for Quantitative Myelin Map \underline{S}yn\underline{T}hesis
Jiacheng Wang,Hao Li,Xing Yao,Ahmad Toubasi,Taegan Vinarsky,Caroline Gheen,Joy Derwenskus,Chaoyang Jin,Richard Dortch,Junzhong Xu,Francesca Bagnato,Ipek Oguz
Main category: eess.IV
TL;DR: DEMIST使用3D潜在扩散模型从标准T1w和FLAIR图像合成PSR图,通过三种互补条件机制实现,相比传统qMT扫描时间从20-30分钟大幅缩短。
- Motivation: 传统qMT成像需要专门的20-30分钟扫描时间,限制了临床应用。需要一种从标准MRI序列快速合成PSR图的方法。
- Method: 两阶段方法:1) 训练PSR和解剖图像的自编码器学习对齐潜在表示;2) 在潜在空间训练条件扩散模型,使用语义token、空间残差提示和自适应LoRA三种条件机制。
- Result: 在163个扫描的5折交叉验证中,DEMIST在多个指标上优于VAE、GAN和扩散基线,产生更清晰的边界和更好的定量一致性。
- Conclusion: DEMIST能够从标准MRI序列高效合成PSR图,为多发性硬化评估提供了实用的替代方案。
[355] Improving the Generalisation of Learned Reconstruction Frameworks
Emilien Valat,Ozan Öktem
Main category: eess.IV
TL;DR: 提出GLM混合神经网络架构,结合图卷积和网格卷积处理CT数据,相比传统CNN在性能、参数效率和泛化能力方面都有显著提升。
- Motivation: 传统CNN在CT成像中处理投影数据时存在局限性,因为投影数据本质上是线流形上的数据而非规则网格,CNN无法理解几何关系,需要大量参数且泛化能力差。
- Method: 引入图数据结构表示CT采集几何和断层数据,提出GLM混合架构,同时利用图卷积和网格卷积处理断层数据。
- Result: GLM在结构相似性和峰值信噪比方面优于CNN,且仅使用少量可训练参数,训练时间和内存需求更少,内存扩展性更好,对未见过的采集几何变化具有鲁棒泛化能力。
- Conclusion: GLM架构通过结合图卷积和网格卷积,有效解决了CT成像中数据驱动的逆问题泛化挑战,在性能、效率和泛化能力方面均优于传统CNN方法。
[356] BrainNormalizer: Anatomy-Informed Pseudo-Healthy Brain Reconstruction from Tumor MRI via Edge-Guided ControlNet
Min Gu Kwak,Yeonju Lee,Hairong Wang,Jing Li
Main category: eess.IV
TL;DR: BrainNormalizer是一个基于扩散模型的框架,能够直接从肿瘤MRI重建伪健康MRI,通过边界引导生成解剖学上合理的参考图像,无需配对数据。
- Motivation: 脑肿瘤导致显著的解剖变形,但临床实践中无法获得无肿瘤的个体特异性参考图像,这给诊断、治疗规划和手术导航带来困难。
- Method: 采用两阶段训练策略:首先通过修复式微调预训练扩散模型,然后训练边缘图引导的ControlNet分支注入解剖轮廓。推理时使用故意错配策略,将肿瘤输入与非肿瘤提示和镜像对侧边缘图配对。
- Result: 在BraTS2020数据集上,BrainNormalizer实现了强大的定量性能,在肿瘤区域产生解剖学上合理的重建,同时保持整体结构一致性。
- Conclusion: BrainNormalizer为治疗规划提供临床可靠的解剖参考,并支持反事实建模和肿瘤诱导变形分析的新研究方向。
[357] Inertia-Informed Orientation Priors for Event-Based Optical Flow Estimation
Pritam P. Karmokar,William J. Beksi
Main category: eess.IV
TL;DR: 提出了一种基于对比度最大化的生物启发混合方法,结合视觉和惯性运动线索来估计事件相机的光流,使用方向图作为先验来引导优化过程。
- Motivation: 事件相机直接编码场景运动,但其时间密集、空间稀疏的特性给光流估计带来挑战。对比度最大化方法虽然有效,但仍是高度非凸优化问题。
- Method: 提出混合对比度最大化方法,使用从相机3D速度导出的方向图作为先验,为运动轨迹估计提供方向性指导并约束搜索空间。
- Result: 在MVSEC、DSEC和ECD数据集上的评估显示,该方法在精度上优于现有最先进方法,具有更好的鲁棒性和收敛性。
- Conclusion: 方向图引导的对比度最大化方法能有效改善事件相机光流估计的鲁棒性和收敛性,在多个数据集上达到最先进性能。
cs.CY
[358] Understanding the Representation of Older Adults in Motion Capture Locomotion Datasets
Yunkai Yu,Yingying Wang,Rong Zheng
Main category: cs.CY
TL;DR: 该研究调查了41个公开运动捕捉数据集,发现老年人参与度低,且模拟的老年风格行走动作无法真实反映衰老特征,提出了定量评估老年风格行走动作质量的方法。
- Motivation: 现有运动捕捉数据集中老年人代表性不足,且模拟的老年风格行走动作的真实性未得到充分验证,这对基于这些数据训练的医疗应用模型可靠性构成挑战。
- Method: 调查41个公开数据集,识别包含老年人动作的数据集;引入定量指标评估老年风格行走动作的保真度,使用对年龄敏感、抗噪声且能应对数据稀缺的步态参数。
- Result: 老年人仅占总体参与者的小部分,提供全身运动数据的更少;老年风格行走动作常表现出过度控制的模式,无法真实刻画衰老特征。
- Conclusion: 需要改进运动数据集中老年人的代表性,并建立了定量评估老年风格行走动作质量的方法。
cs.AI
[359] Value-Aligned Prompt Moderation via Zero-Shot Agentic Rewriting for Safe Image Generation
Xin Zhao,Xiaojun Chen,Bingshan Liu,Zeyao Liu,Zhendong Zhao,Xiaoyan Gu
Main category: cs.AI
TL;DR: VALOR是一个模块化、零样本的代理框架,通过分层提示分析和价值对齐推理来确保文本到图像生成的安全性,在保持生成质量的同时显著减少不安全输出。
- Motivation: 生成式视觉语言模型在创意媒体合成方面表现出色,但在对抗性提示下可能产生不安全、冒犯性或文化不适当的内容。现有防御方法难以在不牺牲生成质量或产生高成本的情况下使输出与人类价值观对齐。
- Method: VALOR框架包含多层NSFW检测器过滤词汇和语义风险、文化价值对齐模块识别社会规范和法律伦理违规、意图消歧器检测隐晦不安全含义。检测到不安全内容时,由大语言模型在动态角色特定指令下选择性重写提示,若生成图像仍不安全则进行风格化再生。
- Result: 在对抗性、模糊性和价值敏感提示上的实验表明,VALOR将不安全输出减少高达100.00%,同时保持了提示的有用性和创造性。
- Conclusion: VALOR是一种可扩展且有效的方法,可在开放世界环境中部署安全、对齐且有用的图像生成系统。
[360] TopoPerception: A Shortcut-Free Evaluation of Global Visual Perception in Large Vision-Language Models
Wenhao Zhou,Hao Zheng,Rong Zhao
Main category: cs.AI
TL;DR: TopoPerception是一个基于拓扑属性的基准测试,用于严格评估大型视觉语言模型的全局视觉感知能力,发现现有模型在全局感知方面表现不佳,甚至不如随机猜测。
- Motivation: 现有的大型视觉语言模型评估基准存在局部捷径问题,可能导致高估模型的感知能力。需要一种无捷径的方法来评估模型的全局视觉感知能力。
- Method: 利用拓扑属性创建TopoPerception基准测试,因为拓扑依赖于图像的全局结构且对局部特征不变,能够实现无捷径的全局感知评估。
- Result: 所有最先进模型在最粗略的感知粒度上都表现不佳,准确率不高于随机机会。更强大的模型反而表现出更低的准确率。
- Conclusion: 仅扩大模型规模不足以解决全局视觉感知缺陷,可能需要新的训练范式或架构。TopoPerception揭示了当前LVLMs的关键瓶颈并提供了改进方向。
[361] End to End AI System for Surgical Gesture Sequence Recognition and Clinical Outcome Prediction
Xi Li,Nicholas Matsumoto,Ujjwal Pasupulety,Atharva Deo,Cherine Yang,Jay Moran,Miguel E. Hernandez,Peter Wager,Jasmine Lin,Jeanine Kim,Alvin C. Goh,Christian Wagner,Geoffrey A. Sonn,Andrew J. Hung
Main category: cs.AI
TL;DR: F2O是一个端到端系统,可将组织解剖视频转化为手势序列,并发现与术后结果相关的模式,为数据驱动的手术反馈提供基础。
- Motivation: 术中行为的细粒度分析及其对患者结果的影响是一个长期挑战,需要自动化的可解释评估方法。
- Method: 利用基于transformer的空间和时间建模以及逐帧分类,在机器人辅助根治性前列腺切除术中稳健检测连续短手势。
- Result: F2O在帧级和视频级的手势检测AUC分别达到0.80和0.81,其衍生特征预测术后结果的准确性与人工标注相当(0.79 vs 0.75)。
- Conclusion: F2O通过实现自动可解释评估,为数据驱动的手术反馈和前瞻性临床决策支持奠定了基础。
[362] Adaptive Diagnostic Reasoning Framework for Pathology with Multimodal Large Language Models
Yunqi Hong,Johnson Kao,Liam Edwards,Nein-Tzu Liu,Chung-Yen Huang,Alex Oliveira-Kowaleski,Cho-Jui Hsieh,Neil Y. C. Lin
Main category: cs.AI
TL;DR: RECAP-PATH是一个可解释的病理AI框架,通过自学习范式将多模态大语言模型从被动模式识别转变为证据关联的诊断推理,无需大量标注数据即可生成癌症诊断。
- Motivation: 当前病理AI系统缺乏人类可读的推理过程,难以审计决策和防止错误,限制了临床应用。
- Method: 采用两阶段自学习过程:多样化阶段扩展病理学风格解释,优化阶段精炼解释以提高准确性,无需白盒访问或权重更新。
- Result: 在乳腺癌和前列腺癌数据集上评估,RECAP-PATH产生的推理与专家评估一致,诊断准确性显著优于基线方法。
- Conclusion: RECAP-PATH通过结合视觉理解和推理能力,提供了临床可信赖的AI,展示了证据关联解释的通用路径。
[363] AURA: Development and Validation of an Augmented Unplanned Removal Alert System using Synthetic ICU Videos
Junhyuk Seo,Hyeyoon Moon,Kyu-Hwan Jung,Namkee Oh,Taerim Kim
Main category: cs.AI
TL;DR: AURA是一个基于视觉的风险检测系统,使用完全合成的ICU视频数据集开发,用于实时检测非计划性拔管风险。系统通过姿态估计识别两种高风险运动模式:碰撞(手进入气道管附近区域)和躁动(通过解剖关键点速度量化)。
- Motivation: ICU中非计划性拔管是严重的安全问题,但由于伦理和隐私问题难以获取标注的ICU视频数据,限制了实时检测技术的发展。
- Method: 利用文本到视频扩散技术生成多样且临床真实的ICU场景,应用姿态估计检测两种高风险模式:碰撞(手进入气道管附近空间区域)和躁动(跟踪解剖关键点的速度)。
- Result: 专家评估确认合成数据的真实性,性能评估显示碰撞检测准确率高,躁动识别性能中等。
- Conclusion: 这项工作展示了一种开发隐私保护、可复现的患者安全监测系统的新途径,具有在重症监护环境中部署的潜力。
[364] Yanyun-3: Enabling Cross-Platform Strategy Game Operation with Vision-Language Models
Guoyan Wang,Yanyan Huang,Chunlin Chen,Lifeng Wang,Yuxiang Sun
Main category: cs.AI
TL;DR: Yanyun-3是一个通用智能体框架,首次实现了在三种异构策略游戏环境中的自主跨平台操作,通过融合视觉语言推理和精确执行能力,在目标定位、资源分配和区域控制等核心任务上表现出色。
- Motivation: 解决跨平台策略游戏中自动化操作的需求,探索视觉语言模型在复杂人机交互场景中的应用潜力,特别是策略游戏这类动态战场环境。
- Method: 集成Qwen2.5-VL的视觉语言推理能力和UI-TARS的精确执行能力,采用屏幕捕获-模型推理-动作执行的闭环流程,并研究不同多模态数据组合策略(静态图像、多图像序列、视频)的效果。
- Result: 混合策略(融合多图像和视频数据,同时混合静态图像)相比完全融合策略,推理时间减少63%,BLEU-4得分从4.81%提升至62.41%(约12.98倍提升),展现出强大的实时性能和跨平台泛化能力。
- Conclusion: 该工作不仅为策略游戏自动化提供了高效解决方案,还通过结构化多模态数据组织建立了增强VLM性能的通用范式,为具身智能中静态感知与动态推理的交互提供了新见解。
[365] MEGA-GUI: Multi-stage Enhanced Grounding Agents for GUI Elements
SeokJoo Kwak,Jihoon Kim,Boyoun Kim,Jung Jae Yoon,Wooseok Jang,Jeonghoon Hong,Jaeho Yang,Yeong-Dae Kwon
Main category: cs.AI
TL;DR: MEGA-GUI是一个多阶段GUI定位框架,通过将自然语言指令映射到屏幕坐标的任务分解为粗粒度ROI选择和细粒度元素定位,使用专门的视觉语言代理协调处理,在视觉密集和语义复杂的基准测试中超越了现有方法。
- Motivation: 现有的GUI定位系统依赖单一模型或一次性流程,缺乏模块化,在视觉杂乱和模糊指令下表现不佳,需要更鲁棒和可扩展的解决方案。
- Method: 采用多阶段框架:1) 粗粒度ROI选择;2) 细粒度元素定位;3) 双向ROI缩放算法减少空间稀释;4) 上下文感知重写代理减少语义模糊。
- Result: 在视觉密集的ScreenSpot-Pro基准上达到73.18%准确率,在语义复杂的OSWorld-G基准上达到68.63%准确率,超越了之前报告的结果。
- Conclusion: 模块化结构能够利用不同视觉尺度下视觉语言模型的互补优势,相比单一方法实现更一致的更高准确率。
[366] MM-Telco: Benchmarks and Multimodal Large Language Models for Telecom Applications
Gagan Raj Gupta,Anshul Kumar,Manish Rai,Apu Chakraborty,Ashutosh Modi,Abdelaali Chaoub,Soumajit Pramanik,Moyank Giri,Yashwanth Holla,Sunny Kumar,M. V. Kiran Sooraj
Main category: cs.AI
TL;DR: MM-Telco是一个为电信领域定制的多模态基准测试套件和模型,旨在解决LLMs在电信应用中的领域特定挑战,提升网络优化、故障排除等任务的性能。
- Motivation: 大型语言模型在电信领域有巨大应用潜力,但面临领域特定挑战,需要专门适配来加速其在电信行业的应用。
- Method: 提出MM-Telco多模态基准测试套件,包含文本和图像任务,涵盖网络运营、管理、文档质量提升等实际用例,并对各种LLMs和VLMs进行基线实验。
- Result: 在数据集上微调的模型性能显著提升,实验揭示了当前最先进多模态LLMs的薄弱环节。
- Conclusion: MM-Telco为电信领域LLMs的发展提供了重要基准和指导,有助于推动该领域的进一步研究和开发。
[367] DAP: A Discrete-token Autoregressive Planner for Autonomous Driving
Bowen Ye,Bin Zhang,Hang Zhao
Main category: cs.AI
TL;DR: DAP是一个离散令牌自回归规划器,联合预测BEV语义和自车轨迹,通过强化学习微调实现紧凑且可扩展的自动驾驶规划范式。
- Motivation: 在自动驾驶中,仅预测自车轨迹存在监督稀疏和场景演化约束弱的问题,需要更全面的表示学习来提升性能。
- Method: 采用离散令牌自回归规划器联合预测BEV语义和自车轨迹,并结合基于强化学习的微调方法。
- Result: 在160M参数预算下,DAP在开环指标上达到最先进性能,在NAVSIM基准测试中提供有竞争力的闭环结果。
- Conclusion: 完全离散令牌自回归公式在栅格化BEV和自车动作上操作,为自动驾驶提供了紧凑且可扩展的规划范式。
Powered by Deepseek & arXiv Daily AI Enhanced