Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench
Fenfen Lin,Yesheng Liu,Haiyu Xu,Chen Yue,Zheqi He,Mingxuan Zhao,Miguel Hu Chen,Jiakang Liu,JG Yao,Xi Yang
Main category: cs.CV
TL;DR: 提出了MeasureBench基准测试,用于评估视觉语言模型在读取测量仪器方面的能力,发现即使最先进的模型在测量读数方面也表现不佳,主要问题在于指针定位错误。
- Motivation: 人类读取测量仪器相对容易且不需要太多专业知识,但当前视觉语言模型在这方面表现不佳,需要建立一个专门的基准来评估和改进这方面的能力。
- Method: 开发了MeasureBench基准,包含真实世界和合成图像,并建立了可扩展的数据合成流程,能够程序化生成具有可控视觉外观的测量仪表。
- Result: 评估显示即使最强的视觉语言模型在测量读数方面也普遍存在困难,主要失败模式是指针定位错误,模型能识别数字但无法准确定位指针位置。
- Conclusion: 当前视觉语言模型在细粒度空间定位方面存在根本性限制,该基准有助于推动视觉基础数感和精确空间感知能力的发展。
[2] PF-DAformer: Proximal Femur Segmentation via Domain Adaptive Transformer for Dual-Center QCT
Rochak Dhakal,Chen Zhao,Zixin Shi,Joyce H. Keyak,Tadashi S. Kaneko,Kuan-Jui Su,Hui Shen,Hong-Wen Deng,Weihua Zhou
Main category: cs.CV
TL;DR: 开发了一种用于多机构定量CT的领域自适应transformer分割框架,通过对抗对齐和统计对齐解决跨机构数据分布差异问题,实现稳定的股骨近端分割。
- Motivation: 深度学习模型在不同机构的CT数据集上存在领域偏移问题,导致分割性能不稳定,影响骨质疏松研究和定量指标的可靠性。
- Method: 在3D TransUNet骨干网络中集成两种对齐策略:通过梯度反转层的对抗对齐和通过最大均值差异的统计对齐,平衡不变性和细粒度对齐。
- Result: 在包含1,024个Tulane大学和384个Rochester扫描的大型髋部骨折研究队列上进行了训练和验证。
- Conclusion: 该双机制方法能够实现扫描器无关的特征学习,同时保留解剖细节,为多中心骨质疏松研究提供可靠的分割工具。
[3] DC4GS: Directional Consistency-Driven Adaptive Density Control for 3D Gaussian Splatting
Moonsoo Jeong,Dongbeen Kim,Minseong Kim,Sungkil Lee
Main category: cs.CV
TL;DR: 提出了一种基于方向一致性的自适应密度控制方法DC4GS,通过梯度角度一致性来优化3D高斯泼溅中的基元分裂过程,减少冗余分裂并提升重建质量。
- Motivation: 传统自适应密度控制方法仅基于位置梯度大小进行基元分裂,忽略了梯度的方向一致性,导致冗余分裂和次优的基元分布。
- Method: 将梯度方向一致性引入自适应密度控制,通过梯度角度相干性来捕捉局部结构复杂度,并利用方向一致性定义最优分裂位置。
- Result: 相比现有方法,DC4GS显著减少了基元数量(实验中最高达30%),同时大幅提升了重建保真度。
- Conclusion: 方向一致性驱动的自适应密度控制能更有效地管理3D高斯泼溅中的基元分布,在减少计算资源的同时提高重建质量。
[4] Scale-Aware Curriculum Learning for Ddata-Efficient Lung Nodule Detection with YOLOv11
Yi Luo,Yike Guo,Hamed Hooshangnejad,Kai Ding
Main category: cs.CV
TL;DR: 提出了一种名为SACL的自适应课程学习策略,通过动态调整课程设计来应对医疗影像中标注数据有限的问题,在数据稀缺情况下显著提升肺结节检测性能。
- Motivation: 现有深度学习模型在临床部署时面临标注数据有限的问题,传统静态课程学习策略在数据稀缺场景下效果不佳。
- Method: SACL包含三个核心机制:自适应epoch调度、困难样本注入和尺度感知优化,基于可用数据规模动态调整课程设计。
- Result: 在LUNA25数据集上,SACL在完整数据集上性能与静态课程学习相当,但在数据有限条件下(10%、20%、50%训练数据)分别比基线提升4.6%、3.5%和2.0%。
- Conclusion: SACL能够在不同数据规模下实现鲁棒训练,无需架构修改,为医疗机构在标注资源有限情况下开发有效的肺结节检测系统提供了实用解决方案。
[5] SYNAPSE-Net: A Unified Framework with Lesion-Aware Hierarchical Gating for Robust Segmentation of Heterogeneous Brain Lesions
Md. Mehedi Hassan,Shafqat Alam,Shahriar Ahmed Seam,Maruf Ahmed
Main category: cs.CV
TL;DR: 提出统一多流SYNAPSE-Net框架,通过混合架构实现脑部病变的自动化分割,在多个挑战数据集上达到最先进性能
- Motivation: 解决当前深度学习模型在脑部病变分割中缺乏泛化性和性能方差大的问题,提供临床可靠的解决方案
- Method: 采用多流CNN编码器、Swin Transformer瓶颈、动态跨模态注意力融合机制和分层门控解码器的混合架构,结合方差减少策略进行训练
- Result: 在WMH数据集达到DSC 0.831和HD95 3.03,在ISLES 2022获得最佳边界精度(HD95 9.69),在BraTS 2020肿瘤核心区域达到最高DSC 0.8651
- Conclusion: 该统一自适应框架在多种脑部病理分割中达到最先进性能,提供了稳健且临床可行的自动化分割解决方案
[6] Semantic Frame Aggregation-based Transformer for Live Video Comment Generation
Anam Fatima,Yi Yu,Janak Kapuriya,Julien Lalanne,Jainendra Shukla
Main category: cs.CV
TL;DR: 提出SFAT模型用于直播视频评论生成,通过语义帧聚合和权重分配技术,结合CLIP视觉-文本多模态知识,生成与观众对话上下文相关的评论。
- Motivation: 现有方法忽视了优先处理与观众互动最相关的视频帧,这对于生成上下文适当的评论至关重要。
- Method: SFAT模型利用CLIP的多模态知识,基于语义相关性为视频帧分配权重,采用加权帧和技术和交叉注意力机制来生成评论。
- Result: 构建了大规模多模态英文视频评论数据集,覆盖11个视频类别,共438小时和320万条评论。SFAT模型在生成直播视频评论方面优于现有方法。
- Conclusion: SFAT模型通过语义帧聚合和上下文感知机制,有效解决了直播视频评论生成的挑战,为多模态内容理解提供了新思路。
[7] MoME: Mixture of Visual Language Medical Experts for Medical Imaging Segmentation
Arghavan Rezvani,Xiangyi Yan,Anthony T. Wu,Kun Han,Pooya Khosravi,Xiaohui Xie
Main category: cs.CV
TL;DR: MoME是一种用于医学图像分割的视觉语言混合专家模型,将MoE范式从LLM扩展到医学视觉语言任务,通过动态专家选择和文本嵌入增强实现多尺度特征利用。
- Motivation: 将大型语言模型中成功的混合专家范式应用于医学视觉语言任务,探索基础模型在医学影像中的集成,利用文本信息提升模型性能。
- Method: 采用混合专家架构,动态选择专家,有效利用多尺度视觉特征并结合文本嵌入,专门针对医学图像的复杂性进行优化。
- Result: 在包含3,410个CT扫描的10个数据集上表现出色,在综合医学影像分割基准测试中展现了强大的性能,在多个数据集上达到有竞争力的精度。
- Conclusion: MoME为医学图像分析提供了一种新颖的架构,通过视觉语言模型的集成实现了稳健的结果,探索了基础模型在医学影像领域的应用潜力。
[8] Incremental Human-Object Interaction Detection with Invariant Relation Representation Learning
Yana Wei,Zeen Chi,Chongyu Wang,Yu Wu,Shipeng Yan,Yongfei Liu,Xuming He
Main category: cs.CV
TL;DR: 提出了一种无示例的增量关系蒸馏框架,用于解决开放世界中人类-物体交互检测的增量学习问题,有效缓解灾难性遗忘并处理交互漂移和零样本HOI检测挑战。
- Motivation: 在开放世界环境中,人类-物体交互持续演化,传统封闭世界HOI检测模型难以适应。受人类渐进获取知识能力的启发,研究增量HOI检测以开发能够识别动态环境中人-物关系的智能体。
- Method: 提出增量关系蒸馏框架,将对象和关系学习解耦,引入两种独特的蒸馏损失来学习跨不同HOI组合的恒定关系特征。
- Result: 在HICO-DET和V-COCO数据集上的广泛实验表明,该方法在缓解遗忘、增强对交互漂移的鲁棒性以及零样本HOI泛化方面优于现有最先进基线。
- Conclusion: 所提出的IRD框架能够有效解决增量HOI检测中的关键挑战,为动态环境中的关系识别提供了可行解决方案。
[9] VitalLens 2.0: High-Fidelity rPPG for Heart Rate Variability Estimation from Face Video
Philipp V. Rouast
Main category: cs.CV
TL;DR: VitalLens 2.0是一种新的深度学习模型,通过面部视频估计生理信号,在远程光电容积描记术(rPPG)方面实现了精度上的重大飞跃,能够稳健估计心率、呼吸率和心率变异性指标。
- Motivation: 开发一个更准确、更全面的远程生理信号监测模型,能够同时估计多种生理指标,为健康监测提供更全面的数据支持。
- Method: 结合新的模型架构和大幅增加训练数据的规模和多样性(1,413名独特个体),在四个公共和私人数据集的422名独特个体组成的测试集上进行评估。
- Result: 在个体平均结果中,VitalLens 2.0实现了心率MAE为1.57 bpm,呼吸率MAE为1.08 bpm,HRV-SDNN MAE为10.18 ms,HRV-RMSSD MAE为16.45 ms,显著优于先前方法,达到了新的最先进水平。
- Conclusion: VitalLens 2.0在远程生理信号估计方面实现了重大突破,提供了高精度的多参数生理监测能力,现已通过VitalLens API向开发者开放。
[10] AD-SAM: Fine-Tuning the Segment Anything Vision Foundation Model for Autonomous Driving Perception
Mario Camarena,Het Patel,Fatemeh Nazari,Evangelos Papalexakis,Mohamadhossein Noruzoliaee,Jia Chen
Main category: cs.CV
TL;DR: AD-SAM是一个专门为自动驾驶场景优化的语义分割模型,通过双编码器和可变形解码器架构,在Cityscapes和BDD100K数据集上显著超越了SAM、G-SAM和DeepLabV3等基准模型。
- Motivation: 自动驾驶场景具有复杂的空间和几何特性,需要专门优化的分割模型来处理道路场景的语义分割任务。
- Method: 采用双编码器架构结合SAM的ViT-H全局语义特征和ResNet-50的局部空间细节,使用可变形融合模块对齐异构特征,并通过可变形注意力进行多阶段精炼。
- Result: 在Cityscapes上达到68.1 mIoU,BDD100K上达到59.5 mIoU,相比基准模型提升高达22.9和19.2 mIoU,具有更强的跨域泛化能力和数据效率。
- Conclusion: 针对基础模型进行针对性的架构和优化增强,能够实现可靠且可扩展的自动驾驶感知系统。
[11] Hierarchical Transformers for Unsupervised 3D Shape Abstraction
Aditya Vora,Lily Goli,Andrea Tagliasacchi,Hao Zhang
Main category: cs.CV
TL;DR: HiT是一种新颖的分层神经场表示方法,通过无监督学习在多个3D形状类别中学习从粗到细的通用层次结构,使用分层transformer和压缩码本自动识别跨类别的共同子结构。
- Motivation: 现有方法通常约束为固定层次结构(如二叉树),限制了表示复杂层次关系的能力。本文旨在开发一种更灵活的方法,能够直接从数据中推断层次结构,支持跨多个形状类别的通用层次学习。
- Method: 提出分层transformer(HiT),每个层级使用压缩码本学习树层次结构的父子关系。码本使网络能自动识别不同形状类别间的共同子结构,不限制具体层次结构类型,只限制每层节点总数。
- Result: 在大规模重建损失训练下,模型成功捕捉了父子节点间的有意义的包含关系。在ShapeNet所有55个类别上的无监督形状分割任务中,该方法成功将形状分割为多个粒度级别。
- Conclusion: HiT方法能够灵活地从数据中推断层次结构,表示比先前方法更通用和复杂的层次关系,在跨类别形状分割任务中表现出色。
[12] ZEBRA: Towards Zero-Shot Cross-Subject Generalization for Universal Brain Visual Decoding
Haonan Wang,Jingyu Lu,Hongrui Li,Xiaomeng Li
Main category: cs.CV
TL;DR: ZEBRA是首个零样本脑视觉解码框架,通过对抗训练分解fMRI表征为受试者相关和语义相关组件,无需受试者特定适应即可实现跨受试者泛化。
- Motivation: 当前fMRI到图像重建方法主要依赖受试者特定模型或需要受试者特定微调,限制了可扩展性和实际应用。
- Method: 利用对抗训练显式解耦fMRI表征中的受试者相关和语义相关组件,分离出受试者不变、语义特定的表征。
- Result: ZEBRA在多个指标上显著优于零样本基线,并达到与完全微调模型相当的性能。
- Conclusion: 这项工作代表了向通用神经解码的可扩展和实用步骤。
[13] WildfireX-SLAM: A Large-scale Low-altitude RGB-D Dataset for Wildfire SLAM and Beyond
Zhicong Sun,Jacqueline Lo,Jinxing Hu
Main category: cs.CV
TL;DR: 该论文提出了WildfireX-SLAM数据集,这是一个用于森林环境SLAM的大规模合成数据集,包含5.5k张低空RGB-D航拍图像,覆盖16平方公里森林区域,支持野火应急响应和森林管理应用。
- Motivation: 现有3DGS SLAM方法主要针对小规模室内场景,缺乏适用于大规模森林环境的高质量数据集,而真实数据收集成本高且技术不可行。
- Method: 利用Unreal Engine 5 Electric Dreams环境样本项目开发数据收集管道,可灵活控制光照、天气、野火类型等环境因素,提供地面实况相机位姿和多种数据模态。
- Result: 创建了包含5.5k张低空RGB-D航拍图像的大规模数据集,覆盖16平方公里森林区域,并建立了基准测试揭示了森林环境中3DGS SLAM的独特挑战。
- Conclusion: WildfireX-SLAM数据集填补了森林环境SLAM数据集的空白,为未来研究提供了重要基准,数据集和代码将公开可用。
[14] E-MMDiT: Revisiting Multimodal Diffusion Transformer Design for Fast Image Synthesis under Limited Resources
Tong Shen,Jingai Yu,Dong Zhou,Dong Li,Emad Barsoum
Main category: cs.CV
TL;DR: 提出E-MMDiT,一个仅304M参数的高效轻量多模态扩散模型,通过令牌压缩、位置增强和交替子区域注意力等技术,在低训练资源下实现快速图像生成。
- Motivation: 现有扩散模型需要大规模训练数据和大量计算资源,或结构复杂延迟高。目标是开发高效轻量的多模态扩散模型,降低训练资源需求。
- Method: 采用高度压缩的视觉分词器生成紧凑表示;提出多路径压缩模块进一步压缩令牌;引入位置增强保持空间连贯性;使用交替子区域注意力降低计算成本;提出AdaLN-affine高效计算调制参数。
- Result: 在单节点8个AMD MI300X GPU上仅用1.5天训练25M公开数据,512px生成在GenEval上达到0.66,使用GRPO后可达0.72。
- Conclusion: E-MMDiT为未来研究提供了强大实用的基准,有助于生成式AI模型的民主化。
[15] Improving Cross-view Object Geo-localization: A Dual Attention Approach with Cross-view Interaction and Multi-Scale Spatial Features
Xingtao Ling Yingying Zhu
Main category: cs.CV
TL;DR: 提出CVCAM和MHSAM模块,通过跨视图交叉注意力和多尺度空间注意力机制,解决跨视图目标地理定位中信息传递不足和边缘噪声干扰的问题,并在新构建的G2D数据集上验证了方法的有效性。
- Motivation: 现有跨视图目标地理定位方法在视图间信息传递和空间关系特征图优化方面存在不足,导致模型错误关注边缘噪声,影响定位性能。
- Method: 提出CVCAM模块进行多轮视图间交互,促进上下文信息交换;集成MHSAM模块使用多尺度卷积核提取空间特征;构建G2D数据集填补地面到无人机定位任务空白。
- Result: 在CVOGL和G2D数据集上的大量实验表明,该方法实现了高定位精度,超越了当前最先进方法。
- Conclusion: 所提出的CVCAM和MHSAM模块能有效提升跨视图目标地理定位性能,新构建的G2D数据集丰富了该领域的数据资源。
[16] HiGS: Hierarchical Generative Scene Framework for Multi-Step Associative Semantic Spatial Composition
Jiacheng Hong,Kunzhen Wu,Mingrui Yu,Yichao Gu,Shengze Xue,Shuangjiu Xiao,Deli Dong
Main category: cs.CV
TL;DR: 提出HiGS层次化生成框架,通过多步关联语义空间组合实现可控的3D场景生成,优于单阶段方法
- Motivation: 现有方法采用单步生成过程难以平衡场景复杂度和用户输入,受人类认知过程启发,从全局到局部逐步构建场景
- Method: HiGS框架允许用户迭代扩展场景,选择关键语义对象;引入渐进层次空间语义图(PHiSSG)动态组织空间关系和语义依赖
- Result: 实验表明HiGS在布局合理性、风格一致性和用户偏好方面优于单阶段方法
- Conclusion: HiGS为高效3D场景构建提供了可控且可扩展的范式
[17] AFM-Net: Advanced Fusing Hierarchical CNN Visual Priors with Global Sequence Modeling for Remote Sensing Image Scene Classification
Yuanhao Tang,Xuechao Zou,Zhengpei Hu,Junliang Xing,Chengkun Zhang,Jianqiang Huang
Main category: cs.CV
TL;DR: 提出AFM-Net框架,通过CNN和Mamba双路径实现局部与全局特征的有效融合,解决遥感图像场景分类中多尺度特征建模的挑战。
- Motivation: 遥感图像场景分类面临复杂空间结构和多尺度特征的挑战,现有方法中CNN擅长局部纹理建模,Transformer擅长全局上下文捕捉,但Transformer计算成本高,如何高效融合两者仍是瓶颈。
- Method: AFM-Net采用分层融合机制,包含CNN分支提取层次视觉先验和Mamba分支进行高效全局序列建模,通过渐进式多尺度特征聚合实现动态跨层级特征交互和上下文重建,最后通过专家混合分类器进行细粒度场景识别。
- Result: 在AID、NWPU-RESISC45和UC Merced数据集上分别获得93.72%、95.54%和96.92%的准确率,超越了现有最优方法,在性能和效率之间取得了良好平衡。
- Conclusion: AFM-Net通过创新的分层融合机制成功解决了遥感图像场景分类中的多尺度特征建模问题,实现了局部与全局特征的有效协同表示,在多个数据集上取得了优异的性能。
[18] How Close Are We? Limitations and Progress of AI Models in Banff Lesion Scoring
Yanfan Zhu,Juming Xiong,Ruining Deng,Yu Wang,Yaohong Wang,Shilin Zhao,Mengmeng Yin,Yuqing Liu,Haichun Yang,Yuankai Huo
Main category: cs.CV
TL;DR: 本研究探索使用深度学习模型通过模块化规则框架来近似Banff肾移植活检评分系统的可行性,发现当前AI流程在复制专家级评分方面存在局限性。
- Motivation: Banff分类是肾移植活检评估的全球标准,但其半定量性质、复杂标准和观察者间变异性给计算复制带来了重大挑战。
- Method: 将每个Banff指标分解为结构和炎症成分,使用现有分割和检测工具评估其计算可行性,通过启发式规则将模型输出映射到Banff评分。
- Result: 研究发现了部分成功和关键失败模式,包括结构遗漏、幻觉和检测模糊性,即使最终评分与专家注释匹配,中间表示的不一致性也常常削弱可解释性。
- Conclusion: 结果揭示了当前AI流程在复制计算专家级评分方面的局限性,强调了模块化评估和计算Banff评分标准在指导移植病理学未来模型开发中的重要性。
[19] Generating Accurate and Detailed Captions for High-Resolution Images
Hankyeol Lee,Gawon Seo,Kyounggyu Lee,Dogun Kim,Kyungwoo Song,Jiyoung Jung
Main category: cs.CV
TL;DR: 提出了一种结合视觉语言模型、大语言模型和物体检测系统的多阶段流程,用于提升高分辨率图像的描述质量,通过物体检测验证和区域特定描述来丰富细节并减少幻觉。
- Motivation: 视觉语言模型通常基于低分辨率图像预训练,在处理高分辨率图像时会丢失细节和遗漏重要物体,导致生成的描述不够准确和详细。
- Method: 多阶段流程:先用VLM生成初始描述,LLM识别关键物体并预测可能共现的物体,物体检测系统验证预测,对新检测到的物体进行区域特定描述,并移除未检测物体的引用。
- Result: 在精选的高分辨率图像数据集上实验表明,该流程能生成更详细可靠的图像描述,同时有效减少幻觉。
- Conclusion: 提出的多阶段流程成功解决了VLM在高分辨率图像描述中的局限性,通过结合多种模型提升了描述质量和可靠性。
[20] M^3Detection: Multi-Frame Multi-Level Feature Fusion for Multi-Modal 3D Object Detection with Camera and 4D Imaging Radar
Xiaozhi Li,Huijun Di,Jian Li,Feng Liu,Wei Liang
Main category: cs.CV
TL;DR: M^3Detection是一个统一的多帧3D物体检测框架,通过相机和4D成像雷达的多模态数据融合,在多帧输入下实现高效的3D检测。
- Motivation: 现有相机-雷达融合方法多为单帧输入,只能捕捉场景的部分信息,加上图像退化和4D雷达稀疏性,限制了检测性能。多帧融合能提供更丰富的时空信息,但面临跨帧跨模态特征融合和计算成本高的挑战。
- Method: 采用两阶段框架:第一阶段利用基线检测器中间特征和跟踪器生成参考轨迹;第二阶段设计全局级对象间特征聚合模块和局部级网格间特征聚合模块,结合轨迹级多帧时空推理模块增强特征表示。
- Result: 在VoD和TJ4DRadSet数据集上的广泛实验表明,M^3Detection实现了最先进的3D检测性能。
- Conclusion: 该框架在多帧相机-4D成像雷达融合检测中表现出有效性,验证了多帧融合策略的优势。
[21] DANCER: Dance ANimation via Condition Enhancement and Rendering with diffusion model
Yucheng Xing,Jinxing Yin,Xiaodong Liu
Main category: cs.CV
TL;DR: 提出DANCER框架,基于稳定视频扩散模型实现逼真的单人舞蹈合成,通过外观增强模块和姿态渲染模块提升生成质量,并构建TikTok-3K数据集增强训练。
- Motivation: 扩散模型在视觉生成任务中表现出色,但视频生成特别是涉及人类内容(如舞蹈)的生成面临更高挑战,需要确保视频连续性和处理人类运动的高度自由度。
- Method: 基于稳定视频扩散模型,引入外观增强模块(AEM)关注参考图像细节,姿态渲染模块(PRM)从额外领域捕捉姿态条件,并构建TikTok-3K数据集增强训练。
- Result: 在真实世界数据集上的广泛实验表明,该模型性能优于现有最先进方法。
- Conclusion: DANCER框架通过条件增强和渲染技术有效提升了舞蹈视频生成的质量和连续性,所有数据和代码将在接受后发布。
[22] H2-Cache: A Novel Hierarchical Dual-Stage Cache for High-Performance Acceleration of Generative Diffusion Models
Mingyu Sung,Il-Min Kim,Sangseok Yun,Jae-Mo Kang
Main category: cs.CV
TL;DR: H2-Cache是一种用于扩散模型的新型分层缓存机制,通过双阈值系统分别处理结构定义和细节细化阶段,在保持图像质量的同时实现高达5.08倍的加速。
- Motivation: 扩散模型在图像生成方面表现出色,但其迭代去噪过程计算成本高昂。现有缓存技术在速度和保真度之间存在权衡,存在质量下降和计算开销高的问题。
- Method: 提出H2-Cache分层缓存机制,基于去噪过程可功能分离为结构定义阶段和细节细化阶段的洞察,采用双阈值系统选择性缓存每个阶段,并引入池化特征摘要(PFS)进行轻量级相似性估计。
- Result: 在Flux架构上的广泛实验表明,H2-Cache实现了显著加速(最高5.08倍),同时保持与基线几乎相同的图像质量,在定量和定性上都优于现有缓存方法。
- Conclusion: H2-Cache提供了一个稳健实用的解决方案,有效解决了速度-质量困境,显著降低了高保真扩散模型在实际应用中的门槛。
[23] SilhouetteTell: Practical Video Identification Leveraging Blurred Recordings of Video Subtitles
Guanchong Huang,Song Fang
Main category: cs.CV
TL;DR: SilhouetteTell是一种新颖的视频识别攻击方法,通过分析字幕轮廓的时空特征来识别视频内容,能够推断在线和离线视频,攻击距离可达40米。
- Motivation: 视频识别攻击对隐私构成严重威胁,可能泄露用户的观看历史,暴露其爱好、宗教信仰、政治倾向、性取向和健康状况等信息,这些信息可能被用于用户画像、广告投放,甚至导致网络欺凌、歧视或敲诈勒索。
- Method: 通过观察发现字幕内容决定其在屏幕上显示的轮廓,识别每个字幕轮廓还能推导出连续字幕之间的时间差。将空间和时间域信息结合成字幕轮廓的时空特征,探索记录的视频字幕轮廓与其字幕文件之间的时空相关性。
- Result: 在现成智能手机上的综合实验证实了SilhouetteTell在各种设置下推断视频标题和片段的高效性,包括从40米距离进行攻击。
- Conclusion: SilhouetteTell提出了一种有效的视频识别攻击方法,能够结合字幕轮廓的时空特征准确识别视频内容,对用户隐私构成新的威胁。
[24] Dual-level Progressive Hardness-Aware Reweighting for Cross-View Geo-Localization
Guozheng Zheng,Jian Guan,Mingjie Xie,Xuanjia Zhao,Congyi Fan,Shiheng Zhang,Pengming Feng
Main category: cs.CV
TL;DR: 提出了一种双层级渐进式难度感知重加权策略(DPHR),用于解决无人机-卫星跨视角地理定位中的视角差异和困难负样本问题,通过样本级和批次级的动态权重调整来提升模型性能。
- Motivation: 现有方法在处理无人机-卫星跨视角地理定位时,由于严重的视角差异和困难负样本的存在,静态权重策略容易受到分布偏移影响,过早强调困难样本会导致噪声梯度和不稳定收敛。
- Method: 提出DPHR策略:在样本级使用基于比率的难度感知模块评估相对难度并分配细粒度权重;在批次级使用渐进自适应损失加权机制,利用训练进度信号在早期优化时衰减噪声梯度,随着训练成熟逐步增强困难负样本挖掘。
- Result: 在University-1652和SUES-200基准测试上的实验表明,DPHR方法有效且鲁棒,相比最先进方法实现了持续改进。
- Conclusion: DPHR策略通过双层级渐进式难度感知重加权,成功解决了跨视角地理定位中的挑战,为处理视角差异和困难负样本提供了有效的解决方案。
[25] Sparse Model Inversion: Efficient Inversion of Vision Transformers for Data-Free Applications
Zixuan Hu,Yongxian Wei,Li Shen,Zhenyi Wang,Lei Li,Chun Yuan,Dacheng Tao
Main category: cs.CV
TL;DR: 提出了一种稀疏模型反演策略,通过选择性反演语义前景来加速现有密集反演方法,解决了高分辨率图像反演效率低下的问题。
- Motivation: 现有密集反演方法在反演高分辨率图像时效率极低,主要原因是冗余反演噪声背景和意外反演虚假相关性(幻觉现象)。
- Method: 提出稀疏模型反演策略,选择性反演语义前景,停止反演噪声背景和潜在虚假相关性,作为即插即用扩展加速现有密集反演方法。
- Result: 实现了显著的反演加速(最高3.79倍),在数据无关模型量化和数据无关知识迁移中保持相当或增强的下游性能。
- Conclusion: 稀疏模型反演策略有效解决了高分辨率图像反演效率问题,在保持性能的同时大幅提升反演速度。
[26] Can MLLMs Read the Room? A Multimodal Benchmark for Verifying Truthfulness in Multi-Party Social Interactions
Caixin Kang,Yifei Huang,Liangyang Ouyang,Mingfang Zhang,Yoichi Sato
Main category: cs.CV
TL;DR: 本文提出了多模态交互式真实性评估(MIVA)任务,基于狼人杀游戏构建了包含同步视频、文本和真实标签的数据集,评估了最先进的多模态大语言模型在检测对话中欺骗行为的能力。
- Motivation: 随着AI系统越来越多地融入人类生活,赋予它们强大的社会智能变得至关重要。检测对话中的欺骗行为是社会智能的关键方面,但目前在动态、多方对话中的自动欺骗检测仍面临重大挑战。
- Method: 基于社交推理游戏狼人杀构建了一个新的多模态数据集,包含同步的视频和文本数据,并为每个陈述提供了可验证的真实标签。建立了全面的基准测试来评估最先进的多模态大语言模型。
- Result: 评估显示存在显著的性能差距:即使是像GPT-4o这样强大的模型也难以可靠地区分真假。失败模式分析表明这些模型无法有效将语言与视觉社交线索相结合,并且可能过于保守。
- Conclusion: 迫切需要新的方法来构建更具洞察力和可信度的AI系统,当前的多模态大语言模型在检测对话欺骗方面仍有很大改进空间。
[27] Multi-Modal Feature Fusion for Spatial Morphology Analysis of Traditional Villages via Hierarchical Graph Neural Networks
Jiaxin Zhang,Zehong Zhu,Junye Deng,Yunqin Li,and Bowen Wang
Main category: cs.CV
TL;DR: 提出了一种融合多源数据的层次图神经网络模型,用于深入分析乡村空间形态,在分类任务上显著优于现有方法。
- Motivation: 随着城市化进程,乡村空间特征逐渐消失和景观同质化问题突出。现有研究多采用单一学科视角,依赖定性分析方法,受限于数字基础设施不足和数据匮乏。
- Method: 提出层次图神经网络模型,包含输入节点和通信节点两种节点类型,以及静态输入边和动态通信边两种边类型。结合图卷积网络和图注意力网络,在两阶段特征更新机制下高效融合多模态特征。引入关系池化机制,在17个子类型上实施联合训练策略。
- Result: 该方法在多模态融合和分类任务上显著优于现有方法。所有子类型的联合优化将平均准确率/F1分数从0.71/0.83提升到0.82/0.90,其中地块任务提升了6%。
- Conclusion: 该方法为探索乡村空间模式和生成逻辑提供了科学依据。
[28] Privacy-Aware Continual Self-Supervised Learning on Multi-Window Chest Computed Tomography for Domain-Shift Robustness
Ren Tasai,Guang Li,Ren Togo,Takahiro Ogawa,Kenji Hirata,Minghui Tang,Takaaki Yoshimura,Hiroyuki Sugimori,Noriko Nishioka,Yukie Shimizu,Kohsuke Kudo,Miki Haseyama
Main category: cs.CV
TL;DR: 提出了一种新颖的持续自监督学习框架,用于从多窗口胸部CT图像中学习多样化特征并确保数据隐私,通过潜在重放机制和特征蒸馏技术解决领域偏移和灾难性遗忘问题。
- Motivation: 医学图像诊断中构建鲁棒且泛化性强的模型面临挑战,主要由于大规模标注数据稀缺和医疗环境中的领域偏移问题。在胸部CT中,领域偏移常源于针对不同临床目的优化的窗口设置差异。
- Method: 采用持续预训练方法,结合潜在重放机制缓解灾难性遗忘,同时引入基于Wasserstein距离的知识蒸馏(WKD)和批量知识集成(BKE)的特征蒸馏技术,学习领域偏移鲁棒的表示。
- Result: 在两个不同窗口设置的胸部CT图像上验证了该方法,相比其他方法表现出优越性能。
- Conclusion: 该框架能有效学习多样化特征,确保数据隐私,并在领域偏移场景下保持模型性能,为医学图像诊断提供了实用解决方案。
[29] SpecAware: A Spectral-Content Aware Foundation Model for Unifying Multi-Sensor Learning in Hyperspectral Remote Sensing Mapping
Renjie Ji,Xue Wang,Chao Niu,Wen Zhang,Yong Mei,Kun Tan
Main category: cs.CV
TL;DR: 提出SpecAware,一种新颖的高光谱光谱内容感知基础模型,通过超网络驱动的编码过程统一多传感器学习,解决高光谱成像数据异质性和传感器差异问题。
- Motivation: 高光谱成像数据固有的异质性阻碍了通过联合训练开发通用模型,现有方法通常忽视传感器元属性的关键指导作用,在多传感器训练方面存在困难,限制了其可迁移性。
- Method: 采用两步超网络驱动编码过程:1) 元内容感知模块,融合传感器元属性和图像内容为每个样本生成条件输入;2) HyperEmbedding模块,通过样本条件超网络动态生成矩阵因子对进行通道级编码,包含自适应空间模式提取和潜在语义特征重投影。
- Result: 在六个数据集上的广泛实验表明,SpecAware能够学习优越的特征表示,在土地覆盖语义分割分类、变化检测和场景分类方面表现优异。
- Conclusion: SpecAware能够感知和解释跨不同场景和传感器的空间-光谱特征,自适应处理可变数量的光谱通道,为联合预训练建立了统一框架。
[30] Mask-to-Height: A YOLOv11-Based Architecture for Joint Building Instance Segmentation and Height Classification from Satellite Imagery
Mahmoud El Hussieni,Bahadır K. Güntürk,Hasan F. Ateş,Oğuz Hanoğlu
Main category: cs.CV
TL;DR: YOLOv11在卫星图像上实现建筑物实例分割和高度分类,在DFC2023数据集上达到60.4% mAP@50和38.3% mAP@50-95的优异性能,优于早期多任务框架。
- Motivation: 精确的建筑物实例分割和高度分类对于城市规划、3D城市建模和基础设施监测至关重要,需要开发高效的深度学习模型来处理复杂城市场景。
- Method: 使用YOLOv11深度学习模型,该模型改进了多尺度特征融合、目标定位精度,并在DFC2023 Track 2数据集(包含12个城市的125,000个标注建筑物)上进行评估。
- Result: YOLOv11在实例分割方面表现优异,mAP@50达到60.4%,mAP@50-95达到38.3%,在五个预定义高度层级上保持稳健的分类精度,特别擅长处理遮挡、复杂建筑形状和类别不平衡问题。
- Conclusion: YOLOv11在检测精度和推理速度方面均优于早期多任务框架,适合实时大规模城市测绘,有望通过简化的分类高度建模推进语义城市重建。
[31] MoRE: 3D Visual Geometry Reconstruction Meets Mixture-of-Experts
Jingnan Gao,Zhe Wang,Xianze Fang,Xingyu Ren,Zhuo Chen,Shengqi Liu,Yuhao Cheng,Jiangjing Lyu,Xiaokang Yang,Yichao Yan
Main category: cs.CV
TL;DR: MoRE是一个基于混合专家架构的密集3D视觉基础模型,通过动态路由特征到任务特定专家来提高可扩展性和适应性,在多个基准测试中达到最先进性能。
- Motivation: 解决3D模型扩展面临的几何监督复杂性和3D数据多样性挑战,提升在真实世界条件下的鲁棒性。
- Method: 采用混合专家架构动态路由特征,集成置信度深度精化模块稳定几何估计,结合密集语义特征与全局对齐的3D骨干表示,使用定制损失函数进行优化。
- Result: 在多个基准测试中达到最先进性能,支持有效的下游应用且无需额外计算。
- Conclusion: MoRE通过混合专家架构成功解决了3D模型扩展的挑战,实现了高性能的几何重建和鲁棒性,为3D视觉基础模型提供了有效解决方案。
[32] Object-IR: Leveraging Object Consistency and Mesh Deformation for Self-Supervised Image Retargeting
Tianli Liao,Ran Wang,Siqing Zhang,Lei Li,Guangen Liu,Chenyang Zhao,Heling Cao,Peng Li
Main category: cs.CV
TL;DR: Object-IR是一个自监督的图像重定向框架,通过基于网格变形的学习优化方法,在保持语义对象外观一致性的同时减少几何失真。
- Motivation: 解决图像重定向中语义重要区域的几何失真问题,传统方法难以在保持对象外观的同时消除几何变形。
- Method: 将图像重定向建模为基于学习的网格变形优化问题,使用CNN预测网格运动,结合对象一致性损失、几何保持损失和边界损失进行自监督训练。
- Result: 在RetargetMe基准测试中达到最先进性能,定量指标和主观视觉质量评估均优于现有方法,处理1024x683分辨率图像平均耗时0.009秒。
- Conclusion: Object-IR提供了一种有效的自监督图像重定向解决方案,无需人工标注数据,在保持实时性能的同时显著提升了重定向质量。
[33] Fusion of Heterogeneous Pathology Foundation Models for Whole Slide Image Analysis
Zhidong Yang,Xiuhui Shi,Wei Ba,Zhigang Song,Haijing Luan,Taiyuan Hu,Senlin Lin,Jiguang Wang,Shaohua Kevin Zhou,Rui Yan
Main category: cs.CV
TL;DR: 提出FuseCPath框架,通过融合异构病理基础模型来提升全切片图像分析性能,包括多视图聚类选择代表性补丁、聚类级重嵌入融合补丁级特征,以及协作蒸馏融合切片级特征。
- Motivation: 当前病理基础模型因训练数据和网络架构的差异存在显著异质性,导致下游任务性能不稳定,需要有效融合多个模型的优势。
- Method: 1) 多视图聚类方法筛选判别性补丁;2) 聚类级重嵌入策略在线捕获补丁级局部特征;3) 协作蒸馏策略探索切片级模型间关联。
- Result: 在TCGA的肺癌、膀胱癌和结直肠癌数据集上的实验表明,FuseCPath在多个任务上达到最先进性能。
- Conclusion: FuseCPath框架能有效融合异构病理基础模型,提升全切片图像分析的下游任务性能。
[34] Trans-defense: Transformer-based Denoiser for Adversarial Defense with Spatial-Frequency Domain Representation
Alik Pramanick,Mayank Bansal,Utkarsh Srivastava,Suklav Ghosh,Arijit Sur
Main category: cs.CV
TL;DR: 提出了一种两阶段训练方法,结合空间和频域去噪来防御图像对抗攻击,通过离散小波变换分析频域特征,使用transformer层融合空间和小波特征,显著提升了分类器在多个数据集上的鲁棒性。
- Motivation: 深度神经网络在安全关键系统中容易受到对抗攻击的限制,需要开发有效的防御方法来提升模型鲁棒性。
- Method: 两阶段训练:首先训练结合空间和频域的去噪网络(使用DWT进行频域分析,transformer层融合特征),然后使用去噪后的图像重新训练分类器。
- Result: 在MNIST、CIFAR-10和Fashion-MNIST数据集上,该方法显著提高了分类准确率,性能远超仅使用去噪网络和对抗训练的方法。
- Conclusion: 提出的空间-频域混合去噪方法能有效防御对抗攻击,提升深度分类器的鲁棒性。
[35] C-LEAD: Contrastive Learning for Enhanced Adversarial Defense
Suklav Ghosh,Sonal Kumar,Arijit Sur
Main category: cs.CV
TL;DR: 提出了一种利用对比学习进行对抗防御的新方法,通过在干净图像和对抗扰动图像上训练分类模型,增强模型对抗攻击的鲁棒性。
- Motivation: 深度神经网络在计算机视觉任务中表现出色,但容易受到对抗攻击的影响,需要开发鲁棒的深度学习系统。
- Method: 使用对比损失函数,在干净图像和对抗扰动图像上训练分类模型,通过优化模型参数和扰动来学习鲁棒表示。
- Result: 实验结果显示模型对各种对抗扰动的鲁棒性显著提高。
- Conclusion: 对比学习有助于提取更具信息性和弹性的特征,为深度学习中的对抗鲁棒性研究做出贡献。
[36] Enhancing Spatio-Temporal Zero-shot Action Recognition with Language-driven Description Attributes
Yehna Kim andYoung-Eun Kim,Seong-Whan Lee
Main category: cs.CV
TL;DR: 提出一种利用网络爬取描述和大型语言模型提取关键词的方法,解决视觉语言模型在零样本动作识别中因多语义词导致的歧义问题,无需人工标注。
- Motivation: 视觉语言模型在零样本动作识别中仅依赖动作类别提供语义上下文时,由于多语义词的存在会导致概念理解歧义,需要更丰富的语义信息。
- Method: 利用网络爬取的描述,通过大型语言模型提取相关关键词,减少人工标注需求;引入时空交互模块聚焦对象和动作单元,促进描述属性与视频内容对齐。
- Result: 在零样本实验中,模型在UCF-101、HMDB-51和Kinetics-600数据集上分别达到81.0%、53.1%和68.9%的准确率。
- Conclusion: 该方法展示了在不同下游任务中的适应性和有效性,通过自动化的描述处理显著提升了零样本动作识别性能。
[37] RegionRAG: Region-level Retrieval-Augumented Generation for Visually-Rich Documents
Yinglu Li,Zhiying Lu,Zhihang Liu,Chuanbin Liu,Hongtao Xie
Main category: cs.CV
TL;DR: RegionRAG是一个新颖的多模态检索增强生成框架,将检索粒度从文档级别转移到区域级别,通过识别相关图像区域来减少无关视觉内容,提高检索和问答的准确性和效率。
- Motivation: 当前多模态RAG方法以整个文档为检索单元,会引入大量无关视觉内容:1)相关文档中包含大量与查询无关的区域;2)检索多个文档会引入冗余文档。这些冗余内容分散模型注意力,降低性能。
- Method: 提出从文档级别到区域级别的检索范式转变。训练时采用混合监督策略从有标签和无标签数据中定位相关图像块;推理时通过动态管道将显著图像块分组为完整语义区域。
- Result: 在六个基准测试中达到最先进性能:平均R@1检索准确率提升10.02%,问答准确率提升3.56%,同时仅使用先前方法71.42%的视觉token。
- Conclusion: 通过将识别相关区域的任务委托给检索器,RegionRAG使生成器能够专注于与查询相关的简洁视觉内容,提高了效率和准确性。
[38] T3: Test-Time Model Merging in VLMs for Zero-Shot Medical Imaging Analysis
Raza Imam,Hu Wang,Dwarikanath Mahapatra,Mohammad Yaqub
Main category: cs.CV
TL;DR: 提出了T^3框架,通过Jensen-Shannon散度动态计算模型融合系数,解决医学影像中预训练模型与专家模型在模态偏移下的性能权衡问题。
- Motivation: 医学影像中,预训练模型具有鲁棒性但缺乏模态特异性,专家模型在分布内准确率高但在模态偏移下表现不佳。现有模型融合方法在医学模态中效果不稳定。
- Method: T^3框架基于Jensen-Shannon散度计算每样本的融合系数,动态平衡模型间一致性和鲁棒性。T^3_B扩展为批次级融合以降低计算成本。
- Result: 在四个模态的跨评估中,T^3在Top-1准确率和错误率降低方面达到新SOTA,优于强基线方法。
- Conclusion: T^3为临床环境中自适应医学视觉语言模型部署提供了高效解决方案。
[39] HyperClick: Advancing Reliable GUI Grounding via Uncertainty Calibration
Shaojie Zhang,Pei Fu,Ruoceng Zhang,Jiahui Yang,Anan Du,Xiuwen Xi,Shaokang Wang,Ying Huang,Bin Qin,Zhenbo Luo,Jian Luan
Main category: cs.CV
TL;DR: HyperClick是一个通过不确定性校准增强GUI grounding可靠性的框架,使用双奖励机制和空间置信度建模来联合优化grounding准确性和置信度可靠性。
- Motivation: 当前GUI代理模型缺乏对自身能力边界的自我意识,导致过度自信和不可靠预测,这在动态GUI自动化任务中尤为关键,因为单个错误可能导致任务失败。
- Method: 提出HyperClick框架,引入双奖励机制:结合正确动作的二元奖励和基于截断高斯分布的空间置信度建模,使用Brier分数进行校准,联合优化grounding准确性和置信度可靠性。
- Result: 在七个挑战基准测试上的广泛实验表明,HyperClick实现了最先进的性能,同时提供了良好校准的置信度。
- Conclusion: 通过明确的置信度校准和内省式自我批评,HyperClick减少了过度自信,支持更可靠的GUI自动化。
[40] FOCUS: Efficient Keyframe Selection for Long Video Understanding
Zirui Zhu,Hailun Xu,Yang Luo,Yong Liu,Kanchan Sarkar,Zhenheng Yang,Yang You
Main category: cs.CV
TL;DR: FOCUS是一种无需训练、模型无关的关键帧选择方法,通过多臂老虎机框架将关键帧选择建模为组合纯探索问题,在严格token预算下选择与查询相关的帧,显著提升长视频理解性能。
- Motivation: 多模态大语言模型处理长视频时,token数量远超实际限制。现有方法要么均匀下采样,要么使用检索式评分进行关键帧选择,但需要预过滤且可能错过最信息丰富的时刻。
- Method: 将关键帧选择建模为多臂老虎机中的组合纯探索问题:将短时间片段视为臂,使用经验均值和Bernstein置信半径识别信息丰富区域,同时保留对不确定区域的探索。采用两阶段探索-利用过程。
- Result: 在两个长视频问答基准测试中,FOCUS仅处理不到2%的视频帧就实现了显著的准确率提升。对于超过20分钟的视频,在LongVideoBench上实现了11.9%的准确率增益。
- Conclusion: FOCUS提供了一个简单通用的解决方案,可扩展多模态大语言模型的长视频理解能力,证明了其作为关键帧选择方法的有效性。
[41] Rethinking Robust Adversarial Concept Erasure in Diffusion Models
Qinghong Yin,Yu Tian,Yue Zhang
Main category: cs.CV
TL;DR: 提出S-GRACE方法,通过语义引导生成对抗样本来改进扩散模型的概念擦除效果,相比现有方法提升26%擦除性能,减少90%训练时间。
- Motivation: 现有概念擦除方法在扩散模型中采用对抗训练时忽视了概念语义的作用,导致对抗样本无法有效拟合目标概念空间,存在覆盖不全面或干扰其他概念的问题。
- Method: S-GRACE方法在概念空间中利用语义引导生成对抗样本并进行擦除训练,确保对抗样本能更好地拟合目标概念空间。
- Result: 在多种扩散模型遗忘场景下的实验表明,S-GRACE显著提升擦除性能26%,更好地保留非目标概念,训练时间减少90%。
- Conclusion: 语义引导的对抗样本生成能有效改进扩散模型的概念擦除效果,解决现有方法在概念空间拟合方面的不足。
[42] Versatile and Efficient Medical Image Super-Resolution Via Frequency-Gated Mamba
Wenfeng Huang,Xiangyun Liao,Wei Cao,Wenjing Jia,Weixin Si
Main category: cs.CV
TL;DR: FGMamba是一个轻量级的医学图像超分辨率模型,通过门控状态空间模块和金字塔频率融合模块,在保持参数紧凑的同时实现全局依赖建模和精细细节增强。
- Motivation: 医学图像超分辨率在提高诊断准确性的同时需要降低采集成本和扫描时间,但现有方法难以同时建模长程解剖结构和细粒度频率细节,且计算开销较大。
- Method: 提出FGMamba模型,包含两个关键创新:门控注意力增强状态空间模块(GASM)结合高效状态空间建模与双分支空间和通道注意力;金字塔频率融合模块(PFFM)通过FFT引导融合捕获多分辨率下的高频细节。
- Result: 在五种医学成像模态(超声、OCT、MRI、CT和内窥镜)上的广泛评估显示,FGMamba在PSNR/SSIM指标上优于基于CNN和Transformer的最先进方法,同时保持紧凑的参数规模(<0.75M)。
- Conclusion: 频率感知状态空间建模为可扩展且准确的医学图像增强提供了有效解决方案。
[43] CASR-Net: An Image Processing-focused Deep Learning-based Coronary Artery Segmentation and Refinement Network for X-ray Coronary Angiogram
Alvee Hassan,Rusab Sarmun,Muhammad E. H. Chowdhury,M. Murugappan,Md. Sakib Abrar Hossain,Sakib Mahmud,Abdulrahman Alqahtani,Sohaib Bassam Zoghoul,Amith Khandakar,Susu M. Zughaier,Somaya Al-Maadeed,Anwarul Hasan
Main category: cs.CV
TL;DR: 提出CASR-Net三阶段管道用于冠状动脉分割,通过多通道预处理、UNet+DenseNet121编码器+Self-ONN解码器的分割网络和轮廓精炼模块,在公开数据集上实现了优于现有方法的性能。
- Motivation: 早期检测冠状动脉疾病对降低死亡率和改善治疗计划至关重要,但X射线血管造影图像质量差会严重影响临床诊断。
- Method: 三阶段管道:图像预处理(CLAHE和改进的Ben Graham方法)、分割网络(UNet+DenseNet121编码器+Self-ONN解码器)、轮廓精炼模块。
- Result: 在包含健康和狭窄动脉的两个公共数据集上,5折交叉验证显示IoU 61.43%、DSC 76.10%、clDice 79.36%,优于多个最先进模型。
- Conclusion: CASR-Net为自动冠状动脉分割提供了稳健方法,可作为支持临床医生诊断和治疗计划的有价值工具。
[44] Overcoming Prompts Pool Confusion via Parameterized Prompt for Incremental Object Detection
Zijia An,Boyu Diao,Ruiqi Liu,Libo Huang,Chuanguang Yang,Fei Wang,Zhulin An,Yongjun Xu
Main category: cs.CV
TL;DR: 提出了参数化提示方法P²IOD用于增量目标检测,通过神经网络作为参数化提示来自适应整合跨任务知识,解决现有提示池方法在检测图像中忽略共现现象的问题。
- Motivation: 现有基于提示池的方法假设增量任务间类别集不相交,不适合目标检测场景,因为检测图像中存在固有的共现现象——先前任务的未标记对象可能出现在当前任务图像中,导致提示池混淆。
- Method: P²IOD使用神经网络作为参数化提示来自适应整合跨任务知识,并采用参数化提示融合策略来约束提示结构更新,防止灾难性遗忘。
- Result: 在PASCAL VOC2007和MS COCO数据集上的广泛实验表明,P²IOD在增量目标检测中有效,并在现有基线中达到最先进的性能。
- Conclusion: 提示结构应具有跨任务的自适应整合特性,通过约束更新来防止灾难性遗忘,P²IOD通过参数化提示方法成功解决了增量目标检测中的共现问题。
[45] SAGS: Self-Adaptive Alias-Free Gaussian Splatting for Dynamic Surgical Endoscopic Reconstruction
Wenfeng Huang,Xiangyun Liao,Yinling Qian,Hao Liu,Yongming Yang,Wenjing Jia,Qiong Wang
Main category: cs.CV
TL;DR: 提出SAGS框架,通过自适应抗锯齿高斯泼溅技术改进内窥镜视频中可变形组织的重建质量,解决现有方法中的伪影和锯齿问题。
- Motivation: 内窥镜视频中可变形组织的动态重建在机器人辅助手术中至关重要。现有神经辐射场和3D高斯泼溅方法在重建可变形内窥镜场景时面临组织运动引起的锯齿和伪影问题,严重影响可视化质量。
- Method: 提出SAGS框架,包含注意力驱动的动态加权4D变形解码器,利用3D平滑滤波器和2D Mip滤波器来减轻可变形组织重建中的伪影,更好地捕捉组织运动的精细细节。
- Result: 在EndoNeRF和SCARED两个公开基准测试中,该方法在PSNR、SSIM和LPIPS所有指标上均优于现有最先进方法,同时提供更好的可视化质量。
- Conclusion: SAGS框架通过自适应抗锯齿高斯泼溅技术,有效解决了可变形内窥镜组织重建中的伪影和锯齿问题,在重建质量和可视化效果方面均取得显著提升。
[46] Generative Semantic Coding for Ultra-Low Bitrate Visual Communication and Analysis
Weiming Chen,Yijia Wang,Zhihan Zhu,Zhihai He
Main category: cs.CV
TL;DR: 提出了一种结合文本生成和深度图像压缩的超低比特率视觉通信方法,在保持视觉分析精度的同时大幅降低带宽需求
- Motivation: 解决在深空探测、战场情报等极低带宽场景下的视觉通信问题,现有文本到图像生成方法只能实现语义级近似,无法满足精确视觉分析和人机交互需求
- Method: 将图像生成与深度图像压缩无缝集成,使用联合文本和编码潜在向量来指导修正流模型,实现视觉场景的精确生成
- Result: 实验结果表明,该方法在保持相同图像重建质量和视觉分析精度的同时,使用的带宽远少于现有方法
- Conclusion: 该方法为超低比特率视觉通信提供了有效解决方案,在保持分析精度的同时显著降低带宽需求
[47] MeisenMeister: A Simple Two Stage Pipeline for Breast Cancer Classification on MRI
Benjamin Hamm,Yannick Kirchhoff,Maximilian Rokuss,Klaus Maier-Hein
Main category: cs.CV
TL;DR: ODELIA Breast MRI Challenge 2025旨在通过改进乳腺MRI扫描的解读,提高乳腺癌早期检测效率。由于高质量分割标签有限,开发基于分类的鲁棒方法对大规模筛查至关重要。
- Motivation: 乳腺癌检测面临挑战,主要原因是高质量分割标签稀缺,需要开发更有效的分类方法以改善早期检测。
- Method: 采用迭代开发过程,包括实验、评估和优化阶段,最终形成基于分类的解决方案。
- Result: 提供了完整的实现方案,公开在GitHub仓库中,重点关注性能、鲁棒性和临床相关性。
- Conclusion: 基于分类的方法对乳腺癌早期检测具有重要价值,特别是在大规模筛查应用中。
[48] Understanding the Implicit User Intention via Reasoning with Large Language Model for Image Editing
Yijia Wang,Yiqing Shen,Weiming Chen,Zhihai He
Main category: cs.CV
TL;DR: CIELR是一种无需联合微调LLM和扩散模型的复杂图像编辑方法,通过将复杂指令分解为简单编辑动作,在PSNR指标上比之前方法提升9.955dB。
- Motivation: 现有图像编辑方法处理复杂指令时需要联合微调大语言模型和扩散模型,计算复杂度和训练成本很高。
- Method: 使用基础模型构建输入图像的结构化语义表示,引入迭代更新机制逐步细化表示,获得细粒度视觉表示,从而执行复杂图像编辑。
- Result: 在SmartEdit数据集上PSNR提升9.955dB,在自建CIEBench基准测试中也优于先前方法。
- Conclusion: CIELR方法能够有效处理复杂图像编辑指令,无需联合训练LLM和扩散模型,在保持区域一致性方面表现优异。
[49] RzenEmbed: Towards Comprehensive Multimodal Retrieval
Weijian Jian,Yajun Zhang,Dawei Liang,Chunyu Xie,Yixiao He,Dawei Leng,Yuhui Yin
Main category: cs.CV
TL;DR: RzenEmbed是一个统一的多模态嵌入框架,支持文本、图像、视频和视觉文档,通过两阶段训练策略和优化的InfoNCE损失函数,在MMEB基准测试中取得了最先进的性能。
- Motivation: 现有的CLIP框架主要关注自然图像,对其他重要视觉模态(如视频和视觉文档)的支持有限,需要开发一个统一的多模态嵌入学习框架。
- Method: 采用两阶段训练策略:第一阶段专注于基础文本和多模态检索;第二阶段引入改进的InfoNCE损失,包含难度加权机制和减少假阴性影响的策略,同时使用可学习温度参数和模型融合技术。
- Result: 在MMEB基准测试中取得了最佳总体分数,特别是在具有挑战性的视频和视觉文档检索任务上超越了所有先前工作。
- Conclusion: RzenEmbed提供了一个强大的统一多模态嵌入框架,能够有效处理多种视觉模态,在检索任务中表现出色。
[50] FPS: Feedforward-based Parameter Selection For Efficient Fine-Tuning
Kenneth Yang,Wen-Li Wei,Jen-Chun Lin
Main category: cs.CV
TL;DR: 提出了FPS方法,一种无需梯度的前馈参数选择技术,在单次前向传播中识别最优参数子集,显著降低内存使用并加速参数选择。
- Motivation: 现有参数高效微调方法存在局限性:基于加法的方法引入推理延迟和工程复杂性,基于选择的方法需要完整反向传播导致内存使用与全微调相同。
- Method: FPS通过参数幅度与相应输入激活的乘积来对参数进行排序,利用预训练知识和下游数据,在单次前向传播中完成参数选择。
- Result: 在24个视觉任务上评估,FPS性能与最先进方法相当,同时将峰值内存使用降低近9倍,参数选择速度提升约2倍。
- Conclusion: FPS为大规模预训练模型微调提供了真正内存高效且实用的解决方案。
[51] Fine-Tuning Open Video Generators for Cinematic Scene Synthesis: A Small-Data Pipeline with LoRA and Wan2.1 I2V
Meftun Akarsu,Kerem Catay,Sedat Bin Vedat,Enes Kutay Yarkan,Ilke Senturk,Arda Sar,Dafne Eksioglu
Main category: cs.CV
TL;DR: 提出一个两阶段微调流程,使用LoRA技术在小数据集上快速训练视频扩散模型,实现影视场景合成。第一阶段学习视觉风格,第二阶段生成连贯视频序列。
- Motivation: 为电视和电影制作提供实用的影视场景合成解决方案,能够从小数据集快速适应特定视觉风格,满足影视制作需求。
- Method: 两阶段流程:第一阶段在Wan2.1 I2V-14B模型的交叉注意力层集成LoRA模块,使用El Turco电视剧短片数据集进行视觉风格学习;第二阶段生成关键帧并通过视频解码器扩展为720p序列。采用轻量级并行化和序列分区策略加速推理。
- Result: 定量评估(FVD、CLIP-SIM、LPIPS指标)和定性评估(专家用户研究)显示,相比基础模型,在影视保真度和时间稳定性方面有显著提升。
- Conclusion: 该流程能够在单GPU上数小时内完成领域迁移,释放完整训练和推理流程以支持跨影视领域的复现和适应。
[52] Modality Alignment across Trees on Heterogeneous Hyperbolic Manifolds
Wu Wei,Xiaomeng Fan,Yuwei Wu,Zhi Gao,Pengxiang Li,Yunde Jia,Mehrtash Harandi
Main category: cs.CV
TL;DR: 提出Alignment across Trees方法,通过构建和对齐图像和文本的树状层次特征来解决模态对齐不对称问题,在多个图像数据集上的分类任务中表现优异。
- Motivation: 现有方法从文本中提取层次特征,但图像仅用单一特征表示,导致模态对齐不对称且效果不佳。
- Method: 构建语义感知的视觉特征提取框架,使用交叉注意力机制从Transformer中间层提取从粗到细的视觉特征;将两种模态的特征树嵌入到具有不同曲率的双曲流形中;通过最小化异构流形间的KL距离来学习中间流形进行对齐。
- Result: 在多个图像数据集上的分类任务中,该方法在少样本和跨域设置下始终优于强基线。
- Conclusion: 提出的跨树对齐方法能够有效解决视觉语言模型中的模态对齐不对称问题,证明了最优中间流形的存在性和唯一性。
[53] A Hybrid Deep Learning and Forensic Approach for Robust Deepfake Detection
Sales Aribe Jr
Main category: cs.CV
TL;DR: 提出混合框架,融合法医特征与深度学习表示,在多个基准数据集上优于现有方法,具有更好的鲁棒性和可解释性。
- Motivation: 现有深度伪造检测方法存在泛化性差、易受失真影响或无法应对新篡改技术的问题,需要结合深度学习的适应性和法医特征的可解释性。
- Method: 融合噪声残差、JPEG压缩痕迹、频域描述符等法医特征,与CNN和ViT的深度学习表示,构建混合检测框架。
- Result: 在FaceForensics++、Celeb-DF v2、DFDC数据集上分别获得0.96、0.82、0.77的F1分数,在压缩、对抗扰动和未知篡改情况下保持稳定性能。
- Conclusion: 混合方法结合了深度模型的适应性和法医线索的可解释性,为开发具有弹性和可信度的深度伪造检测系统提供了平衡解决方案。
[54] Who Does Your Algorithm Fail? Investigating Age and Ethnic Bias in the MAMA-MIA Dataset
Aditya Parikh,Sneha Das,Aasa Feragen
Main category: cs.CV
TL;DR: 该论文审计了乳腺癌肿瘤分割数据集MAMA-MIA中自动分割标签的公平性,发现存在针对年轻患者的年龄相关偏见,这种偏见在控制混杂因素后仍然存在。
- Motivation: 深度学习模型旨在改善诊断工作流程,但在图像分割等任务中的公平性评估仍然不足。未解决的分割偏见可能导致对某些人群的护理质量差异,并在临床决策点和迭代模型开发中被放大。
- Method: 作者评估了MAMA-MIA数据集中自动分割标签的公平性,分析了年龄、种族和数据来源对分割质量的影响。
- Result: 分析揭示了针对年轻患者的内在年龄相关偏见,即使控制数据来源等混杂因素后仍然存在。同时发现聚合多个数据来源的数据会影响特定站点的种族偏见。
- Conclusion: 需要在细粒度水平上调查数据,以识别和解决分割模型中的公平性问题,特别是与年龄和种族相关的偏见。
[55] Mitigating Semantic Collapse in Partially Relevant Video Retrieval
WonJun Moon,MinSeok Jung,Gilhan Park,Tae-Young Kim,Cheol-Ho Cho,Woojin Jun,Jae-Pil Heo
Main category: cs.CV
TL;DR: 本文针对部分相关视频检索中的语义坍缩问题,提出了文本相关性保持学习和跨分支视频对齐方法,有效改善了多事件视频的检索性能。
- Motivation: 现有方法将所有标注的文本-视频对视为正样本,其他为负样本,忽略了视频内部和跨视频的丰富语义变化,导致同一视频中不同事件的查询和视频片段嵌入坍缩在一起,而语义相似的查询和不同视频的片段却被推远。
- Method: 提出文本相关性保持学习来保持基础模型编码的文本查询语义关系;提出跨分支视频对齐的对比对齐方法,在时间尺度上解耦层次化视频表示;引入保序令牌合并和自适应CBVA来增强对齐效果。
- Result: 在PRVR基准测试上的大量实验表明,该框架有效防止了语义坍缩,显著提高了检索准确率。
- Conclusion: 所提出的方法成功解决了部分相关视频检索中的语义坍缩问题,通过保持语义关系和跨尺度视频对齐,显著提升了多事件视频的检索性能。
[56] DeblurSDI: Blind Image Deblurring Using Self-diffusion
Yanlong Yang,Guanxiong Luo
Main category: cs.CV
TL;DR: DeblurSDI是一种零样本、自监督的盲图像去模糊框架,基于自扩散过程,无需预训练即可从噪声开始迭代恢复清晰图像和模糊核。
- Motivation: 传统盲图像去模糊方法依赖手工先验,而现代深度学习方法需要大量外部数据集预训练,限制了在真实场景中的适应性。
- Method: 将盲去模糊建模为迭代逆向自扩散过程,使用两个随机初始化神经网络连续优化清晰图像和模糊核,结合数据一致性和L1稀疏约束,采用噪声调度机制稳定优化。
- Result: 在广泛实验中,DeblurSDI始终实现卓越性能,即使在高度退化场景下也能恢复清晰图像和准确模糊核。
- Conclusion: DeblurSDI通过动态学习实例特定先验,提供了一种无需预训练的有效盲图像去模糊解决方案。
[57] CoMViT: An Efficient Vision Backbone for Supervised Classification in Medical Imaging
Aon Safdar,Mohamed Saadeldin
Main category: cs.CV
TL;DR: CoMViT是一个紧凑且可泛化的Vision Transformer架构,专为资源受限的医疗图像分析优化,通过多种技术改进实现了高性能和泛化能力,参数量仅约4.5M。
- Motivation: Vision Transformers在医疗成像中表现出潜力,但高计算需求和在小数据集上容易过拟合的问题限制了其在实际临床场景中的应用。
- Method: 整合卷积分词器、对角掩码、动态温度缩放和基于池化的序列聚合,通过系统架构优化实现轻量级设计。
- Result: 在12个MedMNIST数据集上实现稳健性能,匹配或超越更深的CNN和ViT变体,参数量减少5-20倍而不损失准确性。Grad-CAM分析显示模型能持续关注临床相关区域。
- Conclusion: 结果突出了通过原则性ViT重新设计在低资源医疗成像环境中开发高效可解释模型的潜力。
[58] From Pixels to Paths: A Multi-Agent Framework for Editable Scientific Illustration
Jianwen Sun,Fanrui Zhang,Yukang Feng,Chuanhao Li,Zizhen Li,Jiaxin Ai,Yifan Chang,Yu Dai,Kaipeng Zhang
Main category: cs.CV
TL;DR: VisPainter是一个基于模型上下文协议的多智能体框架,用于生成可编辑的科学插图,通过模块化设计实现元素级控制,并引入VisBench基准进行七维度评估。
- Motivation: 解决当前生成模型在科学插图创作中的两大局限:基于图像的生成模型缺乏语义结构导致无法编辑独立元素,而基于代码的生成方法操作繁琐且不直观。
- Method: 采用多智能体框架,包含Manager、Designer和Toolbox三个专业模块,协作生成与标准矢量图形软件兼容的图表。
- Result: 通过广泛的消融实验验证了架构合理性,评估了各种视觉语言模型,并量化了角色划分、步骤控制和描述对插图质量的影响。
- Conclusion: VisPainter框架有效解决了科学插图创作中效率、直观性和迭代修改的需求,实现了真正的元素级控制。
[59] A Multi-tiered Human-in-the-loop Approach for Interactive School Mapping Using Earth Observation and Machine Learning
Casper Fibaek,Abi Riley,Kelsey Doerksen,Do-Hyung Kim,Rochelle Schneider
Main category: cs.CV
TL;DR: 提出了一个多层级人机交互框架,用于改进发展中国家教育设施记录的准确性和完整性,通过机器学习分析、卫星影像和深度学习模型识别学校位置。
- Motivation: 在发展中国家,教育设施数据稀缺且更新不及时,需要一种可扩展且成本效益高的方法来改进学校地图绘制,以支持规划和资源分配。
- Method: 采用多层级方法:第一层使用机器学习分析人口密度、土地覆盖和现有基础设施;第二层使用中分辨率卫星影像识别学校可能存在的区域;第三层使用超高分辨率影像和深度学习模型生成详细的候选学校位置。包含人机交互界面供操作员审查和优化结果。
- Result: 初步评估表明,该多层级策略为教育基础设施地图绘制提供了可扩展且成本效益高的解决方案。中分辨率方法因改进不显著而被移除。
- Conclusion: 该人机交互的多层级框架能够有效提高学校地图绘制的准确性和完整性,特别是在数据稀缺的发展中地区。
[60] Referee: Reference-aware Audiovisual Deepfake Detection
Hyemin Boo,Eunsang Lee,Jiyoung Lee
Main category: cs.CV
TL;DR: 提出Referee方法,利用单样本的说话人特定线索进行音视频深度伪造检测,通过跨模态特征匹配实现身份一致性验证,在跨数据集和跨语言评估中达到SOTA性能。
- Motivation: 现有音视频深度伪造检测方法难以泛化到未见过的伪造内容,需要利用说话人特定线索超越时空伪影检测。
- Method: 通过从参考和目标内容中匹配对齐身份相关查询到跨模态特征,联合推理音视频同步性和身份一致性。
- Result: 在FakeAVCeleb、FaceForensics++和KoDF数据集上的实验表明,Referee在跨数据集和跨语言评估中达到最先进性能。
- Conclusion: 跨模态身份验证对于未来深度伪造检测至关重要,Referee方法展示了这一方向的有效性。
[61] NAUTILUS: A Large Multimodal Model for Underwater Scene Understanding
Wei Xu,Cheng Wang,Dingkang Liang,Zongchuang Zhao,Xingyu Jiang,Peng Zhang,Xiang Bai
Main category: cs.CV
TL;DR: 构建了包含145万图像-文本对的NautData数据集,支持8个水下场景理解任务,并提出可插拔的视觉特征增强模块VFE,集成到LLaVA-1.5和Qwen2.5-VL中构建水下LMM模型NAUTILUS。
- Motivation: 水下场景理解需要多粒度多任务感知,但缺乏大规模水下多任务指令调优数据集阻碍了研究进展。水下图像退化问题也干扰水下任务性能。
- Method: 构建NautData数据集,引入水下成像模型的物理先验,提出可插拔的VFE模块显式恢复清晰水下信息,集成到LLaVA-1.5和Qwen2.5-VL中构建NAUTILUS模型。
- Result: 在NautData和公共水下数据集上的实验表明,VFE模块有效提升了两个基线模型在大多数支持任务上的性能,确保NAUTILUS在水下场景理解领域的优势。
- Conclusion: NAUTILUS通过VFE模块和数据集的构建,显著提升了水下场景理解的性能,为自动化水下探索提供了有效解决方案。
[62] ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning
Jiawei Gu,Yunzhuo Hao,Huichen Will Wang,Linjie Li,Michael Qizhe Shieh,Yejin Choi,Ranjay Krishna,Yu Cheng
Main category: cs.CV
TL;DR: ThinkMorph是一个统一的多模态推理模型,通过文本和图像的互补性来推进推理过程,在视觉中心基准测试中表现优异,并展现出新兴的多模态智能能力。
- Motivation: 多模态推理需要语言和视觉之间的迭代协调,但目前尚不清楚什么构成了有意义的交错思维链。作者认为文本和图像思维应该作为互补而非同构的模态相互促进推理。
- Method: 构建ThinkMorph模型,在24K高质量交错推理轨迹上进行微调,涵盖不同视觉参与度的任务。模型学习生成逐步的文本-图像推理步骤,具体操作视觉内容同时保持连贯的言语逻辑。
- Result: 在视觉中心基准测试中平均提升34.7%,优于基础模型,并在域外任务中匹配或超越更大和专有的视觉语言模型。展现出新兴的多模态智能,包括未见过的视觉操作技能、自适应推理模式切换和通过多样化多模态思维实现更好的测试时扩展。
- Conclusion: 这些发现为表征统一多模态推理模型的新兴能力提供了有前景的方向。
[63] Context-Gated Cross-Modal Perception with Visual Mamba for PET-CT Lung Tumor Segmentation
Elena Mulero Ayllón,Linlin Shen,Pierangelo Veltri,Fabrizia Gelardi,Arturo Chiti,Paolo Soda,Matteo Tortora
Main category: cs.CV
TL;DR: vMambaX是一个轻量级多模态框架,通过上下文门控跨模态感知模块整合PET和CT扫描图像,用于肺肿瘤分割,在保持低计算复杂度的同时优于基线模型。
- Motivation: 精确的肺肿瘤分割对改善诊断和治疗规划至关重要,而有效整合PET和CT的解剖和功能信息仍然是一个主要挑战。
- Method: 基于Visual Mamba架构,vMambaX通过上下文门控跨模态感知模块自适应增强模态间特征交互,强调信息丰富区域同时抑制噪声。
- Result: 在PCLT20K数据集上的评估显示,该模型优于基线模型,同时保持较低的计算复杂度。
- Conclusion: 结果表明自适应跨模态门控在多模态肿瘤分割中的有效性,并展示了vMambaX作为高效可扩展框架用于先进肺癌分析的潜力。
[64] Deep Neural Watermarking for Robust Copyright Protection in 3D Point Clouds
Khandoker Ashik Uz Zaman,Mohammad Zahangir Alam,Mohammed N. M. Ali,Mahdi H. Miraz
Main category: cs.CV
TL;DR: 提出了一种基于深度学习的3D点云水印框架,通过奇异值分解将水印嵌入点云块中,使用PointNet++网络进行水印提取,在多种攻击下保持高精度恢复。
- Motivation: 3D点云在数字媒体中快速增长,但传统水印方法容易受到几何和非几何攻击的影响,需要更鲁棒的版权保护方案。
- Method: 使用奇异值分解将二进制水印嵌入3D点云块的奇异值中,采用PointNet++神经网络架构进行水印提取,训练网络在各种攻击下可靠提取水印。
- Result: 在ModelNet40数据集上验证,深度学习提取方法显著优于传统SVD方法,在裁剪70%攻击下比特精度达0.83、IoU达0.80,而SVD方法分别为0.58和0.26。
- Conclusion: 深度学习提取方法在严重失真条件下仍能实现优异的水印恢复,保持高保真度,为3D点云版权保护提供了有效解决方案。
[65] MapSAM2: Adapting SAM2 for Automatic Segmentation of Historical Map Images and Time Series
Xue Xia,Randall Balestriero,Tao Zhang,Yixin Zhou,Andrew Ding,Dev Saini,Lorenz Hurni
Main category: cs.CV
TL;DR: MapSAM2是一个基于视觉基础模型的统一框架,能够自动分割历史地图图像和时间序列,通过将地图处理为视频形式来提升分割精度,并提出了伪时间序列生成方法来减少标注成本。
- Motivation: 历史地图是记录不同时期地理特征的宝贵档案,但由于风格多变和标注数据稀缺,其自动分析面临挑战。构建时空关联数据集对于建筑年代确定、道路网络发展和环境变化研究等应用至关重要。
- Method: 将历史地图图像和时间序列都视为视频处理:对于图像,将图块集作为视频处理,利用记忆注意力机制整合相似图块的上下文信息;对于时间序列,提出从单年地图生成伪时间序列的方法来模拟常见时间变换。
- Result: 实验结果表明,MapSAM2能够有效学习时间关联,在有限监督或使用伪视频的情况下,能够准确分割和关联时间序列中的建筑物。
- Conclusion: MapSAM2为历史地图分析提供了一个有效的统一框架,能够处理图像和时间序列分割任务,并通过伪时间序列生成降低了标注成本,将发布数据集和代码支持未来研究。
[66] Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum
Zhuoning Guo,Mingxin Li,Yanzhao Zhang,Dingkun Long,Pengjun Xie,Xiaowen Chu
Main category: cs.CV
TL;DR: 提出了一个视频检索框架,通过评估、数据和建模的协同设计来解决现有方法的局限性。包括通用视频检索基准(UVRB)、可扩展的数据合成流程和模态金字塔训练方法,实现了最先进的零样本泛化性能。
- Motivation: 现有视频检索方法存在结构性偏差,狭窄的基准测试限制了数据和单任务训练,抑制了通用能力的发展。需要诊断性评估来定义和需求多维度泛化能力。
- Method: 1) 建立UVRB基准,包含16个数据集用于诊断能力差距;2) 基于UVRB诊断的可扩展合成流程,生成155万高质量数据对;3) 模态金字塔课程学习,利用数据间潜在关联训练通用视频嵌入器(GVE)。
- Result: GVE在UVRB上实现了最先进的零样本泛化性能。分析显示流行基准对通用能力的预测能力差,部分相关检索是主要但被忽视的场景。
- Conclusion: 协同设计框架为摆脱有限范围、推进真正通用视频检索提供了实用路径。
[67] Image Hashing via Cross-View Code Alignment in the Age of Foundation Models
Ilyass Moummad,Kawtar Zaher,Hervé Goëau,Alexis Joly
Main category: cs.CV
TL;DR: CroVCA提出了一种简单统一的二进制编码学习方法,通过交叉视图代码对齐和编码率最大化正则化,在5个训练周期内实现最先进的哈希性能,特别在16位编码上表现优异。
- Motivation: 大规模高效检索需要既紧凑又具有区分度的表示。基础模型提供强大的嵌入,但高维空间中的最近邻搜索计算成本高。哈希方法虽然高效,但现有方法通常依赖复杂流程、多目标优化和长训练时间。
- Method: 引入CroVCA(交叉视图代码对齐)原则,使用单一二元交叉熵损失强制对齐,编码率最大化作为抗崩溃正则化器。设计HashCoder轻量MLP哈希网络,通过批归一化层强制平衡编码,可作为冻结嵌入的探测头或通过LoRA微调适配编码器。
- Result: 在多个基准测试中,CroVCA仅用5个训练周期就达到最先进结果。16位编码表现尤其突出,COCO上的无监督哈希在2分钟内完成,ImageNet100上的监督哈希约3分钟完成(单GPU)。
- Conclusion: CroVCA展示了高效性、适应性和广泛适用性,为大规模检索提供了简单而强大的哈希解决方案。
[68] ANCHOR: Integrating Adversarial Training with Hard-mined Supervised Contrastive Learning for Robust Representation Learning
Samarup Bhattacharya,Anubhab Bhattacharya,Abir Chakraborty
Main category: cs.CV
TL;DR: 提出ANCHOR框架,通过监督对比学习和硬正样本挖掘来增强模型对抗性攻击的鲁棒性,在CIFAR-10数据集上取得了优异的干净准确率和鲁棒准确率。
- Motivation: 神经网络虽然强大,但其依赖的梯度学习机制使其容易受到对抗性攻击,即微小但精心设计的扰动就能导致模型错误分类。
- Method: 使用监督对比学习结合显式硬正样本挖掘,让图像、其增强版本和扰动版本在嵌入空间中聚类,同时与其他类别分离,从而学习更稳定和有意义的模式。
- Result: 在CIFAR-10数据集上,使用PGD-20攻击(ε=0.031)时,ANCHOR在干净准确率和鲁棒准确率方面均优于标准对抗训练方法。
- Conclusion: 结合对抗性指导和硬挖掘对比监督有助于模型学习更有结构和鲁棒性的表示,缩小了准确率和鲁棒性之间的差距。
[69] Who Made This? Fake Detection and Source Attribution with Diffusion Features
Simone Bonechi,Paolo Andreini,Barbara Toniella Corradini
Main category: cs.CV
TL;DR: FRIDA框架利用预训练扩散模型的内部特征进行深度伪造检测和生成器溯源,无需微调即可实现跨生成器的先进性能。
- Motivation: 生成扩散模型创建的合成图像越来越难以与真实图像区分,引发了真实性、版权和虚假信息方面的担忧。现有监督检测器难以泛化到未见过的生成器,需要大量标注数据和频繁重新训练。
- Method: 利用预训练扩散模型的内部激活特征,通过k近邻分类器进行深度伪造检测,使用紧凑的神经网络模型进行生成器溯源。
- Result: 在跨生成器性能上达到最先进水平,无需微调即可实现准确的深度伪造检测和生成器溯源。
- Conclusion: 扩散表示固有地编码了生成器特定的模式,为合成图像取证提供了简单且可解释的基础。
[70] Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning
Yuhong Liu,Beichen Zhang,Yuhang Zang,Yuhang Cao,Long Xing,Xiaoyi Dong,Haodong Duan,Dahua Lin,Jiaqi Wang
Main category: cs.CV
TL;DR: Spatial-SSRL是一种自监督强化学习范式,通过从普通RGB或RGB-D图像中自动生成五个空间结构相关的预训练任务,无需人工标注即可提升大视觉语言模型的空间理解能力。
- Motivation: 现有的大视觉语言模型在空间理解方面存在不足,而传统的监督微调和强化学习方法依赖昂贵的标注、专用工具或受限环境,限制了扩展性。
- Method: 提出自监督强化学习范式Spatial-SSRL,自动生成五个空间预训练任务:打乱补丁重排序、翻转补丁识别、裁剪补丁修复、区域深度排序和相对3D位置预测,这些任务提供可验证的真实答案。
- Result: 在七个空间理解基准测试中,Spatial-SSRL相比Qwen2.5-VL基线在图像和视频设置下分别实现了4.63%(3B)和3.89%(7B)的平均准确率提升,同时保持了通用视觉能力。
- Conclusion: 简单、内在的监督能够实现大规模强化学习验证,为大视觉语言模型提供了增强空间智能的实用途径。
[71] Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model
John Won,Kyungmin Lee,Huiwon Jang,Dongyoung Kim,Jinwoo Shin
Main category: cs.CV
TL;DR: 提出了DUST框架,通过双流扩散架构解决视觉-语言-动作模型中模态冲突问题,提升机器人策略学习性能
- Motivation: 现有方法在联合预测下一状态观察和动作序列时面临模态差异挑战,需要解决视觉和动作模态之间的冲突
- Method: 采用多模态扩散变换器架构,保持分离的模态流同时支持跨模态知识共享;引入独立噪声扰动和解耦流匹配损失;提出支持测试时缩放的联合采样方法
- Result: 在RoboCasa和GR-1基准测试中比基线方法提升6%;测试时缩放额外提升2-5%;真实世界任务成功率提升13%;BridgeV2预训练在RoboCasa上获得显著迁移增益
- Conclusion: DUST框架有效解决了VLA模型中的模态冲突问题,在模拟和真实世界任务中都表现出色,具有大规模预训练的潜力
[72] Sketch-to-Layout: Sketch-Guided Multimodal Layout Generation
Riccardo Brioschi,Aleksandr Alekseev,Emanuele Nevali,Berkay Döner,Omar El Malki,Blagoj Mitrevski,Leandro Kieliger,Mark Collier,Andrii Maksai,Jesse Berent,Claudiu Musat,Efi Kokiopoulou
Main category: cs.CV
TL;DR: 提出了一种基于用户草图作为直观约束的布局生成方法,通过多模态transformer模型将草图和内容资源转换为高质量布局,并开发了高效的合成草图生成方法来解决训练数据稀缺问题。
- Motivation: 现有的布局生成方法需要复杂的用户约束规范,降低了可用性。本文旨在利用用户提供的草图作为更直观的约束方式,简化设计流程。
- Method: 使用多模态transformer模型,以草图和内容资源作为输入生成布局。为解决训练数据稀缺问题,开发了高效的合成草图生成方法。
- Result: 在PubLayNet、DocLayNet和SlidesVQA三个公开数据集上的实验表明,该方法优于现有的基于约束的方法,同时提供更直观的设计体验。
- Conclusion: 草图到布局是一个有前景的研究方向,本文提出的方法在性能和用户体验方面都表现出色,并发布了20万合成草图数据集以促进未来研究。
[73] VessShape: Few-shot 2D blood vessel segmentation by leveraging shape priors from synthetic images
Cesar H. Comin,Wesley N. Galvão
Main category: cs.CV
TL;DR: 提出VessShape方法,通过生成包含管状几何结构的大规模合成数据集,让分割模型学习形状特征而非纹理特征,从而提高血管分割的泛化能力和数据效率。
- Motivation: 解决血管语义分割中标注数据稀缺和模型跨模态泛化能力差的问题,特别是CNN倾向于学习纹理特征而忽略形状特征的限制。
- Method: 开发VessShape方法生成包含程序化生成的管状几何结构和多样化纹理的2D合成数据集,通过预训练让模型学习形状先验知识。
- Result: 在VessShape上预训练的模型仅需4-10个样本微调就能在两个真实数据集上实现强少样本分割性能,并表现出显著的零样本能力。
- Conclusion: 具有强形状偏见的预训练是克服数据稀缺和提升血管分割模型泛化能力的有效策略。
[74] NegoCollab: A Common Representation Negotiation Approach for Heterogeneous Collaborative Perception
Congzhang Shao,Quan Yuan,Guiyang Luo,Yue Hu,Danni Wang,Yilin Liu,Rui Pan,Bo Chen,Jinglin Li
Main category: cs.CV
TL;DR: NegoCollab提出了一种基于协商共同表示的异构协作方法,通过引入协商器来减少不同感知模型之间的领域差距,提升协作感知性能。
- Motivation: 解决异构协作感知中由于不同固定感知模型导致的领域差距问题,现有方法将共同表示指定为特定代理的表示,难以实现有效对齐。
- Method: 引入协商器从各模态代理的本地表示中推导共同表示,使用发送器和接收器实现特征空间转换,并采用结构对齐、语用对齐和分布对齐损失进行训练监督。
- Result: 有效减少了与各种本地表示之间的固有领域差距,使共同表示中的知识能够充分蒸馏到发送器中。
- Conclusion: NegoCollab通过协商共同表示的方法成功解决了异构协作感知中的领域对齐问题,提升了协作性能。
[75] Gaussian Combined Distance: A Generic Metric for Object Detection
Ziqian Guan,Xieyi Fu,Pengjun Huang,Hengyuan Zhang,Hubin Du,Yongtao Liu,Yinglin Wang,Qang Ma
Main category: cs.CV
TL;DR: 提出高斯组合距离(GCD)来解决小目标检测中IoU和Wasserstein距离的局限性,GCD具有尺度不变性和联合优化特性,在多个数据集上实现SOTA性能。
- Motivation: 现有IoU相似度度量对小目标检测效果不佳,对位置偏差敏感;Wasserstein距离缺乏尺度不变性,且作为损失函数时中心属性独立优化导致收敛慢和检测精度不理想。
- Method: 提出高斯组合距离(GCD),通过分析GCD及其梯度,证明其具有尺度不变性并支持联合优化,增强模型定位性能。
- Result: 在AI-TOD-v2小目标检测数据集上,GCD作为边界框回归损失函数和标签分配度量,在各种检测器上实现SOTA性能;在MS-COCO-2017和Visdrone-2019数据集上验证了GCD的泛化能力,优于Wasserstein距离。
- Conclusion: GCD解决了小目标检测中相似度度量的关键问题,具有尺度不变性和联合优化优势,在多个数据集上表现出优越性能。
[76] Deep learning denoising unlocks quantitative insights in operando materials microscopy
Samuel Degnan-Morgenstern,Alexander E. Cohen,Rajeev Gopal,Megan Gober,George J. Nelson,Peng Bai,Martin Z. Bazant
Main category: cs.CV
TL;DR: 提出了一种基于无监督深度学习的通用去噪框架,用于提升定量显微镜工作流程的质量,该框架能保持物理保真度、减少噪声并提高分辨率。
- Motivation: 操作显微镜在观测功能材料的动态化学物理过程时,测量噪声限制了有效分辨率并影响定量分析精度,需要一种能保持物理保真度的去噪方法。
- Method: 开发了无监督深度学习去噪框架,结合偏微分方程约束优化来保持物理一致性,应用于多种显微镜模式包括扫描透射X射线显微镜、光学显微镜和中子射线照相。
- Result: 去噪后能揭示磷酸铁锂中的纳米级化学结构异质性,实现石墨电极中颗粒分割和相分类的自动化,并将中子射线照相中的噪声变异性降低近80%,从而解析异质锂传输。
- Conclusion: 深度去噪是一种强大的、模式无关的增强技术,能够推进定量操作成像,并扩展先前受噪声限制技术的应用范围。
[77] Vision Transformer for Robust Occluded Person Reidentification in Complex Surveillance Scenes
Bo Li,Duyuan Zheng,Xinyang Liu,Qingwen Li,Hong Li,Hongyan Cui,Ge Gao,Chen Liu
Main category: cs.CV
TL;DR: 提出Sh-ViT模型,一种轻量级且鲁棒的行人重识别方法,通过打乱模块、场景适应增强和知识蒸馏技术,在遮挡和模糊条件下表现优异。
- Motivation: 解决监控场景中行人重识别面临的遮挡、视角变形和图像质量差等挑战,现有方法通常依赖复杂模块或仅在清晰正面图像上表现良好。
- Method: 基于ViT-Base构建,包含三个组件:最终Transformer层的打乱模块以打破空间相关性;场景适应增强模拟监控条件;DeiT知识蒸馏提升有限标签下的学习效果。
- Result: 在MyTT数据集上达到83.2% Rank-1和80.1% mAP,在Market1501上达到94.6% Rank-1和87.5% mAP,优于CNN和ViT基线及最先进方法。
- Conclusion: Sh-ViT无需外部模块即可提升对遮挡和模糊的鲁棒性,为基于监控的人员监控提供了实用解决方案。
[78] PETAR: Localized Findings Generation with Mask-Aware Vision-Language Modeling for PET Automated Reporting
Danyal Maqbool,Changhee Lee,Zachary Huemann,Samuel D. Church,Matthew E. Larson,Scott B. Perlman,Tomas A. Romero,Joshua D. Warner,Meghan Lubner,Xin Tie,Jameson Merkow,Junjie Hu,Steve Y. Cho,Tyler J. Bradshaw
Main category: cs.CV
TL;DR: 提出了PETAR-4B模型,将视觉语言模型扩展到3D PET/CT医学影像领域,通过整合PET、CT和病灶轮廓实现空间定位的报告生成。
- Motivation: 现有视觉语言模型主要局限于2D医学影像,而3D PET/CT具有大容量体数据、小且分散病灶以及冗长放射学报告的特点,需要专门的解决方案。
- Method: 构建了包含11,000+病灶级描述和5,000+ PET/CT检查的大型数据集,使用混合规则和LLM管道提取数据。提出PETAR-4B模型,整合PET、CT和病灶轮廓,实现全局上下文推理与细粒度病灶感知的结合。
- Result: 综合自动化和人工评估表明,PETAR显著提升了PET/CT报告生成质量,在3D医学视觉语言理解方面取得进展。
- Conclusion: PETAR模型成功将视觉语言模型扩展到3D PET/CT领域,实现了临床连贯且定位准确的报告生成,推动了3D医学视觉语言理解的发展。
[79] Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals
Xiangyu Fan,Zesong Qiu,Zhuguanyu Wu,Fanzhou Wang,Zhiqian Lin,Tianxiang Ren,Dahua Lin,Ruihao Gong,Lei Yang
Main category: cs.CV
TL;DR: Phased DMD是一个多步蒸馏框架,通过渐进式分布匹配和子区间分数匹配,解决DMD在复杂生成任务中模型容量不足的问题,同时保持生成多样性。
- Motivation: DMD在复杂生成任务中表现不佳,而直接扩展为多步蒸馏会导致内存使用增加、计算深度加深,造成不稳定和效率降低。随机梯度截断虽然被提出作为解决方案,但会显著降低多步蒸馏模型的生成多样性。
- Method: Phased DMD基于两个关键思想:渐进式分布匹配和子区间分数匹配。首先将SNR范围划分为子区间,逐步将模型细化到更高的SNR水平以更好地捕捉复杂分布;其次通过严格的数学推导确保每个子区间内的训练目标准确。
- Result: 通过蒸馏最先进的图像和视频生成模型(包括Qwen-Image和Wan2.2)验证了Phased DMD的有效性。实验结果表明,Phased DMD在保留关键生成能力的同时,比DMD更好地保持了输出多样性。
- Conclusion: Phased DMD成功地解决了DMD在复杂生成任务中的局限性,通过结合分阶段蒸馏和专家混合的思想,在降低学习难度的同时增强了模型容量,为高效生成模型提供了有前景的解决方案。
[80] LifWavNet: Lifting Wavelet-based Network for Non-contact ECG Reconstruction from Radar
Soumitra Kundu,Gargi Panda,Saumik Bhattacharya,Aurobinda Routray,Rajlakshmi Guha
Main category: cs.CV
TL;DR: LifWavNet是一种基于多分辨率分析和合成模型的提升小波网络,用于从雷达信号重建非接触式心电图,通过可学习的提升小波和STFT损失函数在时域和频域提高重建保真度。
- Motivation: 从雷达信号重建非接触式心电图为无创心脏监测提供了有前景的方法,但现有模型使用固定小波方法存在局限性。
- Method: 采用基于多分辨率分析和合成模型的可学习提升小波网络,包含提升和逆提升单元,并引入多分辨率短时傅里叶变换损失函数。
- Result: 在两个公共数据集上的评估表明,LifWavNet在心电图重建和下游生命体征估计方面优于现有最先进方法。
- Conclusion: LifWavNet为基于雷达的非接触式心电图测量建立了一个稳健的框架,中间特征可视化突出了多分辨率分解和合成的可解释性。
cs.CY
[81] Using Salient Object Detection to Identify Manipulative Cookie Banners that Circumvent GDPR
Riley Grossman,Michael Smith,Cristian Borcea,Yi Chen
Main category: cs.CY
TL;DR: 研究发现,虽然45%的网站有完全合规的cookie横幅,但其中38%使用了美学操纵设计来引导用户同意数据共享,比之前报告的27%更常见。
- Motivation: 研究GDPR合规cookie横幅中美学操纵(引导用户关注数据共享按钮的设计策略)的出现频率,同时评估横幅对GDPR和国家数据保护机构建议的合规性。
- Method: 访问2,579个网站识别cookie横幅类型,使用计算机视觉模型进行显著对象检测来测量横幅元素的显著性,比较欧盟内外网站的设计差异。
- Result: 45%相关网站有完全合规横幅,但38%的合规横幅存在美学操纵;13.9%的欧盟网站在美国用户访问时会改变横幅设计;欧盟网站使用美学操纵的可能性比非欧盟网站高约48.3%。
- Conclusion: 美学操纵在合规cookie横幅中比之前认为的更普遍,网站会根据用户地理位置调整设计策略,欧盟网站对隐私法规采取了创新性应对措施。
cs.RO
[82] A Multi-Modal Neuro-Symbolic Approach for Spatial Reasoning-Based Visual Grounding in Robotics
Simindokht Jahangard,Mehrzad Mohammadi,Abhinav Dhall,Hamid Rezatofighi
Main category: cs.RO
TL;DR: 提出了一种结合全景图像和3D点云的神经符号框架,通过显式建模空间和逻辑关系来改进视觉空间推理能力
- Motivation: 现有视觉语言模型在感知任务上表现出色,但在细粒度空间推理方面存在困难,特别是在机器人领域需要理解复杂环境中物体关系的场景
- Method: 使用神经感知模块检测实体和提取属性,结合符号推理模块构建结构化场景图,支持精确、可解释的查询
- Result: 在JRDB-Reasoning数据集上评估,在拥挤的人造环境中表现出优越的性能和可靠性
- Conclusion: 该框架保持了轻量级设计,适合机器人和具身AI应用,为空间推理任务提供了有效的解决方案
cond-mat.mtrl-sci
[83] Generative diffusion modeling protocols for improving the Kikuchi pattern indexing in electron back-scatter diffraction
Meghraj Prajapat,Alankar Alankar
Main category: cond-mat.mtrl-sci
TL;DR: 开发生成式机器学习模型,用于恢复高速扫描下获得的噪声EBSD图案,提高晶体取向确定的准确性。
- Motivation: 传统EBSD方法在高扫描速度下因曝光时间减少导致信噪比降低,图案噪声增加,索引精度下降。
- Method: 使用生成式机器学习模型对噪声Kikuchi图案进行后处理或实时处理,恢复图案质量。
- Result: 该方法能够有效增强短曝光时间(高扫描速度)下捕获图案的质量,且不需要大量训练数据。
- Conclusion: 生成式机器学习模型为高速EBSD扫描提供了一种有效的噪声图案恢复解决方案,提高了晶体取向确定的可靠性。
eess.AS
[84] See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement
Jinting Wang,Jun Wang,Hei Victor Cheng,Li Liu
Main category: eess.AS
TL;DR: 提出了一种直接从语音生成高质量说话人脸视频的新方法,无需源图像作为外观参考,通过语音到肖像生成和语音驱动说话人脸生成两阶段实现。
- Motivation: 解决现有方法依赖源图像作为外观参考和使用源语音生成动作的局限性,探索直接从语音信息生成说话人脸视频的可能性。
- Method: 采用两阶段方法:1)语音到肖像生成阶段使用语音条件扩散模型结合统计面部先验和样本自适应加权模块;2)语音驱动说话人脸生成阶段在扩散模型潜在空间中嵌入表情动态,并使用区域增强模块优化唇部同步,结合Transformer离散码本和图像渲染网络生成高分辨率输出。
- Result: 在HDTF、VoxCeleb和AVSpeech数据集上的实验结果表明,该方法优于现有方法,能够从单一语音输入生成高分辨率、高质量的说话人脸视频。
- Conclusion: 这是首个能够仅从单一语音输入生成高分辨率、高质量说话人脸视频的方法,为语音到说话人脸生成领域提供了新的技术路径。
cs.LG
[85] Soft Task-Aware Routing of Experts for Equivariant Representation Learning
Jaebyeong Jeon,Hyeonseo Jang,Jy-yong Sohn,Kibok Lee
Main category: cs.LG
TL;DR: 提出了Soft Task-Aware Routing (STAR)方法,通过将投影头建模为专家来减少不变和等变表示学习中的冗余特征学习。
- Motivation: 现有方法使用独立的投影头学习不变和等变表示,但忽略了它们之间的共享信息,导致冗余特征学习和模型容量利用效率低下。
- Method: 引入STAR路由策略,将投影头建模为专家,让专家专门捕获共享或任务特定信息,从而减少冗余特征学习。
- Result: 实验显示不变和等变嵌入之间的典型相关性降低,在多种迁移学习任务中取得一致改进。
- Conclusion: STAR方法通过建模投影头为专家,有效减少了不变和等变表示学习中的冗余,提高了模型性能。
[86] Imbalanced Classification through the Lens of Spurious Correlations
Jakob Hackstein,Sidney Bender
Main category: cs.LG
TL;DR: 提出了一种基于可解释AI的方法,通过反事实解释来识别和消除类别不平衡下出现的Clever Hans效应,从而提升分类性能。
- Motivation: 类别不平衡是机器学习中的基本挑战,通常导致不可靠的分类性能。现有方法主要关注数据或损失重加权方案,而本文认为不平衡是一种数据条件,会通过少数类别的欠规范放大Clever Hans效应。
- Method: 采用基于反事实解释的方法,利用可解释AI来联合识别和消除不平衡下出现的Clever Hans效应。
- Result: 在三个数据集上实现了有竞争力的分类性能,并展示了不平衡下Clever Hans效应的出现机制。
- Conclusion: 该方法为理解类别不平衡问题提供了新视角,揭示了现有方法忽视的Clever Hans效应在不平衡条件下的作用。
cs.SD
[87] Audio-Visual Speech Enhancement In Complex Scenarios With Separation And Dereverberation Joint Modeling
Jiarong Du,Zhan Jin,Peijun Yang,Juan Liu,Zhuo Li,Xin Liu,Ming Li
Main category: cs.SD
TL;DR: 提出了一种在复杂声学环境中表现良好的视听语音增强系统,采用"先分离后去混响"的流程,在AVSEC-4挑战赛中取得优异成绩
- Motivation: 现实场景中存在复杂的声学环境,伴有各种干扰声和混响,大多数现有方法难以应对这些复杂条件,导致提取的语音感知质量较差
- Method: 设计了一个"先分离后去混响"的流程,该流程可以扩展到其他视听语音增强网络
- Result: 在AVSEC-4挑战赛中,在三个客观指标上取得了优异结果,并最终在主观听力测试中获得第一名
- Conclusion: 提出的视听语音增强系统在复杂声学环境中表现良好,验证了"先分离后去混响"流程的有效性
physics.med-ph
[88] Dark-Field X-Ray Imaging Significantly Improves Deep-Learning based Detection of Synthetic Early-Stage Lung Tumors in Preclinical Models
Joyoni Dey,Hunter C. Meyer,Murtuza S. Taqi
Main category: physics.med-ph
TL;DR: X射线暗场成像结合深度学习分割可显著提高早期肺肿瘤检测率,相比传统衰减成像,暗场成像的敏感性从51%提升至83.7%,特异性保持相当水平。
- Motivation: 低剂量CT虽为肺癌筛查标准,但普及率有限且假阳性率高。需要开发更易获取、低成本的替代筛查方法。
- Method: 使用小鼠肺部配对的衰减和暗场成像X光片,生成具有不规则边界和真实强度分布的合成肿瘤,训练U-Net分割网络分别使用衰减、暗场或两者组合的输入通道。
- Result: 仅暗场成像模型真阳性检测率达83.7%,显著高于仅衰减成像的51%,特异性分别为90.5%和92.9%。两者组合输入达到79.6%敏感性和97.6%特异性。
- Conclusion: 暗场成像相比标准衰减成像显著提高早期肿瘤检测能力,有望成为LDCT不可用时的低成本、低剂量筛查替代方案。
eess.IV
[89] A fragile zero-watermarking method based on dual quaternion matrix decomposition
Mingcui Zhang,Zhigang Jia
Main category: eess.IV
TL;DR: 提出基于双四元数矩阵分解的脆弱零水印模型,用于医学图像的版权保护和内容篡改检测
- Motivation: 医学图像在传输和共享过程中面临版权归属和内容篡改的严重风险,需要有效的保护手段
- Method: 利用双四元数标准部分与对偶部分之间的运算关系,将原始载体图像与水印图像关联,基于双四元数矩阵分解特性生成零水印信息
- Result: 实现了医学图像的版权保护和内容篡改检测功能
- Conclusion: 基于双四元数矩阵分解的脆弱零水印技术为医学图像保护提供了有效解决方案
cs.AI
[90] GUI-Rise: Structured Reasoning and History Summarization for GUI Navigation
Tao Liu,Chongyu Wang,Rongjie Li,Yingchen Yu,Xuming He,Bai Song
Main category: cs.AI
TL;DR: 提出了GUI-Rise框架,通过结构化推理、动作预测和历史总结的集成,提升GUI导航代理的跨域泛化能力和历史利用效率。
- Motivation: 当前多模态大语言模型在GUI导航代理中存在跨域泛化能力不足和历史利用效率低的问题。
- Method: 采用结构化推理生成连贯的思维链分析,结合进度估计和决策推理,指导动作预测和紧凑历史总结。通过监督微调和GRPO强化学习训练GUI-Rise代理。
- Result: 在标准基准测试中,在相同训练数据条件下取得了最先进的结果,特别是在跨域场景中表现优异。
- Conclusion: 该框架能够保持强大的推理能力和跨不同GUI导航任务的泛化能力。
[91] Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning
Qiusi Zhan,Hyeonjeong Ha,Rui Yang,Sirui Xu,Hanyang Chen,Liang-Yan Gui,Yu-Xiong Wang,Huan Zhang,Heng Ji,Daniel Kang
Main category: cs.AI
TL;DR: BEAT是首个针对MLLM驱动的具身智能体的视觉后门攻击框架,使用环境中的物体作为触发器,当触发器出现时,智能体会持续执行攻击者指定的多步策略。
- Motivation: 多模态大语言模型驱动的具身智能体通过视觉输入直接感知、推理和规划任务导向动作,但这也开启了新的攻击面:视觉后门攻击。
- Method: BEAT采用两阶段训练方案:首先进行监督微调(SFT),然后引入对比触发器学习(CTL),将触发器识别构建为偏好学习问题,明确锐化决策边界以确保精确的后门激活。
- Result: 在各种具身智能体基准测试和MLLM中,BEAT实现了高达80%的攻击成功率,同时保持强大的良性任务性能,并能可靠地泛化到分布外的触发器放置。
- Conclusion: 这些发现揭示了基于MLLM的具身智能体中一个关键但未被探索的安全风险,强调了在实际部署前需要开发鲁棒防御措施的必要性。
Powered by Deepseek & arXiv Daily AI Enhanced