Skip to content
每日arXiv - 2025年11月12日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Knowledge-Guided Textual Reasoning for Explainable Video Anomaly Detection via LLMs

Hari Lee

Main category: cs.CV

TL;DR: TbVAD是一个基于语言的弱监督视频异常检测框架,通过文本表示视频语义,实现可解释的异常检测和解释。

  • Motivation: 传统WSVAD模型依赖视觉特征,缺乏可解释性。TbVAD旨在通过语言驱动的方法实现知识基础的可解释推理。
  • Method: 三阶段框架:1) 使用视觉语言模型将视频内容转换为细粒度描述;2) 将描述组织为四个语义槽(动作、对象、上下文、环境);3) 生成槽级解释,揭示哪些语义因素对异常决策贡献最大。
  • Result: 在UCF-Crime和XD-Violence两个公开基准测试中验证,文本知识推理为真实世界监控场景提供可解释且可靠的异常检测。
  • Conclusion: TbVAD通过纯文本域的方法实现了可解释的视频异常检测,为监控场景提供了可靠的语言驱动解决方案。

[2] Two Datasets Are Better Than One: Method of Double Moments for 3-D Reconstruction in Cryo-EM

Joe Kileel,Oscar Mickelin,Amit Singer,Sheng Xu

Main category: cs.CV

TL;DR: 提出了一种名为双矩法(MoDM)的新数据融合框架,利用不同方向分布下的二阶矩信息重建分子结构,仅需二阶统计量即可实现准确恢复。

  • Motivation: 冷冻电镜技术需要从噪声投影图像重建分子结构,传统方法面临方向分布未知的挑战。通过利用不同实验条件下收集的多个数据集,可以显著提高重建质量。
  • Method: 开发了双矩法框架,使用均匀和非均匀方向分布下的二阶矩信息,结合凸松弛算法,仅基于二阶统计量进行结构重建。
  • Result: 证明了这些矩通常能唯一确定底层结构(除全局旋转和反射外),算法实现了准确的结构恢复。
  • Conclusion: 收集和建模不同实验条件下的多个数据集可以显著提高计算成像任务中的重建质量,展示了数据集多样性的优势。

[3] Modulo Video Recovery via Selective Spatiotemporal Vision Transformer

Tianyu Geng,Feng Ji,Wee Peng Tay

Main category: cs.CV

TL;DR: SSViT是一种基于Transformer的深度学习框架,专门用于模数视频恢复,通过选择性时空注意力机制高效重建高动态范围视频。

  • Motivation: 传统图像传感器动态范围有限,模数相机通过折叠辐照度来解决这个问题,但需要专门的展开算法。现有HDR方法不适用于模数恢复,而Transformer能够捕捉全局依赖关系,适合解决折叠视频帧的恢复问题。
  • Method: 提出了选择性时空视觉Transformer(SSViT),采用token选择策略提高效率并关注关键区域,是首个用于模数视频重建的深度学习框架。
  • Result: 实验证实SSViT能从8位折叠视频中产生高质量重建,在模数视频恢复方面达到最先进的性能。
  • Conclusion: SSViT成功展示了Transformer在模数视频恢复中的有效性,通过选择性注意力机制实现了高效且高质量的恢复效果。

[4] Laplacian Score Sharpening for Mitigating Hallucination in Diffusion Models

Barath Chandran. C,Srinivas Anumasa,Dianbo Liu

Main category: cs.CV

TL;DR: 提出一种在推理阶段对扩散模型分数函数进行后验调整的方法,利用拉普拉斯算子减少模式插值幻觉,在1D、2D和高维图像数据中有效降低幻觉样本率。

  • Motivation: 扩散模型存在产生不连贯或不真实样本的幻觉问题,现有研究将其归因于模式插值和分数平滑现象,但缺乏在采样过程中防止这些幻觉生成的方法。
  • Method: 在推理阶段对分数函数进行后验调整,利用拉普拉斯算子(锐度)来减少模式插值幻觉,并为高维数据推导出基于Hutchinson迹估计器有限差分变体的高效拉普拉斯近似方法。
  • Result: 该方法在玩具1D/2D分布和高维图像数据集上显著降低了幻觉样本的生成率。
  • Conclusion: 提出的拉普拉斯校正方法能有效减少扩散模型中的模式插值幻觉,并探索了拉普拉斯与分数不确定性的关系。

[5] Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention Guidance

Kwanyoung Kim

Main category: cs.CV

TL;DR: 提出ASAG方法,通过最优传输理论和Sinkhorn算法重新解释扩散模型中的注意力机制,故意破坏传输成本来提升生成质量

  • Motivation: 现有的引导方法如CFG缺乏理论依据,依赖手动设计的扰动函数,需要更原则性的方法来改进扩散模型的生成性能
  • Method: 在自注意力层中注入对抗性成本,通过Sinkhorn算法减少查询和键之间的像素级相似性,故意破坏误导性的注意力对齐
  • Result: ASAG在文本到图像扩散中表现一致改进,提升了IP-Adapter和ControlNet等下游应用的可控性和保真度
  • Conclusion: ASAG是一种轻量级、即插即用的方法,无需模型重新训练即可提高可靠性,为注意力引导提供了理论依据

[6] LiveNeRF: Efficient Face Replacement Through Neural Radiance Fields Integration

Tung Vu,Hai Nguyen,Cong Tran

Main category: cs.CV

TL;DR: LiveNeRF框架实现了实时人脸替换技术,在保持高质量视觉效果的同时达到33FPS的实时性能,适用于直播、视频会议等应用场景。

  • Motivation: 解决现有方法在实时性能和视觉质量方面的限制,推动人脸替换技术在娱乐、教育、通信等领域的实际应用部署。
  • Method: 开发LiveNeRF框架,专注于实现实时性能与高质量视觉效果的平衡。
  • Result: 成功实现33FPS的实时性能,并提供卓越的视觉质量,支持实际部署应用。
  • Conclusion: 该技术具有广泛的应用前景,但需要负责任地部署,包括用户同意验证和检测系统集成,以最大化社会效益并降低滥用风险。

[7] TrackStudio: An Integrated Toolkit for Markerless Tracking

Hristo Dimitrov,Giulia Dominijanni,Viktorija Pavalkyte,Tamar R. Makin

Main category: cs.CV

TL;DR: TrackStudio是一个无需标记的运动追踪工具包,通过整合现有开源工具提供自动2D/3D追踪、校准、预处理、特征提取和可视化功能,无需编程技能即可使用。

  • Motivation: 现有运动追踪工具需要专业技术知识,缺乏为非专家设计的集成解决方案。TrackStudio旨在填补这一空白,提供易于使用的运动追踪工具。
  • Method: 将成熟的开源工具整合到单一模块化GUI管道中,提供自动2D/3D追踪、校准、预处理、特征提取和可视化功能,并附带用户指南和常见问题文档。
  • Result: 在76名参与者测试中,平均帧间相关性超过0.98,平均三角测量误差保持较低水平(手部追踪<13.6mm),证明了稳定一致的追踪性能。
  • Conclusion: TrackStudio为研究人员和非专业人士提供了实用、易用的无标记运动追踪解决方案,无需专业知识即可获得可靠性能。

[8] Predicting Coronary Artery Calcium Severity based on Non-Contrast Cardiac CT images using Deep Learning

Lachlan Nguyen,Aidan Cousins,Arcot Sowmya,Hugh Dixson,Sonit Singh

Main category: cs.CV

TL;DR: 开发深度学习CNN模型,将心脏非对比CT图像中的钙化评分自动分类为六个临床类别,以替代耗时的手动评分方法。

  • Motivation: 心血管疾病死亡率高,冠状动脉钙化评分是重要的风险分层工具,但当前需要放射科医生进行耗时的半自动分析。
  • Method: 使用68例患者的心脏CT扫描数据,基于半自动钙化评分作为参考标签,训练深度学习卷积神经网络模型进行六分类任务。
  • Result: 模型在六分类任务中表现优异:Cohen's kappa为0.962,总体准确率96.5%,误分类32例中26例倾向于高估钙化评分。
  • Conclusion: CNN模型能够准确地将钙化评分分层到扩展的六个临床类别中,结果与当前半自动实践一致,具有良好的泛化能力。

[9] FlowFeat: Pixel-Dense Embedding of Motion Profiles

Nikita Araslanov,Anna Sonnweber,Daniel Cremers

Main category: cs.CV

TL;DR: FlowFeat是一种高分辨率多任务特征表示方法,通过新颖的蒸馏技术嵌入合理的表观运动分布,显著提升了密集预测任务的性能。

  • Motivation: 当前最先进的网络(如transformer)生成低分辨率特征网格,这在密集预测任务中表现不佳。需要开发高分辨率特征表示来解决这一限制。
  • Method: 利用光流网络和多样化视频数据,开发有效的自监督训练框架,统计近似表观运动。通过蒸馏技术嵌入运动分布,生成高分辨率特征。
  • Result: FlowFeat显著提升了五种最先进编码器和替代上采样策略在三个密集任务中的表现:视频对象分割、单目深度估计和语义分割。训练计算成本低且对不准确的光流估计具有鲁棒性。
  • Conclusion: FlowFeat朝着可靠和通用的密集图像表示迈出了重要一步,能够编码丰富的几何和语义线索,同时保持高时间一致性。

[10] Cross Modal Fine-grained Alignment via Granularity-aware and Region-uncertain Modeling

Jiale Liu,Haoming Zhou,Yishu Zhu,Bingzhi Chen,Yuncheng Jiang

Main category: cs.CV

TL;DR: 提出了一种统一方法来解决细粒度图像-文本对齐问题,通过显著性感知建模和区域级不确定性建模,在Flickr30K和MS-COCO数据集上达到最先进性能。

  • Motivation: 现有方法缺乏稳健的模态内机制来评估视觉和文本标记的重要性,导致在复杂场景中泛化能力差;同时缺少细粒度不确定性建模,无法捕捉区域-单词对应的一对多和多对一性质。
  • Method: 结合显著性感知和粒度感知建模,利用模态特定偏置识别显著特征而不依赖脆弱的跨模态注意力;将区域特征表示为高斯分布混合以捕捉细粒度不确定性。
  • Result: 在Flickr30K和MS-COCO数据集上的广泛实验表明,该方法在各种骨干架构下均达到最先进性能,显著提升了细粒度图像-文本对齐的鲁棒性和可解释性。
  • Conclusion: 所提出的统一方法有效解决了细粒度图像-文本对齐中的关键挑战,通过显著性感知和不确定性建模显著提升了性能,为多模态学习提供了更稳健的解决方案。

[11] UltraGS: Gaussian Splatting for Ultrasound Novel View Synthesis

Yuezhe Yang,Wenjie Cai,Dexin Yang,Yufang Dong,Xingbo Dong,Zhe Jin

Main category: cs.CV

TL;DR: UltraGS是一个针对超声成像优化的高斯泼溅框架,通过深度感知高斯泼溅策略和超声特定渲染函数,实现了高质量的超声图像新视角合成。

  • Motivation: 超声成像在临床诊断中应用广泛,但有限的视野限制了新视角合成。现有方法难以准确建模超声特有的物理特性,如深度衰减、反射和散射。
  • Method: 1. 深度感知高斯泼溅策略:为每个高斯分配可学习的视野参数,实现精确深度预测和结构表示;2. SH-DARS渲染函数:结合低阶球谐函数和超声特定波物理特性,准确建模组织强度;3. 贡献临床超声检查数据集作为基准。
  • Result: 在三个数据集上的实验表明,UltraGS在PSNR(最高29.55)、SSIM(最高0.89)和MSE(最低0.002)方面达到最先进水平,同时实现64.69 fps的实时合成。
  • Conclusion: UltraGS成功解决了超声图像新视角合成的挑战,通过结合深度感知建模和超声物理特性,实现了高质量的实时渲染,为临床诊断提供了有力工具。

[12] VectorSynth: Fine-Grained Satellite Image Synthesis with Structured Semantics

Daniel Cher,Brian Wei,Srikumar Sastry,Nathan Jacobs

Main category: cs.CV

TL;DR: VectorSynth是一个基于扩散模型的卫星图像合成框架,通过多边形地理标注和语义属性进行像素级精确的图像生成,支持空间编辑和交互式工作流。

  • Motivation: 现有文本或布局条件模型无法实现像素级精确的卫星图像合成,需要开发能够对齐图像和语义矢量几何的跨模态对应方法。
  • Method: 使用视觉语言对齐模块从多边形语义生成像素级嵌入,这些嵌入指导条件图像生成框架,同时尊重空间范围和语义线索。
  • Result: 在语义保真度和结构真实性方面相比先前方法有显著提升,训练后的视觉语言模型展现出细粒度的空间定位能力。
  • Conclusion: VectorSynth支持交互式工作流,能够进行快速假设模拟、空间编辑和地图信息内容生成,为地理空间分析提供了强大工具。

[13] Auto-US: An Ultrasound Video Diagnosis Agent Using Video Classification Framework and LLMs

Yuezhe Yang,Yiyue Guo,Wenjie Cai,Qingqing Ruan,Siying Wang,Xingbo Dong,Zhe Jin,Yong Dai

Main category: cs.CV

TL;DR: 提出了Auto-US智能诊断系统,整合超声视频和临床诊断文本,在CUV数据集上达到86.73%的分类准确率,并能生成临床诊断建议。

  • Motivation: 现有AI辅助超声视频诊断研究在数据集多样性、诊断性能和临床适用性方面存在局限,需要开发更有效的诊断系统。
  • Method: 构建CUV数据集(495个超声视频,5个类别,3个器官),开发CTU-Net进行超声视频分类,并集成大语言模型生成诊断建议。
  • Result: CTU-Net达到86.73%的分类准确率,Auto-US生成的诊断建议得分超过3/5,经专业临床医生验证有效。
  • Conclusion: Auto-US系统在真实超声应用中展现出有效性和临床潜力。

[14] Class Incremental Medical Image Segmentation via Prototype-Guided Calibration and Dual-Aligned Distillation

Shengqian Zhu,Chengrong Yu,Qiang Wang,Ying Song,Guangjun Li,Jiafei Wu,Xiaogang Xu,Zhang Yi,Junjie Hu

Main category: cs.CV

TL;DR: 本文提出了PGCD和DAPD方法来解决医学图像分割中的类增量学习问题,通过原型引导的校准蒸馏和双对齐原型蒸馏来更好地保护旧类知识。

  • Motivation: 现有方法存在两个问题:1)对所有空间区域和特征通道采用一刀切策略,阻碍了准确旧知识的保护;2)只关注旧类局部原型与全局原型的对齐,忽略了新数据中的局部表示,导致知识退化。
  • Method: 提出了PGCD和DAPD两种方法:PGCD利用原型到特征的相似性来校准不同空间区域的类特定蒸馏强度;DAPD将当前模型提取的旧类局部原型与全局原型和局部原型进行对齐。
  • Result: 在两个广泛使用的多器官分割基准上的综合评估表明,该方法优于最先进的方法,突出了其鲁棒性和泛化能力。
  • Conclusion: 所提出的PGCD和DAPD方法有效解决了CIMIS中的知识保护问题,在保持旧类知识的同时学习新类,显著提升了分割性能。

[15] Filtered-ViT: A Robust Defense Against Multiple Adversarial Patch Attacks

Aja Khanal,Ahmed Faid,Apurva Narayan

Main category: cs.CV

TL;DR: 提出了Filtered-ViT,一种集成SMART-VMF过滤器的视觉transformer架构,能够有效防御多补丁对抗攻击和自然伪影,在ImageNet和医疗影像上均表现优异。

  • Motivation: 现有防御方法大多假设单补丁攻击,无法应对现实世界中常见的多补丁攻击和自然伪影,这在医疗等安全关键领域存在严重风险。
  • Method: 将SMART向量中值滤波集成到视觉transformer中,这是一种空间自适应、多尺度、鲁棒性感知的机制,能够选择性抑制受损区域同时保留语义细节。
  • Result: 在ImageNet上,面对LaVAN四补丁攻击时,Filtered-ViT达到79.8%的干净准确率和46.3%的鲁棒准确率,优于现有防御方法。在医疗影像案例中,能有效减轻自然伪影而不降低诊断内容质量。
  • Conclusion: Filtered-ViT是首个在对抗性和自然补丁类干扰上均表现出统一鲁棒性的transformer,为高风险环境中的可靠视觉系统开辟了道路。

[16] Beyond Randomness: Understand the Order of the Noise in Diffusion

Song Yan,Min Li,Bi Xinliang,Jian Yang,Yusen Zhang,Guanye Xiong,Yunwei Lan,Tao Zhang,Wei Zhai,Zheng-Jun Zha

Main category: cs.CV

TL;DR: 本文揭示了扩散模型中初始噪声包含可分析的语义模式,提出了一种无需训练的两步"语义擦除-注入"方法来调制初始噪声,实现更可控的内容生成。

  • Motivation: 传统观点认为扩散模型的初始噪声只是随机元素,用于增加生成多样性。但本文发现噪声中隐藏着可分析的语义模式,这为优化生成过程提供了新视角。
  • Method: 基于信息论,提出两步法:1) 从噪声中擦除不需要的语义;2) 利用扩散模型生成过程与语义注入的等价性,将所需语义注入到清理后的噪声中。
  • Result: 实验证明该方法在基于DiT和UNet架构的各种文本驱动内容生成模型中均有效,实现了更一致的生成效果。
  • Conclusion: 该方法为扩散模型生成优化提供了新颖视角,是一个通用的工具,能够实现更可控和一致的内容生成。

[17] Semantic-Consistent Bidirectional Contrastive Hashing for Noisy Multi-Label Cross-Modal Retrieval

Likang Peng,Chao Su,Wenyuan Wu,Yuan Sun,Dezhong Peng,Xi Peng,Xu Wang

Main category: cs.CV

TL;DR: 提出SCBCH框架解决多标签噪声下的跨模态哈希检索问题,通过语义一致性分类和双向软对比哈希提升鲁棒性

  • Motivation: 现有跨模态哈希方法依赖完全标注数据,但现实多标签数据存在噪声且忽略语义重叠,严重影响检索性能
  • Method: SCBCH框架包含两个模块:跨模态语义一致性分类(CSCC)估计样本可靠性减少噪声影响;双向软对比哈希(BSCH)基于语义重叠动态生成软对比样本对
  • Result: 在四个跨模态检索基准测试中验证了方法的有效性和鲁棒性,在噪声多标签条件下优于现有最优方法
  • Conclusion: SCBCH框架通过语义一致性学习和自适应对比学习,有效解决了多标签噪声问题,提升了跨模态哈希检索的鲁棒性和泛化能力

[18] Divide-and-Conquer Decoupled Network for Cross-Domain Few-Shot Segmentation

Runmin Cong,Anpeng Wang,Bin Wan,Cong Zhang,Xiaofei Zhou,Wei Zhang

Main category: cs.CV

TL;DR: 提出DCDNet解决跨域少样本分割中的特征纠缠问题,通过特征分解和动态融合提升跨域泛化能力

  • Motivation: 编码器特征往往纠缠域相关和类别相关信息,限制了跨域泛化和快速适应新领域的能力
  • Method: 使用对抗对比特征分解模块分离类别相关私有特征和域相关共享特征,通过矩阵引导动态融合模块自适应整合特征,在微调阶段使用交叉自适应调制模块增强泛化
  • Result: 在四个挑战性数据集上的实验表明,DCDNet优于现有CD-FSS方法,在跨域泛化和少样本适应方面达到新的最先进水平
  • Conclusion: DCDNet通过有效的特征分解和融合策略成功解决了跨域少样本分割中的特征纠缠问题

[19] Learning Sparse Label Couplings for Multilabel Chest X-Ray Diagnosis

Utkarsh Prakash Srivastava,Kaushik Gupta,Kaushik Nath

Main category: cs.CV

TL;DR: 提出基于SE-ResNeXt101的多标签胸部X光分类方法,通过标签图精炼模块和不对称损失等技术,在保持计算效率的同时提升分类性能。

  • Motivation: 解决胸部X光多标签分类中的极端类别不平衡、不对称错误成本和标签共现问题,开发一个既强大又实用的分类管道。
  • Method: 使用SE-ResNeXt101作为主干网络,采用多标签迭代分层进行交叉验证,应用不对称损失、混合精度训练等技术,并提出了轻量级标签图精炼模块来改进logits。
  • Result: 在数据集上,基础SE-ResNeXt101达到92.64%的宏观AUC,添加标签图精炼模块后验证宏观AUC在各折中持续提升,计算开销可忽略。
  • Conclusion: 该方法可重现、硬件友好且无需额外标注,为构建更强的多标签胸部X光分类器提供了实用途径。

[20] PC-Diffusion: Aligning Diffusion Models with Human Preferences via Preference Classifier

Shaomeng Wang,He Wang,Xiaolu Wei,Longquan Dai,Jinhui Tang

Main category: cs.CV

TL;DR: PC-Diffusion提出了一种轻量级偏好分类器框架,用于扩散模型的人类偏好对齐,解决了DPO方法计算成本高和对参考模型质量敏感的问题。

  • Motivation: 现有DPO方法在扩散模型中存在两个主要限制:1)整个模型微调导致高计算成本;2)对参考模型质量敏感,容易引入不稳定性和偏差。
  • Method: 使用轻量级可训练的偏好分类器直接建模样本间的相对偏好,将偏好学习与生成模型解耦,无需整个模型微调和依赖参考模型。
  • Result: PC-Diffusion在保持与DPO相当的偏好一致性的同时,显著降低了训练成本,实现了高效稳定的偏好引导生成。
  • Conclusion: PC-Diffusion通过偏好分类器框架有效解决了DPO方法的局限性,为扩散模型的人类偏好对齐提供了更高效稳定的解决方案。

[21] DI3CL: Contrastive Learning With Dynamic Instances and Contour Consistency for SAR Land-Cover Classification Foundation Model

Zhongle Ren,Hui Ding,Kai Wang,Biao Hou,Xingyu Luo,Weibin Li,Licheng Jiao

Main category: cs.CV

TL;DR: 提出了一个用于SAR土地覆盖分类的通用基础模型DI3CL,通过动态实例和轮廓一致性对比学习框架,在大规模SARSense数据集上预训练,在多个下游任务中表现优异。

  • Motivation: 现有SAR土地覆盖分类方法主要依赖监督学习,需要大量标注数据,限制了可扩展性、泛化能力和对不同应用场景的适应性。
  • Method: 提出了DI3CL预训练框架,包含动态实例模块(增强全局上下文感知)和轮廓一致性模块(关注SAR对象的几何轮廓),并在包含460,532张SAR图像的大规模SARSense数据集上进行预训练。
  • Result: 在SAR土地覆盖制图、水体检测和道路提取等多个任务上的实验表明,DI3CL方法优于现有方法。
  • Conclusion: DI3CL作为一个通用基础模型,能够加速各种下游模型的开发和部署,在SAR土地覆盖分类任务中表现出强大的泛化能力。

[22] Revisiting MLLM Based Image Quality Assessment: Errors and Remedy

Zhenchen Tang,Songlin Yang,Bo Peng,Zichuan Wang,Jing Dong

Main category: cs.CV

TL;DR: 提出了Q-Scorer框架,通过轻量级回归模块和IQA专用分数标记解决MLLM在图像质量评估中的离散输出与连续分数不匹配问题,在多个基准测试中达到最先进性能。

  • Motivation: 多模态大语言模型(MLLM)在图像质量评估(IQA)任务中存在离散标记输出与连续质量分数之间的不匹配问题,这限制了MLLM在IQA任务中的性能表现。
  • Method: 提出了Q-Scorer框架,包含轻量级回归模块和IQA专用分数标记,将其集成到MLLM流程中,以解决离散-连续转换问题。
  • Result: 在多个IQA基准测试中达到最先进性能,在混合数据集上泛化良好,与其他方法结合时性能进一步提升。
  • Conclusion: Q-Scorer通过理论分析和简单有效的设计,成功解决了MLLM在IQA任务中的核心挑战,显著提升了性能表现。

[23] Sparse3DPR: Training-Free 3D Hierarchical Scene Parsing and Task-Adaptive Subgraph Reasoning from Sparse RGB Views

Haida Feng,Hao Wei,Zewen Xu,Haolin Wang,Chade Li,Yihong Wu

Main category: cs.CV

TL;DR: Sparse3DPR是一个无需训练的3D场景理解框架,利用预训练LLM的推理能力,仅需稀疏视角RGB输入,通过层次化平面增强场景图和任务自适应子图提取方法,显著提升推理效率和准确性。

  • Motivation: 当前基于LLM的无训练3D场景理解方法存在准确性和效率问题,需要一种更灵活且实用的解决方案。
  • Method: 提出层次化平面增强场景图作为空间锚点,设计任务自适应子图提取方法动态过滤无关信息,减少上下文噪声。
  • Result: 在Space3D-Bench上相比ConceptGraphs提升28.7% EM@1,加速78.2%;在ScanQA上达到与训练方法相当的性能,现实实验验证了鲁棒性和泛化能力。
  • Conclusion: Sparse3DPR证明了无需训练方法在3D场景理解中的可行性,通过创新的场景表示和推理机制实现了高效准确的开集场景理解。

[24] Cancer-Net PCa-MultiSeg: Multimodal Enhancement of Prostate Cancer Lesion Segmentation Using Synthetic Correlated Diffusion Imaging

Jarett Dewbury,Chi-en Amy Tai,Alexander Wong

Main category: cs.CV

TL;DR: 合成相关扩散成像(CDI^s)作为标准扩散成像协议的增强,显著提升了前列腺癌病灶分割性能,在94%的配置中改善或保持分割效果,最高可达72.5%的相对提升。

  • Motivation: 当前深度学习在前列腺癌病灶分割中表现有限(Dice分数≤0.32),需要改进分割性能。
  • Method: 使用200名患者的配准CDI^s、DWI和ADC序列,在六种最先进的分割架构上进行综合评估。
  • Result: CDI^s集成在94%的配置中可靠地增强或保持分割性能,CDI^s + DWI组合在一半架构中实现显著改进且无性能下降。
  • Conclusion: CDI^s作为现有DWI采集的衍生技术,无需额外扫描时间或架构修改,可在临床工作流中立即部署,为PCa病灶分割提供实用的即插即用增强方案。

[25] Human Motion Synthesis in 3D Scenes via Unified Scene Semantic Occupancy

Gong Jingyu,Tong Kunkun,Chen Zhuoran,Yuan Chuanhan,Chen Mingang,Zhang Zhizhong,Tan Xin,Xie Yuan

Main category: cs.CV

TL;DR: SSOMotion是一个基于场景语义占用(SSO)表示的人类运动合成框架,通过双向三平面分解和CLIP编码实现细粒度场景语义理解,在复杂场景中生成高质量人体运动。

  • Motivation: 当前3D场景中的人类运动合成方法主要关注场景结构而忽略语义理解,这限制了运动合成的质量和自然度。
  • Method: 提出统一的场景语义占用(SSO)表示,采用双向三平面分解获得紧凑SSO,通过CLIP编码将场景语义映射到统一特征空间,结合运动方向指令进行帧级场景查询控制运动。
  • Result: 在ShapeNet家具、PROX和Replica数据集上的实验表明,该方法在复杂场景中实现了最先进的性能,验证了其有效性和泛化能力。
  • Conclusion: SSOMotion通过结合场景语义理解和结构信息,显著提升了3D场景中人类运动合成的质量和自然度。

[26] CloudMamba: Grouped Selective State Spaces for Point Cloud Analysis

Kanglin Qu,Pan Gao,Qun Dai,Zhanzhi Ye,Rui Ye,Yuanhao Sun

Main category: cs.CV

TL;DR: CloudMamba:一种基于SSM的点云网络,通过序列扩展与合并、链式Mamba和分组选择性状态空间模型(GS6)解决点云序列化不完善、高层几何感知不足和S6模型过拟合问题,在多种点云任务中取得SOTA结果且复杂度显著降低。

  • Motivation: 现有基于Mamba的点云分析方法存在三个主要问题:点云序列化不完善、高层几何感知不足、以及核心选择性状态空间模型(S6)的过拟合问题。
  • Method: 1. 序列扩展与合并:沿各轴分别序列化点云,融合不同序列因果推断的高阶特征;2. 链式Mamba:在并行双向Mamba中链接前向和后向过程,捕获高层几何信息;3. 分组选择性状态空间模型(GS6):通过参数共享缓解S6的过拟合问题。
  • Result: 在各种点云任务上的实验验证了CloudMamba能够以显著更低的复杂度实现最先进的结果。
  • Conclusion: CloudMamba通过创新的序列处理、几何感知增强和参数共享机制,有效解决了Mamba在点云分析中的关键挑战,为点云理解提供了高效且强大的解决方案。

[27] MonoCLUE : Object-Aware Clustering Enhances Monocular 3D Object Detection

Sunghun Yang,Minhyeok Lee,Jungho Lee,Sangyoun Lee

Main category: cs.CV

TL;DR: MonoCLUE通过结合局部聚类和广义场景记忆的视觉特征,提升了单目3D目标检测在遮挡和有限视野下的鲁棒性,在KITTI基准测试中达到最先进性能。

  • Motivation: 单目3D目标检测存在深度估计不准确和视野受限的问题,导致几何线索不足,在遮挡或截断场景中精度下降。现有方法虽然引入额外深度信息,但忽视了视觉线索对鲁棒识别的重要性。
  • Method: 1. 对视觉特征进行K-means聚类,捕捉不同的物体级外观部分(如引擎盖、车顶),提升部分可见物体的检测;2. 构建广义场景记忆,通过跨图像聚合聚类特征提供一致表示;3. 将局部聚类特征和广义场景记忆整合到物体查询中,引导注意力到信息丰富的区域。
  • Result: 在KITTI基准测试中实现了最先进的性能,特别是在遮挡和有限可见性条件下表现出色。
  • Conclusion: MonoCLUE通过统一的局部聚类和广义场景记忆策略,能够在遮挡和有限可见性条件下实现鲁棒的单目3D目标检测。

[28] Visual Bridge: Universal Visual Perception Representations Generating

Yilin Gao,Shuguang Dou,Junzhou Li,Zhiheng Yu,Yin Li,Dongsheng Jiang,Shugong Xu

Main category: cs.CV

TL;DR: 提出基于流匹配的通用视觉感知框架,能够生成跨多个任务的多样化视觉表示,突破了传统"单任务单模型"的限制

  • Motivation: 受大语言模型跨领域泛化能力的启发,解决扩散模型在"单任务单模型"范式下的局限性,提升多任务场景下的通用性和可扩展性
  • Method: 将过程表述为从图像块标记到任务特定表示的通用流匹配问题,利用强自监督基础模型作为锚点,引入多尺度循环任务嵌入机制,学习通用速度场来桥接异构任务
  • Result: 在分类、检测、分割、深度估计和图像文本检索等任务上,在零样本和微调设置下均取得有竞争力的性能,优于先前通用模型和多个专用模型
  • Conclusion: 该工作标志着向通用视觉感知迈出了重要一步,为未来通用视觉建模研究提供了坚实基础

[29] Generating Sketches in a Hierarchical Auto-Regressive Process for Flexible Sketch Drawing Manipulation at Stroke-Level

Sicong Zang,Shuhui Gao,Zhijun Fang

Main category: cs.CV

TL;DR: 提出了一种分层自回归的草图生成方法,允许在生成过程中随时操控笔画级特征,而不是一次性生成整个草图。

  • Motivation: 现有方法需要在生成前一次性提供所有笔画条件,无法在生成过程中进行进一步操控。为了更灵活地控制草图绘制过程,需要支持在生成过程中随时调整笔画特征。
  • Method: 采用三阶段分层自回归生成:1)预测笔画嵌入表示要绘制的笔画;2)在画布上定位笔画;3)将嵌入转换为绘制动作序列。整个过程以自回归方式进行,考虑已生成笔画及其位置来预测当前笔画。
  • Result: 通过暴露可编辑的笔画嵌入,可以在生成过程中的任何时间点灵活操控笔画级草图绘制。
  • Conclusion: 该方法实现了更灵活的草图绘制操控,支持在生成过程中随时调整笔画特征,相比现有方法具有更高的可控性和灵活性。

[30] Theoretical Analysis of Power-law Transformation on Images for Text Polarity Detection

Narendra Singh Yadav,Pavan Kumar Perepu

Main category: cs.CV

TL;DR: 本文对文本极性检测中的功率律变换现象进行了理论分析,证明了在图像二值化过程中,暗文本和亮文本在变换后类间方差的变化规律。

  • Motivation: 图像二值化是计算机视觉应用中的重要预处理步骤,需要准确识别文本极性(暗文本亮背景或亮文本暗背景)。现有基于功率律变换的直观方法缺乏理论支撑,本文旨在提供严格的理论分析。
  • Method: 通过理论分析功率律变换对图像直方图统计的影响,研究文本和背景作为两个类别时,类间方差在变换过程中的变化规律。
  • Result: 理论分析证实了经验观察:对于暗文本亮背景,功率律变换后类间方差增加;对于亮文本暗背景,类间方差减小。
  • Conclusion: 本文为基于功率律变换的文本极性检测方法提供了理论依据,增强了该方法的可靠性和可解释性。

[31] Exploring the Underwater World Segmentation without Extra Training

Bingyu Li,Tao Huo,Da Zhang,Zhiyuan Zhao,Junyu Gao,Xuelong Li

Main category: cs.CV

TL;DR: 提出了AquaOV255首个大规模细粒度水下分割数据集和UOVSBench基准,以及Earth2Ocean无需训练的水下开放词汇分割框架,通过几何引导视觉掩码生成器和类别-视觉语义对齐模块,显著提升了水下分割性能。

  • Motivation: 现有分割数据集和模型主要针对陆地场景,缺乏专门的水下生物分割资源,这限制了海洋生物多样性监测和生态评估的发展。
  • Method: Earth2Ocean框架包含两个核心组件:几何引导视觉掩码生成器(GMG)通过自相似几何先验优化视觉特征以感知局部结构;类别-视觉语义对齐(CSA)模块通过多模态大语言模型推理和场景感知模板构建增强文本嵌入。
  • Result: 在UOVSBench基准上的大量实验表明,Earth2Ocean在保持高效推理的同时实现了显著的性能提升。
  • Conclusion: 该工作填补了水下开放词汇分割的空白,通过创新的训练免费框架成功将陆地视觉-语言模型迁移到水下领域,为海洋生态监测提供了有效工具。

[32] HD2-SSC: High-Dimension High-Density Semantic Scene Completion for Autonomous Driving

Zhiwen Yang,Yuxin Peng

Main category: cs.CV

TL;DR: 提出了HD²-SSC框架,通过高维语义解耦模块和高密度占据优化模块,解决相机3D语义场景补全中的维度差距和密度差距问题。

  • Motivation: 现有SSC方法存在输入输出维度差距和标注-现实密度差距的问题,2D平面视图和稀疏标注导致对真实世界密集占据的预测效果不佳。
  • Method: 高维语义解耦模块将2D图像特征沿伪第三维度扩展,解耦粗粒度像素语义;高密度占据优化模块采用'检测-优化'架构,利用上下文几何和语义结构完成缺失体素并修正错误体素。
  • Result: 在SemanticKITTI和SSCBench-KITTI-360数据集上的广泛实验验证了HD²-SSC框架的有效性。
  • Conclusion: HD²-SSC框架成功解决了SSC任务中的维度差距和密度差距问题,显著提升了3D场景理解和语义补全性能。

[33] An Image-Based Path Planning Algorithm Using a UAV Equipped with Stereo Vision

Selim Ahmet Iz,Mustafa Unel

Main category: cs.CV

TL;DR: 提出了一种基于图像的路径规划算法,使用计算机视觉技术生成地形视差图来规划路径,并与A*和PRM算法进行比较验证。

  • Motivation: 地形深度对路径安全有重要影响,但二维图像无法区分陨石坑和山丘等特征,需要利用视差图来准确规划安全路径。
  • Method: 使用无人机生成地形视差图,应用边缘、直线和角点检测等计算机视觉技术,结合立体深度重建技术定义路径候选点,利用ArUco标记姿态估计和圆形检测自动识别起点和终点。
  • Result: 在V-REP仿真程序和实验室物理环境中进行测试,与A*和PRM算法比较,结果表明所提算法效果良好。
  • Conclusion: 提出的基于计算机视觉的路径规划算法有效可行,能够利用地形深度信息规划安全路径。

[34] Federated CLIP for Resource-Efficient Heterogeneous Medical Image Classification

Yihang Wu,Ahmad Chaddad

Main category: cs.CV

TL;DR: 提出了FedMedCLIP方法,一种基于CLIP的联邦学习框架,用于医疗图像分类,通过特征适应模块和本地分类器减少通信和计算开销,在多个医疗数据集上表现优异。

  • Motivation: 解决医疗图像分析中深度模型需要源数据训练带来的隐私问题,以及联邦学习中的数据异构性和资源成本挑战,特别是使用视觉语言模型时的部署困难。
  • Method: 使用CLIP预训练模型,引入掩码特征适应模块作为通信模块减少通信负载,冻结CLIP编码器降低计算开销,设计掩码MLP作为本地分类器,采用自适应KL散度蒸馏正则化方法实现模块间相互学习。
  • Result: 在四个公开医疗数据集上的实验表明,该方法性能优越(如在ISIC2019上比次优基线高8%),资源成本合理(比FedAVG快120倍)。
  • Conclusion: FedMedCLIP为医疗图像分类提供了一个性能优异且资源高效的联邦学习解决方案,有效平衡了隐私保护与模型性能。

[35] Laytrol: Preserving Pretrained Knowledge in Layout Control for Multimodal Diffusion Transformers

Sida Huang,Siqi Huang,Ping Luo,Hongyuan Zhang

Main category: cs.CV

TL;DR: 提出Layout Control (Laytrol)网络解决布局到图像生成中的视觉质量和风格一致性问题,通过继承MM-DiT参数保留预训练知识,并使用专门初始化方案避免控制条件干扰。

  • Motivation: 现有布局到图像生成方法通常通过适配器模块引入布局条件,但生成的图像视觉质量低且与基础模型风格不一致,表明预训练知识丢失。
  • Method: 构建Layout Synthesis数据集缓解分布偏移;提出Laytrol网络继承MM-DiT参数;采用专门初始化方案将布局编码器初始化为纯文本编码器,控制网络输出初始化为零;应用对象级旋转位置嵌入为布局令牌提供粗略位置信息。
  • Result: 定性和定量实验证明了该方法的有效性。
  • Conclusion: 所提出的方法能够有效提升布局到图像生成的视觉质量和风格一致性,同时保留基础模型的预训练知识。

[36] DiffRegCD: Integrated Registration and Change Detection with Diffusion Features

Seyedehnanita Madani,Rama Chellappa,Vishal M. Patel

Main category: cs.CV

TL;DR: DiffRegCD是一个统一的密集配准和变化检测框架,将对应估计重新定义为高斯平滑分类任务,利用预训练扩散模型的多尺度特征,在多种数据集上超越现有基线方法。

  • Motivation: 现实世界图像通常存在视差、视角偏移和长时间间隔导致的严重错位问题,传统两阶段方法和现有联合框架在大位移情况下表现不佳。
  • Method: 将对应估计重新定义为高斯平滑分类任务,利用冻结的预训练扩散模型多尺度特征,通过标准CD数据集上的受控仿射扰动提供监督。
  • Result: 在航空(LEVIR-CD、DSIFN-CD、WHU-CD、SYSU-CD)和地面(VL-CMU-CD)数据集上的广泛实验表明,DiffRegCD始终超越近期基线方法,在宽时间跨度和几何变化下保持可靠。
  • Conclusion: 扩散特征和基于分类的对应估计为统一变化检测提供了强大基础,DiffRegCD在多种数据集上建立了新的性能标准。

[37] Is It Truly Necessary to Process and Fit Minutes-Long Reference Videos for Personalized Talking Face Generation?

Rui-Qing Sun,Ang Li,Zhijing Wu,Tian Lan,Qianyu Lu,Xingshan Yao,Chen Xu,Xian-Ling Mao

Main category: cs.CV

TL;DR: 提出ISExplore策略,通过选择信息丰富的5秒视频片段而非完整长视频,显著提升说话人脸生成的数据处理和训练效率。

  • Motivation: 现有基于NeRF或3DGS的说话人脸生成方法需要处理数分钟的参考视频,耗时数小时,计算负担严重限制了实际应用价值。研究发现视频信息质量比长度更重要。
  • Method: 提出ISExplore策略,基于音频特征多样性、嘴唇运动幅度和相机视角数量三个关键数据质量维度,自动识别信息丰富的5秒参考视频片段。
  • Result: 实验表明,该方法使NeRF和3DGS方法的数据处理和训练速度提升5倍以上,同时保持高质量输出。
  • Conclusion: 视频信息质量比长度更重要,ISExplore策略通过选择信息丰富的短片段,在保持性能的同时大幅提升效率,具有重要实用价值。

[38] Libra-MIL: Multimodal Prototypes Stereoscopic Infused with Task-specific Language Priors for Few-shot Whole Slide Image Classification

Zhenfeng Zhuang,Fangyu Zhou,Liansheng Wang

Main category: cs.CV

TL;DR: 提出了一种基于多模态原型的多示例学习方法,通过双向交互和平衡信息压缩方案解决病理图像分析中的计算成本高和标签稀疏问题。

  • Motivation: 大语言模型在计算病理学中前景广阔,但千兆像素的病理图像计算成本高,需要多示例学习。现有方法存在单向指导限制跨模态协同,且实例级描述因缺乏医学知识而产生偏差。
  • Method: 使用冻结的LLM生成任务特定的病理实体描述作为文本原型,视觉分支学习实例级原型以减少对冗余数据的依赖。融合阶段采用基于相似度度量的立体最优传输算法实现高维语义对齐。
  • Result: 在三个不同癌症数据集上进行少样本分类和可解释性实验,结果表明所提方法具有优越的泛化能力。
  • Conclusion: 构建任务特定的病理实体原型对于学习可泛化特征和增强模型可解释性至关重要,提出的双向交互方法在多示例学习中表现出色。

[39] ReIDMamba: Learning Discriminative Features with Visual State Space Model for Person Re-Identification

Hongyang Gu,Qisong Yang,Lei Pu,Siming Han,Yao Ding

Main category: cs.CV

TL;DR: 提出了ReIDMamba,一个纯Mamba驱动的人员重识别框架,通过多粒度特征提取器和排序感知三元组正则化,在减少参数和计算成本的同时实现了最先进的性能。

  • Motivation: 解决Transformer在人员重识别中面临的计算复杂度二次增长问题,同时提取鲁棒的判别性特征。
  • Method: 设计了基于Mamba的强基线,引入多类令牌;开发了多粒度特征提取器模块和排序感知三元组正则化技术。
  • Result: 在五个人员重识别基准测试中达到最先进性能,参数仅为TransReID的三分之一,GPU内存使用更低,推理吞吐量更快。
  • Conclusion: ReIDMamba是首个将纯Mamba方法集成到人员重识别研究中的工作,展示了Mamba在ReID任务中的优越性和潜力。

[40] Burst Image Quality Assessment: A New Benchmark and Unified Framework for Multiple Downstream Tasks

Xiaoye Liang,Lai Jiang,Minglang Qiao,Yichen Guo,Yue Zhang,Xin Deng,Shengxi Li,Yufan Liu,Mai Xu

Main category: cs.CV

TL;DR: 提出了爆发图像质量评估(BuIQA)新任务,建立了首个基准数据集,开发了统一框架通过任务驱动提示生成和知识蒸馏来评估爆发序列中各帧的质量,在10个下游场景中表现优异,并能提升去噪和超分辨率任务的性能。

  • Motivation: 爆发成像技术虽然提升了视觉数据的捕获和处理能力,但爆发图像的冗余性导致了存储传输需求增加和下游任务效率降低,需要评估爆发序列中各帧的任务驱动质量。
  • Method: 建立首个BuIQA基准数据集,提出统一框架:1)任务驱动提示生成网络结合异构知识蒸馏学习下游任务先验;2)任务感知质量评估网络基于任务提示评估爆发图像质量。
  • Result: 在10个下游场景中表现出优异的BuIQA性能,优于现有最优方法。通过选择高质量爆发帧,能在去噪和超分辨率任务中实现0.33 dB PSNR提升。
  • Conclusion: 提出的BuIQA任务和框架能有效评估爆发图像质量,为爆发图像选择提供合理线索,显著提升下游任务的性能表现。

[41] Multi-Modal Assistance for Unsupervised Domain Adaptation on Point Cloud 3D Object Detection

Shenao Zhao,Pengpeng Liang,Zhoufan Yang

Main category: cs.CV

TL;DR: MMAssist是一个基于多模态辅助的3D无监督域自适应方法,通过图像和文本特征作为桥梁来对齐源域和目标域的3D特征,提升LiDAR 3D目标检测性能。

  • Motivation: 虽然点云和图像通常同时采集,但在3D无监督域自适应中很少利用图像数据。本文旨在探索多模态数据在3D UDA中的有用性。
  • Method: 使用预训练视觉骨干提取2D边界框的图像特征,采用大型视觉语言模型生成文本描述并提取文本特征,在训练过程中对齐3D特征与多模态特征,并使用学习权重融合进行最终预测。
  • Result: 在三个流行的3D目标检测数据集上的三个域自适应任务中,该方法相比最先进方法取得了有前景的性能。
  • Conclusion: 多模态辅助能够有效提升3D无监督域自适应的性能,图像和文本特征可以作为有效的桥梁来对齐不同域的3D特征。

[42] Morphing Through Time: Diffusion-Based Bridging of Temporal Gaps for Robust Alignment in Change Detection

Seyedehanita Madani,Vishal M. Patel

Main category: cs.CV

TL;DR: 提出了一种模块化框架RoMa,通过扩散语义变形、密集配准和残差流精化来改善遥感变化检测中的空间错位问题,无需修改现有变化检测网络。

  • Motivation: 遥感变化检测面临长时间间隔图像空间错位问题,现有联合配准检测框架需要重新训练且跨域迁移性差。
  • Method: 集成扩散语义变形、密集配准和残差流精化的模块化流程,通过扩散模块合成中间变形帧来桥接大外观差距,估计连续帧间对应关系。
  • Result: 在LEVIR-CD、WHU-CD和DSIFN-CD数据集上的广泛实验显示,在多个骨干网络上注册精度和下游变化检测性能均获得一致提升。
  • Conclusion: 该方法具有通用性和有效性,能显著提升遥感变化检测的空间和时间鲁棒性。

[43] DANCE: Density-agnostic and Class-aware Network for Point Cloud Completion

Da-Yeong Kim,Yeong-Jun Cho

Main category: cs.CV

TL;DR: 提出了DANCE框架,用于点云补全任务,能够只补全缺失区域并保留观测几何,支持可变稀疏度和有限监督的现实场景。

  • Motivation: 现有方法通常假设固定输入/输出密度或依赖基于图像的表示,不适用于具有可变稀疏度和有限监督的现实场景。
  • Method: DANCE通过多视角射线采样生成候选点,使用transformer解码器优化位置并预测不透明度分数,结合轻量级分类头在几何特征上直接训练以提供语义指导。
  • Result: 在PCN和MVP基准测试中,DANCE在准确性和结构一致性方面优于最先进方法,同时对不同输入密度和噪声水平具有鲁棒性。
  • Conclusion: DANCE框架在点云补全任务中表现出色,能够处理现实世界中的可变稀疏度和有限监督问题,实现类别一致的补全效果。

[44] ChexFract: From General to Specialized - Enhancing Fracture Description Generation

Nikolay Nechaev,Evgeniia Przhezdzetskaia,Dmitry Umerenkov,Dmitry V. Dylov

Main category: cs.CV

TL;DR: 开发专门用于骨折病理检测和描述的视觉语言模型,相比通用模型在生成准确骨折描述方面有显著改进

  • Motivation: 现有通用放射学报告生成模型在描述罕见但临床重要的病理(如骨折)方面表现不足,需要专门针对骨折病理开发更准确的模型
  • Method: 使用MAIRA-2和CheXagent的编码器训练骨折专用视觉语言模型
  • Result: 专用骨折模型在生成准确骨折描述方面相比通用模型有显著改进,分析了模型在不同骨折类型、位置和年龄上的表现差异
  • Conclusion: 开发并公开发布了表现最佳的骨折报告生成模型,促进罕见病理准确报告的未来研究

[45] CSF-Net: Context-Semantic Fusion Network for Large Mask Inpainting

Chae-Yeon Heo,Yeong-Jun Cho

Main category: cs.CV

TL;DR: 提出了CSF-Net框架,通过语义引导解决大掩码图像修复问题,利用预训练的Amodal Completion模型生成结构感知候选作为语义先验,提升修复质量。

  • Motivation: 解决大掩码图像修复中视觉内容缺失和上下文线索有限的问题,需要补偿有限的上下文信息。
  • Method: 引入Context-Semantic Fusion Network (CSF-Net),基于transformer的融合框架,将结构感知候选与上下文特征融合生成语义引导图像。
  • Result: 在Places365和COCOA数据集上的实验表明,CSF-Net有效减少物体幻觉,同时增强视觉真实性和语义对齐。
  • Conclusion: CSF-Net可以无缝集成到现有修复模型中,无需架构更改,在不同掩码条件下持续提升性能。

[46] Hardware-Aware YOLO Compression for Low-Power Edge AI on STM32U5 for Weeds Detection in Digital Agriculture

Charalampos S. Kouzinopoulos,Yuri Manna

Main category: cs.CV

TL;DR: 开发了一个基于YOLOv8n的优化低功耗边缘AI系统,用于杂草检测,部署在STM32U575ZI微控制器上,实现实时检测且每推理仅消耗51.8mJ能量。

  • Motivation: 传统杂草管理方法依赖化学除草剂,存在环境污染和抗药性杂草问题。精准除草技术虽环保但受限于高功耗计算平台。
  • Method: 在YOLOv8n目标检测器基础上应用结构化剪枝、整数量化和输入图像分辨率缩放等压缩技术,部署到STM32U575ZI微控制器。
  • Result: 在包含74种植物的CropAndWeed数据集上训练评估,实现了检测精度与效率的平衡,支持实时原位杂草检测。
  • Conclusion: 该系统可在功率受限的农业环境中大规模部署,为可持续农业提供低功耗解决方案。

[47] Sharp Eyes and Memory for VideoLLMs: Information-Aware Visual Token Pruning for Efficient and Reliable VideoLLM Reasoning

Jialong Qin,Xin Zou,Di Lu,Yibo Yan,Xuming Hu

Main category: cs.CV

TL;DR: SharpV是一种高效的自适应视觉令牌和KV缓存剪枝方法,通过动态调整剪枝比率和自校准机制,在减少计算复杂度的同时保持甚至提升模型性能。

  • Motivation: 当前视频大语言模型存在二次计算复杂度和KV缓存扩展问题,主要原因是处理了过多的冗余视觉令牌。
  • Method: 提出两阶段剪枝框架:1)基于时空信息动态调整剪枝比率;2)通过自校准方式剪枝退化的视觉特征,基于与原始视觉特征的相似度指导。
  • Result: 在多个公开基准测试中表现出优越性,无需暴露注意力分数即可实现两阶段剪枝,完全兼容Flash Attention等硬件加速技术。
  • Conclusion: SharpV提供了一种新的自适应剪枝范式,从信息瓶颈角度实现分层缓存剪枝,为VideoLLMs的信息流提供了新见解。

[48] EAGLE: Episodic Appearance- and Geometry-aware Memory for Unified 2D-3D Visual Query Localization in Egocentric Vision

Yifei Cao,Yu Liu,Guolong Wang,Zhu Liu,Kai Wang,Xianjie Zhang,Jizhe Yu,Xun Tu

Main category: cs.CV

TL;DR: EAGLE框架通过外观和几何感知记忆实现自我中心视觉查询定位,在Ego4D-VQ基准上达到最先进性能

  • Motivation: 解决自我中心视觉查询定位中因相机运动、视角变化和外观变化带来的挑战
  • Method: 结合外观感知元学习记忆(AMM)引导的分割和几何感知定位记忆(GLM)驱动的跟踪,通过结构化记忆库支持长期和短期目标外观变化建模
  • Result: 在Ego4D-VQ基准上达到最先进性能,实现精确轮廓描绘和稳健空间区分
  • Conclusion: EAGLE框架通过记忆整合机制有效统一了2D和3D视觉查询定位任务

[49] Invisible Triggers, Visible Threats! Road-Style Adversarial Creation Attack for Visual 3D Detection in Autonomous Driving

Jian Wang,Lijun He,Yixing Yong,Haixia Bi,Fan Li

Main category: cs.CV

TL;DR: AdvRoad:一种生成自然外观道路风格对抗性海报的方法,可在自动驾驶场景中诱导3D物体检测器产生幻觉,感知不存在的物体

  • Motivation: 当前基于视觉的3D物体检测系统容易受到对抗性攻击,现有方法生成的对抗性海报外观不自然且容易被人类察觉和防御,需要更隐蔽的攻击方式
  • Method: 采用两阶段方法:道路风格对抗性生成和场景关联适应,在保持海报自然外观的同时最大化攻击效果
  • Result: AdvRoad在不同检测器、场景和欺骗位置上都表现出良好的泛化能力,物理攻击实验进一步证明了其在真实环境中的实际威胁
  • Conclusion: AdvRoad展示了在自动驾驶系统中实施隐蔽对抗性攻击的可行性,揭示了现有3D物体检测模型的安全漏洞

[50] High-Quality Proposal Encoding and Cascade Denoising for Imaginary Supervised Object Detection

Zhiyuan Chen,Yuelin Guo,Zitong Huang,Haoyu He,Renhao Lu,Weizhe Zhang

Main category: cs.CV

TL;DR: 提出了Cascade HQP-DETR方法,通过高质量合成数据生成、基于高质量建议的查询编码和级联去噪算法,解决了合成数据训练对象检测模型的三个关键问题,在仅使用合成数据训练12个epoch的情况下,在PASCAL VOC 2007上达到了61.04% mAP@0.5的SOTA性能。

  • Motivation: 真实世界对象检测需要大规模标注数据集,但标注成本高昂。现有基于合成数据的训练方法面临三个主要问题:合成数据质量差、DETR检测器收敛慢且容易过拟合合成模式、均匀去噪压力导致模型过拟合伪标签噪声。
  • Method: 1. 使用LLaMA-3、Flux和Grounding DINO构建高质量数据流水线生成FluxVOC和FluxCOCO数据集;2. 提出高质量建议引导的查询编码,利用SAM生成的建议和RoI池化特征初始化对象查询;3. 设计级联去噪算法,通过逐步增加IoU阈值动态调整训练权重。
  • Result: 仅使用FluxVOC合成数据训练12个epoch,在PASCAL VOC 2007测试集上达到61.04% mAP@0.5的SOTA性能,超越了强基线方法,其竞争性的真实数据性能证实了架构的通用适用性。
  • Conclusion: Cascade HQP-DETR通过高质量合成数据生成、智能查询初始化和动态去噪策略,有效解决了合成数据训练对象检测模型的关键挑战,实现了从弱监督到全监督的ISOD进步,展示了在真实世界对象检测任务中的强大泛化能力。

[51] Multi-modal Deepfake Detection and Localization with FPN-Transformer

Chende Zheng,Ruiqi Suo,Zhoulin Ji,Jingyi Deng,Fangbin Yi,Chenhao Lin,Chao Shen

Main category: cs.CV

TL;DR: 提出基于特征金字塔-Transformer的多模态深度伪造检测与定位框架,在IJCAI'25 DDL-AV基准测试中获得0.7535分,有效解决跨模态泛化和时间边界回归问题。

  • Motivation: 现有单模态检测方法无法利用跨模态相关性并精确定位伪造片段,限制了对抗复杂精细化操作的实用性。
  • Method: 使用预训练自监督模型提取层次化时序特征,通过R-TLM块构建多尺度特征金字塔,采用双分支预测头同时预测伪造概率和优化时间偏移。
  • Result: 在IJCAI'25 DDL-AV基准测试集上表现出色,最终得分0.7535,验证了方法的有效性。
  • Conclusion: 该方法为广义深度伪造检测提供了新途径,实验证实了其有效性。

[52] Perceptual Quality Assessment of 3D Gaussian Splatting: A Subjective Dataset and Prediction Metric

Zhaolin Wan,Yining Diao,Jingqi Xu,Hao Wang,Zhiyang Li,Xiaopeng Fan,Wangmeng Zuo,Debin Zhao

Main category: cs.CV

TL;DR: 提出了首个针对3D高斯泼溅(3DGS)的主观质量评估数据集3DGS-QA,并开发了无需参考图像或地面实况的无参考质量预测模型,直接基于3D高斯基元进行感知质量评估。

  • Motivation: 虽然3DGS在实时高保真渲染方面表现出色,但其在重建条件变化下的感知质量尚未得到系统研究,各种因素如稀疏视点、有限训练迭代、点下采样、噪声和颜色失真都会显著影响视觉质量。
  • Method: 构建了包含15种物体类型225个退化重建的3DGS-QA数据集,提出了直接从原生3D高斯基元中提取空间和光度线索的无参考质量预测模型,采用结构感知方式估计感知质量。
  • Result: 实验结果表明该方法在3DGS内容评估中始终实现优越性能,证明了其鲁棒性和有效性。
  • Conclusion: 3DGS-QA数据集和提出的质量评估模型为3DGS质量评估的未来研究提供了重要基础,填补了该领域的研究空白。

[53] WEDepth: Efficient Adaptation of World Knowledge for Monocular Depth Estimation

Gongshu Wang,Zhirui Wang,Kan Yang

Main category: cs.CV

TL;DR: WEDepth是一种无需修改视觉基础模型结构和预训练权重的方法,通过将其作为多级特征增强器来适应单目深度估计任务,在NYU-Depth v2和KITTI数据集上实现了最先进的性能。

  • Motivation: 单目深度估计由于从单张2D图像重建3D场景的本质不适定性而极具挑战性。现代视觉基础模型在大规模多样化数据集上预训练,展现出卓越的世界理解能力,可以受益于各种视觉任务。
  • Method: WEDepth将视觉基础模型作为多级特征增强器,系统地在不同表示级别注入先验知识,而不修改其结构和预训练权重,有效激发和利用其固有先验。
  • Result: 在NYU-Depth v2和KITTI数据集上建立了新的最先进性能,与需要多次前向传播的基于扩散的方法和在相对深度上预训练的方法相比具有竞争力,并展现出强大的零样本迁移能力。
  • Conclusion: 该方法成功地将视觉基础模型适应于单目深度估计任务,无需结构修改即可实现卓越性能,并具有良好的泛化能力。

[54] ProSona: Prompt-Guided Personalization for Multi-Expert Medical Image Segmentation

Aya Elgebaly,Nikolaos Delopoulos,Juliane Hörner-Rieber,Carolin Rippke,Sebastian Klüter,Luca Boldrini,Lorenzo Placidi,Riccardo Dal Bello,Nicolaus Andratschke,Michael Baumgartl,Claus Belka,Christopher Kurz,Guillaume Landry,Shadi Albarqouni

Main category: cs.CV

TL;DR: ProSona是一个两阶段框架,通过学习注释风格的连续潜在空间,实现通过自然语言提示的可控个性化医学图像分割。

  • Motivation: 医学图像分割存在高观察者间变异性,现有方法要么将这种变异性压缩为共识掩码,要么为每个注释者使用单独模型分支。
  • Method: 使用概率U-Net主干网络捕捉多样专家假设,通过提示引导投影机制在潜在空间中导航生成个性化分割,采用多级对比目标对齐文本和视觉表示。
  • Result: 在LIDC-IDRI肺结节和多机构前列腺MRI数据集上,ProSona将广义能量距离降低17%,平均Dice系数比DPersona提高超过1个百分点。
  • Conclusion: 自然语言提示可以为个性化医学图像分割提供灵活、准确和可解释的控制。

[55] Generalized-Scale Object Counting with Gradual Query Aggregation

Jer Pelhan,Alan Lukezic,Matej Kristan

Main category: cs.CV

TL;DR: GECO2是一个端到端的少样本计数和检测方法,通过新的密集查询表示在多尺度上逐步聚合特定样本的特征信息,解决了目标尺度问题,在计数和检测精度上比现有方法提升10%,运行速度快3倍且GPU内存占用更小。

  • Motivation: 现有的少样本计数器在处理包含不同尺寸目标和密集小目标区域的图像时表现不佳,因为它们使用临时解决方案(如上采样和分块处理)来应对多尺度目标定位和小目标检测问题。
  • Method: 提出一种新的密集查询表示,在多尺度上逐步聚合特定样本的特征信息,生成高分辨率密集查询,从而能够同时检测大目标和小目标。
  • Result: GECO2在计数和检测精度上比现有最先进的少样本计数器提升10%,运行速度快3倍,且GPU内存占用更小。
  • Conclusion: GECO2通过显式处理目标尺度问题,在少样本计数和检测任务中实现了显著的性能提升,同时提高了计算效率。

[56] Taming Identity Consistency and Prompt Diversity in Diffusion Models via Latent Concatenation and Masked Conditional Flow Matching

Aditi Singhania,Arushi Jain,Krutik Malani,Riddhi Dhawan,Souymodip Chakraborty,Vineet Batra,Ankit Phogat

Main category: cs.CV

TL;DR: 提出一种基于LoRA微调的扩散模型,采用潜在连接策略和掩码条件流匹配目标,实现强身份一致性和高提示多样性的主题驱动图像生成。

  • Motivation: 主题驱动图像生成需要在保持主体核心身份特征的同时实现多样化的上下文合成,但身份一致性和提示多样性之间存在根本性的权衡。
  • Method: 使用LoRA微调的扩散模型,结合潜在连接策略(联合处理参考图像和目标图像)和掩码条件流匹配目标;引入两阶段蒸馏数据策展框架,第一阶段通过数据恢复和VLM过滤创建高质量种子数据集,第二阶段用于参数高效微调;提出CHARIS细粒度评估框架进行质量评估。
  • Result: 该方法能够在无需架构修改的情况下实现稳健的身份保持,并扩展了在各种主题和上下文中的生成能力。
  • Conclusion: 所提出的方法有效解决了主题驱动图像生成中身份一致性与提示多样性的权衡问题,通过创新的训练策略和评估框架实现了高质量的图像合成。

[57] I2E: Real-Time Image-to-Event Conversion for High-Performance Spiking Neural Networks

Ruichen Ma,Liwei Meng,Guanchao Qiao,Ning Ning,Yang Liu,Shaogang Hu

Main category: cs.CV

TL;DR: I2E框架将静态图像转换为高保真事件流,解决SNN训练数据稀缺问题,转换速度比现有方法快300倍,在ImageNet上达到60.50%的SOTA准确率,在CIFAR10-DVS上达到92.5%的准确率。

  • Motivation: 脉冲神经网络(SNN)具有高能效优势,但缺乏事件流数据阻碍了其应用,需要解决数据稀缺问题。
  • Method: 通过模拟微扫视眼动,使用高度并行化的卷积将静态图像转换为事件流,实现实时数据增强。
  • Result: 在ImageNet上达到60.50%的SOTA准确率;通过模拟到真实范式,在CIFAR10-DVS上达到92.5%的准确率。
  • Conclusion: I2E为神经形态系统开发提供了基础工具包,证明合成事件数据可以作为真实传感器数据的高保真替代品。

[58] Radar-APLANC: Unsupervised Radar-based Heartbeat Sensing via Augmented Pseudo-Label and Noise Contrast

Ying Wang,Zhaodong Sun,Xu Cheng,Zuxian He,Xiaobai Li

Main category: cs.CV

TL;DR: 提出了第一个用于雷达心跳感知的无监督框架Radar-APLANC,通过增强伪标签和噪声对比来避免对昂贵标注数据的依赖。

  • Motivation: 传统雷达心跳感知方法因噪声而性能下降,基于学习的方法需要昂贵的标注信号进行监督训练。
  • Method: 使用雷达范围矩阵中的心跳范围和噪声范围构建正负样本,设计噪声对比三元组损失,采用自适应噪声感知标签选择来增强伪标签质量。
  • Result: 在Equipleth数据集和自收集雷达数据集上的实验表明,该无监督方法达到了与最先进监督方法相当的性能。
  • Conclusion: Radar-APLANC框架成功实现了无需地面真实生理信号的雷达心跳感知,具有实际应用价值。

[59] CLIP is All You Need for Human-like Semantic Representations in Stable Diffusion

Cameron Braunstein,Mariya Toneva,Eddy Ilg

Main category: cs.CV

TL;DR: 研究发现Stable Diffusion模型的语义理解能力主要来自CLIP文本编码器而非扩散过程,CLIP决定了类人语义表示,而扩散过程主要承担视觉解码功能。

  • Motivation: 探索潜在扩散模型(如Stable Diffusion)在文本到图像生成过程中是否真正理解图像语义,以及这种语义信息在模型内部如何表示。
  • Method: 通过在Stable Diffusion上进行探针实验,使用简单回归层预测对象语义属性,并将预测结果与人类标注进行比较分析。
  • Result: 发现语义理解成功主要归因于CLIP的文本编码而非反向扩散过程;不同语义属性的解码准确度差异显著;在反向扩散过程中属性区分度逐渐降低。
  • Conclusion: CLIP视觉语言模型决定了类人语义表示,而扩散过程主要作为视觉解码器发挥作用。

[60] Beyond the Pixels: VLM-based Evaluation of Identity Preservation in Reference-Guided Synthesis

Aditi Singhania,Krutik Malani,Riddhi Dhawan,Arushi Jain,Garv Tandon,Nippun Sharma,Souymodip Chakraborty,Vineet Batra,Ankit Phogat

Main category: cs.CV

TL;DR: 提出了一个名为Beyond the Pixels的分层评估框架,用于评估生成模型中身份保持能力,通过结构化推理分解身份评估为特征级转换分析。

  • Motivation: 现有评估指标依赖全局嵌入或粗略的VLM提示,无法捕捉细粒度身份变化且诊断洞察有限,需要更精确的身份保持评估方法。
  • Method: 分层分解主体为(类型,风格)->属性->特征决策树,并提示具体转换而非抽象相似度分数,将VLM分析基于可验证的视觉证据。
  • Result: 在四个最先进生成模型上验证了该框架,显示与人类判断在身份一致性测量上有强对齐,并创建了包含1078个图像-提示对的新基准。
  • Conclusion: 该分层框架通过结构化推理减少了幻觉并提高了评估一致性,为生成模型的身份保持评估提供了更可靠的诊断工具。

[61] StableMorph: High-Quality Face Morph Generation with Stable Diffusion

Wassim Kabbani,Kiran Raja,Raghavendra Ramachandra,Christoph Busch

Main category: cs.CV

TL;DR: StableMorph是一种基于扩散模型的创新方法,能生成高度逼真、无伪影的融合人脸图像,显著提升了形态攻击检测系统的评估质量。

  • Motivation: 现有形态生成方法产生的图像往往模糊、充满伪影或构建不良,容易被检测且不能代表最危险的攻击,需要高质量、逼真的融合图像来开发和评估有效的形态攻击检测系统。
  • Method: 使用现代基于扩散的图像合成技术生成融合人脸图像,能够生成全头图像、避免常见视觉缺陷,并提供对视觉属性的无与伦比的控制。
  • Result: StableMorph图像不仅媲美或超过真实人脸图像的质量,而且保持欺骗人脸识别系统的强大能力,对现有MAD解决方案构成更大挑战,为研究和操作测试设定了新的形态质量标准。
  • Conclusion: StableMorph通过创建更真实有效的攻击改进了生物特征安全评估,并支持开发更鲁棒的检测系统。

[62] Introducing Nylon Face Mask Attacks: A Dataset for Evaluating Generalised Face Presentation Attack Detection

Manasa,Sushrut Patwardhan,Narayan Vetrekar,Pavan Kumar,R. S. Gad,Raghavendra Ramachandra

Main category: cs.CV

TL;DR: 本文提出了一个专注于尼龙面罩的新型演示攻击数据集,评估了五种最先进的PAD方法在面对这种3D欺骗攻击时的性能表现。

  • Motivation: 人脸识别系统在智能手机认证、门禁控制等应用中广泛部署,但仍易受演示攻击影响。尼龙面罩因其弹性结构和逼真外观,能紧密模拟受害者面部几何特征,构成了新的安全威胁。
  • Method: 使用iPhone 11 Pro收集数据集,包含100名受试者的3,760个真实样本和51,281个尼龙面罩攻击样本,涵盖人类和人体模型四种不同演示场景。
  • Result: 五种最先进PAD方法在未见攻击条件下表现出显著性能差异,表明尼龙面罩对现有防御技术构成严峻挑战。
  • Conclusion: 尼龙面罩等新兴欺骗威胁凸显了开发具有良好泛化能力的PAD技术的重要性。

[63] LatentPrintFormer: A Hybrid CNN-Transformer with Spatial Attention for Latent Fingerprint identification

Arnab Maity,Manasa,Pavan Kumar C,Raghavendra Ramachandra

Main category: cs.CV

TL;DR: 提出LatentPrintFormer模型,结合CNN和Transformer提取潜指纹的局部和全局特征,通过空间注意力模块增强脊线区域,在公开数据集上优于现有方法。

  • Motivation: 潜指纹识别面临图像质量低、背景噪声和部分印记等挑战,需要更有效的特征提取和匹配方法。
  • Method: 集成EfficientNet-B0和Swin Tiny分别提取局部和全局特征,使用空间注意力模块强调脊线区域,特征融合后投影到512维嵌入空间,通过余弦相似度进行匹配。
  • Result: 在两个公开数据集上的实验表明,LatentPrintFormer在Rank-10识别率上持续优于三种最先进的潜指纹识别技术。
  • Conclusion: 提出的多模态特征融合方法有效提升了潜指纹识别性能,证明了结合局部和全局特征的优势。

[64] Foam Segmentation in Wastewater Treatment Plants: A Federated Learning Approach with Segment Anything Model 2

Mehmet Batuhan Duman,Alejandro Carnero,Cristian Martín,Daniel Garrido,Manuel Díaz

Main category: cs.CV

TL;DR: 提出结合联邦学习和SAM2图像分割模型的框架,用于污水处理厂的泡沫自动检测,解决数据隐私和标注数据稀缺问题。

  • Motivation: 污水处理厂泡沫形成影响处理效率和成本,需要实时监测,但面临标注数据稀缺、数据异构性和隐私问题。
  • Method: 使用联邦学习结合SAM2模型,在分布式客户端上微调SAM2,通过Flower框架协调中央服务器聚合模型权重而不访问私有数据。
  • Result: 框架加速训练收敛并提高分割性能,使用真实污水处理厂图像、合成泡沫数据集和公开数据集进行验证,改善了泛化能力。
  • Conclusion: 该研究为污水处理厂泡沫跟踪提供了实用、可扩展且隐私保护的解决方案,展示了将大规模基础模型集成到联邦学习系统中的巨大潜力。

[65] OTSNet: A Neurocognitive-Inspired Observation-Thinking-Spelling Pipeline for Scene Text Recognition

Lixu Sun,Nurmemet Yolwas,Wushour Silamu

Main category: cs.CV

TL;DR: OTSNet提出了一种受神经认知启发的三阶段观察-思考-拼写管道,通过双注意力编码器、位置感知模块和多模态协作验证器解决场景文本识别中的视觉-语言模态对齐问题,在多个基准测试中达到最先进性能。

  • Motivation: 现有场景文本识别框架中的解耦视觉-语言优化放大了跨模态错位的错误传播,视觉编码器对背景干扰物存在注意力偏差,解码器在解析几何变形文本时存在空间错位,导致不规则模式识别准确性下降。
  • Method: 提出三阶段OTSNet网络:1) 双注意力马卡龙编码器通过差异注意力图抑制无关区域;2) 位置感知模块和语义量化器通过自适应采样整合空间上下文与字形级语义抽象;3) 多模态协作验证器通过视觉、语义和字符级特征的跨模态融合实现自校正。
  • Result: 在Union14M-L基准测试上达到83.5%平均准确率,在严重遮挡的OST数据集上达到79.1%准确率,在14个评估场景中的9个创造了新记录。
  • Conclusion: OTSNet通过神经认知启发的分层处理管道有效解决了场景文本识别中的跨模态对齐问题,在多个具有挑战性的数据集上实现了最先进的性能。

[66] PEOD: A Pixel-Aligned Event-RGB Benchmark for Object Detection under Challenging Conditions

Luoping Cui,Hanqing Liu,Mingjie Liu,Endian Lin,Donghong Jiang,Yuhao Wang,Chuang Zhu

Main category: cs.CV

TL;DR: PEOD是首个大规模、像素对齐的高分辨率(1280×720)事件-RGB数据集,用于挑战条件下的目标检测,包含130+时空对齐序列和34万手动标注框,57%数据在低光、过曝和高速运动条件下采集。

  • Motivation: 现有事件-RGB数据集在极端条件覆盖稀疏且分辨率低(≤640×480),无法全面评估挑战场景下的检测器性能。
  • Method: 构建PEOD数据集,包含130+时空对齐序列和34万手动标注框,57%数据在挑战条件下采集。在三种输入配置(事件、RGB、事件-RGB融合)下对14种方法进行基准测试。
  • Result: 在全测试集和正常子集上,融合模型表现优异;在光照挑战子集上,顶级事件模型优于所有融合模型,但融合模型仍优于RGB模型,表明当帧模态严重退化时现有融合方法存在局限。
  • Conclusion: PEOD为多模态感知建立了现实、高质量的基准,将促进未来研究。

[67] Boomda: Balanced Multi-objective Optimization for Multimodal Domain Adaptation

Jun Sun,Xinxin Zhang,Simin Hong,Jian Zhu,Xiang Gao

Main category: cs.CV

TL;DR: 提出了Boomda方法,通过多目标优化实现模态平衡的多模态领域自适应,解决不同模态间领域偏移差异的问题。

  • Motivation: 多模态学习面临标注数据稀缺的挑战,而无监督领域自适应在单模态中已有广泛研究,但在多模态设置中探索较少。主要挑战是不同模态从源域到目标域的领域偏移不同。
  • Method: 首先使用信息瓶颈方法独立学习每个模态的表示,然后通过相关性对齐在表示空间匹配源域和目标域。将问题表述为多目标任务,寻求帕累托最优解,通过简化为二次规划问题并进一步近似得到闭式解。
  • Result: 广泛的实证结果表明所提方法的有效性,Boomda优于竞争方案。
  • Conclusion: 提出的Boomda方法通过模态平衡的多目标优化,有效解决了多模态领域自适应问题,在实验中表现出优越性能。

[68] Non-Aligned Reference Image Quality Assessment for Novel View Synthesis

Abhijay Ghildyal,Rajesh Sureddi,Nabajeet Barman,Saman Zadtootaghaj,Alan Bovik

Main category: cs.CV

TL;DR: 提出了一个针对新视角合成图像质量评估的非对齐参考框架,通过对比学习和合成失真训练,在不对齐参考视图的情况下有效评估图像质量。

  • Motivation: 新视角合成图像的质量评估面临挑战,因为缺乏像素对齐的参考图像。全参考方法在不对齐时失效,而无参考方法泛化能力不足。
  • Method: 构建大规模合成失真数据集,使用对比学习框架结合LoRA增强的DINOv2嵌入,并利用现有IQA方法进行监督,专门在合成失真上训练以避免过拟合。
  • Result: 模型在不对齐参考情况下超越了现有的全参考、无参考和非对齐参考IQA方法,在用户研究中与主观评分高度相关。
  • Conclusion: 提出的NAR-IQA框架能够有效处理新视角合成图像的质量评估问题,在不对齐参考视图的情况下实现鲁棒性能。

[69] LandSegmenter: Towards a Flexible Foundation Model for Land Use and Land Cover Mapping

Chenying Liu,Wei Huang,Xiao Xiang Zhu

Main category: cs.CV

TL;DR: 提出了LandSegmenter,一个用于土地利用和土地覆盖(LULC)映射的基础模型框架,通过弱监督数据和多模态融合解决数据标注成本高和模型泛化能力有限的问题。

  • Motivation: 当前LULC模型通常针对特定模态和固定分类体系开发,限制了泛化能力。基础模型需要大量标注数据,在遥感领域成本高昂且不切实际。
  • Method: 构建LAS弱标签数据集,集成遥感特定适配器和文本编码器进行跨模态特征提取,采用类别置信度引导融合策略提升零样本性能。
  • Result: 在六个精确标注的LULC数据集上评估,零样本和迁移学习实验显示LandSegmenter达到竞争性或更优性能,特别是在零样本设置下。
  • Conclusion: 该框架证明了弱监督在构建任务特定基础模型中的有效性,为LULC映射提供了可扩展且成本效益高的解决方案。

[70] Multi-Granularity Mutual Refinement Network for Zero-Shot Learning

Ning Wang,Long Yu,Cong Hua,Guangming Zhu,Lin Mei,Syed Afaq Ali Shah,Mohammed Bennamoun,Liang Zhang

Main category: cs.CV

TL;DR: 提出Mg-MRN网络,通过多粒度特征解耦和跨粒度特征交互来改进零样本学习,在三个基准数据集上表现出优越性能。

  • Motivation: 现有零样本学习方法通常忽略局部区域特征之间的内在交互,这可以进一步改善可迁移和显式视觉特征的获取。
  • Method: 设计多粒度特征提取模块学习解耦的区域级判别特征,然后通过跨粒度特征融合模块加强不同粒度区域特征之间的交互。
  • Result: 在三个流行的ZSL基准数据集上的广泛实验证明了Mg-MRN方法的优越性和竞争力。
  • Conclusion: Mg-MRN通过多粒度相互精炼有效提升了零样本学习的识别性能,证明了跨粒度特征交互的重要性。

[71] KPLM-STA: Physically-Accurate Shadow Synthesis for Human Relighting via Keypoint-Based Light Modeling

Xinhui Yin,Qifei Li,Yilin Guo,Hongxia Xie,Xiaoli Zhang

Main category: cs.CV

TL;DR: 提出了一种基于关键点线性模型和阴影三角形算法的阴影生成框架,解决了图像合成中阴影生成的外观真实性和几何精度问题。

  • Motivation: 现有扩散方法在生成阴影时难以同时保证外观真实性和几何精度,特别是在复杂人体姿态下。
  • Method: 使用关键点线性模型建模人体关节,通过阴影三角形算法计算阴影角度、长度和空间位置。
  • Result: 在阴影真实度基准测试中达到最先进性能,尤其在复杂人体姿态下表现优异,并能有效泛化到多方向重光照场景。
  • Conclusion: 该方法通过物理建模和几何计算显著提升了合成图像中阴影的真实感和准确性。

[72] Distributed Zero-Shot Learning for Visual Recognition

Zhi Chen,Yadan Luo,Zi Huang,Jingjing Li,Sen Wang,Xin Yu

Main category: cs.CV

TL;DR: 提出了分布式零样本学习框架DistZSL,通过跨节点属性正则器和全局属性-视觉共识来解决分布式数据中的异构性问题,提升对未见类别的学习效果。

  • Motivation: 现有的零样本学习方法通常假设数据集中存储,但在实际应用中数据往往分布在多个节点上且存在异构性,这给零样本学习带来了挑战。
  • Method: 1. 跨节点属性正则器:强制不同节点间属性特征距离相似,稳定属性特征空间;2. 全局属性-视觉共识:通过双边映射一致性来减轻个体节点学习的V2A映射偏差。
  • Result: 大量实验表明,DistZSL在分布式数据学习方面优于现有最先进方法。
  • Conclusion: DistZSL框架能有效利用分布式数据学习未见类别,通过提出的两个关键组件解决了数据异构性问题,显著提升了零样本学习性能。

[73] VLMDiff: Leveraging Vision-Language Models for Multi-Class Anomaly Detection with Diffusion

Samet Hicsonmez,Abd El Rahman Shabayek,Djamila Aouada

Main category: cs.CV

TL;DR: 提出VLMDiff,一种结合潜在扩散模型和视觉语言模型的无监督多类视觉异常检测框架,通过VLM生成图像描述作为扩散模型的额外条件,实现多类别异常检测而无需逐类训练。

  • Motivation: 解决当前基于扩散的异常检测方法依赖合成噪声生成、泛化能力有限且需要逐类模型训练的问题,实现更可扩展的多类别视觉异常检测。
  • Method: 使用预训练的视觉语言模型通过简单提示提取详细图像描述,作为潜在扩散模型的额外训练条件,学习鲁棒的正常图像特征表示。
  • Result: 在Real-IAD数据集上像素级PRO指标提升高达25点,在COCO-AD数据集上提升8点,优于当前最先进的基于扩散的方法。
  • Conclusion: VLMDiff框架通过结合VLM和LDM,无需手动标注或额外训练即可实现有效的多类别视觉异常检测,在多个数据集上表现出色。

[74] WarpGAN: Warping-Guided 3D GAN Inversion with Style-Based Novel View Inpainting

Kaitao Huang,Yan Yan,Jing-Hao Xue,Hanzi Wang

Main category: cs.CV

TL;DR: WarpGAN是一种新颖的3D GAN反演方法,通过引入扭曲和修复策略,结合图像修复技术来解决现有方法在遮挡区域生成质量差的问题。

  • Motivation: 现有的3D GAN反演方法主要关注可见区域的重建,而遮挡区域的生成仅依赖3D GAN的生成先验,导致由于低比特率潜在码造成的信息损失,使得生成的遮挡区域质量较差。
  • Method: 首先使用3D GAN反演编码器将单视图图像投影到潜在码中,然后利用3D GAN生成的深度图将图像扭曲到新视角,最后开发了SVINet,利用对称先验和相同潜在码下的多视图图像对应关系来修复扭曲图像中的遮挡区域。
  • Result: 定量和定性实验表明,该方法在多个指标上持续优于几种最先进的方法。
  • Conclusion: WarpGAN通过引入扭曲和修复策略,成功解决了3D GAN反演中遮挡区域生成质量差的问题,实现了更好的单次拍摄新视角合成效果。

[75] Pixel-level Quality Assessment for Oriented Object Detection

Yunhui Zhu,Buliao Huang

Main category: cs.CV

TL;DR: 提出像素级质量评估框架PQA,通过像素级空间一致性替代框级IoU预测,解决检测器中定位质量评估的结构耦合问题,提升检测性能。

  • Motivation: 现有方法使用预测框与真实框的IoU作为定位质量代理,但存在结构耦合问题:预测框来自检测器对真实框的内部估计,导致定位差的框IoU被高估。
  • Method: PQA框架测量每个像素相对于预测框和真实框的相对位置对齐度,通过像素级空间一致性避免直接比较预测框与估计的真实框,消除相似性偏差。
  • Result: 在HRSC2016和DOTA数据集上,PQA可无缝集成到多种定向目标检测器中,显著提升性能(如Rotated RetinaNet提升5.96% AP,STD提升2.32%)。
  • Conclusion: PQA通过像素级质量评估有效解决了框级IoU预测的结构耦合问题,提供了更准确的定位质量近似,在各种定向目标检测器中都能稳定提升性能。

[76] UI2CodeN: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation

Zhen Yang,Wenyi Hong,Mingde Xu,Xinyue Fan,Weihan Wang,Jiele Cheng,Xiaotao Gu,Jie Tang

Main category: cs.CV

TL;DR: UI2Code⁰是一个通过多阶段训练开发的视觉语言模型,能够实现UI到代码的生成、编辑和优化,在交互式UI编程任务中达到与顶级闭源模型相当的性能。

  • Motivation: 当前UI编程复杂且耗时,现有视觉语言模型在多模态编码能力和迭代视觉反馈利用方面存在不足,需要开发更符合实际工作流程的交互式UI到代码范式。
  • Method: 采用分阶段预训练、微调和强化学习训练UI2Code⁰模型,统一UI到代码生成、UI编辑和UI优化三大能力,并探索测试时扩展以实现多轮反馈的交互式生成。
  • Result: 在UI到代码和UI优化基准测试中,UI2Code⁰在开源模型中达到新的最优水平,性能与Claude-4-Sonnet和GPT-5等领先闭源模型相当。
  • Conclusion: 交互式UI到代码范式能够显著提升UI编程性能,UI2Code⁰展示了通过多阶段训练和多模态编码能力实现与顶级闭源模型竞争的可能性。

[77] UCDSC: Open Set UnCertainty aware Deep Simplex Classifier for Medical Image Datasets

Arnav Aditya,Nitin Kumar,Saurabh Shigwan

Main category: cs.CV

TL;DR: 该论文提出了一种用于医学图像开放集识别的损失函数,通过使用辅助数据集惩罚开放空间区域,在多个医学数据集上显著优于现有技术。

  • Motivation: 在医学领域,由于伦理法律限制和专家标注成本高昂,数据可用性有限,特别是在面对新兴或罕见疾病时。开放集识别对于识别训练期间未见过的未知类别样本至关重要。
  • Method: 基于深度神经网络后期特征围绕类均值聚类且类均值排列为正则单纯形顶点的观察,提出了一种损失函数,通过使用辅助数据集有效惩罚开放空间区域来拒绝未知类样本。
  • Result: 在四个MedMNIST数据集(BloodMNIST、OCTMNIST、DermaMNIST、TissueMNIST)和一个公开皮肤数据集上实现了显著性能提升,超越了最先进技术。
  • Conclusion: 该方法在医学图像开放集识别任务中表现出色,为解决医学领域数据有限和未知类别识别问题提供了有效解决方案。

[78] Twist and Compute: The Cost of Pose in 3D Generative Diffusion

Kyle Fogarty,Jack Foster,Boqiao Zhang,Jing Yang,Cengiz Öztireli

Main category: cs.CV

TL;DR: 研究发现图像到3D生成模型存在强烈的规范视角偏见,通过轻量级CNN检测和校正输入方向可以恢复模型性能。

  • Motivation: 尽管大规模图像到3D生成模型取得了令人印象深刻的结果,但其归纳偏好仍不透明。我们识别出图像条件3D生成模型的一个重要限制:强烈的规范视角偏见。
  • Method: 通过使用简单2D旋转的受控实验,展示最先进的Hunyuan3D 2.0模型在跨视角泛化方面的困难。使用轻量级CNN检测和校正输入方向,在不修改生成主干的情况下恢复模型性能。
  • Result: 实验表明,在旋转输入下模型性能会下降,但通过方向检测和校正可以缓解这种失败。
  • Conclusion: 我们的发现提出了一个重要开放问题:规模是否足够,还是我们应该追求模块化、对称感知的设计?

[79] Evaluating Gemini LLM in Food Image-Based Recipe and Nutrition Description with EfficientNet-B4 Visual Backbone

Rizal Khoirul Anam

Main category: cs.CV

TL;DR: 本文比较了用于食品识别的解耦多模态流水线,评估了EfficientNet-B4与Gemini LLM组合在视觉分类准确性和生成质量之间的权衡,并分析了视觉模块错误如何影响生成输出。

  • Motivation: 数字食品应用的普及需要自动营养分析和烹饪指导的稳健方法,同时解决公共数据集中的文化偏见问题。
  • Method: 使用解耦多模态流水线,集成专用视觉骨干网络(EfficientNet-B4)与生成式大语言模型(Gemini LLM),并与其他视觉骨干网络和轻量级LLM进行基准测试。引入语义错误传播(SEP)形式化分析分类错误如何级联到生成输出。
  • Result: EfficientNet-B4(89.0% Top-1准确率)在准确性和效率之间达到最佳平衡,Gemini(9.2/10事实准确性)提供卓越的生成质量,但系统整体效用受到视觉前端感知准确性的根本限制。
  • Conclusion: 系统的整体性能受到视觉前端准确性的瓶颈限制,高语义相似度是最关键的错误模式。

[80] 2D Representation for Unguided Single-View 3D Super-Resolution in Real-Time

Ignasi Mas,Ivan Huerta,Ramon Morros,Javier Ruiz-Hidalgo

Main category: cs.CV

TL;DR: 2Dto3D-SR是一个实时单视图3D超分辨率框架,无需高分辨率RGB引导,通过将3D数据编码为结构化2D表示,可直接应用现有2D图像超分辨率架构。

  • Motivation: 解决传统3D超分辨率方法需要高分辨率RGB引导的局限性,为无法获取高分辨率RGB数据的实际场景提供实用解决方案。
  • Method: 使用投影归一化坐标码(PNCC)将3D几何表示为规则图像,避免基于3D点或RGB引导方法的复杂性,支持Swin Transformer和Vision Mamba两种实现。
  • Result: Swin Transformer模型在标准基准测试中达到最先进精度,Vision Mamba模型在实时速度下提供有竞争力的结果。
  • Conclusion: 该几何引导管道为实际场景提供了一个简单、可行且实用的解决方案,特别是在无法获取高分辨率RGB数据的情况下。

[81] Accurate and Efficient Surface Reconstruction from Point Clouds via Geometry-Aware Local Adaptation

Eito Ogawa,Taiga Hayami,Hiroshi Watanabe

Main category: cs.CV

TL;DR: 提出了一种基于点云曲率自适应调整局部区域间距和大小的方法,以提高表面重建的精度和效率。

  • Motivation: 现有的局部区域重建方法通常采用均匀分布和固定大小的局部区域,这限制了其对几何复杂度变化的适应性。
  • Method: 通过分析输入点云的曲率,自适应地调制局部区域的间距和大小。
  • Result: 该方法提高了重建精度和效率。
  • Conclusion: 自适应调整局部区域参数能有效提升点云表面重建性能。

[82] Remodeling Semantic Relationships in Vision-Language Fine-Tuning

Xiangyang Wu,Liu Liu,Baosheng Yu,Jiayan Qiu,Zhenwei Shi

Main category: cs.CV

TL;DR: 提出了一种基于语义和关系改进多模态对齐与融合的方法,通过提取多级语义特征、学习相关语义分组,并使用可继承的交叉注意力融合视觉和文本特征。

  • Motivation: 现有的视觉-语言微调方法通常忽略文本上下文中强调的图像语义关系信息,导致多模态对齐性能不佳。
  • Method: 1. 从不同视觉编码器提取多级语义特征以捕捉更多视觉关系线索;2. 学习将视觉特征投影到相关语义组中;3. 使用可继承的交叉注意力融合视觉和文本特征,通过丢弃低相关度的视觉-语言特征对来全局去除冗余视觉关系。
  • Result: 在8个基础模型和两个下游任务(视觉问答和图像描述)上评估,该方法优于所有现有方法。
  • Conclusion: 该方法通过同时考虑语义和关系信息,有效提升了多模态对齐和融合的性能。

[83] Hierarchical Direction Perception via Atomic Dot-Product Operators for Rotation-Invariant Point Clouds Learning

Chenyu Hu,Xiaotong Li,Hao Zhu,Biao Hou

Main category: cs.CV

TL;DR: 提出了DiPVNet方法,通过原子点积算子同时编码方向选择性和旋转不变性,在局部和全局层面分别使用L2DP算子和方向感知球面傅里叶变换来捕捉点云的多尺度方向特性,在噪声和大角度旋转场景下实现了最先进的点云分类和分割性能。

  • Motivation: 点云处理中的任意旋转会导致方向特征变化,现有方法未能充分利用点云的多尺度方向特性来增强特征表示,需要一种既能建模旋转对称性又能自适应感知方向的方法。
  • Method: 提出DiPVNet框架,核心是原子点积算子:局部使用可学习的局部点积算子(L2DP)捕捉非均匀局部结构;全局通过方向感知球面傅里叶变换(DASFT)构建全局方向响应谱来建模整体方向结构。两种算子都具有严格的旋转不变性证明。
  • Result: 在包含噪声和大角度旋转的挑战性场景下,DiPVNet在点云分类和分割任务上实现了最先进的性能。
  • Conclusion: DiPVNet通过同时编码方向选择性和旋转不变性,有效解决了点云旋转变化带来的表示学习挑战,证明了利用多尺度方向特性可以显著提升点云处理性能。

[84] NERVE: Neighbourhood & Entropy-guided Random-walk for training free open-Vocabulary sEgmentation

Kunal Mahatha,Jose Dolz,Christian Desrosiers

Main category: cs.CV

TL;DR: NERVE是一种无需训练的开放词汇语义分割方法,通过整合全局和局部信息、使用随机游走优化亲和度、基于熵选择注意力图,在7个基准测试中达到最先进的零样本分割性能。

  • Motivation: 现有无需训练的开放词汇语义分割方法存在计算成本高、注意力图融合效果差、依赖固定大小高斯核等问题,需要更有效的解决方案。
  • Method: 结合稳定扩散模型的自注意力层获取邻域结构,使用随机游走优化亲和度而非固定高斯核,基于熵选择最相关的注意力图,无需传统后处理技术。
  • Result: 在7个流行的语义分割基准测试中实现了最先进的零样本分割性能。
  • Conclusion: NERVE为开放词汇语义分割提供了一个有效的无需训练方法,能够准确分割任意形状的物体。

[85] LayerEdit: Disentangled Multi-Object Editing via Conflict-Aware Multi-Layer Learning

Fengyi Fu,Mengqi Huang,Lei Zhang,Zhendong Mao

Main category: cs.CV

TL;DR: LayerEdit是一个无需训练的多层解耦编辑框架,通过精确的对象分层分解和连贯融合,实现无冲突的多对象图像编辑。

  • Motivation: 现有方法遵循定位-编辑范式,专注于独立对象定位和编辑,但忽视了关键的对象间交互。被忽视的注意力纠缠在对象间冲突区域阻碍了解耦的多对象编辑,导致对象间编辑泄漏或对象内编辑约束。
  • Method: 提出"分解-编辑-融合"框架:1)冲突感知层分解模块,使用注意力感知IoU方案和时间相关区域移除来增强冲突感知和抑制;2)对象分层编辑模块,建立协调的层内文本引导和跨层几何映射;3)透明度引导层融合模块,通过精确透明度引导学习促进结构连贯的对象间层融合。
  • Result: 大量实验验证了LayerEdit相对于现有方法的优越性,在复杂多对象场景中展现出前所未有的对象内可控性和对象间连贯性。
  • Conclusion: LayerEdit首次通过精确的对象分层分解和连贯融合,实现了无冲突的对象分层编辑,解决了多对象图像编辑中的注意力纠缠问题。

[86] Top2Ground: A Height-Aware Dual Conditioning Diffusion Model for Robust Aerial-to-Ground View Generation

Jae Joong Lee,Bedrich Benes

Main category: cs.CV

TL;DR: Top2Ground是一种基于扩散模型的创新方法,直接从航拍图像生成逼真的地面视图图像,无需依赖深度图或3D体素等中间表示。

  • Motivation: 从航拍视角生成地面图像面临极端视角差异、遮挡和有限视野等挑战,现有方法通常依赖中间表示,限制了生成质量和效率。
  • Method: 使用扩散模型,在去噪过程中结合VAE编码的空间特征(来自航拍RGB图像和估计高度图)和CLIP语义嵌入,确保生成结果既受场景3D结构几何约束,又保持语义一致性。
  • Result: 在CVUSA、CVACT和Auto Arborist三个数据集上评估,SSIM指标平均提升7.3%,能够稳健处理宽窄视野,展现强泛化能力。
  • Conclusion: Top2Ground通过直接生成方法有效解决了航拍到地面视图转换的挑战,在多个数据集上表现出优越性能。

[87] ImagebindDC: Compressing Multi-modal Data with Imagebind-based Condensation

Yue Min,Shaobo Wang,Jiaze Li,Tianle Niu,Junxin Fan,Yongliang Miao,Lijin Yang,Linfeng Zhang

Main category: cs.CV

TL;DR: ImageBindDC是一个新颖的多模态数据压缩框架,在ImageBind的统一特征空间中运行,通过特征函数损失实现精确的统计对齐,在三个层次上保持分布一致性:单模态对齐、跨模态对齐和联合模态对齐。

  • Motivation: 传统的数据压缩技术在单模态场景中很成功,但在多模态场景中往往失败,因为需要保留复杂的模态间依赖关系。
  • Method: 在ImageBind的统一特征空间中操作,使用特征函数损失在傅里叶域进行精确统计对齐,通过无限矩匹配实现三个层次的分布一致性:单模态对齐、跨模态对齐和联合模态对齐。
  • Result: 在NYU-v2数据集上,仅用每类5个压缩数据点训练的模型就能达到与完整数据集训练相当的无损性能,比之前最佳方法绝对提升8.2%,且压缩时间减少4倍以上。
  • Conclusion: ImageBindDC在多模态数据压缩方面实现了最先进的性能,显著提高了压缩效率和模型性能。

[88] Re-coding for Uncertainties: Edge-awareness Semantic Concordance for Resilient Event-RGB Segmentation

Nan Bao,Yifan Zhao,Lin Zhu,Jia Li

Main category: cs.CV

TL;DR: 提出了一种边缘感知语义一致性框架,通过潜在边缘线索统一事件和RGB模态的异构特征,解决极端条件下语义分割的信息丢失问题。

  • Motivation: 在极端条件(如光线不足、相机剧烈运动)下,RGB模态会遭受严重信息损失,而现有方法在处理事件和RGB异构特征时存在不匹配和优化困难的问题。
  • Method: 提出边缘感知潜在重编码,通过重编码分布将事件-RGB特征对齐到统一语义空间,并利用预建立的边缘字典作为线索;然后通过重编码巩固和不确定性优化解决异构融合问题。
  • Result: 在提出的DERS-XS数据集上比现有最佳方法提升2.55% mIoU,并在空间遮挡下表现出优越的鲁棒性。
  • Conclusion: 该方法通过边缘感知的语义一致性框架有效解决了极端条件下事件-RGB异构特征的融合问题,显著提升了语义分割性能。

[89] SWAN - Enabling Fast and Mobile Histopathology Image Annotation through Swipeable Interfaces

Sweta Banerjee,Timo Gosch,Sara Hester,Viktoria Weiss,Thomas Conrad,Taryn A. Donovan,Nils Porsche,Jonas Ammeling,Christoph Stroblberger,Robert Klopfleisch,Christopher Kaltenecker,Christof A. Bertram,Katharina Breininger,Marc Aubreville

Main category: cs.CV

TL;DR: SWAN是一个开源网页应用,通过滑动手势实现直观的图像块分类,解决了大规模病理图像数据集标注的瓶颈问题。

  • Motivation: 大规模病理图像数据集的标注是开发深度学习模型的主要瓶颈,传统的文件夹标注工作流程缓慢、易疲劳且难以扩展。
  • Method: 开发了SWAN开源网页应用,支持桌面和移动平台,使用滑动手势进行图像块分类,提供实时元数据捕获和灵活的滑动手势到类别标签映射。
  • Result: 在4名病理学家标注600个有丝分裂图像块的试点研究中,SWAN与传统文件夹排序方法相比,标注速度快,标注者间一致性高(配对百分比一致性86.52%-93.68%,Cohen's Kappa = 0.61-0.80)。
  • Conclusion: SWAN能够在保持标注质量的同时加速图像标注,为传统工作流程提供了可扩展且用户友好的替代方案。

[90] MAUGIF: Mechanism-Aware Unsupervised General Image Fusion via Dual Cross-Image Autoencoders

Kunjing Yang,Zhiwei Wang,Minru Bai

Main category: cs.CV

TL;DR: 提出了一种机制感知的无监督通用图像融合方法MAUGIF,基于双交叉图像自编码器,根据融合任务的内在机制进行分类,并通过双编码器和解码器在共享潜在空间中处理多源图像信息。

  • Motivation: 现有图像融合方法要么高度任务特定,要么采用统一策略忽略不同任务的融合机制差异,需要一种能适应不同融合机制的通用方法。
  • Method: 基于双交叉图像自编码器,将融合机制分为加性和乘性两类;双编码器将源图像映射到共享潜在空间,双解码器作为特征注入器选择性重构模态特定特征;解码器架构根据融合机制变化。
  • Result: 在多种融合任务上进行了广泛实验,验证了方法的有效性和泛化能力。
  • Conclusion: MAUGIF方法能够根据不同的融合机制自适应处理多源图像融合,在性能和可解释性方面均有提升。

[91] SynWeather: Weather Observation Data Synthesis across Multiple Regions and Variables via a General Diffusion Transformer

Kaiyi Xu,Junchao Gong,Zhiwang Zhou,Zhangrui Li,Yuandong Pu,Yihao Liu,Ben Fei,Fenghua Ling,Wenlong Zhang,Lei Bei

Main category: cs.CV

TL;DR: SynWeather是首个统一多区域多变量天气观测数据合成数据集,覆盖美国大陆、欧洲、东亚和热带气旋区域,包含雷达反射率、降水、可见光和微波亮温等关键变量。SynWeatherDiff基于扩散变换器框架,解决了传统确定性模型导致的过度平滑问题。

  • Motivation: 当前天气数据合成方法通常专注于单一变量和单一区域,依赖确定性建模,限制了跨变量和跨区域的统一合成,忽视了变量间的互补性,并经常导致过度平滑的结果。
  • Method: 提出SynWeatherDiff模型,基于扩散变换器框架构建通用且概率性的天气合成模型,以解决过度平滑问题。
  • Result: 在SynWeather数据集上的实验表明,该网络相比特定任务模型和通用模型都表现出更好的效果。
  • Conclusion: SynWeather数据集和SynWeatherDiff模型为多区域多变量天气观测数据合成提供了有效的解决方案,克服了传统方法的局限性。

[92] SkelSplat: Robust Multi-view 3D Human Pose Estimation with Differentiable Gaussian Rendering

Laura Bragagnolo,Leonardo Barcellona,Stefano Ghidoni

Main category: cs.CV

TL;DR: SkelSplat是一个基于可微分高斯渲染的多视角3D人体姿态估计框架,无需3D真值监督,通过骨架化的3D高斯模型实现跨视角的无缝融合,在遮挡场景下表现出色。

  • Motivation: 现有的多视角方法依赖大规模标注数据集进行训练,在测试场景与训练场景不同时泛化能力差。需要一种不依赖3D真值监督且能泛化到新场景的方法。
  • Method: 提出SkelSplat框架,将人体姿态建模为由3D高斯组成的骨架(每个关节一个高斯),通过可微分渲染进行优化。设计了新颖的one-hot编码方案,使人体关节能够独立优化。
  • Result: 在Human3.6M和CMU数据集上优于不依赖3D真值的方法,相比基于学习的方法跨数据集误差降低达47.8%。在Human3.6M-Occ和Occlusion-Person上表现出对遮挡的鲁棒性,无需场景特定微调。
  • Conclusion: SkelSplat通过可微分高斯渲染实现了无需3D真值监督的多视角3D人体姿态估计,具有良好的泛化能力和遮挡鲁棒性。

[93] NeuSpring: Neural Spring Fields for Reconstruction and Simulation of Deformable Objects from Videos

Qingshan Xu,Jiao Liu,Shangshu Yu,Yuxuan Wang,Yuan Zhou,Junbao Zhou,Jiequan Cui,Yew-Soon Ong,Hanwang Zhang

Main category: cs.CV

TL;DR: NeuSpring是一个神经弹簧场方法,用于从视频中重建和模拟可变形物体,通过分段拓扑解决方案和神经弹簧场实现更好的物理学习和未来预测。

  • Motivation: 现有方法主要关注当前状态的物理学习,但在未来预测方面泛化能力较差,因为它们忽略了可变形物体的内在物理特性。
  • Method: 1) 分段拓扑解决方案:使用零阶优化高效建模多区域弹簧连接拓扑,考虑真实世界物体的材料异质性;2) 神经弹簧场:使用基于规范坐标的神经网络表示不同帧间的弹簧物理特性,有效利用弹簧的空间关联性进行物理学习。
  • Result: 在真实世界数据集上的实验表明,NeuSpring在当前状态建模和未来预测方面实现了优越的重建和模拟性能,Chamfer距离分别提高了20%和25%。
  • Conclusion: NeuSpring通过结合弹簧质量模型和神经网络,能够更好地捕捉可变形物体的物理特性,在重建和模拟任务中表现出色。

[94] Mitigating Negative Flips via Margin Preserving Training

Simone Ricci,Niccolò Biondi,Federico Pernici,Alberto Del Bimbo

Main category: cs.CV

TL;DR: 提出一种减少AI系统版本更新时负翻转(新模型错误分类旧模型正确样本)的方法,通过保持原始模型的决策边界同时学习改进模型,结合边界校准和双源焦点蒸馏损失。

  • Motivation: 随着训练类别数量随时间增长,添加新类别会减少每个类的边界并引入冲突模式,从而降低原始子集的性能,导致负翻转问题日益突出。
  • Method: 通过引入明确的边界校准项来保持原始模型的边界,同时鼓励新旧类别之间更大的相对边界。结合双源焦点蒸馏损失,从旧模型和新独立训练模型中学习适当的决策边界。
  • Result: 在图像分类基准测试上的广泛实验表明,该方法在保持高整体准确率的同时,持续降低了负翻转率。
  • Conclusion: 所提出的方法有效缓解了模型更新时的负翻转问题,在保持整体性能的同时显著减少了不一致性。

[95] The Impact of Longitudinal Mammogram Alignment on Breast Cancer Risk Assessment

Solveig Thrun,Stine Hansen,Zijun Sun,Nele Blum,Suaiba A. Salahuddin,Xin Wang,Kristoffer Wickstrøm,Elisabeth Wetzer,Robert Jenssen,Maik Stille,Michael Kampffmeyer

Main category: cs.CV

TL;DR: 本研究比较了乳腺X光片纵向风险建模中的不同对齐策略,发现基于图像的配准方法在所有指标上均优于特征级对齐和隐式对齐方法,能提供更准确的风险预测和更平滑的变形场。

  • Motivation: 乳腺X光筛查中,利用深度学习风险模型可以个性化筛查间隔,但不同时间点图像的空间对齐是主要挑战,错位会掩盖组织变化并降低模型性能。
  • Method: 评估了多种对齐策略:基于图像的配准、特征级对齐(有/无正则化)和隐式对齐方法,使用两个大规模乳腺X光数据集评估预测准确性、精度、召回率和变形场质量。
  • Result: 基于图像的配准在所有指标上表现最佳,能生成平滑且解剖学合理的变形场。在特征空间中应用基于图像的变形场可获得最佳风险预测性能。
  • Conclusion: 基于图像的变形场对于纵向风险建模中的空间对齐至关重要,能提高预测准确性和鲁棒性,有望增强个性化筛查和早期干预能力。

[96] Empowering DINO Representations for Underwater Instance Segmentation via Aligner and Prompter

Zhiyang Chen,Chen Zhang,Hao Fang,Runmin Cong

Main category: cs.CV

TL;DR: DiveSeg是一个基于DINO预训练模型的水下实例分割框架,通过AquaStyle Aligner嵌入水下颜色风格特征和ObjectPrior Prompter提供对象级先验,在UIIS和USIS10K数据集上达到最先进性能。

  • Motivation: 水下实例分割在海洋资源勘探和生态保护中至关重要,而大型预训练视觉基础模型(如DINO)在复杂下游任务中表现出色,但需要更好地适应水下领域。
  • Method: 提出DiveSeg框架,包含两个核心组件:AquaStyle Aligner(将水下颜色风格特征嵌入DINO微调过程)和ObjectPrior Prompter(通过二元分割提示提供对象级先验指导)。
  • Result: 在UIIS和USIS10K数据集上的实验表明,DiveSeg实现了最先进的性能。
  • Conclusion: DINO可以作为水下实例分割的有效特征学习器,DiveSeg框架通过结合水下风格适应和对象级先验指导,显著提升了水下实例分割的性能。

[97] Towards Open-Set Myoelectric Gesture Recognition via Dual-Perspective Inconsistency Learning

Chen Liu,Can Han,Weishi Xu,Yaqi Wang,Dahong Qian

Main category: cs.CV

TL;DR: 提出了一种基于扩散模型的sEMG数据增强方法SASG-DA,通过语义引导和稀疏感知采样来生成忠实且多样化的训练样本,显著提升了手势识别的性能和泛化能力。

  • Motivation: sEMG手势识别系统面临训练数据稀缺问题,导致深度学习模型过拟合和泛化能力差。现有数据增强方法在忠实性和多样性之间存在权衡,无目标的多样性增强会产生冗余样本。
  • Method: 提出SASG-DA方法:1)语义表示引导机制,利用细粒度任务语义表示作为生成条件;2)高斯建模语义建模策略,对语义表示分布建模实现随机采样;3)稀疏感知语义采样策略,显式探索欠表示区域。
  • Result: 在Ninapro DB2、DB4和DB7基准数据集上的实验表明,SASG-DA显著优于现有数据增强方法,有效缓解过拟合,提升识别性能和泛化能力。
  • Conclusion: 该数据增强方法通过提供忠实且多样化的样本,有效解决了sEMG手势识别中的数据稀缺问题,为康复和假肢控制等HMI应用提供了可靠解决方案。

[98] VideoChain: A Transformer-Based Framework for Multi-hop Video Question Generation

Arpan Phukan,Anupam Pandey,Deepjyoti Bodo,Asif Ekbal

Main category: cs.CV

TL;DR: 提出了VideoChain框架,用于生成需要跨多个视频片段进行推理的多跳视频问题生成(MVQG),在TVQA+数据集上构建了MVQ-60数据集,并在多个指标上表现出色。

  • Motivation: 现有的多跳问题生成仅限于文本领域,而视频问题生成只限于单片段的零跳问题,缺乏需要跨多个视频片段进行推理的问题生成能力。
  • Method: 基于改进的BART骨干网络构建模块化架构,增强视频嵌入以捕获文本和视觉依赖,使用TVQA+数据集自动构建MVQ-60数据集。
  • Result: 在多个标准生成指标上表现优异:ROUGE-L (0.6454)、ROUGE-1 (0.6854)、BLEU-1 (0.6711)、BERTScore-F1 (0.7967)和语义相似度(0.8110)。
  • Conclusion: VideoChain能够生成连贯、上下文相关且需要推理的多跳视频问题,验证了该框架在多跳视频问题生成任务中的有效性。

[99] Extreme Model Compression with Structured Sparsity at Low Precision

Dan Liu,Nikita Dvornik,Xue Liu

Main category: cs.CV

TL;DR: SLOPE是一个统一框架,通过训练时正则化策略有效结合结构化稀疏性和低位量化,在保持精度的同时实现显著模型压缩。

  • Motivation: 深度神经网络在资源受限设备上部署困难,现有方法如权重量化和结构化稀疏性单独使用有效,但结合使用时会导致精度严重下降。
  • Method: 提出SLOPE框架,使用训练时正则化策略,通过促进角度对齐而非直接匹配来最小化全精度权重与其稀疏量化对应物之间的差异。
  • Result: 在ResNet-18上实现约20倍模型大小缩减,同时保持约99%的原始精度,在分类、检测和分割任务上优于现有量化与结构化稀疏方法。
  • Conclusion: SLOPE提供了一种原则性方法,成功结合结构化稀疏性和低位量化,为资源受限设备上的高效模型部署提供了有效解决方案。

[100] Retrospective motion correction in MRI using disentangled embeddings

Qi Wang,Veronika Ecker,Marcel Früh,Sergios Gatidis,Thomas Küstner

Main category: cs.CV

TL;DR: 提出了一种分层向量量化变分自编码器,用于学习运动到干净图像特征的解缠表示,无需特定伪影训练即可泛化到未见过的运动模式。

  • Motivation: 生理运动会影响MRI诊断质量,现有方法难以泛化到不同运动类型和身体区域,假设运动伪影具有可解缠的底层模式。
  • Method: 使用分层向量量化变分自编码器学习解缠嵌入,部署码本捕获多分辨率运动模式,结合自回归模型学习无运动图像先验分布指导校正。
  • Result: 在模拟全身运动伪影上验证,在不同运动严重程度下均能稳健校正,模型有效解缠了模拟运动扫描的物理运动特征。
  • Conclusion: 该方法提高了基于ML的MRI运动校正的泛化能力,解缠运动特征的方法在跨解剖区域和运动类型应用中具有潜力。

[101] A Circular Argument : Does RoPE need to be Equivariant for Vision?

Chase van de Geijn,Timo Lüddecke,Polina Turishcheva,Alexander S. Ecker

Main category: cs.CV

TL;DR: 本文分析了RoPE位置编码的数学基础,提出了非等变性的Spherical RoPE方法,并质疑相对位置编码在计算机视觉中的重要性。

  • Motivation: 研究RoPE位置编码在更高维数据(如图像、视频)中的推广,并探讨严格等变性是否对RoPE性能起关键作用。
  • Method: 提出Spherical RoPE方法,采用非交换生成器,与需要交换生成器的Mixed RoPE形成对比。
  • Result: 实验发现Spherical RoPE具有与等变方法相当或更好的学习性能,表明相对位置嵌入在计算机视觉中可能不如普遍认为的重要。
  • Conclusion: 相对位置编码在视觉任务中可能不是必需的,这一发现有望促进更快速、泛化能力更强的视觉位置编码方法的发展。

[102] Text-based Aerial-Ground Person Retrieval

Xinyu Zhou,Yu Wu,Jiayao Ma,Wenhao Wang,Min Cao,Mang Ye

Main category: cs.CV

TL;DR: 提出了TAG-PR任务,即基于文本的空中-地面人员检索,旨在通过文本描述从异构的空中和地面视角检索人员图像。为此贡献了TAG-PEDES数据集和TAG-CLIP检索框架。

  • Motivation: 传统的基于文本的人员检索仅关注地面视角图像,而TAG-PR引入了更大的实际意义,但由于图像间存在大的视角差异而带来独特挑战。
  • Method: 提出了TAG-CLIP检索框架,通过分层路由的专家混合模块学习视角特定和视角无关特征,并使用视角解耦策略解耦视角特定特征以实现更好的跨模态对齐。
  • Result: 在提出的TAG-PEDES数据集和现有T-PR基准上评估了TAG-CLIP的有效性。
  • Conclusion: TAG-PR任务具有重要实际意义,提出的TAG-CLIP框架能有效处理视角异构性挑战。

[103] RAPTR: Radar-based 3D Pose Estimation using Transformer

Sorachi Kato,Ryoma Yataka,Pu Perry Wang,Pedro Miraldo,Takuya Fujihashi,Petros Boufounos

Main category: cs.CV

TL;DR: RAPTR:使用弱监督的雷达3D人体姿态估计方法,仅需3D边界框和2D关键点标签,通过两阶段姿态解码器架构实现优于现有方法的性能。

  • Motivation: 传统雷达室内3D人体姿态估计依赖昂贵的3D关键点标注,在复杂室内环境中获取成本高。本文旨在开发仅需更易获取的3D边界框和2D关键点标签的弱监督方法。
  • Method: 提出RAPTR框架,采用两阶段姿态解码器:姿态解码器使用3D模板损失估计初始3D姿态,关节解码器使用2D关键点标签和3D重力损失进行细化,并引入伪3D可变形注意力机制增强多视图雷达特征。
  • Result: 在两个室内雷达数据集上评估,RAPTR显著优于现有方法,在HIBER数据集上减少关节位置误差34.3%,在MMVR数据集上减少76.9%。
  • Conclusion: RAPTR证明了在弱监督下使用雷达进行3D人体姿态估计的可行性,仅需易获取的标签即可实现高性能,为雷达姿态估计提供了更实用的解决方案。

[104] Anatomy-VLM: A Fine-grained Vision-Language Model for Medical Interpretation

Difei Gu,Yunhe Gao,Mu Zhou,Dimitris Metaxas

Main category: cs.CV

TL;DR: Anatomy-VLM是一个细粒度的视觉语言模型,通过多尺度信息整合来改善放射学疾病诊断。它模仿临床医生的分析流程,定位关键解剖特征并融入结构化知识,在内外分布数据集上都表现出色。

  • Motivation: 现有视觉语言模型将图像视为整体,忽略了疾病诊断所需的关键细粒度图像细节。临床医生通过先验医学知识识别重要解剖结构作为感兴趣区域,这种人类中心的工作流程启发了本研究的动机。
  • Method: 1. 设计模型编码器从整个医学图像中定位关键解剖特征;2. 用结构化知识丰富这些区域以实现上下文感知解释;3. 对齐多尺度医学信息以生成临床可解释的疾病预测。
  • Result: Anatomy-VLM在内外分布数据集上均取得优异性能,在下游图像分割任务中表现良好,证明其细粒度对齐捕获了解剖和病理相关知识。模型编码器支持零样本解剖学解释,具备专家级临床解释能力。
  • Conclusion: Anatomy-VLM通过整合多尺度信息和结构化知识,实现了细粒度的医学图像分析,显著提升了疾病诊断的准确性和临床可解释性,展现了专家级的临床解释能力。

[105] OmniAID: Decoupling Semantic and Artifacts for Universal AI-Generated Image Detection in the Wild

Yuncheng Guo,Junyan Ye,Chenjue Zhang,Hengrui Kang,Haohuan Fu,Conghui He,Weijia Li

Main category: cs.CV

TL;DR: OmniAID是一个基于解耦专家混合架构的通用AI生成图像检测框架,通过分离内容相关缺陷和内容无关伪影,实现跨生成模型和语义内容的鲁棒泛化。

  • Motivation: 现有AI生成图像检测方法学习单一的、纠缠的伪造表示,将内容相关缺陷与内容无关伪影混为一谈,且受限于过时的基准测试,无法实现真正的通用检测。
  • Method: 提出解耦的专家混合架构,包含可路由的专业语义专家(处理不同内容域)和固定的通用伪影专家,采用两阶段训练策略:先独立训练专家确保专业化,再训练轻量级门控网络进行有效路由。
  • Result: 在传统基准和新提出的Mirage数据集上的广泛实验表明,OmniAID超越了现有的单一检测器,为应对现代真实世界威胁建立了新的鲁棒标准。
  • Conclusion: 通过明确解耦"生成什么"(内容特定缺陷)和"如何生成"(通用伪影),OmniAID实现了强大的泛化能力,为AIGI认证设立了新的鲁棒标准。

[106] Cross-pyramid consistency regularization for semi-supervised medical image segmentation

Matus Bojko,Maros Kollar,Marek Jakab,Wanda Benesova

Main category: cs.CV

TL;DR: 提出了一种用于半监督医学图像分割的混合一致性学习方法,通过交叉金字塔一致性正则化有效利用未标记数据。

  • Motivation: 半监督学习能够在有限标注数据和大量未标注数据的情况下训练强大模型,特别是在医学图像分割领域,标注成本高昂。
  • Method: 设计了混合双分支金字塔网络(DBPNet),包含一个编码器和两个略有不同的解码器,每个解码器生成多分辨率尺度的金字塔预测。提出了CPCR学习策略,结合现有一致性学习和不确定性最小化方法,并引入新的正则化项,在解码器间的金字塔预测上扩展软标签设置。
  • Result: 实验结果表明,DBPNet与CPCR在公共基准数据集上优于五种最先进的半监督学习方法,并与近期方法性能相当。
  • Conclusion: 该方法通过交叉金字塔一致性正则化有效提升了半监督医学图像分割的性能,证明了在深度层次特征中知识蒸馏的有效性。

[107] Contrastive Integrated Gradients: A Feature Attribution-Based Method for Explaining Whole Slide Image Classification

Anh Mai Vu,Tuan L. Vo,Ngoc Lam Quang Bui,Nam Nguyen Le Binh,Akash Awasthi,Huy Quoc Vo,Thanh-Huy Nguyen,Zhu Han,Chandra Mohan,Hien Van Nguyen

Main category: cs.CV

TL;DR: 提出了一种新的归因方法CIG,通过对比梯度计算增强WSI分析的可解释性,能更好地区分肿瘤亚型并满足理论一致性。

  • Motivation: 现有归因方法在WSI分析中可能忽略类别区分性信号,需要一种能更好区分肿瘤亚型的方法来增强AI辅助诊断的可信度。
  • Method: 提出对比集成梯度(CIG)方法,在logit空间计算对比梯度,通过比较特征相对于参考类别的重要性来突出类别区分区域。
  • Result: 在三个癌症数据集上的实验表明,CIG在定量指标(MIL-AIC和MIL-SIC)和定性可视化方面都优于现有方法,能更准确地定位肿瘤区域。
  • Conclusion: CIG方法为WSI分析提供了更可靠的可解释性工具,有助于建立对AI辅助诊断的信任,在计算病理学中具有重要应用价值。

[108] Generalizable Blood Cell Detection via Unified Dataset and Faster R-CNN

Siddharth Sahay

Main category: cs.CV

TL;DR: 本文提出了一种自动化外周血细胞分类和检测的综合方法,通过整合四个公共数据集并使用Faster R-CNN框架,比较了随机初始化与迁移学习两种训练策略的性能。

  • Motivation: 解决外周血细胞显微图像分析中的数据稀缺和异质性挑战,为自动化血液学诊断建立可靠基础。
  • Method: 开发数据管道整合四个公共数据集,使用Faster R-CNN目标检测框架(ResNet-50-FPN骨干网络),比较随机初始化与基于COCO预训练权重的迁移学习两种训练方案。
  • Result: 迁移学习方法实现了显著更快的收敛速度和更好的稳定性,最终验证损失为0.08666,相比基线模型有显著改进。
  • Conclusion: 该方法为构建高精度、可部署的自动化血液学诊断系统建立了坚实基础。

[109] Compression then Matching: An Efficient Pre-training Paradigm for Multimodal Embedding

Da Li,Yuxiao Luo,Keping Bi,Jiafeng Guo,Wei Yuan,Biao Yang,Yan Wang,Fan Yang,Tingting Gao,Guorui Zhou

Main category: cs.CV

TL;DR: CoMa是一种压缩预训练方法,作为对比学习的预热阶段,可将视觉语言模型转化为有竞争力的嵌入模型,在MMEB基准上实现了新的最先进结果。

  • Motivation: 现有的视觉语言模型通过大规模对比学习可以转化为嵌入模型,但作者认为全面理解输入和下游任务的判别特征这两个目标可以解耦,前者有助于通过对比学习获得更好的下游任务性能。
  • Method: 提出CoMa压缩预训练阶段作为对比学习的预热阶段,仅使用少量预训练数据就能将视觉语言模型转化为有竞争力的嵌入模型。
  • Result: 在MMEB基准测试中,CoMa在同等规模的视觉语言模型中实现了新的最先进结果,在效率和效果上都实现了优化。
  • Conclusion: 通过解耦全面理解输入和判别特征学习两个目标,CoMa方法证明了仅需少量预训练数据就能有效提升视觉语言模型在嵌入任务上的性能。

[110] Fast Multi-Organ Fine Segmentation in CT Images with Hierarchical Sparse Sampling and Residual Transformer

Xueqi Guo,Halid Ziya Yerebakan,Yoshihisa Shinagawa,Kritika Iyer,Gerardo Hermosillo Valadez

Main category: cs.CV

TL;DR: 提出了一种基于分层稀疏采样和残差Transformer的快速多器官分割框架,在保持准确性的同时显著降低计算成本。

  • Motivation: 解决3D医学图像多器官分割中神经网络逐体素分割的时间和内存消耗问题,在速度和准确性之间找到平衡。
  • Method: 使用分层稀疏采样策略减少计算时间,同时保留多分辨率层次上下文信息;采用残差Transformer分割网络从稀疏描述符中提取和组合不同层次的信息。
  • Result: 在包含10,253张CT图像的内部分析数据集和公开数据集TotalSegmentator上,相比现有快速器官分类器,在定性定量分割性能上均有提升,在CPU硬件上达到约2.24秒的快速分割速度。
  • Conclusion: 该方法展示了实现实时精细器官分割的潜力,在计算效率和分割准确性之间取得了良好平衡。

[111] CleverBirds: A Multiple-Choice Benchmark for Fine-grained Human Knowledge Tracing

Leonie Bossemeyer,Samuel Heinrich,Grant Van Horn,Oisin Mac Aodha

Main category: cs.CV

TL;DR: CleverBirds是一个大规模的知识追踪基准数据集,用于细粒度鸟类物种识别,包含超过40,000名参与者完成的1700万道多选题,涵盖10,000多种鸟类。

  • Motivation: 理解人类在细粒度视觉识别中的专业知识发展过程具有挑战性,准确推断学习者的知识状态是理解视觉学习的关键步骤。
  • Method: 通过公民科学平台eBird收集数据,包含长期学习模式(平均每人400个问题),支持开发新的视觉知识追踪方法。
  • Result: 追踪学习者的知识具有挑战性,特别是在不同参与者子组和问题类型之间,不同形式的上下文信息提供不同程度的预测效益。
  • Conclusion: CleverBirds是该类基准中规模最大的之一,提供了更多可学习概念,有望为研究视觉专业知识的发展开辟新途径。

[112] UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

Zhengyang Liang,Daoan Zhang,Huichi Zhou,Rui Huang,Bobo Li,Yuechen Zhang,Shengqiong Wu,Xiaohan Wang,Jiebo Luo,Lizi Liao,Hao Fei

Main category: cs.CV

TL;DR: UniVA是一个开源的多智能体框架,统一视频理解、分割、编辑和生成能力,通过规划-执行双智能体架构实现自动化视频工作流。

  • Motivation: 现实应用需要复杂的迭代工作流,而现有AI模型仅擅长单一视频任务,缺乏将多种能力整合的通用框架。
  • Method: 采用规划-执行双智能体架构:规划器解析用户意图并分解为结构化步骤,执行器通过模块化工具服务器执行;通过分层多级内存维持长期推理和上下文连续性。
  • Result: 实现了迭代和任意条件视频工作流,支持文本/图像/视频条件生成→多轮编辑→对象分割→组合合成等复杂流程。
  • Conclusion: UniVA和配套基准测试集UniVA-Bench完全开源,旨在推动交互式、智能化和通用视频智能的下一代多模态AI系统研究。

[113] Large Sign Language Models: Toward 3D American Sign Language Translation

Sen Zhang,Xiaoxiao He,Di Liu,Zhaoyang Xia,Mingyu Zhao,Chaowei Tan,Vivian Li,Bo Liu,Dimitris N. Metaxas,Mubbasir Kapadia

Main category: cs.CV

TL;DR: 提出了Large Sign Language Models (LSLM)框架,利用大语言模型作为骨干网络,将3D美国手语翻译成文本,为听力障碍者提供虚拟交流支持。

  • Motivation: 现有手语识别方法依赖2D视频,无法充分利用3D场景中的空间、姿态和深度信息。本研究旨在通过3D手语数据实现更准确和鲁棒的翻译,提升听力障碍社区的数字交流可访问性。
  • Method: 使用3D手语数据直接捕捉丰富的空间信息,探索两种翻译方式:从3D手势特征直接翻译到文本,以及通过外部提示调节的指令引导翻译设置。
  • Result: 实现了基于3D手语的准确翻译,能够处理复杂的多模态语言,超越了纯文本输入的限制。
  • Conclusion: 这项工作为构建包容性多模态智能系统奠定了基础,使系统能够理解多样化的语言形式,推动人机交互的进一步发展。

[114] 3D4D: An Interactive, Editable, 4D World Model via 3D Video Generation

Yunhong He,Zhengqing Yuan,Zhengzhong Tu,Yanfang Ye,Lichao Sun

Main category: cs.CV

TL;DR: 3D4D是一个交互式4D可视化框架,集成了WebGL和Supersplat渲染技术,能够将静态图像和文本转换为连贯的4D场景,并通过注视点渲染策略实现高效的实时多模态交互。

  • Motivation: 为了实现对复杂4D环境的自适应、用户驱动的探索,需要开发一个能够将静态图像和文本转换为4D场景的交互式可视化框架。
  • Method: 该框架包含四个核心模块,集成WebGL与Supersplat渲染技术,采用注视点渲染策略来优化实时多模态交互的性能。
  • Result: 开发出了3D4D框架,能够将静态图像和文本转换为连贯的4D场景,并支持高效的实时多模态交互。
  • Conclusion: 3D4D框架成功实现了对复杂4D环境的自适应、用户驱动的探索,为4D可视化提供了有效的解决方案。

[115] RePose-NeRF: Robust Radiance Fields for Mesh Reconstruction under Noisy Camera Poses

Sriram Srinivasan,Gautam Ramachandra

Main category: cs.CV

TL;DR: 提出一个从多视角图像重建高质量可编辑3D网格的鲁棒框架,能够在相机外参存在噪声的情况下联合优化相机位姿并学习隐式场景表示。

  • Motivation: 现实场景中获取精确相机位姿具有挑战性,现有基于NeRF的方法严重依赖准确的外参估计,且其隐式体积表示与广泛采用的多边形网格差异较大,导致在标准3D软件中渲染和操作效率低下。
  • Method: 联合优化相机位姿并学习隐式场景表示,同时捕捉精细几何细节和真实感外观,最终生成与常见3D图形和机器人工具兼容的网格。
  • Result: 在标准基准测试中,该方法在相机位姿不确定的情况下实现了准确且鲁棒的3D重建。
  • Conclusion: 该方法弥合了神经隐式表示与实用机器人应用之间的差距,实现了高效的下游使用。

[116] Vision Transformer Based User Equipment Positioning

Parshwa Shah,Dhaval K. Patel,Brijesh Soni,Miguel López-Benítez,Siddhartan Govindasamy

Main category: cs.CV

TL;DR: 提出了一种基于注意力机制的Vision Transformer架构,用于用户设备定位,通过关注CSI矩阵中的角度延迟剖面,在室内外场景下显著优于现有方法。

  • Motivation: 现有深度学习定位模型存在两个主要问题:对输入数据的各部分给予相同关注度;不适用于非序列数据(如瞬时CSI)。
  • Method: 采用基于注意力机制的Vision Transformer架构,专注于从CSI矩阵中提取角度延迟剖面特征。
  • Result: 在DeepMIMO数据集上:室内RMSE 0.55m,室外RMSE 13.59m;在ViWi数据集上:室外遮挡场景RMSE 3.45m。相比现有最优方法提升约38%。
  • Conclusion: 所提出的注意力机制ViT架构在用户设备定位任务中表现出色,特别是在误差距离分布方面显著优于其他方法。

[117] SENCA-st: Integrating Spatial Transcriptomics and Histopathology with Cross Attention Shared Encoder for Region Identification in Cancer Pathology

Shanaka Liyanaarachchi,Chathurya Wijethunga,Shihab Aaquil Ahamed,Akthas Absar,Ranga Rodrigo

Main category: cs.CV

TL;DR: 提出了SENCA-st模型,通过共享编码器和邻域交叉注意力机制,有效整合组织病理学图像和空间转录组学数据,解决了现有方法在模态融合中信息丢失的问题。

  • Motivation: 现有方法在整合组织病理学图像和空间转录组学数据时存在两个极端:要么过度依赖空间转录组学数据而忽视组织病理学特征,要么在对比学习中过度平滑而丢失功能信息。需要一种能同时保留两种模态特征的方法。
  • Method: 提出SENCA-st架构,采用共享编码器和邻域交叉注意力机制,特别关注在组织病理学上结构相似但在空间转录组学上功能不同的区域。
  • Result: 模型在检测肿瘤异质性和肿瘤微环境区域方面表现优于现有最先进方法,这在临床应用中至关重要。
  • Conclusion: SENCA-st模型成功解决了多模态数据融合中的信息保留问题,在肿瘤区域分割任务中展现出卓越性能。

cs.LG

[118] Towards Personalized Quantum Federated Learning for Anomaly Detection

Ratun Rahman,Sina Shaham,Dinh C. Nguyen

Main category: cs.LG

TL;DR: 提出个性化量子联邦学习(PQFL)框架,用于解决量子联邦学习中的异质性问题,显著提升异常检测性能

  • Motivation: 量子联邦学习中客户端存在硬件能力、电路设计、噪声水平和数据编码的异质性,导致单一全局模型训练效果不佳,特别是在处理不平衡或非IID数据时
  • Method: 使用参数化量子电路和经典优化器增强本地模型训练,引入量子中心个性化策略,使每个客户端模型适应其硬件特性和数据表示
  • Result: PQFL显著提高异常检测准确率,在多样化现实条件下减少23%的误报错误,AUROC提升24.2%,AUPR提升20.5%
  • Conclusion: PQFL在实用量子联邦设置中展现出有效性和可扩展性,为解决量子客户端异质性问题提供了有效解决方案

[119] Multivariate Variational Autoencoder

Mehmet Can Yavuz

Main category: cs.LG

TL;DR: 提出了多元变分自编码器(MVAE),在保持高斯可处理性的同时解除了对角后验限制,通过全局耦合矩阵和每样本对角尺度实现全协方差,在多个数据集上提升了重建质量、校准能力和无监督结构发现。

  • Motivation: 传统VAE使用对角后验协方差限制了表达能力,无法捕捉潜在变量间的相关性,MVAE旨在解决这一问题。
  • Method: 通过因子化后验协方差,使用全局耦合矩阵诱导数据集范围的潜在相关性,结合每样本对角尺度调制局部不确定性,实现全协方差族。
  • Result: 在多个数据集上一致匹配或改善了重建质量,显著提升了校准能力和无监督结构发现,特别是在中等潜在维度下表现优异。
  • Conclusion: MVAE在保持计算效率的同时显著提升了表达能力,为VAE模型提供了更强大的协方差建模能力。

[120] On the Role of Calibration in Benchmarking Algorithmic Fairness for Skin Cancer Detection

Brandon Dominique,Prudence Lam,Nicholas Kurtansky,Jochen Weber,Kivanc Kose,Veronica Rotemberg,Jennifer Dy

Main category: cs.LG

TL;DR: 该论文发现AI皮肤癌检测模型在跨人口统计子组(性别、种族、年龄)存在校准问题,虽然提高了判别准确性,但在新数据集上往往过度诊断风险,需要更全面的模型审计策略。

  • Motivation: AI模型在黑色素瘤检测中表现出专家级性能,但临床采用受到跨人口统计子组性能差异的阻碍。现有基准测试主要依赖AUROC的群体公平性指标,无法提供模型提供准确估计能力的信息。
  • Method: 将校准作为AUROC公平性指标的补充基准测试指标,评估ISIC 2020挑战赛领先皮肤癌检测算法在ISIC 2020和PROVE-AI数据集上的表现,重点关注性别、种族(Fitzpatrick皮肤类型)和年龄定义的子组。
  • Result: 发现现有模型虽然提高了判别准确性,但在应用于新数据集时往往过度诊断风险并表现出校准问题。
  • Conclusion: 研究强调需要全面的模型审计策略和广泛的元数据收集,以实现公平的AI驱动医疗解决方案。

[121] From Exploration to Exploitation: A Two-Stage Entropy RLVR Approach for Noise-Tolerant MLLM Training

Donglai Xu,Hongzheng Yang,Yuzhi Zhao,Pingping Zhang,Jinpeng Chen,Wenao Ma,Zhijian Hou,Mengyang Wu,Xiaolei Li,Senkang Hu,Ziyi Guan,Jason Chun Lok Li,Lai Man Po

Main category: cs.LG

TL;DR: 提出了一种两阶段、令牌级熵优化的RLVR方法,通过动态引导模型从探索到利用的训练过程,增强对标注噪声的容忍度。

  • Motivation: 现实场景中高质量标注数据稀缺且存在大量标注噪声,现有无监督RLVR方法容易过拟合到错误标签,限制了GRPO中关键的奖励排序信号。
  • Method: 两阶段令牌级熵优化方法:探索阶段通过令牌级熵最大化促进多样化输出生成,作为正则化器防止过早收敛到噪声标签;利用阶段通过令牌级熵最小化鼓励模型产生自信的确定性输出。
  • Result: 在三个MLLM骨干网络(Qwen2-VL-2B、Qwen2-VL-7B、Qwen2.5-VL-3B)上,跨多种噪声设置和任务,该方法始终优于先前方法,实现了鲁棒且优越的性能。
  • Conclusion: 该分阶段策略通过统一和增强外部、内部和基于熵的方法,在多样化设置下提供了稳健且优越的性能。

[122] IBMA: An Imputation-Based Mixup Augmentation Using Self-Supervised Learning for Time Series Data

Dang Nha Nguyen,Hai Dang Nguyen,Khoa Tho Anh Nguyen

Main category: cs.LG

TL;DR: 提出了IBMA方法,将插补增强数据与Mixup增强结合,在时间序列预测中显著提升模型性能,在24个实验实例中22个得到改进,其中10个达到最佳性能。

  • Motivation: 时间序列数据相比图像或文本领域缺乏有效的增强策略,特别是像Mixup这样的高级技术很少被使用,需要开发新的增强方法来提升模型泛化能力。
  • Method: IBMA方法结合了插补增强数据和Mixup增强技术,在多个预测模型(DLinear、TimesNet、iTransformer)上进行评估,并与8种其他增强技术进行对比。
  • Result: 在4个数据集上的实验表明,IBMA方法在24个实例中的22个都提升了性能,其中10个达到最佳性能,特别是与iTransformer插补结合时效果最好。
  • Conclusion: IBMA方法有效提升了时间序列预测模型的性能,证明了插补增强与Mixup增强结合在时间序列数据增强中的有效性。

[123] The Online Patch Redundancy Eliminator (OPRE): A novel approach to online agnostic continual learning using dataset compression

Raphaël Bayle,Martial Mermillod,Robert M. French

Main category: cs.LG

TL;DR: 本文提出OPRE在线数据集压缩算法,用于解决持续学习中的灾难性遗忘问题,该方法仅需对数据做出最小且可解释的假设,在CIFAR数据集上表现优于现有在线持续学习方法。

  • Motivation: 大多数持续学习方法都引入了关于未来数据的先验信息,无法被认为是无先验的。特别是依赖预训练特征提取器的方法会限制模型可学习数据的泛化能力。
  • Method: 提出在线补丁冗余消除器(OPRE),一种在线数据集压缩算法,结合测试时分类器训练。该方法仅需对数据做出最小且可解释的假设。
  • Result: 在CIFAR-10和CIFAR-100数据集上,OPRE的性能优于多个其他最先进的在线持续学习方法。
  • Conclusion: 在线数据集压缩可能是实现完全无先验持续学习的必要条件。

[124] Aligning by Misaligning: Boundary-aware Curriculum Learning for Multimodal Alignment

Hua Ye,Hang Ding,Siyuan Chen,Yiyang Jiang,Changyuan Zhang,Xuan Zhang

Main category: cs.LG

TL;DR: BACL是一个轻量级模块,通过边界感知课程学习和局部注意力损失,将模糊负样本转化为课程信号,显著提升多模态模型性能。

  • Motivation: 现有模型对所有负样本一视同仁,忽略了与正样本仅差微小细节的模糊负样本,这些边界情况蕴含着重要的学习信号。
  • Method: 提出边界感知负采样器逐步增加难度,以及对比局部注意力损失突出不匹配区域,两者完全可微分且兼容现有双编码器。
  • Result: 理论预测O(1/n)误差率,实践显示在四个大规模基准测试中R@1提升最高达32%,超越CLIP并创下新SOTA,无需额外标注。
  • Conclusion: BACL有效利用模糊负样本作为课程学习信号,显著提升多模态表示学习性能,具有理论保证和实际效果。

[125] NeuCLIP: Efficient Large-Scale CLIP Training with Neural Normalizer Optimization

Xiyuan Wei,Chih-Jen Lin,Tianbao Yang

Main category: cs.LG

TL;DR: NeuCLIP提出了一种新的优化框架,通过凸分析和变分分析将对比损失重新表述,使用紧凑神经网络预测对数归一化项,解决了CLIP训练中归一化项估计的挑战。

  • Motivation: 传统CLIP训练方法依赖大批次来近似归一化项,计算资源需求大。现有方法存在优化误差随数据集大小与批次大小比例缩放的问题,限制了在大数据集或小批次下的有效性。
  • Method: 通过凸分析将每个样本的对比损失重新表述为带辅助变量的最小化问题,然后通过变分分析将n个辅助变量的最小化转化为紧凑神经网络的最小化,设计交替优化算法联合训练CLIP模型和辅助网络。
  • Result: 在从数百万到数十亿样本的大规模CLIP训练实验中,NeuCLIP相比先前方法实现了更准确的归一化项估计和更好的性能表现。
  • Conclusion: NeuCLIP通过新颖的优化框架有效解决了CLIP训练中的归一化项估计问题,在大规模数据集上表现出优越性能。

[126] LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics

Randall Balestriero,Yann LeCun

Main category: cs.LG

TL;DR: LeJEPA是一个理论完备的联合嵌入预测架构,通过SIGReg正则化使嵌入分布达到最优各向同性高斯分布,实现高效稳定的自监督预训练。

  • Motivation: 现有的JEPA方法缺乏理论指导和实用规范,导致研发过程随意。需要建立一个理论完备且实用的JEPA框架。
  • Method: 提出LeJEPA训练目标:1)识别各向同性高斯分布为最优嵌入分布;2)引入SIGReg正则化约束嵌入达到理想分布;3)结合JEPA预测损失和SIGReg正则化。
  • Result: 在10+数据集、60+架构上验证,LeJEPA具有单超参数、线性复杂度、稳定性强、无需启发式技巧等优势。ViT-H/14在ImageNet-1k上达到79%准确率。
  • Conclusion: LeJEPA的简洁性和理论友好性将重新确立自监督预训练作为AI研究的核心支柱。

cs.IR

[127] A Hybrid Multimodal Deep Learning Framework for Intelligent Fashion Recommendation

Kamand Kalashi,Babak Teimourpour

Main category: cs.IR

TL;DR: 提出了一种用于时尚推荐的混合多模态深度学习框架,同时处理服装搭配兼容性预测和互补物品检索两个任务。模型使用CLIP架构的视觉和文本编码器获取联合潜在表示,通过transformer编码器处理,在Polyvore数据集上取得了优异性能。

  • Motivation: 在线时尚平台的快速发展对能够理解视觉和文本线索的智能推荐系统需求日益增长,需要同时解决服装搭配兼容性和互补物品检索这两个关键任务。
  • Method: 利用CLIP架构的视觉和文本编码器获取时尚物品的联合潜在表示,整合为统一特征向量后通过transformer编码器处理。引入'搭配标记'进行兼容性预测,使用'目标物品标记'进行互补物品检索。
  • Result: 在Polyvore数据集上,兼容性预测任务达到AUC 0.95,互补物品检索任务在Fill-in-the-Blank指标下达到69.24%的准确率。
  • Conclusion: 所提出的方法在两个任务上都表现出强大的性能,证明了多模态学习在时尚推荐中的有效性。

cs.ET

[128] CNN-Based Automated Parameter Extraction Framework for Modeling Memristive Devices

Akif Hamid,Orchi Hassan

Main category: cs.ET

TL;DR: 提出了一个自动化框架,用于从RRAM器件的I-V特性中提取斯坦福RRAM模型的拟合参数,结合CNN和启发式优化,实现快速可靠的参数提取。

  • Motivation: 现有RRAM紧凑模型依赖多个拟合参数,参数提取需要大量手动调整,过程耗时且难以适应不同器件。
  • Method: 使用CNN生成初始参数估计,然后通过三个启发式优化块进行参数空间的自适应二分搜索来最小化误差。
  • Result: 在四个关键NVM指标上实现低误差,适用于多种器件特性,提供快速可靠的RRAM建模解决方案。
  • Conclusion: 该框架为RRAM建模提供了快速、可靠且鲁棒的参数提取方法,显著提高了建模效率。

cs.RO

[129] RoboTAG: End-to-end Robot Configuration Estimation via Topological Alignment Graph

Yifan Liu,Fangneng Zhan,Wanhua Li,Haowen Sun,Katerina Fragkiadaki,Hanspeter Pfister

Main category: cs.RO

TL;DR: 提出RoboTAG方法,通过3D分支注入3D先验知识,实现2D和3D表示的协同进化,减少对标注数据的依赖,利用无标注的野外图像进行训练。

  • Motivation: 现有机器人位姿估计方法主要基于2D视觉骨干网络,严重依赖标注数据,在真实场景中数据稀缺导致仿真到现实的差距,且忽略了3D先验知识。
  • Method: RoboTAG包含3D分支和2D分支,节点表示相机和机器人系统状态,边捕获变量间依赖关系或对齐关系,在图的闭环上应用跨分支一致性监督。
  • Result: 实验结果表明该方法在不同类型机器人上均有效,显示出缓解机器人学中数据瓶颈的潜力。
  • Conclusion: RoboTAG通过结合3D先验知识和无监督学习,有效解决了机器人位姿估计中的数据稀缺问题,具有广泛的适用性。

[130] ViPRA: Video Prediction for Robot Actions

Sandeep Routray,Hengkai Pan,Unnat Jain,Shikhar Bahl,Deepak Pathak

Main category: cs.RO

TL;DR: ViPRA是一个从无动作标签视频中学习机器人控制的预训练-微调框架,通过预测未来视觉观察和运动中心潜在动作,仅需少量演示就能实现连续控制

  • Motivation: 现有视频数据缺乏动作标签限制了其在机器人学习中的应用,需要一种方法能从无动作标注的视频中学习物理交互知识
  • Method: 训练视频语言模型预测未来视觉观察和运动中心潜在动作,使用感知损失和光流一致性确保物理基础,下游通过分块流匹配解码器将潜在动作映射到机器人特定连续动作序列
  • Result: 在SIMPLER基准上提升16%,在真实世界操作任务上提升13%,支持22Hz高频连续控制
  • Conclusion: ViPRA能够从无动作标签视频中有效学习机器人控制策略,避免昂贵的动作标注,支持跨具身泛化

[131] SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control

Zhengyi Luo,Ye Yuan,Tingwu Wang,Chenran Li,Sirui Chen,Fernando Castañeda,Zi-Ang Cao,Jiefeng Li,David Minor,Qingwei Ben,Xingye Da,Runyu Ding,Cyrus Hogg,Lina Song,Edy Lim,Eugene Jeong,Tairan He,Haoru Xue,Wenli Xiao,Zi Wang,Simon Yuen,Jan Kautz,Yan Chang,Umar Iqbal,Linxi "Jim" Fan,Yuke Zhu

Main category: cs.RO

TL;DR: 通过扩大模型容量、数据和计算规模,开发了一个通用的人形机器人控制器,能够生成自然和鲁棒的全身体运动。

  • Motivation: 尽管大规模基础模型在多个领域取得了成功,但人形机器人控制领域尚未实现类似的规模扩展效益。当前的人形机器人神经控制器规模较小,行为集有限,训练资源有限。
  • Method: 将运动跟踪作为人形机器人控制的可扩展任务,利用多样化的运动捕捉数据进行密集监督,无需手动奖励工程。在三个维度上进行扩展:网络规模(120万到4200万参数)、数据集规模(超过1亿帧,700小时高质量运动数据)和计算资源(9000 GPU小时)。
  • Result: 开发了一个运动跟踪基础模型,性能随着计算和数据多样性的增加而稳步提升,学习到的表示能够泛化到未见过的运动。通过实时通用运动规划器和统一标记空间实现了实际应用。
  • Conclusion: 规模化运动跟踪为人形机器人控制提供了实用的基础,展示了在模型容量、数据和计算三个维度上扩展的益处。

eess.IV

[132] EvoPS: Evolutionary Patch Selection for Whole Slide Image Analysis in Computational Pathology

Saya Hashemian,Azam Asilian Bidgoli

Main category: eess.IV

TL;DR: EvoPS是一个基于进化算法的多目标优化框架,用于从全切片图像中选择关键patch,在减少90%以上patch数量的同时保持或提升下游分类性能。

  • Motivation: 计算病理学中全切片图像包含数千个patch,分析高维patch嵌入计算成本高,且大量无信息patch会稀释关键诊断信号。现有方法无法明确平衡patch数量与表示准确性之间的权衡。
  • Method: 将patch选择建模为多目标优化问题,使用进化搜索同时最小化所选patch嵌入数量并最大化下游相似性搜索任务性能,生成帕累托最优解集。
  • Result: 在TCGA四个主要癌症队列上验证,使用五种预训练深度学习模型,EvoPS可将训练patch嵌入数量减少90%以上,同时维持或提高最终分类F1分数。
  • Conclusion: EvoPS提供了稳健且原则性的方法,用于创建高效、准确且可解释的全切片图像表示,使用户能够在计算成本与诊断性能之间选择最优平衡。

[133] Deep Learning Analysis of Prenatal Ultrasound for Identification of Ventriculomegaly

Youssef Megahed,Inok Lee,Robin Ducharme,Aylin Erman,Olivier X. Miguel,Kevin Dick,Adrian D. C. Chan,Steven Hawken,Mark Walker,Felipe Moretti

Main category: eess.IV

TL;DR: 开发基于自监督预训练超声基础模型USF-MAE的深度学习系统,用于产前超声图像中脑室扩大的自动检测,在交叉验证和独立测试集上分别达到91.76%和91.78%的F1分数,显著优于基线模型。

  • Motivation: 脑室扩大是产前胎儿脑部异常的重要指标,与染色体异常和遗传综合征风险相关,需要早期准确诊断。传统诊断依赖医生经验,开发自动化检测模型可提高诊断效率和准确性。
  • Method: 使用在37万张超声图像上预训练的USF-MAE模型(基于掩码自编码的视觉变换器),在胎儿脑部超声图像数据集上进行微调,执行正常与脑室扩大的二分类任务,采用5折交叉验证和独立测试集评估。
  • Result: USF-MAE模型在交叉验证和测试集上的F1分数分别为91.76%和91.78%,比VGG-19提升19.37%和16.15%,比ResNet-50提升2.31%和2.56%,比ViT-B/16提升5.03%和11.93%。测试集准确率达97.24%,精确度94.47%。Eigen-CAM热图显示模型关注脑室区域,具有临床可解释性。
  • Conclusion: USF-MAE模型在产前脑室扩大检测中表现出色,显著优于现有基线模型,且具有临床可解释性,为产前超声诊断提供了有效的自动化工具。

[134] DynaQuant: Dynamic Mixed-Precision Quantization for Learned Image Compression

Youneng Bao,Yulong Cheng,Yiping Liu,Yichen Yang,Peng Qin,Mu Li,Yongsheng Liang

Main category: eess.IV

TL;DR: DynaQuant是一个动态混合精度量化框架,通过内容感知量化和动态位宽选择器,在保持图像压缩性能的同时显著降低计算和存储需求。

  • Motivation: 现有的学习图像压缩方法通常对所有层使用统一的静态位宽,无法适应不同层的数据分布和敏感性差异,导致性能与效率的权衡不理想。
  • Method: 提出内容感知量化(使用可学习的缩放和偏移参数动态适应潜在特征统计变化)和动态位宽选择器(基于输入数据为每层分配最优位精度),通过距离感知梯度调制器进行端到端训练。
  • Result: 实验表明DynaQuant在保持与全精度模型相当的率失真性能的同时,显著减少了计算和存储需求。
  • Conclusion: DynaQuant为先进学习图像压缩模型在各种硬件平台上的实际部署提供了可行的解决方案。

[135] From Noise to Latent: Generating Gaussian Latents for INR-Based Image Compression

Chaoyi Lin,Yaojun Wu,Yue Li,Junru Li,Kai Zhang,Li Zhang

Main category: eess.IV

TL;DR: 提出了一种基于高斯噪声生成潜在表示的新型图像压缩方法,无需传输潜在代码,通过共享随机种子确定性地生成多尺度高斯噪声张量来重建图像

  • Motivation: 现有隐式神经表示(INR)压缩方法因缺乏表达性潜在表示而性能不足,而端到端(E2E)方法需要传输潜在代码和复杂熵模型导致解码复杂度高
  • Method: 使用高斯参数预测(GPP)模块估计分布参数,通过重参数化技巧一次性生成潜在表示,然后通过合成网络重建图像
  • Result: 在Kodak和CLIC数据集上实现了有竞争力的率失真性能
  • Conclusion: 这是首个探索高斯潜在生成用于学习图像压缩的工作,消除了传输潜在代码的需求同时保留了基于潜在表示的优势

cs.CR

[136] Class-feature Watermark: A Resilient Black-box Watermark Against Model Extraction Attacks

Yaxin Xiao,Qingqing Ye,Zi Liang,Haoyang Li,RongHua Li,Huadi Zheng,Haibo Hu

Main category: cs.CR

TL;DR: 本文提出了一种新的模型水印移除攻击WRK,并设计了更鲁棒的类别特征水印CFW来对抗此类攻击,在保持模型实用性的同时显著提升了水印的生存能力。

  • Motivation: 现有黑盒水印方法主要关注模型提取攻击的生存能力,但低估了序列模型提取攻击和水印移除攻击的风险,特别是现有移除方法因表示纠缠而效果不佳。
  • Method: 提出WRK攻击方法,通过利用样本级水印伪影形成的决策边界来规避纠缠约束;同时提出CFW水印方法,利用类别级伪影构建合成类别,消除原始域样本与水印样本之间的脆弱决策边界。
  • Result: WRK攻击在现有水印基准上将水印成功率降低至少88.79%;CFW水印在多重攻击下仍能保持至少70.15%的水印成功率,同时保护模型的实用性。
  • Conclusion: CFW水印方法在多个领域实验中均优于现有方法,提供了更鲁棒的模型保护方案,能够有效对抗模型提取攻击和水印移除攻击的组合威胁。

cs.AI

[137] Operational machine learning for remote spectroscopic detection of CH4 point sources

Vít Růžička,Gonzalo Mateo-García,Itziar Irakulis-Loitxate,Juan Emmanuel Johnson,Manuel Montesino San Martín,Anna Allen,Luis Guanter,David R. Thompson

Main category: cs.AI

TL;DR: 开发了一个基于机器学习的甲烷排放检测系统,在联合国环境规划署的MARS系统中部署,通过模型集成减少74%的误报,在7个月内验证了1351个甲烷泄漏并发送479个利益相关方通知。

  • Motivation: 现有基于匹配滤波器的甲烷检测方法误报率高,需要大量人工验证,需要开发更准确的自动化检测系统来处理日益增长的卫星数据。
  • Method: 创建了最大的全球甲烷羽流标注数据集,比较不同深度学习模型配置,采用模型集成方法,从瓦片评估扩展到全图幅评估。
  • Result: 模型集成减少74%的误报,在MARS管道中部署,7个月内验证1351个甲烷泄漏,发送479个利益相关方通知,并通过案例研究验证缓解效果。
  • Conclusion: 这项工作代表了向全球AI辅助甲烷泄漏检测系统迈出的关键一步,能够处理预期大幅增加的数据量。

[138] Simulating the Visual World with Artificial Intelligence: A Roadmap

Jingtong Yue,Ziqi Huang,Zhaoxi Chen,Xintao Wang,Pengfei Wan,Ziwei Liu

Main category: cs.AI

TL;DR: 这篇综述系统梳理了视频生成模型向世界模型发展的演进过程,将现代视频基础模型概念化为隐式世界模型和视频渲染器的结合,分析了四代模型的演进特点和应用领域。

  • Motivation: 视频生成领域正从生成视觉吸引力的片段转向构建支持交互和保持物理合理性的虚拟环境,这指向了视频基础模型作为隐式世界模型的发展趋势。
  • Method: 将视频基础模型分解为隐式世界模型和视频渲染器两个核心组件,世界模型编码结构化知识作为潜在模拟引擎,视频渲染器将潜在模拟转换为视觉观察。
  • Result: 提出了四代视频生成模型的演进框架,每代模型的核心能力逐步提升,最终形成具有内在物理合理性、实时多模态交互和多时空尺度规划能力的世界模型。
  • Conclusion: 视频生成模型正向世界模型演进,未来需要解决开放挑战并建立设计原则,包括智能体在塑造和评估这些系统中的作用。

cs.AR

[139] Re2MaP: Macro Placement by Recursively Prototyping and Packing Tree-based Relocating

Yunqi Shi,Xi Lin,Zhiang Wang,Siyuan Xu,Shixiong Kai,Yao Lai,Chengrui Gao,Ke Xue,Mingxuan Yuan,Chao Qian,Zhi-Hua Zhou

Main category: cs.AR

TL;DR: Re2MaP是一种通过递归原型设计和基于树的重新定位来生成专家级宏布局的方法,在WNS和TNS方面相比现有最佳方法有显著提升。

  • Motivation: 现有宏布局方法难以同时优化线长、数据流和多种设计约束,需要一种能够生成专家级质量布局的新方法。
  • Method: 采用多级宏分组和PPA感知单元聚类,使用DREAMPlace构建混合尺寸布局原型,引入ABPlace椭圆优化方法,以及基于打包树的重新定位过程。
  • Result: 相比Hier-RTLMP,WNS提升最高22.22%(平均10.26%),TNS提升最高97.91%(平均33.97%),在多个指标上优于ReMaP会议版本。
  • Conclusion: Re2MaP通过递归原型设计和基于树的重新定位,能够生成专家级质量的宏布局,显著改善时序收敛和设计质量。