Skip to content
每日arXiv - 2025年8月27日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Towards Training-Free Underwater 3D Object Detection from Sonar Point Clouds: A Comparison of Traditional and Deep Learning Approaches

M. Salman Shaukat,Yannik Käckenmeister,Sebastian Bader,Thomas Kirste

Main category: cs.CV

TL;DR: 该研究提出了两种无需真实训练数据的水下3D目标检测方法:基于物理的声纳模拟训练神经网络和基于几何先验的模板匹配系统。模板匹配方法在真实数据上达到83% mAP,优于合成数据训练的神经网络(40% mAP)。

  • Motivation: 解决水下3D目标检测中真实标注数据获取困难且成本高昂的问题,探索无需真实训练数据的可靠检测方法。
  • Method: 开发了两种训练免费的检测范式:1)基于物理的声纳模拟生成合成数据训练最先进神经网络;2)基于模型模板匹配系统,利用目标物体的几何先验。
  • Result: 在波罗的海真实测深数据评估显示:合成数据训练的神经网络在模拟场景达到98% mAP,但在真实声纳数据上降至40% mAP;模板匹配方法无需训练即可在真实数据上保持83% mAP。
  • Conclusion: 研究挑战了水下领域数据密集型深度学习的传统观念,为数据稀缺环境下的水下3D检测建立了首个大规模基准,为自主水下航行器导航等应用开辟了新可能性。

[2] MobileDenseAttn:A Dual-Stream Architecture for Accurate and Interpretable Brain Tumor Detection

Shudipta Banik,Muna Das,Trapa Banik,Md. Ehsanul Haque

Main category: cs.CV

TL;DR: 通过融合MobileNetV2和DenseNet201双流水线的MobileDenseAttn模型,在脑部肿瘤MRI检测中实现了98.35%的测试准确率,显著提升了计算效率和可解释性。

  • Motivation: 现有脑部肿瘤MRI检测方法存在普适性差、计算效率低、可解释性不足等问题,影响临床信任度和应用。
  • Method: 设计了MobileDenseAttn模型,融合MobileNetV2和DenseNet201双流水线进行特征融合,使用扩充的6,020张MRI扫描图片训练,包含脑细胞瘤、脑膜瘤、脯体肿瘤和正常样本。
  • Result: 在5折交叉验证下实现训练准确率99.75%,测试准确率98.35%,F1得分0.9835,超过基线模型准确率+3.67%,训练时间减少39.3%,GradCAM热力图可触发肿瘤区域。
  • Conclusion: MobileDenseAttn是一个高效、高性能、可解释的模型,有很高潜力成为临床实践中识别脑部肿瘤的实用工具。

[3] Can VLMs Recall Factual Associations From Visual References?

Dhananjay Ashok,Ashutosh Chaubey,Hirona J. Arai,Jonathan May,Jesse Thomason

Main category: cs.CV

TL;DR: 研究发现视觉语言模型在视觉实体引用时的知识召回能力显著低于文本引用,存在多模态基础缺陷,可通过内部状态探针检测不可靠响应

  • Motivation: 识别视觉语言模型在多模态基础方面的系统性缺陷,特别是当实体引用从文本变为视觉时模型知识召回能力的下降问题
  • Method: 通过控制研究分析VLMs在不同引用方式下的表现差异,开发基于模型内部状态的探针来检测不可靠响应,并在视觉问答任务中进行选择性预测验证
  • Result: 视觉引用使事实知识召回能力减半,内部状态探针检测不可靠响应的准确率超过92%,在视觉问答任务中覆盖度提高7.87%同时降低错误风险0.9%
  • Conclusion: VLMs存在可检测的系统性多模态基础缺陷,内部状态探针能有效识别模型失败情况,为解决语言基础问题提供了重要方向和实用工具

[4] SERES: Semantic-aware neural reconstruction from sparse views

Bo Xu,Yuhu Guo,Yuchao Wang,Wenting Wang,Yeung Yam,Charlie C. L. Wang,Xinyi Le

Main category: cs.CV

TL;DR: 一种基于语义感知的神经重建方法,通过添加片段语义逻辑值和几何原始控制来解决稀疏图像重建中的形状次次性问题,显著提升了重建质量。

  • Motivation: 解决稀疏图像输入下因特征匹配不准导致的严重光强次次性问题,提高神经隐式表示的重建质量。
  • Method: 在签名距离场和光强场优化中添加片段语义逻辑值,并使用基于几何原始控制的新额外正则化来减少形状次次性。
  • Result: 在DTU数据集上,相比SparseNeuS和VolRecon,平均Chamfer距离分别减少44%和20%;作为NeuS和Neuralangelo的插件时,平均误差分别减少69%和68%。
  • Conclusion: 该方法通过语义信息的引入和正则化技术,有效解决了稀疏图像重建中的次次性问题,显著提升了三维重建的精度和质量。

[5] Automated Landfill Detection Using Deep Learning: A Comparative Study of Lightweight and Custom Architectures with the AerialWaste Dataset

Nowshin Sharmily,Rusab Sarmun,Muhammad E. H. Chowdhury,Mir Hamidul Hussain,Saad Bin Abul Kashem,Molla E Majid,Amith Khandakar

Main category: cs.CV

TL;DR: 使用轻量级深度学习模型和集成方法在AerialWaste数据集上实现非法垃圾填埋场检测,达到92.33%的准确率

  • Motivation: 非法垃圾填埋场对全球构成严重威胁,手动识别困难且耗时,需要自动化检测方法。但高质量公开数据集稀缺,AerialWaste数据集提供了专业策划的航拍图像资源
  • Method: 采用Mobilenetv2、Googlenet、Densenet、MobileVit等轻量级深度学习模型,避免复杂模型过拟合问题,并通过集成融合技术结合最佳性能模型
  • Result: 集成模型在二元分类任务中取得优异性能:准确率92.33%、精确率92.67%、灵敏度92.33%、F1分数92.41%、特异性92.71%
  • Conclusion: 轻量级模型结合集成技术能有效识别非法垃圾填埋场,避免过拟合,为环境监测提供高效自动化解决方案

[6] Structures Meet Semantics: Multimodal Fusion via Graph Contrastive Learning

Jiangfeng Sun,Sihao He,Zhonghong Ou,Meina Song

Main category: cs.CV

TL;DR: 提出SSU框架,通过模态特定结构图和跨模态语义锚点统一多模态表示,在情感分析任务上实现SOTA性能并提升可解释性

  • Motivation: 现有多模态融合方法忽视模态特定结构依赖和语义错位问题,限制了模型质量、可解释性和鲁棒性
  • Method: SSU框架:1)动态构建模态特定图(文本用语法结构,视听模态用文本引导注意力);2)基于全局文本语义的语义锚点作为跨模态对齐中心;3)多视图对比学习目标
  • Result: 在CMU-MOSI和CMU-MOSEI数据集上达到最先进性能,同时显著降低计算开销,定性分析验证了可解释性和情感模式捕捉能力
  • Conclusion: SSU通过系统整合模态特定结构信息和跨模态语义对齐,有效解决了多模态情感分析中的结构依赖和语义错位问题

[7] FastAvatar: Instant 3D Gaussian Splatting for Faces from Single Unconstrained Poses

Hao Liang,Zhixuan Ge,Ashish Tiwari,Soumendu Majee,G. M. Dilshan Godaliyadda,Ashok Veeraraghavan,Guha Balakrishnan

Main category: cs.CV

TL;DR: FastAvatar是一个快速前馈框架,能够从任意姿态的单张人脸图像在10毫秒内生成3D高斯溅射模型,具有姿态不变性和身份保持能力。

  • Motivation: 现有的人脸3D重建方法要么速度慢(需要逐脸优化),要么质量差(前馈方法重建质量不佳),需要一种既能快速生成又能保持高质量重建的解决方案。
  • Method: 使用编码器-解码器神经网络设计:1)从多视角人脸数据集构建3DGS模板模型;2)编码输入图像为身份特定、姿态不变的潜在嵌入;3)解码预测模板高斯参数残差。
  • Result: 显著优于现有前馈方法(如GAGAvatar)的重建质量,比逐脸优化方法(如FlashAvatar)快1000倍,支持实时身份插值和属性编辑。
  • Conclusion: FastAvatar在重建质量和速度方面的优异表现,扩展了3D高斯溅射在消费级和交互式系统中光真实感头像应用的范围。

[8] Securing Face and Fingerprint Templates in Humanitarian Biometric Systems

Giuseppe Stragapede,Sam Merrick,Vedrana Krivokuća Hahn,Justin Sukaitis,Vincent Graf Narbel

Main category: cs.CV

TL;DR: 提出适用于人道主义场景的移动生物识别系统,采用PolyProtect模板保护方案,在人脸和指纹生物特征上验证了其有效性、安全性和隐私保护能力

  • Motivation: 人道主义紧急场景中使用生物识别技术可提高效率,但存在数据隐私风险,需要保护弱势群体的生物特征数据
  • Method: 通过需求分析选择PolyProtect模板保护方法,结合EdgeFace人脸特征提取器,在人道主义现场数据集上进行验证和识别精度、不可逆性和不可链接性评估
  • Result: 实验结果表明PolyProtect在人脸和指纹生物特征上都表现出良好的性能,是首个在识别场景和指纹生物特征上评估该方法的研究
  • Conclusion: PolyProtect是适用于人道主义场景的有效生物模板保护方案,具有模块化和轻量计算优势,计划开源代码

[9] Why Relational Graphs Will Save the Next Generation of Vision Foundation Models?

Fatemeh Ziaeetabar

Main category: cs.CV

TL;DR: 本文主张下一代视觉基础模型应整合显式关系接口,通过动态关系图增强模型的关系推理能力,在多个视觉任务中提升性能、可解释性和计算效率。

  • Motivation: 当前视觉基础模型在处理需要显式实体、角色和时空关系推理的任务时存在局限,而关系能力对于细粒度人类活动识别、第一人称视频理解和多模态医学图像分析等任务至关重要。
  • Method: 提出在基础模型中添加轻量级、上下文自适应的图推理模块,构建动态关系图(图的拓扑结构和边语义根据输入和任务上下文推断),实现稀疏的语义节点推理。
  • Result: 实验表明,在人类操作动作识别和脑肿瘤分割等跨域任务中,增强图推理模块的混合模型相比纯基础模型基线,在细粒度语义保真度、分布外鲁棒性、可解释性和计算效率方面均有提升,同时具有更好的内存和硬件效率。
  • Conclusion: 提出了FM图混合模型的针对性研究议程,重点包括学习动态图构建、多层次关系推理、跨模态融合以及直接探测结构化视觉任务中关系能力的评估协议。

[10] LPLC: A Dataset for License Plate Legibility Classification

Lucas Wojcik,Gabriel E. Lima,Valfride Nascimento,Eduil Nascimento Jr.,Rayson Laroca,David Menotti

Main category: cs.CV

TL;DR: 本文提出了一个用于车牌可读性分类的新数据集LPLC,包含10,210张车辆图像和12,687个标注车牌,用于判断车牌是否需要超分辨率处理或完全不可恢复。

  • Motivation: 解决车牌识别中低质量车牌的可读性问题,优化模型性能和计算效率,通过选择性图像预处理来增强需要提高可读性的车牌。
  • Method: 采用细粒度标注策略,包括车辆和车牌级别的遮挡、四个可读性类别(完美、良好、差、不可读),并为三个类别提供字符标签。使用ViT、ResNet和YOLO三种图像识别网络作为基准模型进行分类任务。
  • Result: 所有三个基线模型的总体F1分数均低于80%,表明任务具有挑战性,需要进一步研究。超分辨率和车牌识别方法的分析也验证了任务的难度。
  • Conclusion: 提出的LPLC数据集为车牌可读性分类研究提供了重要资源,基准测试结果显示了该任务的挑战性,强调了在该领域进行更多研究的必要性。

[11] CLARIFY: A Specialist-Generalist Framework for Accurate and Lightweight Dermatological Visual Question Answering

Aranya Saha,Tanvir Ahmed Khan,Ismam Nur Swapnil,Mohammad Ariful Haque

Main category: cs.CV

TL;DR: CLARIFY是一个专家-通才框架,通过结合轻量级皮肤病分类器和压缩的视觉语言模型,在皮肤病视觉问答任务中实现了18%的准确率提升,同时显著降低了计算资源需求。

  • Motivation: 现有视觉语言模型在医疗任务中存在诊断准确率不足和推理成本高的问题,需要开发专门针对皮肤病诊断的高效可靠系统。
  • Method: 采用专家-通才框架:轻量级图像分类器(专家)提供快速准确诊断,压缩的对话VLM(通才)生成自然语言解释,并通过知识图谱检索模块确保回答的事实准确性。
  • Result: 在皮肤病数据集上,CLARIFY比最强基线模型诊断准确率提升18%,平均VRAM需求降低20%,延迟减少5%。
  • Conclusion: 专家-通才系统为构建轻量级、可信赖且临床可行的AI系统提供了实用而强大的范式。

[12] VQualA 2025 Challenge on Face Image Quality Assessment: Methods and Results

Sizhuo Ma,Wei-Ting Chen,Qiang Gao,Jian Wang,Chris Wei Zhou,Wei Sun,Weixia Zhang,Linhan Cao,Jun Jia,Xiangyang Zhu,Dandan Zhu,Xiongkuo Min,Guangtao Zhai,Baoying Chen,Xiongwei Xiao,Jishen Zeng,Wei Wu,Tiexuan Lou,Yuchen Tan,Chunyi Song,Zhiwei Xu,MohammadAli Hamidi,Hadi Amirpour,Mingyin Bai,Jiawang Du,Zhenyu Jiang,Zilong Lu,Ziguan Cui,Zongliang Gan,Xinpeng Li,Shiqi Jiang,Chenhui Li,Changbo Wang,Weijun Yuan,Zhan Li,Yihang Chen,Yifan Deng,Ruting Deng,Zhanglu Chen,Boyang Yao,Shuling Zheng,Feng Zhang,Zhiheng Fu,Abhishek Joshi,Aman Agarwal,Rakhil Immidisetti,Ajay Narasimha Mopidevi,Vishwajeet Shukla,Hao Yang,Ruikun Zhang,Liyuan Pan,Kaixin Deng,Hang Ouyang,Fan yang,Zhizun Luo,Zhuohang Shi,Songning Lai,Weilin Ruan,Yutao Yue

Main category: cs.CV

TL;DR: ICCV 2025 VQualA挑战赛聚焦人脸图像质量评估,要求参赛者开发轻量级模型(≤0.5 GFLOPs和500万参数)来预测真实退化人脸图像的MOS分数,吸引了127名参与者和1519份提交。

  • Motivation: 现实世界中的人脸图像常受到噪声、模糊和压缩伪影等退化影响,降低图像质量并阻碍后续任务,需要开发有效的质量评估方法。
  • Method: 组织FIQA挑战赛,要求参与者构建轻量高效的模型来预测任意分辨率人脸图像的MOS分数,模型计算量限制在0.5 GFLOPs以内,参数量不超过500万。
  • Result: 挑战赛成功吸引了127名参与者,共收到1519份最终提交,通过相关度量指标在真实人脸图像数据集上进行了全面评估。
  • Conclusion: 该挑战赛总结了各种方法学发现,推动了实用人脸图像质量评估方法的发展,为轻量级FIQA模型的开发提供了重要参考。

[13] Context-Aware Zero-Shot Anomaly Detection in Surveillance Using Contrastive and Predictive Spatiotemporal Modeling

Md. Rashid Shahriar Khan,Md. Abrar Hasan,Mohammod Tareq Aziz Justice

Main category: cs.CV

TL;DR: 提出了一种结合TimeSformer、DPC和CLIP的上下文感知零样本异常检测框架,无需异常样本训练即可识别监控视频中的异常事件。

  • Motivation: 监控视频中的异常检测具有挑战性,因为异常事件不可预测且高度依赖上下文,需要开发无需异常样本的零样本检测方法。
  • Method: 采用混合架构:TimeSformer提取时空特征,DPC预测未来表示检测时间偏差,CLIP通过文本提示实现概念级异常检测。使用InfoNCE和CPC损失联合训练,并加入上下文门控机制。
  • Result: 框架能够整合预测建模和视觉语言理解,泛化到复杂环境中未见过的异常行为。
  • Conclusion: 该框架在零样本异常检测中成功桥接了时间推理和语义上下文之间的差距,为监控场景提供了有效的解决方案。

[14] DoGFlow: Self-Supervised LiDAR Scene Flow via Cross-Modal Doppler Guidance

Ajinkya Khoche,Qingwen Zhang,Yixi Cai,Sina Sharif Mansouri,Patric Jensfelt

Main category: cs.CV

TL;DR: DoGFlow是一个无需人工标注的自监督3D场景流估计框架,通过4D雷达多普勒测量生成运动伪标签并转移到LiDAR域,在MAN TruckScenes数据集上显著优于现有自监督方法。

  • Motivation: 当前自监督方法在长距离和恶劣天气场景下性能不如全监督方法,而全监督方法依赖昂贵的人工标注难以扩展,需要开发不依赖人工标注的高性能自监督解决方案。
  • Method: 提出跨模态标签转移方法,直接从4D雷达多普勒测量实时计算运动伪标签,通过动态感知关联和歧义消除传播将其转移到LiDAR域。
  • Result: 在MAN TruckScenes数据集上大幅超越现有自监督方法,仅使用10%的标注数据就能让LiDAR骨干网络达到全监督性能的90%以上。
  • Conclusion: DoGFlow证明了通过跨模态标签转移可以实现高性能的自监督3D场景流估计,解决了人工标注的瓶颈问题,为自动驾驶系统在动态环境中的安全导航提供了有效解决方案。

[15] SAT-SKYLINES: 3D Building Generation from Satellite Imagery and Coarse Geometric Priors

Zhangyu Jin,Andrew Feng

Main category: cs.CV

TL;DR: SatSkylines是一种从卫星图像和粗略几何先验生成3D建筑的方法,通过建模从噪声粗略先验到详细几何的转换,实现灵活的几何控制。

  • Motivation: 现有的基于图像的3D生成方法难以从卫星图像的俯视图中恢复准确的建筑结构,而3D细节化方法则过度依赖详细体素输入,无法从简单先验(如立方体)产生满意结果。
  • Method: 建模从插值噪声粗略先验到详细几何的转换,实现灵活的几何控制而不增加计算成本。开发了包含5万多个独特风格化3D建筑资产的大规模数据集Skylines-50K。
  • Result: 广泛的评估表明该模型的有效性和强大的泛化能力。
  • Conclusion: SatSkylines方法成功解决了从卫星图像和简单几何先验生成详细3D建筑的挑战,提供了灵活的几何控制能力。

[16] Adaptive Visual Navigation Assistant in 3D RPGs

Kaijie Xu,Clark Verbrugge

Main category: cs.CV

TL;DR: 这篇论文形式化了从单帧游戏图像中检测可穿越空间过渡点(STP)和主要过渡点(MSTP)的任务,提出了一个两阶段深度学习流水线,并在自建数据集上进行了验证

  • Motivation: 在复杂的3D游戏环境中,高效识别地图过渡点对客户端自动地图制图和评估地图提示设计至关重要,需要形式化这一任务并为未来AI驱动导航工具奠定基础
  • Method: 提出两阶段深度学习流水线:第一阶段使用Faster R-CNN检测潜在STP,第二阶段使用轻量级MSTP选择器融合局部和全局视觉特征进行排名。采用参数高效的adapter技术,还包含可选的检索增强融合步骤
  • Result: 在自建的多样化数据集(来自5款动作RPG游戏)上进行验证。完整网络微调在充足数据时产生更优的STP检测,而adapter仅转移在低数据场景和MSTP选择任务中更加稳健和有效
  • Conclusion: 通过定义这一新题、提供基准流水线和数据集、以及对高效模型适配的初步见解,为未来AI驱动导航辅助和数据驱动的关卡设计工具做出了贡献

[17] Wan-S2V: Audio-Driven Cinematic Video Generation

Xin Gao,Li Hu,Siqi Hu,Mingyang Huang,Chaonan Ji,Dechao Meng,Jinwei Qi,Penchong Qiao,Zhen Shen,Yafei Song,Ke Sun,Linrui Tian,Guangyuan Wang,Qi Wang,Zhongjian Wang,Jiayu Xiao,Sheng Xu,Bang Zhang,Peng Zhang,Xindi Zhang,Zhe Zhang,Jingren Zhou,Lian Zhuo

Main category: cs.CV

TL;DR: Wan-S2V是一个基于Wan的音频驱动角色动画模型,在电影级动画制作中显著优于现有方法,能够处理复杂的角色互动、身体动作和动态镜头工作。

  • Motivation: 当前最先进的音频驱动角色动画方法主要适用于语音和歌唱场景,但在需要复杂角色互动、细腻身体动作和动态镜头的影视制作中表现不足,需要解决实现电影级角色动画的长期挑战。
  • Method: 基于Wan框架构建音频驱动模型Wan-S2V,通过改进模型架构和训练策略来增强在电影场景中的表现力和保真度。
  • Result: 在Hunyuan-Avatar和Omnihuman等先进模型的对比实验中,Wan-S2V始终显著优于现有解决方案,并在长视频生成和精确视频唇形同步编辑等应用中展现出良好的通用性。
  • Conclusion: Wan-S2V模型成功解决了电影级音频驱动角色动画的挑战,在表达性和保真度方面实现了显著提升,为复杂影视制作提供了有效的解决方案。

[18] Decouple, Reorganize, and Fuse: A Multimodal Framework for Cancer Survival Prediction

Huayi Wang,Haochao Ying,Yuyang Xu,Qibo Qiu,Cheng Zhang,Danny Z. Chen,Ying Sun,Jian Wu

Main category: cs.CV

TL;DR: 这篇论文提出了一种新的Decoupling-Reorganization-Fusion框架(DeReF),通过随机特征重组策略和动态MoE融合模块,解决了多模态癌症生存分析中的特征融合问题,在多个数据集上验证了有效性。

  • Motivation: 现有的多模态癌症生存分析方法存在两个主要问题:固定融合方案导致模型过度依赖预定义特征组合,而MoE融合方法中各专家网络处理分离特征限制了信息交互。
  • Method: 提出DeReF框架,包含随机特征重组策略和动态MoE融合模块,增加特征组合的多样性和粒度。同时在模态解耦模块中集成了区域交叉注意力网络来提升解耦特征的表示质量。
  • Result: 在自建的肝癌数据集和三个TCGA公共数据集上进行了广泛实验,验证了所提方法的有效性。
  • Conclusion: DeReF框架通过随机特征重组和动态融合,有效解决了多模态癌症生存分析中的特征融合挑战,提高了模型的汇通性能和信息抓取能力。

[19] ROSE: Remove Objects with Side Effects in Videos

Chenxuan Miao,Yutong Feng,Jianshu Zeng,Zixiang Gao,Hantang Liu,Yunfeng Yan,Donglian Qi,Xi Chen,Bin Wang,Hengshuang Zhao

Main category: cs.CV

TL;DR: ROSE是一个视频对象移除框架,专门处理对象移除后的副作用(如阴影、反射等),通过合成数据和扩散变换器实现高质量的视频修复。

  • Motivation: 现有视频对象移除方法在处理对象副作用(阴影、反射、光照、半透明和镜面效果)时表现不佳,主要缺乏配对的监督数据。
  • Method: 使用3D渲染引擎生成合成数据,构建大规模配对数据集;基于扩散变换器的视频修复模型;引入额外监督来预测副作用区域;参考式擦除整个视频。
  • Result: ROSE在各类副作用移除任务上表现优异,优于现有视频对象擦除模型,并能很好地泛化到真实世界视频场景。
  • Conclusion: ROSE框架通过系统性处理对象副作用和合成数据生成,显著提升了视频对象移除的质量和泛化能力,为视频编辑提供了有效解决方案。

[20] OwlCap: Harmonizing Motion-Detail for Video Captioning via HMD-270K and Caption Set Equivalence Reward

Chunlin Zhong,Qiuxia Hou,Zhangjun Zhou,Shuang Hao,Haonan Lu,Yanhao Zhang,He Tang,Xiang Bai

Main category: cs.CV

TL;DR: 该论文提出了解决视频字幕生成中运动-细节不平衡问题的方案,包括构建HMD-270K数据集和开发基于CSER奖励的OwlCap模型,在多个基准测试中取得显著提升。

  • Motivation: 现有视频字幕生成方法存在运动-细节不平衡问题,模型往往过度强调一个方面而忽视另一个方面,导致生成的字幕不完整,影响视频理解和生成的一致性。
  • Method: 1) 数据层面:通过两阶段流程(运动-细节融合和细粒度检查)构建HMD-270K数据集;2) 优化层面:基于组相对策略优化引入字幕集等价奖励(CSER),通过单元到集合匹配和双向验证来增强完整性和准确性。
  • Result: OwlCap模型在细节导向的VDC基准上准确率提升4.2%,在运动导向的DREAM-1K基准上F1分数提升4.6%,显著优于基线模型。
  • Conclusion: 提出的HMD-270K数据集和OwlCap模型有效解决了视频字幕生成中的运动-细节不平衡问题,为视频字幕研究社区提供了有价值的资源和工具。

[21] Clustering-based Feature Representation Learning for Oracle Bone Inscriptions Detection

Ye Tao,Xinran Fu,Honglin Pang,Xi Yang,Chuntao Li

Main category: cs.CV

TL;DR: 提出了一种基于聚类的特征空间表示学习方法,利用甲骨文字体库作为先验知识,通过聚类增强特征提取,在多个检测框架上显著提升了甲骨文检测性能

  • Motivation: 甲骨文拓片图像存在噪声和裂纹等退化因素,限制了传统检测网络的有效性,需要新的方法来提升甲骨文自动检测的准确性
  • Method: 利用甲骨文字体库数据集作为先验知识,通过基于聚类的表示学习增强检测网络的特征提取,采用从聚类结果衍生的专门损失函数优化特征表示
  • Result: 在三个主流检测框架(Faster R-CNN、DETR、Sparse R-CNN)上进行实验,所有框架都表现出显著的性能提升
  • Conclusion: 该方法有效解决了甲骨文检测中的退化问题,通过聚类特征表示学习显著提升了检测性能,为数字考古学中的甲骨文自动化检测提供了有效解决方案

[22] SFormer: SNR-guided Transformer for Underwater Image Enhancement from the Frequency Domain

Xin Tian,Yingtie Lei,Xiujun Zhang,Zimeng Li,Chi-Man Pun,Xuhang Chen

Main category: cs.CV

TL;DR: 提出SFormer模型,通过频域SNR先验和傅里叶注意力机制,在U型架构中结合RGB流和SNR引导分支,显著提升水下图像增强效果

  • Motivation: 现有基于空间域SNR先验的方法存在两个局限:无法有效分离跨通道干扰,以及在放大信息结构同时抑制噪声方面帮助有限
  • Method: 提出频域SNR先验,将特征分解为幅度和相位谱;设计傅里叶注意力SNR先验变换器(FAST)和频率自适应变换器(FAT)瓶颈;在U型架构中整合传统RGB流和SNR引导分支
  • Result: 在UIEB、EUVP和LSUI数据集的4800对图像上训练,PSNR提升3.1dB,SSIM提升0.08,成功恢复水下场景的颜色、纹理和对比度
  • Conclusion: 频域SNR先验比空间域方法更有效,SFormer模型在定量和定性评估中都优于现有方法

[23] Hierarchical Spatio-temporal Segmentation Network for Ejection Fraction Estimation in Echocardiography Videos

Dongfang Wang,Jian Yang,Yizhe Zhang,Tao Zhou

Main category: cs.CV

TL;DR: 提出了一种分层时空分割网络(Hierarchical Spatio-temporal Segmentation Network)用于超声心动图视频的左心室心内膜分割,通过结合局部细节建模和全局动态感知来提高射血分数(EF)估计的准确性。

  • Motivation: 现有研究虽然实现了良好的分割性能,但在射血分数(EF)估计方面表现不佳。超声图像噪声等因素会导致EF计算偏差,需要同时处理单帧细节和多帧时空关系。
  • Method: 采用分层设计:低层级使用卷积网络处理单帧图像保留细节,高层级使用Mamba架构捕获时空关系。提出时空交叉扫描(STCS)模块,通过跨帧和位置的跳跃扫描整合长距离上下文信息。
  • Result: 该方法平衡了单帧和多帧处理,避免了仅依赖单帧时的局部误差累积问题,以及仅使用多帧数据时忽略细节的问题。
  • Conclusion: 所提出的分层时空分割网络能够有效改善超声心动图视频中的左心室心内膜分割质量,从而提高射血分数估计的准确性,解决了现有方法在EF估计方面的不足。

[24] Feature-Space Planes Searcher: A Universal Domain Adaptation Framework for Interpretability and Computational Efficiency

Zhitong Cheng,Yiran Jiang,Yulong Ge,Yufeng Li,Zhongheng Qin,Rongzhi Lin,Jianwei Ma

Main category: cs.CV

TL;DR: FPS是一种新颖的无监督域适应框架,通过冻结预训练特征编码器并优化决策边界来解决域偏移问题,避免了传统微调方法的低效性和不可预测性。

  • Motivation: 当前无监督域适应方法主要依赖微调特征提取器,存在效率低、可解释性差和难以扩展到现代架构的问题。研究发现预训练模型的特征空间存在域不变的几何模式,域偏移主要表现为边界错位而非特征退化。
  • Method: 提出特征空间平面搜索器(FPS)框架,保持特征编码器冻结,利用预训练模型特征空间中的几何模式(类内聚类和类间分离)来优化决策边界,实现离线特征提取和全数据集单次计算优化。
  • Result: 在公共基准测试中,FPS达到或超越了最先进方法的性能,能够高效扩展到多模态大模型,并在蛋白质结构预测、遥感分类和地震检测等多个领域展现出色表现。
  • Conclusion: FPS为迁移学习提供了一个简单、有效且可泛化的范式,特别是在域适应任务中,显著降低了内存和计算成本,同时保持了良好的可解释性。

[25] A Novel Deep Hybrid Framework with Ensemble-Based Feature Optimization for Robust Real-Time Human Activity Recognition

Wasi Ullah,Yasir Noman Khalid,Saddam Hussain Khan

Main category: cs.CV

TL;DR: 提出了一种优化的混合深度学习框架,结合定制InceptionV3、LSTM和集成特征选择策略,用于人体活动识别,在UCF-YouTube数据集上达到99.65%准确率,特征减少至7个,支持边缘设备实时部署。

  • Motivation: 解决人体活动识别系统面临的高计算成本、冗余特征和实时场景可扩展性有限等关键挑战,需要在异构环境中实现准确、鲁棒且轻量级的识别。
  • Method: 采用定制InceptionV3提取空间描述符捕获多级上下文模式,LSTM建模时间依赖性编码运动动态,集成遗传算法(ADFSA)进行特征选择平衡准确性、冗余性、唯一性和复杂度。
  • Result: 在具有遮挡、杂乱背景、运动动态和光照不佳等挑战的UCF-YouTube数据集上实现99.65%识别准确率,特征减少至7个,推理时间得到提升。
  • Conclusion: 该轻量级可扩展的HAR系统支持在树莓派等边缘设备上实时部署,适用于公共安全、辅助技术和自主监控系统等智能资源感知环境。

[26] ColorGS: High-fidelity Surgical Scene Reconstruction with Colored Gaussian Splatting

Qun Ji,Peng Li,Mingqiang Wei

Main category: cs.CV

TL;DR: ColorGS是一种用于内镜视频可变形组织高保真重建的新框架,通过空间适配颜色编码和增强变形模型解决了现有方法的颜色表达和全局变形模拟问题。

  • Motivation: 现有的3D高斯拖尾方法在内镜视频重建中存在两大问题:固定的每个高斯颜色分配无法处理细腻的纹理变化,线性变形模型无法模拟一致的全局变形。
  • Method: 提出了两个核心技术:1)带有动态锚点和可学习颜色参数的颜色高斯原语,用于空间适配的细腻纹理编码;2)增强变形模型(EDM),结合时间敏感的高斯基函数和可学习的时间独立变形,以模拟局部组织变形和全局运动一致性。
  • Result: 在DaVinci机器人手术视频和标准数据集(EndoNeRF, StereoMIS)上进行了广泛实验,达到了状态之最工作的性能,PSNR为39.85(比之前的3DGS方法高出1.5),SSIM为97.25%,同时保持了实时渲染效率。
  • Conclusion: ColorGS通过在高保真度和计算实用性之间取得平衡,推进了手术场景重建技术的发展,对于术中导航和AR/VR应用具有重要意义。

[27] Class-wise Flooding Regularization for Imbalanced Image Classification

Hiroaki Aizawa,Yuta Naito,Kohei Fukuda

Main category: cs.CV

TL;DR: 提出类别级洪水正则化方法,通过为不同类别设置基于频率的洪水水平,在类别不平衡数据上抑制多数类过拟合同时保证少数类充分学习。

  • Motivation: 解决神经网络在类别不平衡数据集上训练时,预测偏向多数类而导致少数类识别性能显著下降的问题。
  • Method: 扩展洪水正则化到类别级别,基于类别频率为每个类别分配特定的洪水水平阈值,抑制多数类过拟合的同时允许少数类充分学习。
  • Result: 在图像分类任务上验证,相比传统洪水正则化方法,提高了少数类的分类性能并获得了更好的整体泛化能力。
  • Conclusion: 类别级洪水正则化是处理类别不平衡问题的有效方法,能够改善模型在少数类上的表现并提升整体泛化性能。

[28] Flatness-aware Curriculum Learning via Adversarial Difficulty

Hiroaki Aizawa,Yoshikazu Hayashi

Main category: cs.CV

TL;DR: 提出ADM难度度量方法,结合课程学习和SAM优化,解决平坦区域中样本难度评估难题,提升模型泛化能力

  • Motivation: 传统课程学习依赖损失值或梯度范数评估样本难度,但在平坦最小值区域这些指标变得无效,无法有效结合课程学习和SAM的优势
  • Method: 提出对抗难度度量(ADM),通过计算原始样本与对抗样本的归一化损失差距来量化样本难度,并将其整合到基于课程学习的SAM训练中
  • Result: 在图像分类、细粒度识别和域泛化任务上验证,方法同时保留了课程学习和SAM的优势,优于现有课程学习和平坦感知训练策略
  • Conclusion: ADM提供了在平坦区域评估样本难度的有效方法,成功实现了课程学习与SAM的有机结合,显著提升了模型泛化性能

[29] Are All Marine Species Created Equal? Performance Disparities in Underwater Object Detection

Melanie Wille,Tobias Fischer,Scarlett Raine

Main category: cs.CV

TL;DR: 本文通过分析水下目标检测中扇贝类检测性能不佳的问题,发现定位阶段的前景-背景区分是主要瓶颈,分类阶段存在固有特征挑战,建议根据精度或召回率需求选择数据分布策略。

  • Motivation: 水下目标检测面临图像质量退化、类别分布不平衡等挑战,不同物种检测性能差异显著但原因不明,需要探究数据量之外的影响因素并系统提升弱势物种检测能力。
  • Method: 使用DUO数据集,将目标检测任务分解为定位和分类两个子任务,利用YOLO11和TIDE工具分析扇贝类的定位问题,并通过数据平衡实验研究分类性能。
  • Result: 定位分析发现前景-背景区分是最大瓶颈且与数据量无关;分类实验显示即使数据平衡后仍存在精度差距,表明存在超越数据稀缺和类间依赖的固有特征挑战。
  • Conclusion: 建议优先精度时使用不平衡分布,优先召回时使用平衡分布;改进弱势类别应聚焦算法创新,特别是在定位模块方面;已公开代码和数据集。

[30] Drawing2CAD: Sequence-to-Sequence Learning for CAD Generation from Vectorized Drawings

Feiwei Qin,Shichao Lu,Junhao Hou,Changmiao Wang,Meie Fang,Ligang Liu

Main category: cs.CV

TL;DR: Drawing2CAD是一个从2D工程图自动生成参数化CAD模型的序列到序列学习框架,通过双解码器Transformer架构保持几何精度和设计意图。

  • Motivation: 现有CAD生成方法主要从点云、网格或文本输入生成实体模型,但与传统从2D工程图开始的工业工作流程不符,从2D矢量图自动生成参数化CAD模型的研究不足。
  • Method: 提出Drawing2CAD框架,包含三个关键技术:网络友好的矢量图元表示、双解码器Transformer架构(分离命令类型和参数生成)、软目标分布损失函数。创建CAD-VGDrawing数据集进行训练和评估。
  • Result: 通过全面实验证明了方法的有效性,代码和数据集已开源。
  • Conclusion: 该方法成功将CAD生成重新定义为序列到序列学习问题,在保持几何精度的同时实现了从2D工程图到参数化CAD模型的自动转换。

[31] Improving Noise Robust Audio-Visual Speech Recognition via Router-Gated Cross-Modal Feature Fusion

DongHoon Lim,YoungChae Kim,Dong-Hyun Kim,Da-Hee Yang,Joon-Hyuk Chang

Main category: cs.CV

TL;DR: 提出了一种基于路由器门控跨模态特征融合的鲁棒视听语音识别方法,通过令牌级声学损坏评分自适应调整音频和视觉特征的权重,在噪声环境下显著降低词错误率。

  • Motivation: 现有视听语音识别系统在噪声环境中难以准确估计音频可靠性并动态调整模态依赖,导致性能下降。
  • Method: 使用音频-视觉特征融合的路由器,基于令牌级声学损坏评分对音频和视觉特征进行自适应重加权,通过门控交叉注意力机制在解码器层中增强视觉线索。
  • Result: 在LRS3数据集上相比AV-HuBERT实现了16.51-42.67%的相对词错误率降低,消融研究证实路由器和门控机制都提升了在真实世界声学噪声下的鲁棒性。
  • Conclusion: 路由器门控跨模态特征融合框架能够有效提升视听语音识别系统在噪声环境中的性能,通过动态调整模态依赖实现更好的鲁棒性。

[32] Rethinking Human-Object Interaction Evaluation for both Vision-Language Models and HOI-Specific Methods

Qinqian Lei,Bo Wang,Robby T. Tan

Main category: cs.CV

TL;DR: 本文提出了一种新的人-物交互检测评测方法,将传统的准确匹配评价改为多选题形式,以适应生成式视觉-语言模型的特性,避免合理预测被罚分的问题。

  • Motivation: 现有的HOI检测评测协议与生成式VLM模型不匹配,需要准确匹配注释类别,而图片常常存在多种合理解释。传统方法会对合理但与注释不一致的预测进行罚分,影响评价公正性。
  • Method: 提出将HOI检测重构为多选题任务,每道题包含真实正确选项和细心构造的负面选项。负面选项遵循明确性原则,避免将可能合理的解释作为错误选项(如注释"接抓"时不将"投掷"设为负面选项)。
  • Result: 该评测协议是首个同时适用于VLM和专门HOI方法的标准,允许直接比较两种方法的性能。
  • Conclusion: 新的多选题形式评测协议更适合评估生成式VLM在HOI检测任务上的能力,能够更公正地评估合理的多重解释,为HOI理解领域提供了更有效的评测方法。

[33] Beyond the Textual: Generating Coherent Visual Options for MCQs

Wanqiang Wang,Longzhu He,Wei Zheng

Main category: cs.CV

TL;DR: 提出了CmOS框架,用于生成带有视觉选项的教育选择题,通过多模态思维链和检索增强生成技术,解决了传统文本选项生成方法的局限性。

  • Motivation: 传统选择题生成主要关注文本选项,忽视了视觉选项的重要性,且高质量干扰项的手工制作成本高、可扩展性差。
  • Method: 采用跨模态选项合成框架,结合多模态思维链推理和检索增强生成技术,生成语义合理且视觉相似的答案和干扰项,并包含内容判别模块识别适合视觉选项的内容。
  • Result: 实验结果表明,CmOS在内容判别、问题生成和视觉选项生成方面优于现有方法,适用于不同学科和教育水平。
  • Conclusion: CmOS框架有效解决了教育选择题中视觉选项生成的挑战,为自动化生成高质量多模态选择题提供了可行方案。

[34] Design, Implementation and Evaluation of a Real-Time Remote Photoplethysmography (rPPG) Acquisition System for Non-Invasive Vital Sign Monitoring

Constantino Álvarez Casado,Sasan Sharifipour,Manuel Lage Cañellas,Nhi Nguyen,Le Nguyen,Miguel Bordallo López

Main category: cs.CV

TL;DR: 本文提出了一种针对低功耗设备优化的实时远程光电容积描记(rPPG)系统,能够从面部视频流中提取心率、呼吸频率和血氧饱和度等生理信号,实现了30fps的连续可靠运行。

  • Motivation: 随着智能环境和低功耗计算设备的集成,以及传感器技术的发展,远程非接触式生理监测需求增长,但在资源受限平台上部署实时系统面临可扩展性、互操作性和性能方面的挑战。
  • Method: 基于Face2PPG流水线,采用多线程架构管理视频捕获、实时处理、网络通信和GUI更新,结合函数式响应式编程(FRP)和Actor模型的混合编程模型,实现事件驱动处理和高效任务并行化。
  • Result: 系统在实时约束下表现出鲁棒性,同时最小化计算开销,能够以30fps连续可靠运行,并通过自适应反馈指导最佳信号捕获条件。
  • Conclusion: 该工作解决了实时生物信号监测中的关键挑战,为现代医疗保健和人机交互应用提供了性能优化的实用解决方案。

[35] PseudoMapTrainer: Learning Online Mapping without HD Maps

Christian Löwens,Thorben Funke,Jingchao Xie,Alexandru Paul Condurache

Main category: cs.CV

TL;DR: PseudoMapTrainer是一种无需地面真实高精地图的在线地图生成方法,通过多视角图像重建和伪标签训练实现地图预测

  • Motivation: 现有在线地图生成方法依赖昂贵且地理多样性不足的高精地图标注数据,限制了模型的泛化能力
  • Method: 使用高斯泼溅技术从多相机图像重建道路表面,结合预训练2D分割网络的语义生成伪标签,并引入掩码感知分配算法处理部分掩码的伪标签
  • Result: 首次实现了无需地面真实地图的在线地图模型训练,能够利用大规模无标注众包数据进行半监督预训练
  • Conclusion: 该方法为在线地图生成提供了更经济、可扩展的解决方案,代码已开源

[36] Robust and Label-Efficient Deep Waste Detection

Hassan Abid,Khan Muhammad,Muhammad Haris Khan

Main category: cs.CV

TL;DR: 通过强基准线、LLM优化提示和半监督集成学习框架,提升废弃分类检测性能,在ZeroWaste数据集上达到51.6 mAP的新基准

  • Motivation: 废弃分类对可持续回收至关重要,但AI研究因数据集有限和依赖继承对象检测器而滞后于商业系统
  • Method: 1)在ZeroWaste数据集上对开政式语义对象检测模型进行基准测试;2)细调现代transformer棆测器;3)提出基于空间和共识权重融合集成预测的软伪标签策略,实现半监督学习
  • Result: LLM优化提示显著提升零样本准确率;细调后达到51.6 mAP的新基准;在未标注ZeroWaste-s子集上,伪标注性能超越全监督训练
  • Conclusion: 本研究通过建立严格基准、提出健壁的集成伪标注流程、生成高质量标注和系统评估OVOD模型,为废弃检测研究社区做出重要贡献

[37] Embedding Font Impression Word Tags Based on Co-occurrence

Yugo Kubota,Seiichi Uchida

Main category: cs.CV

TL;DR: 本文提出了一种新颖的印象标签嵌入方法,利用字体形状与印象标签之间的关系,通过构建共现关系图并应用谱嵌入来获得更好的印象向量表示。

  • Motivation: 不同字体样式传达不同的印象,表明字体形状与描述这些印象的标签之间存在密切关系。现有的标准词嵌入方法(如BERT和CLIP)在处理印象标签时效果不佳,需要专门的方法来更好地捕捉字体印象关系。
  • Method: 构建一个图结构,其中节点代表印象标签,边编码标签之间的共现关系。然后应用谱嵌入技术为每个标签获取印象向量。
  • Result: 与BERT和CLIP相比,该方法在定性和定量评估中都表现更好,特别是在印象引导的字体生成任务中效果显著。
  • Conclusion: 提出的基于共现关系的谱嵌入方法能够更有效地捕捉字体印象标签之间的语义关系,为印象驱动的字体生成和检索任务提供了更好的表示基础。

[38] Deep Pre-trained Time Series Features for Tree Species Classification in the Dutch Forest Inventory

Takayuki Ishikawa,Carmelo Bonannella,Bas J. W. Lerink,Marc Rußwurm

Main category: cs.CV

TL;DR: 本研究通过微调预训练的遥感时间序列基础模型,在荷兰国家森林调查树种分类任务中取得了比传统方法高出10%的准确率,证明了深度学习特征在数据有限场景下的优势。

  • Motivation: 国家森林调查需要大量实地工作,维护成本高。遥感技术结合机器学习可以提供更频繁、更大规模的森林信息更新,但现有方法主要依赖随机森林分类器和手工设计的特征。
  • Method: 使用Google Earth Engine提取Sentinel-1、Sentinel-2、ERA5和SRTM卫星数据的时间序列,然后微调公开可用的预训练遥感时间序列基础模型进行树种分类。
  • Result: 在所有数据集上,微调预训练模型的表现均显著优于当前最先进方法,准确率提升幅度高达10%。
  • Conclusion: 传统手工设计的谐波特征过于简单,深度学习特征在数据有限的应用中具有巨大潜力,通过利用公开卫星数据和预训练模型可以显著提升分类精度,有效补充现有森林调查流程。

[39] Automated Classification of Normal and Atypical Mitotic Figures Using ConvNeXt V2: MIDOG 2025 Track 2

Yosuke Yamagishi,Shouhei Hanaoka

Main category: cs.CV

TL;DR: 基于ConvNeXt V2架构的解决方案,通过中心裁剪预处理和5折交叉验证集成策略,在MIDOG 2025挑战赛Track 2中实现了正常与异常有丝分裂图的二分类。

  • Motivation: 解决组织病理学图像中正常与异常有丝分裂图分类的关键挑战,包括严重的类别不平衡、高度形态变异性和跨肿瘤类型、物种及扫描仪的域异质性。
  • Method: 采用ConvNeXt V2基础模型,结合60%中心裁剪预处理、混合精度训练和5折交叉验证集成策略。
  • Result: 在多样化的MIDOG 2025数据集上实现了稳健的性能表现。
  • Conclusion: 该方法证明了现代卷积架构在有丝分裂图亚型分类中的有效性,同时通过精心设计的架构选择和训练优化保持了计算效率。

[40] Boosting Micro-Expression Analysis via Prior-Guided Video-Level Regression

Zizheng Guo,Bochao Zou,Yinuo Jia,Xiangyu Li,Huimin Ma

Main category: cs.CV

TL;DR: 提出了一种先验引导的视频级回归方法,通过可扩展区间选择策略和协同优化框架,实现了微表情的精确检测和识别,在多个基准数据集上达到最先进性能。

  • Motivation: 现有微表情分析方法主要依赖固定窗口大小的窗口级分类,难以捕捉复杂的时序动态特性。虽然近期方法采用视频级回归框架,但区间解码仍依赖手动预定义的基于窗口的方法,问题仅得到部分缓解。
  • Method: 提出先验引导的视频级回归方法,包含可扩展区间选择策略(综合考虑微表情的时序演化、持续时间和类别分布特征)和协同优化框架(检测和识别任务共享参数,仅分类头不同)。
  • Result: 在多个基准数据集上实现最先进性能:CAS(ME)^3数据集STRS为0.0562,SAMMLV数据集STRS为0.2000。
  • Conclusion: 该方法能够精确检测微表情的起始、顶点和偏移阶段,充分利用互补信息,高效利用有限数据,显著提升模型能力。

[41] Quantitative Outcome-Oriented Assessment of Microsurgical Anastomosis

Luyin Hu,Soheil Gholami,George Dindelegan,Torstein R. Meling,Aude Billard

Main category: cs.CV

TL;DR: 提出基于图像处理技术的定量框架,通过几何建模和检测评分机制,客观评估显微外科吻合手术,提高评估效率和可靠性。

  • Motivation: 当前显微外科吻合术评估方法依赖主观判断,存在偏见影响评估的可靠性和效率,需要客观量化评估体系。
  • Method: 利用来自不同医院的三组数据集,采用图像处理技术建立几何误差模型,结合检测和评分机制进行客观评估。
  • Result: 几何度量指标能够有效复现专家评分者对相关误差的评分结果。
  • Conclusion: 该定量框架提升了显微外科技能评估的效率和可靠性,有助于推进培训协议的改进。

[42] Harnessing Meta-Learning for Controllable Full-Frame Video Stabilization

Muhammad Kashif Ali,Eun Woo Im,Dongjin Kim,Tae Hyun Kim,Vivek Gupta,Haonan Luo,Tianrui Li

Main category: cs.CV

TL;DR: 这篇论文提出了一种通过测试时快速适配来改善像素级合成视频稳定方法的新方法,采用悬愧定位模块和有针对性的适配策略,在保持全帧输出的同时提升了稳定性和视觉质量。

  • Motivation: 像素级合成视频稳定方法虽能生成全帧输出,但因为不同视频序列的运动特征和视觉内容存在巨大差异,使得固定参数的模型难以实现稳健的通用性。
  • Method: 提出在测试时快速适配模型到每个输入视频,利用推理过程中可获得的低级视觉线索来改善稳定性和视觉质量。还提出了悬愧定位模块和针对高悬愧段落的有针对性适配策略,以最少的适配步骤实现最大化稳定性。
  • Result: 在多样化的实际数据集上进行了广泛实验,证明了该方法的多用途性。方法一质地提高了各种全帧合成模型的性能,包括在下游应用中的质量和数量结果。即使只进行一次适配,也能实现显著的性能提升。
  • Conclusion: 该方法能够使现代稳定器超越长期以来的SOTA方法,同时保持现代方法的全帧特性,并为用户提供类似于经典方法的控制机制。

[43] Toward Robust Medical Fairness: Debiased Dual-Modal Alignment via Text-Guided Attribute-Disentangled Prompt Learning for Vision-Language Models

Yuexuan Xia,Benteng Ma,Jiang He,Zhiyong Wang,Qi Dou,Yong Xia

Main category: cs.CV

TL;DR: DualFairVL是一个多模态提示学习框架,通过并行双分支架构联合去偏和对齐跨模态表示,在医疗影像诊断中实现公平性和准确性。

  • Motivation: 医疗诊断中确保跨人口群体的公平性至关重要,特别是在成像设备和临床实践变化导致的分布偏移下。现有去偏方法通常独立处理视觉和文本模态,导致残留的跨模态错位和公平性差距。
  • Method: 采用并行双分支架构分离敏感属性和目标属性,构建近似正交的文本锚点引导跨注意力机制,使用超网络生成实例感知的视觉提示,并在视觉分支应用基于原型的正则化。
  • Result: 在8个医疗影像数据集和4种模态上的实验表明,DualFairVL在分布内和分布外设置下均实现了最先进的公平性和准确性,仅使用360万可训练参数就优于全微调和参数高效基线。
  • Conclusion: DualFairVL通过联合去偏和对齐跨模态表示,有效解决了医疗影像诊断中的公平性问题,为公平医疗提供了有效的技术解决方案。

[44] DQEN: Dual Query Enhancement Network for DETR-based HOI Detection

Zhehao Li,Chong Wang,Yi Chen,Yinghao Lu,Jiangbo Qian,Jiong Wang,Jiafei Wu

Main category: cs.CV

TL;DR: 提出双查询增强网络(DQEN),通过对象感知编码器特征增强对象查询,利用CLIP模型提取语义特征增强交互查询初始化,在HOI检测任务中取得竞争性性能

  • Motivation: 现有DETR-based HOI检测模型使用随机初始化的查询导致表示模糊,限制了模型效果。人类在HOI类别中是固定的,而对象和交互是可变的,需要针对性增强查询表示
  • Method: 1) 使用对象感知编码器特征增强对象查询,使模型能更有效地以对象感知方式关注与对象交互的人类;2) 设计交互语义融合模块,利用CLIP模型提取语义特征增强交互查询初始化;3) 引入辅助预测单元改进交互特征表示
  • Result: 在HICO-Det和V-COCO数据集上取得了竞争性性能
  • Conclusion: 通过分别增强对象查询和交互查询的双重策略,有效提升了HOI检测的准确性和模型对交互关系的理解能力

[45] Interpretable Decision-Making for End-to-End Autonomous Driving

Mona Mirzaie,Bodo Rosenhahn

Main category: cs.CV

TL;DR: 提出一种增强自动驾驶AI可解释性的方法,通过稀疏和局部化特征图来优化控制命令,在CARLA基准测试中实现了更高的安全性和性能

  • Motivation: 端到端自动驾驶系统虽然能直接从原始数据推导控制命令,但其深度神经网络的非线性决策边界使得决策逻辑难以理解,这阻碍了可信AI在自动驾驶中的广泛应用
  • Method: 设计损失函数来促进模型的可解释性,生成稀疏和局部化的特征图,通过特征激活来解释哪些图像区域对预测的控制命令有贡献
  • Result: 在CARLA基准测试中,单目非集成模型超越了排行榜上的顶级方法,实现了更低的事故分数和最高的路线完成率,同时确保了可解释性
  • Conclusion: 该方法不仅提高了自动驾驶模型的可解释性,而且可解释性的提升与减少事故行为相关,从而产生了更安全、高性能的驾驶模型

[46] Event-Enriched Image Analysis Grand Challenge at ACM Multimedia 2025

Thien-Phuc Tran,Minh-Quang Nguyen,Minh-Triet Tran,Tam V. Nguyen,Trong-Le Do,Duy-Nam Ly,Viet-Tham Huynh,Khanh-Duy Le,Mai-Khiem Tran,Trung-Nghia Le

Main category: cs.CV

TL;DR: EVENTA Grand Challenge是首个大规模事件级多模态理解基准,通过整合上下文、时间和语义信息来捕捉图像背后的完整事件信息,包含检索和字幕生成两个赛道,有45个团队参与。

  • Motivation: 传统图像字幕和检索任务主要关注表面层次的人物、物体和场景识别,往往忽略了定义真实世界事件的上下文和语义维度,EVENTA旨在填补这一空白。
  • Method: 基于OpenEvents V1数据集,构建了两个赛道:事件增强图像检索和字幕生成,以及基于事件的图像检索。通过公开和私有测试阶段进行评估,确保公平性和可复现性。
  • Result: 共有来自6个国家的45个团队参与,前三名团队受邀在ACM Multimedia 2025上展示解决方案。
  • Conclusion: EVENTA为上下文感知、叙事驱动的多媒体AI奠定了基础,在新闻、媒体分析、文化存档和可访问性等领域具有应用价值。

[47] Preliminary Study on Space Utilization and Emergent Behaviors of Group vs. Single Pedestrians in Real-World Trajectories

Amartaivan Sanjjamts,Morita Hiroshi

Main category: cs.CV

TL;DR: 基于Transformer的行人轨迹分类框架,用于区分群体和单个行人,建立空间利用和行为模式分析指标体系

  • Motivation: 分析群体行人和单个行人在空间利用和行为模式上的差异,为人群动力学研究和空间设计验证提供基础
  • Method: 将行人轨迹分割为固定时间窗口,使用Transformer配对分类模型识别群体,建立包含空间利用和行为维度的综合指标体系
  • Result: 提出了完整的分类流程和数据集结构,建立了可扩展的分析框架,支持60、100、200帧不同序列长度的分析
  • Conclusion: 为后续定量分析奠定了基础,未来版本将完成指标体系的完整量化分析及其在行人仿真和空间设计验证中的应用

[48] The point is the mask: scaling coral reef segmentation with weak supervision

Matteo Contini,Victor Illien,Sylvain Poulain,Serge Bernard,Julien Barde,Sylvain Bonhommeau,Alexis Joly

Main category: cs.CV

TL;DR: 提出多尺度弱监督语义分割框架,通过水下图像向航拍图像迁移细粒度生态信息,实现大规模珊瑚礁监测,减少人工标注需求

  • Motivation: 解决大空间尺度珊瑚礁监测的挑战,航拍图像分辨率有限难以区分细粒度类别,而像素级标注成本高且劳动密集,限制了深度学习方法在航拍图像中的可扩展性
  • Method: 多尺度弱监督语义分割框架,结合基于分类的监督、空间插值和自蒸馏技术,从水下图像向航拍数据迁移细尺度生态信息
  • Result: 能够实现大范围珊瑚形态类型分割,展示了集成新类别的灵活性,为高分辨率珊瑚礁监测提供了可扩展、成本效益高的方法
  • Conclusion: 该方法结合低成本数据收集、弱监督深度学习和多尺度遥感技术,为大空间尺度珊瑚礁生态系统健康评估和保护提供了有效的解决方案

[49] Generative AI in Map-Making: A Technical Exploration and Its Implications for Cartographers

Claudio Affolter,Sidi Wu,Yizi Chen,Lorenz Hurni

Main category: cs.CV

TL;DR: 本研究提出了一种结合矢量数据引导的AI地图生成方法,通过文本提示控制地图风格,解决了传统生成模型在空间构图和语义布局方面的准确性不足问题。

  • Motivation: 传统GIS制图需要专业知识且耗时,特别是重复性任务。生成式AI为自动化制图提供了新机遇,但现有模型在空间控制和语义准确性方面存在局限。
  • Method: 集成矢量数据来引导不同风格的地图生成,通过文本提示指定风格,并开发了网页应用程序提高可用性和可访问性。
  • Result: 用户研究表明,开发的应用在生成地图保真度和可用性方面表现良好,证明了生成式AI模型在帮助非专业用户和专业人士高效制图方面的潜力。
  • Conclusion: 该研究展示了AI辅助制图的新范式,提出了进一步技术改进方向,并强调了制图师在AI时代的新角色。

[50] Enhancing compact convolutional transformers with super attention

Simpenzwe Honore Leandre,Natenaile Asmamaw Shiferaw,Dillip Rout

Main category: cs.CV

TL;DR: 提出了一种结合token混合、序列池化和卷积tokenizer的视觉模型,在固定上下文长度任务中实现了SOTA性能和高效推理,在CIFAR100上显著提升准确率同时模型更小更高效

  • Motivation: 为了解决传统transformer模型在固定上下文长度任务中的计算效率问题,同时保持高性能,需要开发更高效的架构替代SDPA注意力机制
  • Method: 采用token混合、序列池化和卷积tokenizer的组合方法,不依赖数据增强、位置编码或学习率调度等技巧
  • Result: 在CIFAR100上,top1准确率从36.50%提升到46.29%,top5准确率从66.33%提升到76.31%,模型大小仅为SDPA transformer的60%,且在上下文长度小于嵌入维度时更高效
  • Conclusion: 该架构在保持高性能的同时实现了更高的计算效率和训练稳定性,为固定上下文长度任务提供了有效的替代方案

[51] USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning

Shaojin Wu,Mengqi Huang,Yufeng Cheng,Wenxu Wu,Jiahe Tian,Yiming Luo,Fei Ding,Qian He

Main category: cs.CV

TL;DR: USO提出统一框架同时优化风格相似性和主体一致性,通过解耦学习和风格奖励学习实现风格-主体统一生成

  • Motivation: 现有方法将风格驱动和主体驱动生成视为两个独立任务,存在明显对立。作者认为这两个目标可以统一,因为它们都涉及内容和风格的解耦与重组
  • Method: 1) 构建大规模三元组数据集;2) 引入解耦学习方案,同时进行风格对齐训练和内容-风格解耦训练;3) 采用风格奖励学习范式(SRL)提升性能;4) 发布USO-Bench联合评估基准
  • Result: 大量实验表明USO在开源模型中实现了主体一致性和风格相似性两个维度上的最先进性能
  • Conclusion: USO成功统一了风格驱动和主体驱动的生成任务,证明了内容和风格解耦重组框架的有效性,为统一风格-主体优化提供了新思路

[52] Can we make NeRF-based visual localization privacy-preserving?

Maxime Pietrantoni,Martin Humenberger,Torsten Sattler,Gabriela Csurka

Main category: cs.CV

TL;DR: 本文提出了一种保护隐私的神经分割场(ppNeSF)方法,用于视觉定位任务,通过自监督学习的分割标签替代RGB图像训练,既保护隐私又保持定位精度。

  • Motivation: 基于NeRF的视觉定位方法虽然能提供高质量的新视角合成,但会无意中编码精细场景细节,在云服务部署时存在隐私泄露风险。
  • Method: 提出ppNeRF方法,使用分割监督而非RGB图像训练NeRF变体,分割标签通过自监督学习获得,既能模糊可识别场景细节又保持3D判别性。
  • Result: ppNeSF在视觉定位任务中取得了最先进的结果,同时有效保护了隐私。
  • Conclusion: 该方法成功解决了NeRF-based视觉定位中的隐私问题,为隐私保护的3D场景表示提供了有效解决方案。

[53] Enhancing Document VQA Models via Retrieval-Augmented Generation

Eric López,Artemis Llabrés,Ernest Valveny

Main category: cs.CV

TL;DR: 本文系统评估了在文档视觉问答中引入检索增强生成(RAG)的效果,发现基于文本和视觉的检索方法都能显著提升多页文档问答性能,其中文本检索方法提升达22.5 ANLS。

  • Motivation: 现有的文档VQA系统要么拼接所有页面内容,要么依赖大型视觉语言模型,这两种方法都消耗大量内存。RAG提供了一种替代方案,先检索相关片段再生成答案,有望解决多页文档处理的效率问题。
  • Method: 通过两种检索变体进行评估:基于OCR令牌的文本检索和无需OCR的纯视觉检索。在MP-DocVQA、DUDE和InfographicVQA等多页数据集上进行实验,并分析检索、重排序和布局引导分块策略的效果。
  • Result: 文本中心变体比"拼接所有页面"基线提升达+22.5 ANLS,视觉变体无需文本提取也能实现+5.0 ANLS提升。消融实验证实检索和重排序组件是主要增益来源,而布局引导分块策略在这些数据集上无效。
  • Conclusion: 仔细的证据选择能够持续提升不同模型大小和多页基准测试的准确性,证明了RAG在真实世界文档VQA中的实用价值。

[54] Ask Me Again Differently: GRAS for Measuring Bias in Vision Language Models on Gender, Race, Age, and Skin Tone

Shaivi Malik,Hasnat Md Abdullah,Sriparna Saha,Amit Sheth

Main category: cs.CV

TL;DR: GRAS是一个用于评估视觉语言模型在性别、种族、年龄和肤色方面人口统计学偏见的基准测试,提出了可解释的GRAS偏见评分指标,发现当前最先进模型存在严重偏见问题。

  • Motivation: 随着视觉语言模型在现实应用中的广泛使用,理解其人口统计学偏见变得至关重要,需要系统性的评估框架来量化这些偏见。
  • Method: 提出了GRAS基准测试,涵盖性别、种族、年龄和肤色四个维度,并设计了GRAS偏见评分这一可解释的量化指标,对五个最先进的视觉语言模型进行了评估。
  • Result: 研究发现所有模型都存在严重的偏见问题,表现最好的模型GRAS偏见评分仅为2分(满分100分),同时发现评估视觉问答偏见时需要考虑问题的多种表述方式。
  • Conclusion: GRAS基准测试揭示了当前视觉语言模型存在显著的人口统计学偏见,强调了在模型评估中考虑多种问题表述的重要性,为偏见检测和缓解提供了重要工具。

[55] RoofSeg: An edge-aware transformer-based network for end-to-end roof plane segmentation

Siyuan You,Guozheng Xu,Pengwei Zhou,Qiwen Jin,Jian Yao,Li Li

Main category: cs.CV

TL;DR: 提出RoofSeg网络,基于Transformer编码器-解码器框架,通过可学习平面查询实现端到端的屋顶平面分割,并设计了边缘感知掩码模块和几何损失函数来提升边缘分割精度。

  • Motivation: 当前深度学习屋顶分割方法存在三个问题:非真正端到端导致结果非最优、边缘特征判别性低、平面几何特征约束不足。
  • Method: 使用Transformer编码器-解码器框架,引入可学习平面查询预测实例掩码;设计边缘感知掩码模块(EAMM)增强边缘判别性;提出自适应权重掩码损失和平面几何损失约束训练。
  • Result: 开发了RoofSeg网络,实现了真正端到端的屋顶平面分割,提升了边缘区域的准确性和整体分割精度。
  • Conclusion: RoofSeg通过Transformer架构和几何约束设计,有效解决了当前深度学习方法在屋顶分割中的三个关键问题,为LiDAR点云建筑重建提供了更优的解决方案。

[56] MicroDetect-Net (MDN): Leveraging Deep Learning to Detect Microplastics in Clam Blood, a Step Towards Human Blood Analysis

Riju Marwah,Riya Arora,Navneet Yadav,Himank Arora

Main category: cs.CV

TL;DR: 微塑料污染严重,MicroDetect-Net模型通过莖光显微镜和深度学习实现了血液样本中微塑料的高精度检测

  • Motivation: 微塑料污染已成为全球急诫问题,对人体健康造成肠道伤害、肝脏感染等多种健康风险,需要有效的检测方法
  • Method: 采用MicroDetect-Net模型,结合Nile Red染料染色和莖光显微镜技术,通过卷积神经网络进行图像分割和微塑料定位计数
  • Result: 在276张莖光血液图像数据集上达到92%准确率,IoU 87.4%,F1分数92.1%,精度90.6%,召回率93.7%
  • Conclusion: MDN模型在微塑料检测中表现优异,为人类血液样本的微塑料监测开启了新方向

[57] ProPy: Building Interactive Prompt Pyramids upon CLIP for Partially Relevant Video Retrieval

Yi Pan,Yujia Zhang,Michael Kampffmeyer,Xiaoguang Zhao

Main category: cs.CV

TL;DR: ProPy是一个基于CLIP的模型,通过提示金字塔结构和祖先-后代交互机制,在部分相关视频检索任务中实现了最先进的性能。

  • Motivation: 现有PRVR方法主要处理单模态特征,而强大的预训练视觉-语言模型如CLIP在该领域尚未充分探索。需要专门为PRVR任务设计CLIP的架构适配。
  • Method: 提出ProPy模型,包含两个关键创新:1) 提示金字塔结构,组织事件提示以捕获多粒度语义;2) 祖先-后代交互机制,实现事件间的动态语义交互。
  • Result: 在三个公开数据集上达到SOTA性能,显著超越先前模型。
  • Conclusion: ProPy通过系统性的CLIP架构适配,成功解决了PRVR任务中的多粒度语义捕获问题,证明了预训练视觉-语言模型在该领域的巨大潜力。

[58] GReAT: leveraging geometric artery data to improve wall shear stress assessment

Julian Suk,Jolanda J. Wentzel,Patryk Rygiel,Joost Daemen,Daniel Rueckert,Jelmer M. Wolterink

Main category: cs.CV

TL;DR: 利用大规模几何血管模型数据集(8449个形状)进行自监督预训练,提升冠状动脉壁剪切应力评估的准确性,即使在有限临床数据(49名患者)下也能改善分割性能

  • Motivation: 医疗大数据在心血管健康领域应用前景广阔,但获取足够数据训练机器学习模型评估血流动力学生物标志物(如壁剪切应力)极具挑战。冠状动脉领域尚未充分研究如何利用学习表示来改进血流动力学评估
  • Method: 使用8449个3D血管几何模型数据集,通过计算热核签名(基于拉普拉斯特征向量)创建自监督目标,学习几何表示,用于提升冠状动脉壁剪切应力区域分割
  • Result: 研究表明从大规模几何数据集中学习的表示能够显著提升冠状动脉壁剪切应力区域(低、中、高时间平均壁剪切应力)的分割性能,即使在有限临床数据条件下
  • Conclusion: 自监督预训练和基础模型可以有效解决医疗数据稀缺问题,几何表示学习为冠状动脉血流动力学评估提供了有前景的解决方案,即使在数据有限的情况下也能取得良好效果

[59] No Label Left Behind: A Unified Surface Defect Detection Model for all Supervision Regimes

Blaž Rolih,Matic Fučka,Danijel Skočaj

Main category: cs.CV

TL;DR: SuperSimpleNet是一个高效、自适应的表面缺陷检测模型,能够在无监督、弱监督、混合监督和全监督四种场景下统一训练,在多个基准数据集上达到最优性能,推理时间低于10毫秒。

  • Motivation: 现有表面缺陷检测方法难以满足工业对高性能、高效率和适应性的需求,特别是在处理不同监督场景(无监督、弱监督、混合监督、全监督)时缺乏统一解决方案。
  • Method: 基于SimpleNet构建,引入新颖的合成异常生成过程、增强的分类头和改进的学习过程,能够在所有四种监督场景下高效训练。
  • Result: 在四个具有挑战性的基准数据集上均达到最优性能,推理时间低于10毫秒,是首个能够充分利用所有可用数据标注的模型。
  • Conclusion: SuperSimpleNet通过统一不同监督范式,在保持出色速度和可靠性的同时,为解决实际制造挑战和弥合学术研究与工业应用之间的差距迈出了重要一步。

[60] Learning Binary Sampling Patterns for Single-Pixel Imaging using Bilevel Optimisation

Serban C. Tudosie,Alexander Denker,Zeljko Kereta,Simon Arridge

Main category: cs.CV

TL;DR: 提出了一种双层优化方法,用于学习任务特定的二进制照明模式,在单像素荧光显微镜等应用中实现了优于基线方法的重建性能,特别是在高度欠采样情况下。

  • Motivation: 单像素成像通过结构化光模式顺序照明实现单探测器物体重建,但需要优化任务特定的二进制照明模式以提高重建性能。
  • Method: 使用直通估计器解决二进制模式优化的不可微问题,并在双层公式中利用总深度变化正则化器来学习任务特定的二进制照明模式。
  • Result: 在CytoImageNet显微镜数据集上验证,学习到的模式相比基线方法实现了更优的重建性能,特别是在高度欠采样情况下表现突出。
  • Conclusion: 该方法为单像素成像提供了一种有效的任务特定二进制照明模式优化方案,在荧光显微镜等应用中具有重要价值。

[61] VibES: Induced Vibration for Persistent Event-Based Sensing

Vincenzo Polizzi,Stephen Yang,Quentin Clark,Jonathan Kelly,Igor Gilitschenski,David B. Lindell

Main category: cs.CV

TL;DR: 通过旋转不平衡质量产生周期性震动,解决固定照明和低运动场景中事件盘无法产生事件的问题,并通过运动补偿流水线提供干净的事件数据。

  • Motivation: 固定照明条件下,静止或低运动场景中,事件盘无法产生任何事件,影响计算机视觉任务的执行。现有的运动激发方法多需要复杂硬件或额外光学组件。
  • Method: 采用简单的旋转不平衡质量产生周期性震动,结合运动补偿流水线去除注入的震动,生成干净的运动筛正后事件数据。构建硬件原型并在真实数据集上评估。
  • Result: 方法可靠地恢复了运动参数,在图像重建和边缘检测任务上都显著提升了性能,超过了没有运动激发的事件基础感知。
  • Conclusion: 该轻量级方法通过简单的震动机制有效解决了事件盘在静态场景中的问题,为下游感知任务提供了更好的事件数据质量。

[62] Few-Shot Connectivity-Aware Text Line Segmentation in Historical Documents

Rafael Sterzinger,Tingyu Lin,Robert Sablatnig

Main category: cs.CV

TL;DR: 这篇论文提出了一种量轻的几次学习方法,通过结合UNet++网络和拓扑学感知损失函数,在仅需3个注释页面的数据上实现了历史文档文本行分割的高精度自动化。

  • Motivation: 历史文档的文本行分割需要大量注释数据,但注释过程劳动密集且需要专业知识,因此需要小样本学习方法来降低数据需求。
  • Method: 采用轻量UNet++网络结构,结合专为神经形态设计的连通性感知损失函数,明确惩罚线段碎片化和错误合并等结构错误。从每个手稿仅提取3个注释页面中提取小表射片进行训练。
  • Result: 在U-DIADS-TL数据集上识别准确度提高了200%,行交叉比提高了75%,在DIVA-HisDB基准测试中F-Measure分数超过或平等竞赛冠军,仅需3个注释页面的数据要求。
  • Conclusion: 小而简单的网络结构结合拓扑学感知损失函数,能够在极少的注释数据下实现更高的数据效率和准确性,为历史文档数字化分析提供了高效的解决方案。

[63] Dual Enhancement on 3D Vision-Language Perception for Monocular 3D Visual Grounding

Yuzhen Li,Min Liu,Yuan Bian,Xueping Wang,Zhaoyang Li,Gen Li,Yaonan Wang

Main category: cs.CV

TL;DR: 本文针对单目3D视觉定位任务中文本嵌入对数值单位敏感的问题,提出了两种增强方法:3D文本增强(3DTE)和文本引导几何增强(TGE),在Mono3DRefer数据集上取得了显著提升。

  • Motivation: 发现文本嵌入对数值大小敏感但忽略测量单位,导致预训练语言模型3D理解能力弱,产生误导性文本特征阻碍3D感知。
  • Method: 提出3DTE方法通过增强距离描述符多样性来改善单位映射关系理解;设计TGE模块将文本特征投影到几何一致空间,用3D增强文本特征精确引导几何特征注意力。
  • Result: 在Mono3DRefer数据集上大幅超越先前方法,在"Far"场景中获得11.94%的显著准确率提升,达到新的最先进水平。
  • Conclusion: 通过增强文本嵌入的3D感知能力和几何特征,有效解决了数值单位敏感问题,显著提升了单目3D视觉定位性能。

[64] Beyond flattening: a geometrically principled positional encoding for vision transformers with Weierstrass elliptic functions

Zhihang Xin,Xitong Hu,Rui Wang

Main category: cs.CV

TL;DR: 提出WEF-PE位置编码方法,利用椭圆函数的双周期特性直接处理二维坐标,解决了传统位置编码破坏图像空间结构的问题,在多个视觉任务上取得优异性能

  • Motivation: 传统的位置编码方法缺乏几何约束,无法建立欧几里得空间距离与序列索引距离之间的单调对应关系,限制了模型利用空间邻近先验的能力
  • Method: 基于Weierstrass椭圆函数的位置编码(WEF-PE),通过复数域表示直接处理二维坐标,利用椭圆函数的双周期特性与视觉数据的平移不变性模式对齐,通过代数加法公式从绝对编码直接推导相对位置信息
  • Result: 在ViT-Tiny架构上CIFAR-100从头训练达到63.78%准确率,ViT-Base微调达到93.28%,在VTAB-1k基准任务上持续改进,理论分析证实了距离衰减特性
  • Conclusion: WEF-PE通过数学原理性的方法有效编码空间距离关系,增强了几何归纳偏置和语义聚焦一致性,为视觉Transformer提供了更优的位置编码方案

[65] SoccerNet 2025 Challenges Results

Silvio Giancola,Anthony Cioppa,Marc Gutiérrez-Pérez,Jan Held,Carlos Hinojosa,Victor Joos,Arnaud Leduc,Floriane Magera,Karen Sanchez,Vladimir Somers,Artur Xarles,Antonio Agudo,Alexandre Alahi,Olivier Barnich,Albert Clapés,Christophe De Vleeschouwer,Sergio Escalera,Bernard Ghanem,Thomas B. Moeslund,Marc Van Droogenbroeck,Tomoki Abe,Saad Alotaibi,Faisal Altawijri,Steven Araujo,Xiang Bai,Xiaoyang Bi,Jiawang Cao,Vanyi Chao,Kamil Czarnogórski,Fabian Deuser,Mingyang Du,Tianrui Feng,Patrick Frenzel,Mirco Fuchs,Jorge García,Konrad Habel,Takaya Hashiguchi,Sadao Hirose,Xinting Hu,Yewon Hwang,Ririko Inoue,Riku Itsuji,Kazuto Iwai,Hongwei Ji,Yangguang Ji,Licheng Jiao,Yuto Kageyama,Yuta Kamikawa,Yuuki Kanasugi,Hyungjung Kim,Jinwook Kim,Takuya Kurihara,Bozheng Li,Lingling Li,Xian Li,Youxing Lian,Dingkang Liang,Hongkai Lin,Jiadong Lin,Jian Liu,Liang Liu,Shuaikun Liu,Zhaohong Liu,Yi Lu,Federico Méndez,Huadong Ma,Wenping Ma,Jacek Maksymiuk,Henry Mantilla,Ismail Mathkour,Daniel Matthes,Ayaha Motomochi,Amrulloh Robbani Muhammad,Haruto Nakayama,Joohyung Oh,Yin May Oo,Marcelo Ortega,Norbert Oswald,Rintaro Otsubo,Fabian Perez,Mengshi Qi,Cristian Rey,Abel Reyes-Angulo,Oliver Rose,Hoover Rueda-Chacón,Hideo Saito,Jose Sarmiento,Kanta Sawafuji,Atom Scott,Xi Shen,Pragyan Shrestha,Jae-Young Sim,Long Sun,Yuyang Sun,Tomohiro Suzuki,Licheng Tang,Masato Tonouchi,Ikuma Uchida,Henry O. Velesaca,Tiancheng Wang,Rio Watanabe,Jay Wu,Yongliang Wu,Shunzo Yamagishi,Di Yang,Xu Yang,Yuxin Yang,Hao Ye,Xinyu Ye,Calvin Yeung,Xuanlong Yu,Chao Zhang,Dingyuan Zhang,Kexing Zhang,Zhe Zhao,Xin Zhou,Wenbo Zhu,Julian Ziegler

Main category: cs.CV

TL;DR: SoccerNet 2025挑战赛是第五届年度足球视频理解基准测试,包含四个计算机视觉任务:团队球动作检测、单目深度估计、多视角犯规识别和游戏状态重建,旨在推动足球视频分析研究发展。

  • Motivation: 推动计算机视觉在足球视频理解领域的研究进展,通过标准化基准测试促进可重复的开放研究,为研究者提供大规模标注数据集和统一评估协议。
  • Method: 提供四个视觉任务的大规模标注数据集、统一评估协议和强基线模型:1)团队球动作检测 2)单目深度估计 3)多视角犯规识别 4)游戏状态重建。参与者基于这些资源开发解决方案。
  • Result: 报告呈现了每个挑战的结果,突出了表现最佳的解决方案,并提供了社区进展的深入分析。挑战赛持续推动计算机视觉、人工智能和体育交叉领域的可重复开放研究。
  • Conclusion: SoccerNet挑战赛成功促进了足球视频理解研究的发展,通过标准化基准和开放资源为社区提供了重要的研究平台,推动了计算机视觉在体育分析中的应用进步。

[66] FastMesh:Efficient Artistic Mesh Generation via Component Decoupling

Jeonghwan Kim,Yushi Lan,Armando Fortes,Yongwei Chen,Xingang Pan

Main category: cs.CV

TL;DR: 通过分离生成顶点和面片,减少重复标记,实现了更高效的网格生成速度和质量

  • Motivation: 现有网格生成方法存在顶点重复使用问题,导致标记序列过长和生成效率低下
  • Method: 使用自回归模型生成顶点,然后用双向Transformer捕捆顶点关系并构建邻接矩阵来完成面片,添加保真增强器和后处理框架
  • Result: 生成速度提升8倍以上,标记数量减少到现有方法的23%,产生更高质量网格
  • Conclusion: 分离顶点和面片生成的框架能够显著提高网格生成效率和质量,为艺术网格生成提供了有效解决方案

[67] All-in-One Slider for Attribute Manipulation in Diffusion Models

Weixin Ye,Hongguang Zhu,Wei Wang,Yahui Liu,Mengyu Wang

Main category: cs.CV

TL;DR: 提出All-in-One Slider方法,通过分解文本嵌入空间为稀疏语义属性方向,实现单一轻量模块对多种属性的精细控制,支持零样本新属性操作和多属性组合

  • Motivation: 现有T2I扩散模型在渐进式属性操控方面存在挑战,特别是针对人脸等细节丰富的内容。传统方法需要为每个属性训练独立滑块模块,导致参数冗余且缺乏灵活性
  • Method: 训练轻量级模块将文本嵌入空间分解为稀疏的语义属性方向,形成通用滑块,支持连续精细控制、零样本新属性操作和多属性组合
  • Result: 实验表明该方法实现了准确且可扩展的属性操控,相比之前方法有显著改进,并能与反演框架结合处理真实图像
  • Conclusion: All-in-One Slider解决了传统One-for-One方法的局限性,提供了更灵活、可扩展的属性操控方案,适用于各种实际场景

[68] LSD-3D: Large-Scale 3D Driving Scene Generation with Geometry Grounding

Julian Ost,Andrea Ramazzina,Amogh Joshi,Maximilian Bömer,Mario Bijelic,Felix Heide

Main category: cs.CV

TL;DR: 通过结合代理几何生成和2D图像先验矩阵的方法,直接生成具有准确几何和因果关系的大规模3D驾驶场景,充分支持控制性和几何一致性。

  • Motivation: 现有神经重建方法受限于静态环境和抓取数据,而图像或视频涵泵模型缺乏几何基础和因果关系,需要找到一种方法来给合这两者的优点。
  • Method: 结合代理几何生成和环境表示,使用学习到的2D图像先验进行分数蓄粉,支持提示指导的几何生成和高保真纹理结构。
  • Result: 能够生成现实而且几何一致的复杂驾驶场景3D模型,支持因果新视角合成和显式3D几何估计。
  • Conclusion: 该方法成功垩接了神经重建与涵泵生成模型之间的间隔,提供了高可控性和几何基础的大规模3D场景生成能力。

[69] OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation

Jianwen Jiang,Weihong Zeng,Zerong Zheng,Jiaqi Yang,Chao Liang,Wang Liao,Han Liang,Yuan Zhang,Mingyuan Gao

Main category: cs.CV

TL;DR: OmniHuman-1.5是一个视频角色动画生成框架,通过多模态大语言模型提供高级语义指导,结合专门的Multimodal DiT架构,生成既物理合理又语义连贯的富有表现力的角色动画。

  • Motivation: 现有视频角色模型只能产生物理相似的动作,但缺乏对情感、意图和上下文的深层语义理解,通常只与音频节奏等低级线索同步。
  • Method: 1) 利用多模态大语言模型合成结构化文本表示提供高级语义指导;2) 引入带有Pseudo Last Frame设计的专门Multimodal DiT架构,有效融合多模态输入并缓解模态间冲突。
  • Result: 在唇形同步准确性、视频质量、运动自然度和文本提示语义一致性等综合指标上达到领先性能,并在多人场景和非人类主体等复杂场景中展现出卓越的可扩展性。
  • Conclusion: 该框架能够准确理解音频、图像和文本的联合语义,生成与角色、场景和语言内容深度一致的动作,超越了简单的节奏同步,实现了语义连贯且富有表现力的角色动画生成。

[70] Automated Feature Tracking for Real-Time Kinematic Analysis and Shape Estimation of Carbon Nanotube Growth

Kaveh Safavigerdini,Ramakrishna Surya,Jaired Collins,Prasad Calyam,Filiz Bunyak,Matthew R. Maschmann,Kannappan Palaniappan

Main category: cs.CV

TL;DR: VFTrack是一个实时原位粒子追踪框架,用于自动检测和跟踪SEM图像序列中的碳纳米管粒子,解决了纳米尺度运动测量的实验挑战。

  • Motivation: 碳纳米管是纳米技术的关键构建块,但其动态生长表征受到扫描电子显微镜成像中纳米尺度运动测量实验挑战的限制。现有方法只能提供静态分析,而原位技术通常需要手动初始化且缺乏连续的逐粒子轨迹分解。
  • Method: VFTrack集成了手工制作或深度特征检测器和匹配器,在粒子追踪框架内实现碳纳米管微柱生长的运动学分析。通过13,540个手动注释轨迹的系统性测试,确定了ALIKED检测器与LightGlue匹配器的最佳组合。
  • Result: 最佳组合达到F1分数0.78和α分数0.89。VFTrack运动向量可分解为轴向生长、横向漂移和振荡,有助于计算异质区域生长速率和重建演化的碳纳米管柱形态。
  • Conclusion: 这项工作推动了自动化纳米材料表征的进步,弥合了基于物理的模型与实验观察之间的差距,实现了碳纳米管合成的实时优化。

[71] Autoregressive Universal Video Segmentation Model

Miran Heo,Sukjun Hwang,Min-Hung Chen,Yu-Chiang Frank Wang,Albert Gu,Seon Joo Kim,Ryo Hachiuma

Main category: cs.CV

TL;DR: AUSM是一个基于状态空间模型的自回归通用分割模型,统一了提示和无提示视频分割,支持任意长度视频流,训练速度提升2.5倍,在多个基准测试中表现优异。

  • Motivation: 现有的视频分割方法在处理无提示分割(检测和跟踪视频中所有对象)时存在碎片化问题,需要任务特定的模型和流水线,缺乏统一的解决方案。
  • Method: 将流式视频分割重新构建为序列掩码预测问题,类似于语言建模。基于状态空间模型构建AUSM,维护固定大小的空间状态,支持任意长度视频流,所有组件都设计为跨帧并行训练。
  • Result: 在DAVIS17、YouTube-VOS、MOSE、YouTube-VIS和OVIS等标准基准测试中,AUSM优于先前的通用流式视频分割方法,在16帧序列上实现高达2.5倍的训练加速。
  • Conclusion: AUSM成功统一了提示和无提示视频分割任务,通过自回归序列建模方法实现了优异的性能和显著的训练效率提升,为视频分割提供了统一的解决方案。

[72] Style4D-Bench: A Benchmark Suite for 4D Stylization

Beiqi Chen,Shuai Shao,Haitang Feng,Jianhuang Lai,Jianlou Si,Guangcong Wang

Main category: cs.CV

TL;DR: Style4D-Bench是首个专门针对4D风格化的基准测试套件,包含评估协议、强基线方法和高质量4D场景数据集。提出的Style4D框架基于4D高斯泼溅技术,在时空一致性和多视角渲染方面达到最先进性能。

  • Motivation: 4D风格化是一个新兴领域,但缺乏标准化的评估基准和方法,阻碍了该领域的发展。需要建立统一的评估标准和强基线方法来推动研究进展。
  • Method: 基于4D高斯泼溅技术构建Style4D框架,包含三个关键组件:基础4DGS场景表示、风格高斯表示(使用轻量级MLP进行时空感知外观控制)、以及保持几何完整性的风格迁移模块(通过对比一致性学习和结构内容保持)。
  • Result: 在Style4D-Bench上的广泛实验表明,Style4D在4D风格化方面实现了最先进的性能,能够生成细粒度的风格化细节,具有稳定的时间动态和一致的多视角渲染效果。
  • Conclusion: Style4D-Bench将成为动态3D场景风格化渲染研究中宝贵的基准测试资源,有助于推动该领域的进一步发展。

[73] Articulate3D: Zero-Shot Text-Driven 3D Object Posing

Oishi Deb,Anjun Hu,Ashkan Khakzar,Philip Torr,Christian Rupprecht

Main category: cs.CV

TL;DR: Articulate3D是一种无需训练的方法,通过语言控制来调整3D资产的姿态。该方法使用改进的图像生成器创建目标图像,并通过多视角姿态优化将网格与目标图像对齐。

  • Motivation: 尽管视觉和语言模型有所进展,但通过语言控制来调整3D资产姿态的任务仍然具有挑战性。需要一种能够保持网格原始身份的同时实现自由形式文本提示控制的方法。
  • Method: 将问题分解为两个步骤:1)使用自注意力重连机制(RSActrl)改进图像生成器,在保持结构一致性的同时生成不同姿态的目标图像;2)通过关键点建立输入图像与目标图像之间的对应关系,进行多视角姿态优化,而不是使用可微分渲染。
  • Result: 该方法在多种3D对象和自由形式文本提示上表现出色,成功操纵姿态的同时保持网格的原始身份。定量评估和用户研究表明,该方法在85%的情况下优于现有方法。
  • Conclusion: Articulate3D提供了一种有效的训练自由方法,通过语言控制实现3D资产的姿态调整,在保持身份一致性和处理自由形式文本提示方面表现出优越性能。

[74] VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space

Lin Li,Zehuan Huang,Haoran Feng,Gengxiong Zhuang,Rui Chen,Chunchao Guo,Lu Sheng

Main category: cs.CV

TL;DR: VoxHammer是一种无需训练的方法,通过在3D潜在空间中执行精确编辑,解决了现有方法在保持未编辑区域一致性和整体连贯性方面的挑战。

  • Motivation: 3D局部编辑在游戏产业和机器人交互中至关重要,但现有方法通过编辑多视角图像再重建3D模型,难以精确保持未编辑区域和整体连贯性。
  • Method: 首先预测3D模型的反转轨迹,获取各时间步的反向潜在表示和键值令牌;在去噪编辑阶段,用对应的反向潜在表示和缓存的键值令牌替换保留区域的去噪特征。
  • Result: 实验证明VoxHammer在保留区域的3D一致性和整体质量方面显著优于现有方法,并构建了Edit3D-Bench评估数据集。
  • Conclusion: 该方法有望合成高质量的编辑配对数据,为上下文3D生成奠定数据基础。

q-bio.NC

[75] Time Series Analysis of Spiking Neural Systems via Transfer Entropy and Directed Persistent Homology

Dylan Peek,Siddharth Pritam,Matthew P. Skerritt,Stephan Chalup

Main category: q-bio.NC

TL;DR: 提出了一种结合传递熵和定向持久同调学的拓扑框架,用于分析神经时间序列中的信息流,能够揭示复杂或噪声条件下超越成对连接的高维交互模式。

  • Motivation: 传统方法主要关注成对神经元连接,难以捕捉神经系统中复杂的高维信息流模式。需要一种能够整合方向性信息量化与多尺度拓扑分析的综合框架来表征神经系统的全局组织结构。
  • Method: 使用传递熵(TE)量化神经元间的方向性影响,生成加权有向图;然后应用定向持久同调学(PH)分析这些图的多尺度拓扑结构,评估不同维度和结构尺度上的拓扑复杂性。
  • Result: 在逻辑门任务合成网络、图像分类网络以及小鼠皮层记录数据中,该方法成功区分了任务复杂度、刺激结构和行为状态。复杂或噪声条件下高维特征更加显著,反映了超越成对连接性的交互模式。
  • Conclusion: 该TE+PH框架提供了一种原则性方法,将有向信息流映射到人工和生物神经系统的全局组织模式上,具有通用性和可解释性,特别适用于时间分辨的二进制脉冲数据。

cs.LG

[76] Uncertainty Awareness on Unsupervised Domain Adaptation for Time Series Data

Weide Liu,Xiaoyang Zhong,Lu Wang,Jingwen Hou,Yuemei Luo,Jiebin Yan,Yuming Fang

Main category: cs.LG

TL;DR: 提出结合多尺度特征提取和不确定性估计的无监督域自适应方法,用于时间序列数据,通过混合输入架构和证据学习机制提升跨域泛化能力和鲁棒性。

  • Motivation: 解决时间序列数据中训练和测试数据集之间分布偏移的挑战,提高模型在未标记测试数据上的泛化效果。
  • Method: 采用多尺度混合输入架构捕获不同尺度特征,减少域间特征差异;基于证据学习引入不确定性感知机制,通过狄利克雷先验进行目标预测和不确定性估计。
  • Result: 在多个基准数据集上达到最先进性能,目标域性能显著提升,预期校准误差(ECE)大幅降低,表明预测置信度校准更好。
  • Conclusion: 混合输入架构与不确定性感知机制相结合的方法在时间序列无监督域自适应中非常有效,能够显著提升跨域泛化能力和模型鲁棒性。

[77] Natural Image Classification via Quasi-Cyclic Graph Ensembles and Random-Bond Ising Models at the Nishimori Temperature

V. S. Usatyuk,D. A. Sapoznikov,S. I. Egorov

Main category: cs.LG

TL;DR: 统一框架结合统计物理、编码理论和代数拓扑学,通过在Nishimori温度下运行随机铁灵模型来实现高效多类图像分类。在大幅压缩特征维度的情况下仍获得独创性能。

  • Motivation: 提出一种新的方法,将高维特征向量解释为稀疏图上的磁旋,通过统计物理和拓扑学引导的图设计来实现高效的特征压缩和分类。
  • Method: 使用冻结的MobileNetV2背链提取高维特征,将其模型化为随机铁灵模型。在Nishimori温度下运行,通过二次插值和牛顿策定法高效估计温度。设计球面和周面图集合来压制有害损头。
  • Result: 在ImageNet-10上达到98.7%的准确率,在ImageNet-100上达到82.7%的准确率,将1280维特征压缩到32-64维,参数量减少40倍。
  • Conclusion: 拓扑学引导的图设计能够产生高效的物理受鼓嵌入表达,在大幅压缩情况下仍能达到领先的性能。

[78] SWiFT: Soft-Mask Weight Fine-tuning for Bias Mitigation

Junyu Yan,Feng Chen,Yuyang Xue,Yuning Du,Konstantinos Vilouras,Sotirios A. Tsaftaris,Steven McDonagh

Main category: cs.LG

TL;DR: SWiFT是一种高效的机器学习模型去偏框架,通过软掩码权重微调技术,只需少量外部数据和少量训练轮次即可在保持模型性能的同时显著提升公平性。

  • Motivation: 现有去偏方法需要原始训练数据和大量重新训练,且在公平性和模型性能之间存在权衡。医疗等敏感领域需要更高效的去偏解决方案。
  • Method: 首先识别模型参数对偏见和预测性能的相对贡献,然后通过两步微调过程,根据不同贡献度定义不同的梯度流来更新每个参数。
  • Result: 在四个皮肤病和两个胸部X光数据集上的实验表明,SWiFT能持续减少模型偏见,在公平性和准确性指标上达到或超越最先进方法,并在分布外数据集上表现出更好的泛化能力。
  • Conclusion: SWiFT提供了一种高效、低成本且有效的模型去偏解决方案,特别适用于医疗等敏感领域,在保持诊断准确性的同时显著提升模型公平性。

[79] C-Flat++: Towards a More Efficient and Powerful Framework for Continual Learning

Wei Li,Hangjie Yuan,Zixiang Zhao,Yifan Zhu,Aojun Lu,Tao Feng,Yanan Sun

Main category: cs.LG

TL;DR: C-Flat是一种针对持续学习的平坦化方法,通过促进更平坦的损失景观来提高模型性能,并提供了C-Flat++高效框架来降低计算成本。

  • Motivation: 在持续学习中,平衡新任务敏感性和过去知识稳定性至关重要。现有方法依赖零阶锐度可能在某些情况下偏好更尖锐的最小值,导致解决方案不够鲁棒和次优。
  • Method: 提出C-Flat方法,专门为持续学习设计以促进更平坦的损失景观。该方法具有即插即用兼容性,可轻松集成到现有代码流程中。还提出了C-Flat++框架,利用选择性平坦化驱动提升来显著降低更新成本。
  • Result: 实验表明C-Flat在各种设置下都能持续提升性能,C-Flat++在多个持续学习方法、数据集和场景中都表现出有效性和高效性。
  • Conclusion: C-Flat和C-Flat++为持续学习提供了有效的平坦化解决方案,能够改善模型鲁棒性和性能,同时保持计算效率。

cs.CL

[80] The Mind's Eye: A Multi-Faceted Reward Framework for Guiding Visual Metaphor Generation

Girish A. Koushik,Fatemeh Nazarieh,Katherine Birch,Shenbin Qian,Diptesh Kanojia

Main category: cs.CL

TL;DR: 提出了一种自评估视觉隐喻生成框架,通过隐喻分解和意义对齐指标,结合训练无关和训练相关两种方法,在隐喻对齐方面取得了良好效果。

  • Motivation: 视觉隐喻生成需要同时理解语言含义并保持视觉连贯性,现有方法在隐喻对齐方面存在挑战,需要更好的评估和生成框架。
  • Method: 提出自评估框架,包含隐喻分解分数和意义对齐指标。开发两种方法:训练无关的S-T-M映射分解管道,以及基于自评估奖励的训练相关管道。
  • Result: 训练无关方法在分解、CLIP和MA分数上超越GPT-4o和Imagen等强基线,用户研究显示GPT-4o整体更受欢迎,但开源方法在抽象隐喻上表现更好。
  • Conclusion: 结构化提示和轻量级强化学习在有限计算资源下能有效进行隐喻对齐,与人类偏好的差距主要来自美学和采样因素。

cs.HC

[81] Impact of Target and Tool Visualization on Depth Perception and Usability in Optical See-Through AR

Yue Yang,Xue Xie,Xinkai Wang,Hui Zhang,Chiming Yu,Xiaoxian Xiong,Lifeng Zhu,Yuanyi Zheng,Jue Cen,Bruce Daniel,Fred Baik

Main category: cs.HC

TL;DR: 通过对比不同透明度和工具可视化方式的评估,研究发现在OST-AR系统中,不透明虚拟目标和实时遮捏处理对深度感知和精度至关重要

  • Motivation: 解决光学透视增强现实系统中虚拟全息深度感知和实际工具遮捏问题,提高手术等臂长度指导任务的准确性
  • Method: 在HoloLens 2上进行两个实验:实验1比较不同透明度目标渲染在深度匹配任务中的表现;实验2在6种可视化条件下进行手术针点任务,收集深度错误、定位错误、系统易用性等数据
  • Result: 不透明目标深度估计错误显著低于高透明度目标;显示实际工具(遮捏虚拟目标)获得最高准确性和易用性,任务负荷最低;不跟踪工具表现最差
  • Conclusion: 正确的遮捏线索、将虚拟内容渲染为不透明并被实际工具遮捏对深度感知和精度至关重要,设计者应优先考虑工具跟踪和遮捏处理

cs.RO

[82] Enhancing Video-Based Robot Failure Detection Using Task Knowledge

Santosh Thoduka,Sebastian Houben,Juergen Gall,Paul G. Plöger

Main category: cs.RO

TL;DR: 提出基于视频的机器人执行失败检测方法,利用动作信息和任务相关物体的时空知识,在三个数据集上验证有效性,并通过数据增强提升性能

  • Motivation: 现有失败检测方法在真实场景中性能不佳,需要可靠检测执行失败来触发安全操作模式、恢复策略或任务重规划
  • Method: 使用机器人执行的动作和视野内任务相关物体的时空知识,提出可变帧率的数据增强方法,部分数据集添加额外标注
  • Result: 在ARMBench数据集上F1分数从77.9提升到80.0,测试时增强后达到81.4,无需额外计算开销
  • Conclusion: 时空信息对失败检测至关重要,建议未来研究进一步探索合适的启发式方法

[83] Enhanced UAV Path Planning Using the Tangent Intersection Guidance (TIG) Algorithm

Hichem Cheriet,Khellat Kihel Badra,Chouraqui Samira

Main category: cs.RO

TL;DR: 提出Tangent Intersection Guidance (TIG)算法,用于无人机在静态和动态环境中的高效路径规划,通过椭圆切线交点方法生成可行路径,在时间和路径质量上优于现有算法。

  • Motivation: 无人机的高效安全导航对于作战支持、包裹递送和搜救行动等应用至关重要,需要能够在静态和动态环境中进行实时路径规划的先进算法。
  • Method: 使用椭圆切线交点方法生成可行路径,为每个威胁生成两条子路径,基于启发式规则选择最优路线,迭代优化路径直至到达目标。采用基于二次贝塞尔曲线的改进平滑技术考虑无人机运动学和动力学约束。
  • Result: 实验结果显示,TIG算法在静态环境中相比A*、PRM、RRT*等算法能以更短时间(从0.01秒开始)生成最短路径,且转弯角度更少。在未知和部分已知环境中,TIG展现出高效的实时避碰路径规划能力,优于APF和Dynamic APPATT算法。
  • Conclusion: TIG算法是一种高效的无人机路径规划方法,在静态和动态环境中都能快速生成高质量路径,具有优异的实时性能和避碰能力。

[84] ZeST: an LLM-based Zero-Shot Traversability Navigation for Unknown Environments

Shreya Gummadi,Mateus V. Gasparino,Gianluca Capezzuto,Marcelo Becker,Girish Chowdhary

Main category: cs.RO

TL;DR: ZeST利用大型语言模型的视觉推理能力,实现零样本地形可通行性预测,无需将机器人置于危险环境中收集数据,提供更安全的导航方案。

  • Motivation: 传统的地形可通行性预测方法需要将机器人置于危险环境中收集训练数据,存在设备损坏和安全风险。需要一种无需真实环境暴露的安全数据生成方法。
  • Method: 利用大型语言模型(LLMs)的视觉推理能力,实时生成地形可通行性地图,实现零样本可通行性预测,避免真实世界数据收集的风险。
  • Result: 在受控室内和非结构化室外环境中的导航实验表明,该方法相比其他最先进方法提供更安全的导航,能够持续到达最终目标。
  • Conclusion: ZeST方法为机器人导航系统开发提供了成本效益高、可扩展的解决方案,加速了先进导航系统的发展,同时显著降低了数据收集过程中的风险。

[85] MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation

Hao Shi,Bin Xie,Yingfei Liu,Lin Sun,Fengrong Liu,Tiancai Wang,Erjin Zhou,Haoqiang Fan,Xiangyu Zhang,Gao Huang

Main category: cs.RO

TL;DR: MemoryVLA是一个受人类记忆机制启发的机器人操作框架,通过工作记忆和长期记忆系统处理时序上下文,在长时程任务中显著优于现有方法

  • Motivation: 主流VLA模型忽视时序上下文,难以处理长时程、时序依赖的任务。受人类工作记忆和海马体系统的启发,需要设计能够有效处理时序信息的机器人操作框架
  • Method: 提出Cognition-Memory-Action框架:使用预训练VLM编码观测为感知和认知token形成工作记忆,建立感知-认知记忆库存储细节和语义信息,通过记忆检索和融合机制,结合记忆条件扩散动作专家生成时序感知的动作序列
  • Result: 在三个仿真测试套件上分别达到71.9%、72.7%和96.5%的成功率,均优于CogACT和pi-0基线方法,在Bridge任务上提升14.6%。在12个真实世界任务中达到84.0%成功率,长时程任务相比基线提升26%
  • Conclusion: MemoryVLA通过模拟人类记忆机制有效解决了机器人操作中的时序上下文问题,在仿真和真实环境中都表现出色,为长时程时序依赖任务提供了有效解决方案

cs.GR

[86] Controllable Single-shot Animation Blending with Temporal Conditioning

Eleni Tselepi,Spyridon Thermos,Gerasimos Potamianos

Main category: cs.GR

TL;DR: 首个单项目动作混合框架,通过时间条件化生成和骨架感知归一化机制,实现了无需多次训练的平滑、可控动作混合

  • Motivation: 现有单项目动作生成模型无法在单次生成过程中显式控制多个动作的混合,导致动画师需要多次进行数据处理和重新训练
  • Method: 提出时间条件化生成模型,使用骨架感知归一化机制来指导不同动作之间的过渡,实现数据驱动的混合控制
  • Result: 在多种动画风格和不同动力学骨架上进行了广泛定量和定性评估,证明方法能够产生合理、平滑且可控的动作混合效果
  • Conclusion: 该框架为动画师提供了一种统一、高效的方法来在单次生成过程中实现可控的动作混合,充分利用现有动作数据而无需额外训练

[87] SemLayoutDiff: Semantic Layout Generation with Diffusion Model for Indoor Scene Synthesis

Xiaohao Sun,Divyam Goel,Angle X. Chang

Main category: cs.GR

TL;DR: SemLayoutDiff是一个统一的3D室内场景合成模型,通过结合语义地图和对象属性的布局表示,使用分类扩散模型生成多样化的场景布局,并考虑建筑约束条件。

  • Motivation: 现有方法无法基于建筑约束条件进行场景合成,需要一种能够明确考虑房间掩模和建筑元素(如门窗)的3D场景生成方法。
  • Method: 提出结合自上而下语义地图和对象属性的场景布局表示,使用分类扩散模型生成语义地图,然后通过基于交叉注意力的网络预测家具摆放位置。
  • Result: 在3D-FRONT数据集上的实验表明,该方法能够生成空间一致、真实且多样化的场景,性能优于先前方法。
  • Conclusion: SemLayoutDiff提供了一个有效的统一框架,能够生成符合建筑约束的实用3D室内场景布局。

[88] PanoHair: Detailed Hair Strand Synthesis on Volumetric Heads

Shashikant Verma,Shanmuganathan Raman

Main category: cs.GR

TL;DR: PanoHair是一个生成式头发合成模型,通过知识蒸馏从预训练生成模型中学习,能够快速生成高质量3D头发几何体,无需复杂多视图采集设备。

  • Motivation: 现有头发合成方法需要复杂的多视图图像采集设备,且头发体积估计和发丝合成时间较长,效率低下。需要一种更高效的头发合成解决方案。
  • Method: 使用知识蒸馏从预训练生成教师模型中学习,估计头部几何体为符号距离场,预测头发区域的语义分割掩码和3D方向,支持潜在空间操作生成多样化发型。
  • Result: PanoHair能在5秒内生成干净的头发区域流形网格,以及语义和方向图,相比现有方法有显著改进。
  • Conclusion: PanoHair提供了一种简化的头发合成方法,避免了复杂的多视图数据采集设置,实现了快速高质量的头发几何体生成。

[89] A Bag of Tricks for Efficient Implicit Neural Point Clouds

Florian Hahlbohm,Linus Franke,Leon Overkämping,Paula Wespe,Susana Castillo,Martin Eisemann,Marcus Magnor

Main category: cs.GR

TL;DR: 本文针对INPC表示提出了多项优化技术,包括改进的光栅化器实现、更有效的采样技术、CNN预训练以及高斯点建模,显著提升了训练和推理性能而不损失视觉质量。

  • Motivation: INPC结合了神经场的表达能力和点云渲染的效率,在新视角合成中达到最先进的图像质量,但其渲染速度较慢限制了实际应用。
  • Method: 提出改进的光栅化器实现、更有效的采样技术、用于空洞填充的CNN预训练,以及在推理时将点建模为小高斯分布来提升外推视图质量。
  • Result: 优化后的INPC管道实现了高达25%的训练加速、2倍的渲染加速、20%的VRAM使用减少,同时图像质量还有轻微提升。
  • Conclusion: 这些优化技术不仅适用于INPC,还具有广泛的适用性,系统性地提升了神经点云表示的实用性和效率。

eess.IV

[90] Federative ischemic stroke segmentation as alternative to overcome domain-shift multi-institution challenges

Edgar Rangel,Fabio Martinez

Main category: eess.IV

TL;DR: 这篇论文提出了一种协作式框架,通过分享深度学习的中心独立表征来分割缷血性脑梗死痕迹,解决了单一机构模型缺乏变化性和临床中心标签数据不足的问题。

  • Motivation: 缷血性脑梗死是全球第二大死因和第三大殚症原因,但痕迹分析存在巨大变异性。现有计算方法仅从单一机构学习,缺乏一般化能力,且许多临床中心缺乏足够标签数据来调整这些专用解决方案。
  • Method: 开发了一种协作框架,通过分享深度中心独立表征来分割DWI序列中的缷血性脑梗死痕迹。基于14个模拟健康中心的2031份研究,采用FedAvg模型进行协作学习。
  • Result: FedAvg模型在所有中心获得了DSC为0.71±0.24,AVD为5.29±22.74,ALD为2.16±3.60,LF1为0.70±0.26的结果,超过了集中式和其他协作规则。模型显示了强大的泛化性能,在不同痕迹类别上表现均匀,并在分布外中心也保持可靠性能。
  • Conclusion: 该协作框架成功地解决了缷血性脑梗死痕迹分割中的数据变异性和标签数据缺乏问题,通过分享深度中心独立表征实现了超过传统方法的性能,为多中心协作医学图像分析提供了有效解决方案。

[91] Analise de Desaprendizado de Maquina em Modelos de Classificacao de Imagens Medicas

Andreza M. C. Falcao,Filipe R. Cordeiro

Main category: eess.IV

TL;DR: 评估SalUn遗忘模型在医学图像分类中的表现,在三个医学数据集上进行实验,分析数据增强对遗忘质量的影响,结果显示性能接近完全重新训练

  • Motivation: 机器遗忘技术旨在从预训练模型中移除私有或敏感数据同时保持模型鲁棒性,但该技术尚未在医学图像分类领域得到探索
  • Method: 在PathMNIST、OrganAMNIST和BloodMNIST数据集上评估SalUn遗忘模型,分析数据增强对遗忘质量的影响
  • Result: SalUn实现了接近完全重新训练的性能
  • Conclusion: SalUn为医学应用提供了一种高效的解决方案

[92] A Deep Learning Application for Psoriasis Detection

Anna Milani,Fábio S. da Silva,Elloá B. Guedes,Ricardo Rios

Main category: eess.IV

TL;DR: 本文对三种卷积神经网络模型(ResNet50、Inception v3、VGG19)在银岛病皮肤痕痘图像分类中进行了性能比较研究,发现Inception v3模型表现最优,准确率和F1指标达到97.5%±0.2%,可作为银岛病诊断的有效工具。

  • Motivation: 银岛病作为一种常见的皮肤疾病,需要准确的诊断方法。传统的皮肤痕痘分析方法存在主观性强、效率低等问题,需要开发自动化的计算机辅助诊断系统。
  • Method: 采用专业平台获取的银岛病皮肤图像进行模型训练和验证,对ResNet50、Inception v3和VGG19三种CNN模型进行性能比较。使用了一些技术来调整神经网络的评估指标。
  • Result: 实验结果显示Inception v3模型表现最优,具有满意的准确率和F1指标,分别达到97.5%±0.2%,显示了在银岛病图像分类任务中的优异性能。
  • Conclusion: Inception v3模型在银岛病皮肤痕痘分类任务中表现出色,准确率和F1指标都达到了非常高的水平,可以作为银岛病诊断的有效计算机辅助工具,为医生提供可靠的诊断支持。

[93] A Closer Look at Edema Area Segmentation in SD-OCT Images Using Adversarial Framework

Yuhui Tao,Yizhe Zhang,Qiang Chen

Main category: eess.IV

TL;DR: 提出了一种结合视网膜层结构引导后处理和测试时适应的弱监督黄斑水肿分割方法,通过利用水肿区域与视网膜层的强相关性来提升分割精度。

  • Motivation: 黄斑水肿分析通常依赖昂贵的专家标注数据,现有弱监督方法性能仍落后于全监督方法,需要利用视网膜层结构先验知识来提升弱监督分割效果。
  • Method: 在现有对抗框架基础上,引入层结构引导后处理步骤和测试时适应策略,将密集水肿预测重构为确认水肿轮廓与视网膜层交点的问题。
  • Result: 在两个公开数据集上的实验表明,该方法显著提高了水肿分割的准确性和鲁棒性,缩小了弱监督与全监督模型之间的性能差距。
  • Conclusion: 通过整合视网膜层结构信息和测试时适应策略,可以有效提升弱监督黄斑水肿分割性能,为医学图像分析提供了一种有效的弱监督解决方案。

[94] Understanding Benefits and Pitfalls of Current Methods for the Segmentation of Undersampled MRI Data

Jan Nikolas Morshuis,Matthias Hein,Christian F. Baumgartner

Main category: eess.IV

TL;DR: 该论文首次为欠采样MRI数据分割提供了统一基准测试,比较了7种方法,发现考虑数据一致性的简单两阶段方法优于专门为此任务开发的复杂方法

  • Motivation: MRI采集耗时且成本高,现有加速MRI分割方法缺乏统一比较和评估标准,最优策略未知
  • Method: 比较7种方法,特别关注将重建和分割结合的单阶段方法与先重建后分割的两阶段方法,使用两个包含多线圈k空间数据和人工标注分割ground-truth的MRI数据集
  • Result: 考虑数据一致性的简单两阶段方法获得了最佳分割分数,超越了专门为此任务开发的复杂方法
  • Conclusion: 数据一致性在欠采样MRI分割中至关重要,简单的两阶段方法比复杂的专门方法更有效

[95] RDDM: Practicing RAW Domain Diffusion Model for Real-world Image Restoration

Yan Chen,Yi Wen,Wei Li,Junchao Liu,Yong Guo,Jie Hu,Xinghao Chen

Main category: eess.IV

TL;DR: RDDM是一种直接在RAW域进行图像恢复的端到端扩散模型,通过绕过传统的ISP处理流程,在传感器原始数据上直接工作,解决了sRGB域方法在高保真度和真实感之间的困境。

  • Motivation: 现有的sRGB域扩散模型处理有损的sRGB输入,忽视了传感器RAW图像在许多场景(如边缘设备)中的可访问性,导致性能不佳。RDDM旨在直接在RAW域恢复图像,避免传统两阶段ISP+IR流程的限制。
  • Method: 提出RAW域VAE(RVAE)学习最优潜在表示;设计可微分后色调处理(PTP)模块实现RAW和sRGB空间联合优化;开发可扩展的退化流程从现有sRGB数据集合成RAW LQ-HQ对;设计可配置多拜耳(CMB)LoRA模块处理不同RAW模式。
  • Result: 大量实验证明RDDM优于最先进的sRGB扩散方法,能够以更少的伪影产生更高保真度的结果。
  • Conclusion: RDDM通过直接在RAW域工作,成功解决了sRGB域扩散模型的局限性,为图像恢复任务提供了更优的解决方案,特别是在边缘设备等实际应用场景中表现出色。

[96] Random forest-based out-of-distribution detection for robust lung cancer segmentation

Aneesh Rangnekar,Harini Veeraraghavan

Main category: eess.IV

TL;DR: RF-Deep是一个基于随机森林的分类器,利用预训练Transformer编码器的深度特征来检测OOD扫描并提高癌症分割的可靠性

  • Motivation: 解决Transformer模型在分布外(OOD)数据上分割性能下降的问题,提高癌症CT扫描分割的可靠性
  • Method: 使用Swin Transformer编码器(通过SimMIM在10,432个未标记3D CT扫描上预训练)和卷积解码器构建分割模型,然后训练随机森林分类器利用深度特征检测OOD扫描
  • Result: 在603个3D CT测试数据上,RF-Deep在肺栓塞、COVID-19和腹部CT上的FPR95分别为18.26%、27.66%和<0.1%,优于现有OOD检测方法
  • Conclusion: RF-Deep提供了一种简单有效的方法来增强癌症分割在分布内和分布外场景中的可靠性

quant-ph

[97] Quantum-Circuit-Based Visual Fractal Image Generation in Qiskit and Analytics

Hillol Biswas

Main category: quant-ph

TL;DR: 该论文探讨了量子计算在分形图像生成中的应用,特别是Julia集的生成,利用量子叠加、随机性和纠缠等特性来创建复杂的分形模式。

  • Motivation: 自然界具有量子特性,而分形在微观和宏观现象中都表现出自相似性。量子系统中的概率密度或波函数在不同尺度上可能呈现重复的干涉模式。研究旨在探索量子计算如何利用其独特特性(叠加、纠缠)来生成复杂的分形图像。
  • Method: 采用量子电路构建方法生成Julia集数据集,利用量子叠加、随机性和纠缠作为基础元素来操纵生成的数据集模式。
  • Result: 论文展示了量子电路能够成功生成Julia集分形图像,证明了量子计算在分形生成中的可行性。
  • Conclusion: 量子电路用于分形Julia图像生成为量子生成艺术提供了一个独特的研究方向,未来可应用于各种生态系统的定制化量子艺术主题创作。

cs.AI

[98] Stabilizing Open-Set Test-Time Adaptation via Primary-Auxiliary Filtering and Knowledge-Integrated Prediction

Byung-Joon Lee,Jin-Seop Lee,Jee-Hyong Lee

Main category: cs.AI

TL;DR: 提出PAF-KIP方法解决开放集测试时适应问题,通过主辅助过滤机制和知识集成预测来提升闭集精度和开放集识别能力

  • Motivation: 现实测试数据常存在领域偏移和开放集样本,传统TTA方法在开放集场景下性能下降,现有方法依赖源模型过滤导致次优性能
  • Method: 提出Primary-Auxiliary Filtering (PAF)机制,使用辅助过滤器验证主过滤器结果;设计Knowledge-Integrated Prediction (KIP)方法,集成适应模型、EMA模型和源模型的互补知识
  • Result: 在多个闭集和开放集数据集上验证,方法在闭集精度和开放集识别方面均优于现有方法
  • Conclusion: PAF-KIP方法有效解决了开放集测试时适应问题,通过双重过滤和知识集成提升了模型在真实场景下的鲁棒性

cs.CR

[99] Hidden Tail: Adversarial Image Causing Stealthy Resource Consumption in Vision-Language Models

Rui Zhang,Zihan Wang,Tianli Yang,Hongwei Li,Wenbo Jiang,Qingchuan Zhao,Yang Liu,Guowen Xu

Main category: cs.CR

TL;DR: 提出了一种名为Hidden Tail的隐蔽资源消耗攻击方法,通过生成与提示无关的对抗图像,诱导视觉语言模型生成包含不可见特殊标记的最大长度输出,在保持攻击隐蔽性的同时显著增加推理成本。

  • Motivation: 现有的视觉语言模型资源消耗攻击存在效果与隐蔽性之间的权衡问题,扩展的输出往往包含不相关的异常内容,容易被检测到。需要一种既能有效增加推理成本又能保持隐蔽性的攻击方法。
  • Method: 使用复合损失函数,平衡语义保持、重复特殊标记诱导和抑制序列结束标记,通过动态权重策略进行优化,生成提示无关的对抗图像。
  • Result: 实验表明Hidden Tail优于现有攻击方法,输出长度增加达19.2倍,达到最大标记限制,同时保持攻击隐蔽性。
  • Conclusion: 该方法揭示了视觉语言模型在对抗效率导向威胁方面的脆弱性,迫切需要提高其鲁棒性。

eess.SP

[100] EMind: A Foundation Model for Multi-task Electromagnetic Signals Understanding

Luqing Luo,Wenjin Gui,Yunfei Liu,Ziyue Zhang,Yunxi Zhang,Fengxiang Wang,Zonghao Guo,Zizhi Ma,Xinzhu Liu,Hanxiang He,Jinhai Li,Xin Qiu,Wupeng Xie,Yangang Sun

Main category: eess.SP

TL;DR: EMind是一个电磁信号基础模型,通过大规模预训练和物理特性利用,解决了电磁信号处理中的异构性、噪声和跨任务泛化问题。

  • Motivation: 电磁信号与文本图像差异大,存在高度异构性、强背景噪声和复杂时频结构,现有通用模型无法直接使用,且缺乏跨任务泛化和高质量数据集。
  • Method: 构建首个统一标准化电磁信号数据集,采用长度自适应多信号打包方法和硬件感知训练策略,利用电磁信号物理特性进行高效表示学习。
  • Result: EMind在多个下游任务中表现出强大性能和广泛泛化能力,实现了从任务特定模型到统一电磁智能框架的转变。
  • Conclusion: EMind成功建立了电磁信号基础模型,为动态频谱管理、智能交通等领域提供了有效的统一解决方案,代码已开源。