Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Generative human motion mimicking through feature extraction in denoising diffusion settings
Alexander Okupnik,Johannes Schneider,Kyriakos Flouris
Main category: cs.CV
TL;DR: 该论文提出了一个基于运动捕捉数据的交互式AI模型,用于生成舞蹈动作,通过扩散模型、运动修复和风格迁移技术创造性地增强人类动作序列。
- Motivation: 大型语言模型虽然支持创造性任务,但缺乏具身交互特性。舞蹈作为人类表达的基本形式,可以补充这种体验,探索创造性的人机交互。
- Method: 利用单人运动数据和高层特征,结合两种扩散模型、运动修复和运动风格迁移,生成时间连贯且对选定运动参考有响应的运动表示。
- Result: 通过定量评估生成样本特征分布与测试集的收敛性,证明模型成功生成多样化且逼真的舞蹈动作,显示出与人类舞伴的各种偏离。
- Conclusion: 该模型是实现与AI创造性共舞的第一步,生成的舞蹈动作既多样化又逼真,为创造性人机交互提供了新途径。
[2] Deep Learning Models for Coral Bleaching Classification in Multi-Condition Underwater Image Datasets
Julio Jerison E. Macrohon,Gordon Hung
Main category: cs.CV
TL;DR: 提出基于机器学习的珊瑚白化分类系统,使用全球多样化数据集,CNN模型达到88%准确率,优于现有基准。
- Motivation: 珊瑚礁面临污染、海洋酸化和海水温度异常等威胁,急需高效保护和监测方法。
- Method: 使用包含健康和白化珊瑚的全球多样化数据集,比较ResNet、ViT和CNN三种最先进模型,并进行全面的超参数调优。
- Result: CNN模型在全面超参数调优后达到88%的最高准确率,优于现有基准。
- Conclusion: 研究为自主珊瑚监测提供重要见解,并对最广泛使用的计算机视觉模型进行了全面分析。
[3] Automating Coral Reef Fish Family Identification on Video Transects Using a YOLOv8-Based Deep Learning Pipeline
Jules Gerard,Leandro Di Bella,Filip Huyghe,Marc Kochzius
Main category: cs.CV
TL;DR: 使用YOLOv8深度学习管道自动化西印度洋珊瑚礁鱼类识别,在肯尼亚和坦桑尼亚视频样带中测试24个鱼类科别,最佳模型mAP@0.5达0.52。
- Motivation: 西印度洋珊瑚礁监测受限于水下视觉普查的劳动力需求,需要自动化解决方案来提高监测效率。
- Method: 基于YOLOv8的深度学习管道,在肯尼亚和坦桑尼亚收集的视频样带上进行24个鱼类科别的识别测试。
- Result: 最佳模型mAP@0.5为0.52,对丰富鱼类科别识别准确率高,但对稀有或复杂类群检测较弱。
- Conclusion: 深度学习可作为传统监测方法的可扩展补充,具有自动化珊瑚礁鱼类监测的潜力。
[4] Mutual Information guided Visual Contrastive Learning
Hanyang Chen,Yanchao Yang
Main category: cs.CV
TL;DR: 提出了一种基于互信息的数据增强方法,通过选择在自然扰动下具有高互信息的场景补丁作为正样本,用于对比学习中的表示学习。
- Motivation: 现有的InfoNCE损失方法虽然能减少人工标注,但数据选择和增强仍依赖人工假设或工程,可能不是最优的。特别是对比学习中的数据增强主要关注颜色抖动来模拟真实世界的光照变化。
- Method: 基于真实世界分布计算互信息来选择训练数据,考虑在颜色变化和运动等自然扰动下表现出高互信息的场景补丁作为对比学习的正样本。
- Result: 在多个基准测试和最先进的表示学习框架上评估了所提出的方法,证明了其有效性。
- Conclusion: 基于互信息的数据增强方法是一个有前景的研究方向,能够使学习到的特征在开放环境中具有更好的泛化能力。
[5] Benchmarking Federated Learning Frameworks for Medical Imaging Deployment: A Comparative Study of NVIDIA FLARE, Flower, and Owkin Substra
Riya Gupta,Alexander Chowdhury,Sahil Nalawade
Main category: cs.CV
TL;DR: 本研究对NVIDIA FLARE、Flower和Owkin Substra三个联邦学习框架在医学影像应用中的性能进行基准测试,评估模型性能、收敛效率、通信开销、可扩展性和开发者体验。
- Motivation: 联邦学习在医疗AI中作为变革性范式出现,能够在机构间进行协作模型训练而无需直接共享数据,需要评估不同框架在真实医疗环境中的适用性。
- Method: 使用PathMNIST数据集,对三个联邦学习框架(NVIDIA FLARE、Flower、Owkin Substra)进行基准测试,评估模型性能、收敛效率、通信开销、可扩展性和开发者体验。
- Result: NVIDIA FLARE在生产可扩展性方面表现最佳,Flower在原型设计和学术研究方面提供灵活性,Owkin Substra在隐私和合规性方面表现卓越。
- Conclusion: 每个框架针对不同使用场景都有各自的优势,强调了它们在医疗环境实际部署中的相关性。
[6] Enhancing rice leaf images: An overview of image denoising techniques
Rupjyoti Chutia,Dibya Jyoti Bora
Main category: cs.CV
TL;DR: 该论文对水稻叶片图像进行了图像去噪和对比度增强方法的比较研究,结合CLAHE技术评估不同去噪方法的效果。
- Motivation: 图像增强是图像处理中的重要预处理步骤,对于水稻叶片分析(如病害检测、营养评估)至关重要。去噪和对比度增强是主要步骤,需要系统比较不同方法的有效性。
- Method: 使用水稻叶片图像数据集,对知名图像去噪方法结合CLAHE(对比度受限自适应直方图均衡化)进行广泛比较研究,采用多种指标全面测试增强方法。
- Result: 通过实验验证了不同去噪方法结合CLAHE在水稻叶片图像处理中的效果,为评估数字图像处理方法有效性提供了坚实基础。
- Conclusion: 该研究为数字图像处理方法评估提供了有力依据,并揭示了在农业研究和其他领域未来应用的实用见解。
[7] Which LiDAR scanning pattern is better for roadside perception: Repetitive or Non-repetitive?
Zhiqi Qi,Runxin Zhao,Hanyang Zhuang,Chunxiang Wang,Ming Yang
Main category: cs.CV
TL;DR: 该研究系统分析了不同LiDAR扫描模式(重复式与非重复式)对路边感知性能的影响,创建了InfraLiDARs基准数据集,发现非重复式LiDAR在成本效益方面具有优势。
- Motivation: 虽然已有研究关注LiDAR在基础设施中的最优放置,但不同扫描模式对感知性能的深远影响研究不足,特别是传统重复式与新兴非重复式扫描系统的差异。
- Method: 在CARLA仿真环境中创建InfraLiDARs基准数据集,使用同时运行的基于基础设施的LiDAR,涵盖两种扫描范式,并进行全面的统计分析和多种3D目标检测算法性能评估。
- Result: 研究发现非重复式扫描LiDAR与128线重复式LiDAR在各种场景下表现出相当的检测性能。尽管非重复式LiDAR感知范围有限,但考虑到其低成本,是一个经济有效的选择。
- Conclusion: 本研究为设置具有最优LiDAR扫描模式和兼容算法的路边感知系统提供了见解,并公开发布InfraLiDARs基准数据集以促进进一步研究。
[8] World Simulation with Video Foundation Models for Physical AI
NVIDIA,:,Arslan Ali,Junjie Bai,Maciej Bala,Yogesh Balaji,Aaron Blakeman,Tiffany Cai,Jiaxin Cao,Tianshi Cao,Elizabeth Cha,Yu-Wei Chao,Prithvijit Chattopadhyay,Mike Chen,Yongxin Chen,Yu Chen,Shuai Cheng,Yin Cui,Jenna Diamond,Yifan Ding,Jiaojiao Fan,Linxi Fan,Liang Feng,Francesco Ferroni,Sanja Fidler,Xiao Fu,Ruiyuan Gao,Yunhao Ge,Jinwei Gu,Aryaman Gupta,Siddharth Gururani,Imad El Hanafi,Ali Hassani,Zekun Hao,Jacob Huffman,Joel Jang,Pooya Jannaty,Jan Kautz,Grace Lam,Xuan Li,Zhaoshuo Li,Maosheng Liao,Chen-Hsuan Lin,Tsung-Yi Lin,Yen-Chen Lin,Huan Ling,Ming-Yu Liu,Xian Liu,Yifan Lu,Alice Luo,Qianli Ma,Hanzi Mao,Kaichun Mo,Seungjun Nah,Yashraj Narang,Abhijeet Panaskar,Lindsey Pavao,Trung Pham,Morteza Ramezanali,Fitsum Reda,Scott Reed,Xuanchi Ren,Haonan Shao,Yue Shen,Stella Shi,Shuran Song,Bartosz Stefaniak,Shangkun Sun,Shitao Tang,Sameena Tasmeen,Lyne Tchapmi,Wei-Cheng Tseng,Jibin Varghese,Andrew Z. Wang,Hao Wang,Haoxiang Wang,Heng Wang,Ting-Chun Wang,Fangyin Wei,Jiashu Xu,Dinghao Yang,Xiaodong Yang,Haotian Ye,Seonghyeon Ye,Xiaohui Zeng,Jing Zhang,Qinsheng Zhang,Kaiwen Zheng,Andrew Zhu,Yuke Zhu
Main category: cs.CV
TL;DR: Cosmos-Predict2.5是基于流式架构的物理AI世界基础模型,统一了文本、图像和视频到世界的生成,结合Cosmos-Reason1提供更丰富的文本基础和精细的世界模拟控制。
- Motivation: 开发更可靠的人工智能系统需要高质量的合成数据生成、策略评估和闭环模拟能力,特别是在机器人和自主系统领域。
- Method: 采用基于流的架构,结合强化学习的后训练方法,在2亿个精选视频片段上训练,并开发了Cosmos-Transfer2.5用于Sim2Real和Real2Real世界转换。
- Result: 相比Cosmos-Predict1,在视频质量和指令对齐方面有显著提升,提供了2B和14B规模的模型,且Cosmos-Transfer2.5在更小模型尺寸下实现了更高的保真度和鲁棒的长时视频生成。
- Conclusion: 这些进展使Cosmos-Predict2.5和Cosmos-Transfer2.5成为扩展具身智能的多功能工具,通过开源代码、预训练检查点和基准测试来促进物理AI的研究和部署。
[9] Habitat and Land Cover Change Detection in Alpine Protected Areas: A Comparison of AI Architectures
Harald Kristen,Daniel Kulmer,Manuela Hirschmugl
Main category: cs.CV
TL;DR: 该研究使用深度学习进行高山栖息地变化检测,比较了后分类变化检测和直接变化检测两种范式,发现Clay v1.0模型在复杂高山环境中表现最佳,集成LiDAR数据可将语义分割准确率从30%提升至50%。
- Motivation: 高山生态系统面临快速气候变化等干扰,需要频繁的栖息地监测,但人工测绘成本过高。研究旨在填补地理空间基础模型在复杂自然环境应用中的空白。
- Method: 使用Gesaeuse国家公园的长期高山栖息地数据,比较后分类变化检测(评估Prithvi-EO-2.0、Clay v1.0和U-Net CNN)与直接变化检测(测试ChangeViT和U-Net基线)。采用高分辨率多模态数据(RGB、NIR、LiDAR、地形属性),覆盖15.3平方公里内的4,480个记录变化。
- Result: Clay v1.0在多类栖息地变化检测中达到51%总体准确率,优于U-Net的41%;两者在二元变化检测中均达到67%。直接变化检测在二元检测中IoU更高(0.53 vs 0.35),但在多类检测中准确率仅28%。集成LiDAR将语义分割准确率从30%提升至50%。
- Conclusion: 虽然总体准确率低于更均质景观,但反映了复杂高山栖息地的实际性能。未来工作将集成基于对象后处理和物理约束以增强适用性。
[10] LeMiCa: Lexicographic Minimax Path Caching for Efficient Diffusion-Based Video Generation
Huanlin Gao,Ping Chen,Fuyuan Shi,Chao Tan,Zhaoxiang Liu,Fang Zhao,Kai Wang,Shiguo Lian
Main category: cs.CV
TL;DR: LeMiCa是一个无需训练的高效扩散视频生成加速框架,通过图论优化方法显著提升推理速度和生成质量,在多个基准测试中表现优异。
- Motivation: 现有缓存策略主要关注减少局部启发式误差,但忽略了全局误差累积,导致加速视频与原始视频之间存在明显的内容退化问题。
- Method: 将缓存调度建模为带误差权重边的有向图,引入词典最小最大路径优化策略来显式限制最坏情况路径误差。
- Result: 在Latte模型上实现2.9倍加速,在Open-Sora上达到LPIPS分数0.05,超越现有缓存技术,且感知质量退化最小。
- Conclusion: LeMiCa为加速扩散视频生成提供了一个鲁棒且可泛化的范式,可作为未来高效可靠视频合成研究的坚实基础。
[11] Self-Improving Vision-Language-Action Models with Data Generation via Residual RL
Wenli Xiao,Haotian Lin,Andy Peng,Haoru Xue,Tairan He,Yuqi Xie,Fengyuan Hu,Jimmy Wu,Zhengyi Luo,Linxi "Jim" Fan,Guanya Shi,Yuke Zhu
Main category: cs.CV
TL;DR: PLD是一个三阶段即插即用框架,通过残差强化学习和分布感知数据收集来改进视觉语言动作模型,无需依赖昂贵的人工演示。
- Motivation: 监督微调依赖昂贵的人工演示,限制了视觉语言动作模型的可扩展性和泛化能力。
- Method: 三阶段框架:1)训练轻量级残差执行器探测VLA通用模型的失败区域;2)使用混合rollout方案收集与部署分布对齐的轨迹;3)通过标准SFT将精选轨迹蒸馏回通用模型。
- Result: 在LIBERO上达到接近饱和的99%任务成功率,在SimplerEnv上提升超过50%,在真实世界Franka和YAM机械臂操作任务上实现100%成功率。
- Conclusion: 残差探测和分布感知回放是收集部署对齐数据的关键,为自改进VLA模型提供了可扩展路径。
[12] SpinalSAM-R1: A Vision-Language Multimodal Interactive System for Spine CT Segmentation
Jiaming Liu,Dingwei Fan,Junyong Zhao,Chunlin Li,Haipeng Si,Liang Sun
Main category: cs.CV
TL;DR: 提出SpinalSAM-R1系统,结合微调SAM和DeepSeek-R1,用于脊柱CT图像分割,通过解剖学引导注意力机制和自然语言交互提升分割性能。
- Motivation: 脊柱CT图像分割面临低对比度和复杂边界挑战,现有SAM模型在脊柱CT领域存在标注需求高和领域适应性差的问题。
- Method: 集成微调SAM与DeepSeek-R1,引入解剖学引导注意力机制和语义驱动交互协议,使用LoRA进行高效微调。
- Result: 在脊柱解剖结构CT图像上取得优越分割性能,开发交互软件支持点、框和文本提示,实现94.3%解析准确率和亚800ms响应时间。
- Conclusion: SpinalSAM-R1系统有效解决了脊柱CT分割的挑战,提供高效准确的交互式分割解决方案。
[13] A filtering scheme for confocal laser endomicroscopy (CLE)-video sequences for self-supervised learning
Nils Porsche,Flurin Müller-Diesing,Sweta Banerjee,Miguel Goncalves,Marc Aubreville
Main category: cs.CV
TL;DR: 提出了一种用于共聚焦激光内窥镜视频序列的过滤方法,通过减少SSL训练中的数据集冗余来提高训练效率和收敛性,在鼻窦肿瘤和皮肤鳞状细胞癌数据集上显著提升了分类准确率。
- Motivation: CLE图像对非专业医生难以解读,机器学习可辅助诊断但面临数据不足导致的过拟合问题。SSL可用于大规模未标记数据,但CLE视频帧间相关性高导致数据分布不均,影响SSL训练效果。
- Method: 在CLE视频序列上应用过滤功能减少SSL训练中的冗余数据,使用四种SOTA基线网络和基于ViT-small的SSL师生网络进行评估,在两个下游任务数据集上进行测试。
- Result: 过滤后的SSL预训练模型在两个数据集上分别达到67.48%和73.52%的最高测试准确率,显著优于非SSL基线,同时训练时间减少了67%。
- Conclusion: SSL是CLE预训练的有效方法,提出的CLE视频过滤器可提高自监督场景下的训练效率。
[14] FreeSliders: Training-Free, Modality-Agnostic Concept Sliders for Fine-Grained Diffusion Control in Images, Audio, and Video
Rotem Ezra,Hedi Zisling,Nimrod Berman,Ilan Naiman,Alexey Gorkor,Liran Nochumsohn,Eliya Nachmani,Omri Azencot
Main category: cs.CV
TL;DR: FreeSliders是一种无需训练、模态无关的方法,通过在推理过程中部分估计概念滑块公式,实现跨模态的细粒度可控生成。
- Motivation: 扩散模型在图像、音频和视频生成方面表现出色,但实现细粒度可控生成(即在不干扰无关内容的情况下持续控制特定概念)仍然具有挑战性。现有方法需要针对每个概念进行训练和架构特定的微调,限制了向新模态的可扩展性。
- Method: 提出FreeSliders方法,完全无需训练且模态无关,通过在推理过程中部分估计概念滑块公式来实现。还引入了两阶段程序来自动检测饱和点并重新参数化遍历,实现感知均匀、语义有意义的编辑。
- Result: 广泛的实验表明,该方法能够实现即插即用、无需训练的概念控制,在多个模态上优于现有基线方法,并为可控生成建立了新的工具。
- Conclusion: FreeSliders为跨模态的细粒度可控生成提供了一种简单而有效的解决方案,解决了现有方法在可扩展性和训练需求方面的限制。
[15] AI Powered High Quality Text to Video Generation with Enhanced Temporal Consistency
Piyushkumar Patel
Main category: cs.CV
TL;DR: MOVAI是一个新颖的分层文本到视频生成框架,通过组合场景解析、时空注意力机制和渐进式视频细化,解决了现有方法在时间一致性、组合理解和视觉叙事控制方面的挑战。
- Motivation: 现有文本到视频生成方法在保持时间一致性、组合理解和视觉叙事精细控制方面存在困难,需要更先进的框架来提升生成质量。
- Method: 提出三层创新:组合场景解析器将文本分解为带时间标注的层次场景图;时空注意力机制确保帧间连贯运动动态;渐进式视频细化模块通过多尺度时间推理迭代提升视频质量。
- Result: 在标准基准测试中,MOVAI实现了最先进性能,LPIPS指标提升15.3%,FVD指标提升12.7%,用户偏好研究提升18.9%,特别擅长生成复杂多对象场景。
- Conclusion: MOVAI框架在生成具有真实时间动态和精细语义控制的复杂多对象场景方面表现出色,为文本到视频生成提供了有效的解决方案。
[16] Chain of Time: In-Context Physical Simulation with Image Generation Models
YingQiao Wang,Eric Bigelow,Boyi Li,Tomer Ullman
Main category: cs.CV
TL;DR: 提出了一种名为"Chain of Time"的认知启发式方法,通过生成模拟过程中的中间图像序列来改进和解释视觉语言模型中的物理模拟,无需额外微调即可在推理时使用。
- Motivation: 受机器学习中的上下文推理和人类心理模拟的启发,旨在改进视觉语言模型对物理过程的模拟能力,并深入理解模型内部的模拟动态。
- Method: 在推理时生成一系列中间图像来模拟物理过程,应用于2D图形模拟和真实3D视频,测试速度、加速度、流体动力学和动量守恒等物理属性。
- Result: 使用Chain-of-Time方法显著提升了最先进图像生成模型的性能,分析揭示了模型能够模拟随时间展开的物理属性(如速度、重力和碰撞),但也发现模型在某些情况下难以从输入图像推断特定物理参数。
- Conclusion: Chain-of-Time方法不仅提高了物理模拟性能,还提供了对模型内部模拟动态的深入洞察,揭示了传统评估方法无法发现的物理推理能力。
[17] End-to-End Framework Integrating Generative AI and Deep Reinforcement Learning for Autonomous Ultrasound Scanning
Hanae Elmekki,Amanda Spilkin,Ehsan Zakeri,Antonela Mariel Zanuttini,Ahmed Alagha,Hani Sami,Jamal Bentahar,Lyes Kadem,Wen-Fang Xie,Philippe Pibarot,Rabeb Mizouni,Hadi Otrok,Azzam Mourad,Sami Muhaidat
Main category: cs.CV
TL;DR: 提出了首个结合生成AI和深度强化学习的端到端框架,用于实现自主且可重复的心脏超声扫描,解决了现有方法缺乏可重复性、依赖专有数据和简化模型的问题。
- Motivation: 心脏超声检查存在操作者依赖、时间限制和人为误差等问题,且偏远地区缺乏专业医生。需要自动化解决方案来确保一致性和可访问性。
- Method: 框架包含两个组件:(1) 结合GAN和VAE的条件生成模拟器,生成逼真的动作条件图像;(2) DRL模块利用模拟器学习自主扫描策略。
- Result: VAE-GAN在基准测试中表现优于现有GAN变体,DRL扫描系统在不同配置下均显示出有效性。
- Conclusion: 该框架通过专家验证模型提供AI驱动指导,支持生成逼真超声图像,并建立了可扩展到其他器官的可重复基础。
[18] VLM6D: VLM based 6Dof Pose Estimation based on RGB-D Images
Md Selim Sarowar,Sungho Kim
Main category: cs.CV
TL;DR: VLM6D提出了一种新颖的双流架构,利用RGB-D输入的视觉和几何数据优势,通过Vision Transformer和PointNet++编码器分别处理RGB和点云数据,实现鲁棒的6D物体姿态估计。
- Motivation: 当前6D物体姿态估计方法在从合成数据泛化到真实场景时存在困难,特别是在光照变化、无纹理物体和严重遮挡的情况下表现脆弱。
- Method: 采用双流架构:使用自监督Vision Transformer(DINOv2)处理RGB数据,利用预训练的视觉理解能力;同时使用PointNet++编码器处理深度数据生成的点云,进行几何推理。两种特征流有效融合后输入多任务预测头。
- Result: 在具有挑战性的Occluded-LineMOD数据集上取得了新的SOTA性能,验证了其卓越的鲁棒性和准确性。
- Conclusion: VLM6D通过结合视觉和几何数据的互补优势,有效解决了6D姿态估计在真实场景中的泛化问题,特别是在遮挡和光照变化等挑战性条件下表现出色。
[19] Integrating ConvNeXt and Vision Transformers for Enhancing Facial Age Estimation
Gaby Maroun,Salah Eddine Bekhouche,Fadi Dornaika
Main category: cs.CV
TL;DR: 提出了一种结合ConvNeXt和Vision Transformer的混合架构用于面部年龄估计,在多个基准数据集上取得了优越性能。
- Motivation: 利用CNN的局部特征提取能力和Transformer的全局注意力机制的优势互补,解决面部年龄估计这一复杂计算机视觉挑战。
- Method: 使用预训练模型,结合线性层和高级正则化技术优化架构,在CNN框架内采用适应的注意力机制来关注年龄相关面部特征。
- Result: 在MORPH II、CACD和AFAD等基准数据集上实现了较低的均方绝对误差(MAE),性能优于传统方法。
- Conclusion: 混合架构展示了CNN和Transformer无缝集成的变革潜力,为年龄估计和相关视觉任务提供了稳健基础。
[20] FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding
Janghoon Cho,Jungsoo Lee,Munawar Hayat,Kyuwoong Hwang,Fatih Porikli,Sungha Choi
Main category: cs.CV
TL;DR: FLoC是一个基于设施位置函数的高效视觉标记压缩框架,通过选择紧凑且具有代表性的视觉标记子集,显著减少长视频理解中的视觉标记数量,同时保证接近最优性能。
- Motivation: 长视频理解中,大型多模态模型生成的视觉标记数量庞大,严重限制了模型的可扩展性。
- Method: 基于设施位置函数,使用懒惰贪婪算法快速选择紧凑、具有代表性和多样性的视觉标记子集,在预定义标记数量预算内工作。
- Result: 在大规模基准测试(Video-MME、MLVU、LongVideoBench)中,FLoC框架持续超越现有压缩技术,在处理速度和性能方面表现优异。
- Conclusion: FLoC提供了一个无需训练、模型无关、查询无关的通用解决方案,能够无缝集成到各种视频LLM和现有工作流程中,有效解决长视频理解的关键挑战。
[21] BlurGuard: A Simple Approach for Robustifying Image Protection Against AI-Powered Editing
Jinsu Kim,Yunhun Nam,Minseon Kim,Sangpil Kim,Jongheon Jeong
Main category: cs.CV
TL;DR: 提出一种通过自适应高斯模糊增强图像保护对抗性噪声鲁棒性的方法,使其不仅不可感知而且难以逆转。
- Motivation: 现有图像保护方法中的对抗性噪声容易被简单技术(如JPEG压缩)逆转,限制了实际应用。需要开发既不可感知又不可逆转的保护方法。
- Method: 应用自适应区域高斯模糊来调整噪声的频域特性,增强对抗性噪声对逆转技术的鲁棒性。
- Result: 实验表明该方法能显著提高现有方法在最坏情况下的保护性能,同时减少由噪声引起的图像质量下降。
- Conclusion: 通过频域调整的简单模糊操作可以有效增强图像保护方法的鲁棒性,为对抗恶意图像编辑提供了实用解决方案。
[22] CompAgent: An Agentic Framework for Visual Compliance Verification
Rahul Ghosh,Baishali Chaudhury,Hari Prasanna Das,Meghana Ashok,Ryan Razkenari,Sungmin Hong,Chun-Hao Liu
Main category: cs.CV
TL;DR: CompAgent:首个用于视觉合规验证的智能体框架,通过工具增强的多模态大语言模型实现可扩展、准确和自适应的合规检查
- Motivation: 视觉合规验证在媒体、娱乐和广告等领域至关重要,但现有方法依赖成本高昂的特定任务深度学习模型,泛化能力有限。多模态大语言模型虽然具有广泛知识,但难以处理细粒度视觉细节和结构化合规规则
- Method: 提出CompAgent框架,通过规划智能体动态选择视觉工具(如目标检测器、人脸分析器、NSFW检测器等),验证智能体整合图像、工具输出和政策上下文进行多模态推理
- Result: 在公开基准测试中,CompAgent优于专用分类器、直接MLLM提示和精心设计的路由基线,在UnsafeBench数据集上达到76% F1分数,比现有最优方法提升10%
- Conclusion: 结果表明,智能体规划和工具增强推理对于可扩展、准确和自适应的视觉合规验证非常有效
[23] From Evidence to Verdict: An Agent-Based Forensic Framework for AI-Generated Image Detection
Mengfei Liang,Yiting Qu,Yukun Jiang,Michael Backes,Yang Zhang
Main category: cs.CV
TL;DR: AIFo是一个基于多智能体协作的训练免费框架,通过模拟人类法医调查过程来检测AI生成图像,显著优于传统分类器和先进视觉语言模型。
- Motivation: AI生成图像的快速发展对信息完整性和媒体真实性构成挑战,现有检测方法存在可解释性差、泛化能力不足等局限性。
- Method: 采用多智能体协作框架,整合反向图像搜索、元数据提取、预训练分类器和VLM分析等法医工具,通过结构化多智能体辩论机制和记忆增强推理模块进行证据收集与推理。
- Result: 在6000张图像的全面评估中,AIFo达到97.05%的准确率,显著优于传统方法和最先进的视觉语言模型。
- Conclusion: 基于智能体的程序推理为AI生成图像检测提供了一个更鲁棒、可解释和自适应的新范式。
[24] A Retrospect to Multi-prompt Learning across Vision and Language
Ziliang Chen,Xin Huang,Quanlong Guan,Liang Lin,Weiqi Luo
Main category: cs.CV
TL;DR: 本文提出了一种基于能量的多提示学习方法EMPL,通过从能量分布中采样生成多个提示嵌入,在保持参数效率的同时实现了领域内外开放词汇泛化的平衡。
- Motivation: 现有研究主要关注单提示范式,很少探索多提示学习的技术潜力。本文旨在为视觉语言多提示学习提供理论回顾,并证明多提示增强在视觉语言迁移中的优越性。
- Method: 将最近发现的恒定模态间隙现象扩展到可学习提示,提出EMPL方法从能量分布中采样生成多个提示嵌入,该分布由视觉语言预训练模型隐式定义。
- Result: 综合实验验证了作者的主张和EMPL方法的卓越性能,表明该方法在参数效率和多领域泛化方面表现优异。
- Conclusion: EMPL方法不仅参数高效,而且严格实现了领域内外开放词汇泛化之间的平衡,为视觉语言多提示学习提供了有效的解决方案。
[25] An Efficient and Generalizable Transfer Learning Method for Weather Condition Detection on Ground Terminals
Wenxuan Zhang,Peng Hu
Main category: cs.CV
TL;DR: 提出一种高效的迁移学习方法,用于卫星互联网地面终端组件的细粒度天气条件检测,能够检测雪、潮湿和其他恶劣天气条件,性能优于主流深度学习方法。
- Motivation: 恶劣天气事件对低轨卫星互联网性能和可靠性有显著影响,需要细粒度的地面终端组件天气条件检测能力来协助故障诊断和缓解,但现有解决方案缺乏且缺乏实际部署所需的有效性和泛化性。
- Method: 采用高效的迁移学习方法,使地面组件能够本地检测代表性的天气相关条件,包括雪、潮湿和其他恶劣天气条件。
- Result: 所提出的迁移学习方法在检测性能上优于YOLOv7、YOLOv9、Faster R-CNN和R-YOLO等典型深度学习方法,并显示出在各种场景下的良好泛化能力。
- Conclusion: 该迁移学习方法为卫星互联网地面终端组件的天气条件检测提供了一种高效且泛化性强的解决方案,有助于提高卫星互联网的可靠性。
[26] DM-QPMNET: Dual-modality fusion network for cell segmentation in quantitative phase microscopy
Rajatsubhra Chakraborty,Ana Espinosa-Momox,Riley Haskin,Depeng Xu,Rosario Porras-Aguilar
Main category: cs.CV
TL;DR: 提出了DM-QPMNet双编码器网络,通过分别编码偏振强度图像和相位图,使用多头注意力在中间深度融合模态特定特征,实现稳健的细胞分割。
- Motivation: 传统阈值方法对噪声和细胞密度敏感,而深度学习简单通道拼接方法未能充分利用偏振强度图像和相位图的互补特性。
- Method: 使用双编码器网络分别处理偏振强度图像和相位图,通过多头注意力在中间深度进行模态特定特征融合,采用双源跳跃连接和每模态归一化。
- Result: 相比单模态基线和简单拼接方法,该方法在细胞分割方面表现出显著改进。
- Conclusion: 模态特定编码与可学习融合能有效利用ssQPM同时捕获的互补照明和相位线索,实现稳健的细胞分割。
[27] Towards 1000-fold Electron Microscopy Image Compression for Connectomics via VQ-VAE with Transformer Prior
Fuming Yang,Yicong Li,Hanspeter Pfister,Jeff W. Lichtman,Yaron Meirovitch
Main category: cs.CV
TL;DR: 提出基于VQ-VAE的电子显微镜数据压缩框架,支持16x到1024x压缩比,支持按需解码和选择性高分辨率重建。
- Motivation: 海量电子显微镜数据集对存储、传输和下游分析提出了挑战,需要高效的压缩解决方案。
- Method: 使用VQ-VAE压缩框架,结合Transformer先验模型预测底层标记,通过FiLM和拼接恢复纹理,并引入ROI驱动的工作流进行选择性高分辨率重建。
- Result: 实现了从16x到1024x的压缩比,支持按需解码和选择性重建功能。
- Conclusion: 该压缩框架有效解决了海量EM数据的存储和分析问题,提供了灵活的解码和重建能力。
[28] Hyperbolic Optimal Transport
Yan Bin Ng,Xianfeng Gu
Main category: cs.CV
TL;DR: 提出了一种在双曲空间中计算最优传输映射的新算法,扩展了欧几里得和球面几何的方法到双曲几何设置。
- Motivation: 现有最优传输映射计算方法主要针对欧几里得空间和球面,但在涉及层次数据、网络和多亏格黎曼曲面等场景中,双曲空间的最优传输问题自然出现。
- Method: 使用几何变分技术,将欧几里得和球面几何的方法扩展到双曲设置,提出高效算法计算双曲空间中的最优传输映射。
- Result: 在合成数据和多亏格曲面模型上进行了实验,验证了所提出方法的有效性。
- Conclusion: 成功开发了双曲空间中的最优传输映射计算方法,填补了现有方法在非欧几何空间中的空白。
[29] Object-Aware 4D Human Motion Generation
Shurui Gui,Deep Anil Patel,Xiner Li,Martin Renqiang Min
Main category: cs.CV
TL;DR: 提出了一种基于3D高斯表示和运动扩散先验的对象感知4D人体运动生成框架MSDI,通过运动扩散分数蒸馏采样和大型语言模型实现空间感知的运动优化,无需重新训练即可生成物理合理的4D人体运动。
- Motivation: 现有视频扩散模型生成的视频存在不现实变形、语义违规和物理不一致问题,主要原因是缺乏3D物理先验。
- Method: 使用预生成的3D人体和对象,结合MSDS从预训练运动扩散模型蒸馏分数梯度,并利用LLMs的空间和提示语义信息来优化人体运动,同时尊重对象和语义约束。
- Result: 实验表明该框架能生成自然且物理合理的人体运动,尊重3D空间上下文,为现实4D生成提供可扩展解决方案。
- Conclusion: 该方法无需在有限交互数据集上进行联合训练,实现了零样本泛化,能处理分布外对象感知的人体运动。
[30] Merlin L48 Spectrogram Dataset
Aaron Sun,Subhransu Maji,Grant Van Horn
Main category: cs.CV
TL;DR: 本文介绍了L48数据集,这是一个细粒度的真实世界多标签数据集,用于评估单正多标签(SPML)方法。相比之前基于合成数据的方法,L48提供了更真实的评估基准。
- Motivation: 现有的SPML方法都是在合成数据集上开发和评估的,这些数据集无法反映真实世界的复杂性。需要更真实、更具挑战性的基准来评估SPML方法的性能。
- Method: 构建了L48数据集,这是一个基于鸟类声音记录的细粒度多标签数据集,提供了自然的SPML设置以及两个扩展设置,其中领域先验提供了额外的负标签。
- Result: 在L48数据集上对现有SPML方法进行基准测试,发现与合成数据集相比存在显著的性能差异,并分析了方法的弱点。
- Conclusion: L48数据集揭示了现有SPML方法的局限性,强调了需要更现实和更具挑战性的基准来推动该领域的发展。
[31] BeetleFlow: An Integrative Deep Learning Pipeline for Beetle Image Processing
Fangxun Liu,S M Rayeed,Samuel Stevens,Alyson East,Cheng Hsuan Chiang,Colin Lee,Daniel Yi,Junke Yang,Tejas Naik,Ziyi Wang,Connor Kilrain,Elijah H Buckwalter,Jiacheng Hou,Saul Ibaven Bueno,Shuheng Wang,Xinyue Ma,Yifan Liu,Zhiyuan Tao,Ziheng Zhang,Eric Sokol,Michael Belitz,Sydne Record,Charles V. Stewart,Wei-Lun Chao
Main category: cs.CV
TL;DR: 开发了一个3阶段自动化流水线来处理大规模甲虫图像数据,包括检测、裁剪和形态分割,旨在提高生物研究的效率。
- Motivation: 在昆虫学和生态学研究中,生物学家需要处理大量甲虫图像数据,手动处理效率低下,因此需要自动化流水线来加速研究进程。
- Method: 使用基于transformer的开放词汇目标检测器和视觉语言模型进行迭代检测,然后手动标注670张甲虫图像并微调基于transformer的分割模型进行精细分割。
- Result: 构建了一个专门用于甲虫图像处理的集成深度学习流水线,能够相对准确地实现甲虫的检测和分割。
- Conclusion: 该流水线能够显著提高大规模甲虫数据的处理效率,加速生物研究进程。
[32] MambaNetLK: Enhancing Colonoscopy Point Cloud Registration with Mamba
Linzhe Jiang,Jiayuan Huang,Sophia Bano,Matthew J. Clarkson,Zhehua Mao,Mobarak I. Hoque
Main category: cs.CV
TL;DR: 提出MambaNetLK,一种基于Mamba状态空间模型的无对应点云配准方法,在临床数据集上显著优于现有方法,为内窥镜导航提供更准确的3D配准基础。
- Motivation: 解决内窥镜导航中生物组织重复纹理和局部均匀几何特征导致的特征退化问题,以及术前解剖与术中观察之间的显著域偏移对配准稳定性的影响。
- Method: 将Mamba状态空间模型作为跨模态特征提取器集成到PointNetLK架构中,利用Lucas-Kanade算法进行迭代配准,以线性时间复杂度捕获长程依赖关系。
- Result: 在C3VD-Raycasting-10k临床数据集上,相比次优方法,中值旋转误差降低56.04%,RMSE平移误差降低26.19%,在ModelNet40上表现出强泛化能力和对初始位姿扰动的鲁棒性。
- Conclusion: MambaNetLK结合全局表达能力强的SSM特征提取器和大规模临床数据集,为结肠镜等微创手术提供了更准确可靠的导航系统基础。
[33] Spot The Ball: A Benchmark for Visual Social Inference
Neha Balamurugan,Sarah Wu,Adam Chun,Gabe Gaw,Cristobal Eyzaguirre,Tobias Gerstenberg
Main category: cs.CV
TL;DR: 提出了Spot The Ball基准测试,用于评估视觉语言模型在视觉社交推理方面的能力,发现人类在定位被移除的球类方面比最先进的模型准确2-3倍。
- Motivation: 人类擅长从微妙的行为线索(如注视、姿势和朝向)推断场景中的隐藏元素,这种能力对于开发更类似人类的AI代理至关重要。
- Method: 使用足球、篮球和排球图像创建了一个基准测试,要求定位被移除的球。评估了四种最先进的视觉语言模型,并比较了人类基线。
- Result: 人类准确率(20-34%)比模型(≤17%)高2-3倍。模型依赖表面空间启发式方法,而人类利用社交线索如注视方向和身体姿势。
- Conclusion: 揭示了视觉社交推理中持续存在的人机差距,强调需要显式编码结构化行为线索的架构来实现稳健、类人的推理。
[34] FedReplay: A Feature Replay Assisted Federated Transfer Learning Framework for Efficient and Privacy-Preserving Smart Agriculture
Long Li,Jiajia Li,Dong Chen,Lina Pu,Haibo Yao,Yanbo Huang
Main category: cs.CV
TL;DR: 提出了一种结合CLIP视觉变换器和轻量级分类器的联邦学习框架,用于农业分类任务,在保护隐私的同时显著提升准确率并降低通信成本。
- Motivation: 解决传统集中式训练的数据隐私问题,以及标准联邦学习在非独立同分布数据上的性能下降和高通信成本问题。
- Method: 使用预训练的CLIP ViT进行特征提取,仅对轻量级分类器进行联邦更新,并共享1%的CLIP特征来对齐类别表示。
- Result: 在农业分类任务上达到86.6%的准确率,比基线联邦学习方法提升4倍以上。
- Conclusion: 将视觉语言模型特征与联邦学习结合,能够有效实现隐私保护且可扩展的农业智能应用。
[35] Multi-View Consistent Human Image Customization via In-Context Learning
Hengjia Li,Jianjin Xu,Keli Cheng,Lei Wang,Ning Bi,Boxi Wu,Fernando De la Torre,Deng Cai
Main category: cs.CV
TL;DR: PersonalView是一个轻量级适配方法,仅需100个训练样本即可让现有模型获得多视角生成能力,显著优于需要大量多视角数据训练的基线方法。
- Motivation: 现有个性化生成模型虽然能生成身份一致的图像,但无法控制生成图像的视角,也无法生成一致的多视角人物图像。
- Method: 包含两个关键组件:1)利用预训练扩散变换器的上下文学习能力设计条件架构;2)通过语义对应对齐损失保持预训练模型的原始生成能力。
- Result: 在多视角一致性、文本对齐、身份相似性和视觉质量方面显著优于基线方法,仅用100个训练样本就超越了需要大量多视角数据训练的基线。
- Conclusion: PersonalView成功解决了多视角生成问题,提供了一种高效且轻量级的解决方案。
[36] Towards Automated Petrography
Isai Daniel Chacón,Paola Ruiz Puentes,Jillian Pearse,Pablo Arbeláez
Main category: cs.CV
TL;DR: 提出了LITHOS框架,这是最大最全面的自动化岩石学公开数据集,包含211,604个偏振光RGB图像块和105,802个专家标注的矿物颗粒,涵盖25种矿物类别。
- Motivation: 传统岩石学分析依赖专家通过光学偏振显微镜进行视觉检查,劳动密集且难以扩展,需要自动化技术来解决可扩展性问题。
- Method: 构建了包含高分辨率偏振光图像和专家标注的大规模数据集,评估了多种深度学习技术,并提出了一种集成两种偏振模态的双编码器transformer架构。
- Result: 提出的双编码器transformer方法在矿物分类任务上持续优于单偏振模型,证明了偏振协同在矿物分类中的价值。
- Conclusion: LITHOS基准测试集(包括数据集、代码和预训练模型)已公开,以促进自动化岩石学分析的可重复性和进一步研究。
[37] Beyond ImageNet: Understanding Cross-Dataset Robustness of Lightweight Vision Models
Weidong Zhang,Pak Lun Kevin Ding,Huan Liu
Main category: cs.CV
TL;DR: 该研究系统评估了11种轻量级视觉模型在7个数据集上的跨域泛化能力,提出了跨数据集评分(xScore)指标,发现ImageNet性能不能可靠预测细粒度或医疗数据集表现,并识别了促进泛化的关键架构组件。
- Motivation: 轻量级视觉模型主要在ImageNet上评估,但其在其他领域的泛化能力未知,需要系统量化跨数据集鲁棒性并识别驱动泛化的架构元素。
- Method: 在7个多样化数据集上训练11种轻量级视觉模型(250万参数),采用固定100轮训练计划,引入跨数据集评分(xScore)来量化模型性能的一致性和鲁棒性。
- Result: ImageNet准确率不能可靠预测细粒度或医疗数据集性能;xScore可作为移动模型性能的可扩展预测指标,仅需4个数据集即可估计;各向同性卷积、高空间分辨率和通道注意力等组件促进泛化,而Transformer块带来额外参数开销但增益有限。
- Conclusion: 研究提供了评估轻量级视觉模型的可复现框架,强调了移动友好架构的关键设计原则,为开发跨域鲁棒模型提供指导。
[38] A DeepONet joint Neural Tangent Kernel Hybrid Framework for Physics-Informed Inverse Source Problems and Robust Image Reconstruction
Yuhao Fang,Zijian Wang,Yao Lu,Ye Zhang,Chun Li
Main category: cs.CV
TL;DR: 提出了一种结合DeepONet和NTK的混合方法来解决复杂逆问题,包括Navier-Stokes方程控制下的源定位和图像重建,能够有效处理非线性、稀疏性和噪声数据。
- Motivation: 为了解决复杂逆问题中的非线性、稀疏性和噪声数据挑战,需要开发一种能够同时保证物理一致性和准确性的方法。
- Method: 将Deep Operator Networks与Neural Tangent Kernel相结合,在损失函数中融入物理约束和任务特定正则化,确保解的物理一致性。
- Result: 在多种合成和真实数据集上的验证表明,该方法具有鲁棒性、可扩展性和精确性。
- Conclusion: 该方法在计算物理和成像科学领域具有广泛的应用潜力。
[39] Federated Dialogue-Semantic Diffusion for Emotion Recognition under Incomplete Modalities
Xihang Qiu,Jiarong Cheng,Yuhao Fang,Wanpeng Zhang,Yao Lu,Ye Zhang,Chun Li
Main category: cs.CV
TL;DR: FedDISC框架通过联邦学习整合缺失模态恢复,解决了多模态情感识别中模态缺失导致的性能下降问题,在多种缺失模式下实现了优越的情感分类性能。
- Motivation: 现实场景中不可预测的模态缺失会显著降低现有多模态情感识别方法的性能,传统依赖完整多模态数据的缺失模态恢复方法在极端数据分布下容易出现语义失真。
- Method: 提出FedDISC框架,通过联邦聚合客户端训练的模态特定扩散模型,使用DISC-Diffusion模块确保恢复模态与可用模态在上下文、说话人身份和语义上的一致性,并采用交替冻结聚合策略促进协作优化。
- Result: 在IEMOCAP、CMUMOSI和CMUMOSEI数据集上的广泛实验表明,FedDISC在多种缺失模态模式下实现了优越的情感分类性能,超越了现有方法。
- Conclusion: FedDISC成功将联邦学习引入缺失模态恢复,克服了单客户端对模态完整性的依赖,为多模态情感识别中的模态缺失问题提供了有效解决方案。
[40] OSMGen: Highly Controllable Satellite Image Synthesis using OpenStreetMap Data
Amir Ziashahabi,Narges Ghasemi,Sajjad Shahabi,John Krumm,Salman Avestimehr,Cyrus Shahabi
Main category: cs.CV
TL;DR: OSMGen是一个从OpenStreetMap数据生成逼真卫星图像的生成框架,能够创建前后对比图像对,用于解决训练数据稀缺和类别不平衡问题。
- Motivation: 准确和最新的地理空间数据对城市规划至关重要,但特定城市特征及其变化的标注数据集稀缺,自动化城市监测仍然困难。
- Method: 使用原始OSM JSON数据(包括矢量几何、语义标签、位置和时间),而不是依赖栅格瓦片,提供细粒度的场景生成控制。核心功能是生成一致的前后对比图像对。
- Result: 能够生成用于训练的数据,解决稀缺性和类别不平衡问题,并为规划者提供预览拟议干预措施的方法。
- Conclusion: OSMGen为静态和变化状态生成配对的(JSON,图像)数据,为实现卫星图像自动驱动结构化OSM更新的闭环系统铺平了道路。
[41] Detecting AI-Generated Images via Diffusion Snap-Back Reconstruction: A Forensic Approach
Mohd Ruhul Ameen,Akif Islam
Main category: cs.CV
TL;DR: 提出了一种基于扩散模型重建动态的AI生成图像检测方法,通过分析不同噪声强度下的图像重建指标变化来区分真实与合成图像。
- Motivation: 随着生成扩散模型的快速发展,区分真实视觉内容与合成图像变得越来越困难。传统的深度伪造检测方法依赖频率或像素级伪影,但无法应对现代文本到图像系统(如Stable Diffusion和DALL-E)产生的逼真且无伪影的结果。
- Method: 利用多强度图像重建动态(称为扩散回弹)来识别AI生成图像。通过分析重建指标(LPIPS、SSIM和PSNR)在不同噪声强度下的演变,提取可解释的基于流形的特征来区分真实和合成图像。
- Result: 在包含4000张图像的平衡数据集上评估,该方法在交叉验证下达到0.993 AUROC,并对压缩和噪声等常见失真保持鲁棒性。
- Conclusion: 尽管使用有限数据和单一扩散主干(Stable Diffusion v1.5),所提出的方法展示了强大的泛化能力和可解释性,为可扩展、模型无关的合成媒体取证提供了基础。
[42] Transfer Learning for Onboard Cloud Segmentation in Thermal Earth Observation: From Landsat to a CubeSat Constellation
Niklas Wölki,Lukas Kondmann,Christian Mollière,Martin Langer,Julia Gottfriedsen,Martin Werner
Main category: cs.CV
TL;DR: 该论文提出了一种基于迁移学习的轻量级热红外云分割方法,用于FOREST-2立方星任务,通过使用MobileNet编码器的UNet架构,在有限硬件条件下实现了高效准确的热红外云检测。
- Motivation: 解决立方星任务中硬件资源有限、热红外波段单一且标注数据不足的问题,实现星载实时云分割。
- Method: 使用UNet架构配合轻量级MobileNet编码器,先在Landsat-7公共数据集上预训练,然后在FOREST-2任务特定小样本上进行联合训练微调。
- Result: 宏F1分数从0.850提升到0.877,在NVIDIA Jetson Nano上实现全图像推理时间低于5秒。
- Conclusion: 利用公共数据集和轻量架构可在资源受限的EO任务中实现准确高效的热红外云分割,支持实时决策。
[43] Oitijjo-3D: Generative AI Framework for Rapid 3D Heritage Reconstruction from Street View Imagery
Momen Khandoker Ope,Akif Islam,Mohd Ruhul Ameen,Abu Saleh Musa Miah,Md Rashedul Islam,Jungpil Shin
Main category: cs.CV
TL;DR: Oitijjo-3D是一个免费生成式AI框架,利用Google街景图像重建文化遗产3D模型,解决孟加拉国文化遗产修复中资源和技术专业知识匮乏的问题。
- Motivation: 孟加拉国文化遗产修复面临资源有限和技术专业知识稀缺的双重挑战,传统3D数字化方法成本高昂且需要专业操作,导致许多建筑瑰宝面临衰败风险且无法数字化保存。
- Method: 采用两阶段流程:使用Gemini 2.5 Flash Image进行多模态视觉推理实现结构-纹理合成,通过Hexagen进行神经图像到3D生成实现几何恢复。
- Result: 系统在几秒钟内生成逼真、度量一致的重建结果,相比传统运动恢复结构流程显著提速,且无需专业硬件或专家监督。在Ahsan Manzil、Choto Sona清真寺和Paharpur等标志性建筑上的实验证明其保持了视觉和结构保真度。
- Conclusion: 通过将开放图像转化为数字遗产,这项工作将保护重新定义为资源有限国家社区驱动、AI辅助的文化延续行为,大幅降低了经济和技术门槛。
[44] Who Can We Trust? Scope-Aware Video Moment Retrieval with Multi-Agent Conflict
Chaochen Wu,Guan Luo,Meiyun Zuo,Zhitao Fan
Main category: cs.CV
TL;DR: 提出基于强化学习的视频时刻检索模型,通过多智能体系统和证据学习解决模型间冲突,无需额外训练即可检测超出范围的查询。
- Motivation: 当前视频时刻检索方法未考虑不同模型定位结果的冲突,导致模型无法有效整合。需要解决多模型集成中的冲突问题,并处理现实应用中无对应时刻的查询。
- Method: 使用强化学习模型扫描整个视频找到时刻边界并生成定位证据,提出多智能体系统框架,利用证据学习解决智能体定位输出的冲突。
- Result: 在基准数据集上的实验表明,所提方法优于现有最先进方法。多智能体系统的竞争与冲突建模能有效提升强化学习在时刻检索中的性能。
- Conclusion: 多智能体系统中的竞争与冲突建模是提升强化学习性能的有效方式,证据学习在多智能体框架中发挥了新作用,无需额外训练即可处理超出范围查询。
[45] VisionCAD: An Integration-Free Radiology Copilot Framework
Jiaming Li,Junlei Wu,Sheng Wang,Honglin Xiong,Jiangdong Cai,Zihao Zhao,Yitao Zhu,Yuan Yin,Dinggang Shen,Qian Wang
Main category: cs.CV
TL;DR: VisionCAD是一个基于视觉的放射学辅助框架,通过摄像头系统直接从显示器捕获医学图像,绕过了与医院IT基础设施集成的障碍。
- Motivation: 传统计算机辅助诊断系统因难以与现有医院IT基础设施集成而难以广泛部署。VisionCAD旨在通过视觉方法解决这一集成难题。
- Method: 采用自动化管道检测、恢复和分析屏幕上的医学图像,将摄像头捕获的视觉数据转换为适合自动分析和报告生成的诊断质量图像。模块化架构可灵活利用最先进的诊断模型。
- Result: 在多种医学影像数据集上验证,诊断性能与传统CAD系统相当,分类任务F1分数下降通常小于2%,自动报告的自然语言生成指标与原始图像相比差异在1%以内。
- Conclusion: VisionCAD仅需摄像头设备和标准计算资源,为AI辅助诊断提供了可访问的方法,可在不修改现有基础设施的情况下在各种临床环境中部署诊断能力。
[46] Rethinking Facial Expression Recognition in the Era of Multimodal Large Language Models: Benchmark, Datasets, and Beyond
Fan Zhang,Haoxuan Li,Shengju Qian,Xin Wang,Zheng Lian,Hao Wu,Zhihong Zhu,Yuan Gao,Qiankun Li,Yefeng Zheng,Zhouchen Lin,Pheng-Ann Heng
Main category: cs.CV
TL;DR: FERBench基准测试显示,尽管多模态大语言模型在面部表情识别分类任务上表现良好,但在推理和可解释性方面存在显著局限。为此,作者开发了UniFER-7B模型,通过后训练策略显著提升了面部表情推理能力。
- Motivation: 多模态大语言模型在计算机视觉和情感计算领域取得了革命性进展,但它们在面部表情识别任务上的性能尚未得到充分探索。现有方法将FER数据集转换为视觉问答格式,但模型的推理和可解释性能力仍有待提升。
- Method: 1) 构建FERBench基准,评估20个SOTA MLLM在4个常用FER数据集上的表现;2) 开发后训练策略,包括使用UniFER-CoT-230K数据集进行冷启动初始化,以及使用UniFER-RLVR-360K数据集进行带可验证奖励的强化学习;3) 构建统一的FER基础模型UniFER-7B。
- Result: UniFER-7B模型在面部表情识别任务上超越了多个开源和闭源通用MLLM,包括Gemini-2.5-Pro和Qwen2.5-VL-72B,显著提升了推理和可解释性能力。
- Conclusion: 通过系统性的基准测试和专门设计的后训练策略,可以显著提升多模态大语言模型在面部表情识别任务上的推理能力和可解释性,UniFER-7B模型为此提供了有效的解决方案。
[47] VinciCoder: Unifying Multimodal Code Generation via Coarse-to-fine Visual Reinforcement Learning
Xuanle Zhao,Deyang Jiang,Zhixiong Zeng,Lei Chen,Haibo Qiu,Jing Huang,Yufeng Zhong,Liming Zheng,Yilin Cao,Lin Ma
Main category: cs.CV
TL;DR: VinciCoder是一个统一的多模态代码生成模型,通过两阶段训练框架解决现有视觉语言模型在代码生成任务中的局限性,实现了最先进的性能。
- Motivation: 当前视觉语言模型在代码生成任务中依赖单任务训练,限制了通用视觉代码智能的发展,需要更统一的解决方案。
- Method: 采用两阶段训练框架:首先构建160万图像-代码对的监督微调语料库,然后引入视觉强化学习策略,使用从粗到细的奖励机制计算局部和全局图像块的视觉相似度。
- Result: 在各种多模态代码生成基准测试中实现了最先进的性能,证明了从粗到细视觉强化学习策略的有效性。
- Conclusion: VinciCoder通过统一的多模态代码生成方法和创新的视觉强化学习策略,显著提升了视觉代码智能的性能和泛化能力。
[48] CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks
Long Li,Shuichen Ji,Ziyang Luo,Nian Liu,Dingwen Zhang,Junwei Han
Main category: cs.CV
TL;DR: 提出了首个统一框架,通过将SOD、CoSOD和SIS三个异构显著性任务建模为视觉语言模型中的思维链推理过程,解决了任务异质性问题。
- Motivation: 现有方法通常为每个显著性任务设计专门模型,缺乏统一处理异构任务的能力。本文旨在通过CoT推理过程桥接任务异质性,实现多任务统一处理。
- Method: 采用两阶段训练范式:监督微调(SFT)和强化学习(RL)。提出置信度引导策略优化(CGPO)算法,利用奖励与模型置信度差异作为优势信号,解决GRPO的关键限制。还引入"输出到推理"策略构建高质量SFT数据。
- Result: 模型在所有任务上匹配或超越专门的最先进方法和强闭源VLM,特别是在CoSOD任务上,CoCA数据集上的S-measure达到0.899,比之前最佳方法提升8.0个百分点,且使用更少训练数据。
- Conclusion: 该框架成功统一处理异构显著性任务,通过CoT推理和CGPO算法实现了优异性能,证明了统一框架在多任务显著性分析中的有效性。
[49] LGCA: Enhancing Semantic Representation via Progressive Expansion
Thanh Hieu Cao,Trung Khang Tran,Gia Thinh Pham,Tuong Nghiem Diep,Thanh Binh Nguyen
Main category: cs.CV
TL;DR: 提出了LGCA框架,通过局部-全局交叉对齐方法解决CLIP模型在图像裁剪时引入错误信息的问题,提升零样本图像分类性能。
- Motivation: CLIP模型在图像裁剪时容易引入错误信息和偏见,因为小尺度图像区域往往具有相似特征,这限制了模型性能的进一步提升。
- Method: LGCA框架首先捕获图像的局部特征,然后反复选择最显著区域并扩展,相似度评分结合原始图像和扩展图像,同时捕获局部和全局特征。
- Result: 实验表明该方法在多个数据集上显著提升零样本性能,优于现有最优基线方法,且时间复杂度与原始模型相同。
- Conclusion: LGCA框架有效解决了CLIP模型在图像裁剪中的错误信息问题,实现了局部和全局特征的平衡捕获,具有高效性和可扩展性。
[50] Leveraging Hierarchical Image-Text Misalignment for Universal Fake Image Detection
Daichi Zhang,Tong Zhang,Jianmin Bao,Shiming Ge,Sabine Süsstrunk
Main category: cs.CV
TL;DR: 提出了一种基于图像-文本不对齐的假图像检测方法ITEM,通过分析生成图像与对应描述在视觉-语言空间中的不对齐程度来识别假图像,相比传统仅依赖视觉特征的方法具有更好的泛化性。
- Motivation: 现有假图像检测方法仅依赖视觉线索,容易过拟合特定图像模式,无法泛化到未见过的生成模型。作者发现生成图像与对应描述在视觉-语言空间中存在不对齐问题,这可以作为更鲁棒的检测线索。
- Method: 使用预训练的CLIP模型测量图像与描述在联合视觉-语言空间中的不对齐程度,然后训练MLP头进行分类检测。提出分层不对齐方案,先关注整体图像,再关注描述中的每个语义对象,探索全局和局部语义不对齐线索。
- Result: 在多个最新生成模型上的广泛实验表明,该方法优于其他最先进方法,具有令人印象深刻的泛化能力和鲁棒性。
- Conclusion: 利用图像-文本不对齐作为判别线索是一种简单有效的假图像检测方法,能够克服传统仅依赖视觉特征方法的局限性,实现更好的泛化性能。
[51] Enhancing Frequency Forgery Clues for Diffusion-Generated Image Detection
Daichi Zhang,Tong Zhang,Shiming Ge,Sabine Süsstrunk
Main category: cs.CV
TL;DR: 提出一种基于频率伪造线索(F^2C)的扩散生成图像检测方法,通过增强所有频段的频率差异特征来提升检测器的泛化性和鲁棒性。
- Motivation: 扩散模型生成的图像质量很高,但可能被恶意使用。现有检测器难以捕捉不同模型和设置下的判别性线索,泛化到未见扩散模型和对各种扰动的鲁棒性有限。
- Method: 提出频率选择性函数作为加权滤波器作用于傅里叶频谱,抑制判别性较弱的频段,增强信息量更大的频段。该方法基于对自然真实图像和扩散生成图像频率差异的全面分析。
- Result: 在多个扩散生成图像数据集上的广泛实验表明,该方法在泛化性和鲁棒性方面优于最先进的检测器。
- Conclusion: 通过增强所有频段的频率伪造线索,能够实现对未见扩散模型图像的通用检测,并对各种扰动具有鲁棒性。
[52] ToxicTextCLIP: Text-Based Poisoning and Backdoor Attacks on CLIP Pre-training
Xin Yao,Haiyang Zhao,Yimin Chen,Jiawei Guo,Kecheng Huang,Ming Zhao
Main category: cs.CV
TL;DR: ToxicTextCLIP是一个针对CLIP模型预训练阶段的文本模态对抗攻击框架,通过背景感知选择和背景驱动增强生成高质量的中毒文本,在分类和检索任务中达到高攻击成功率并能绕过现有防御机制。
- Motivation: CLIP模型依赖大规模网络数据进行自监督对比学习,但未筛选的互联网数据使其面临数据中毒和后门风险。现有研究主要关注图像模态攻击,而同样重要的文本模态攻击研究不足。
- Method: 提出ToxicTextCLIP框架,迭代应用:1)背景感知选择器,优先选择与目标类别背景一致文本;2)背景驱动增强器,生成语义一致且多样化的中毒样本。
- Result: 在分类和检索任务中达到95.83%的中毒成功率和98.68%的后门Hit@1,并能成功绕过RoCLIP、CleanCLIP和SafeCLIP等防御机制。
- Conclusion: ToxicTextCLIP证明了文本模态在CLIP预训练阶段存在严重安全风险,需要开发更有效的防御方法来应对此类攻击。
[53] Weakly Supervised Pneumonia Localization from Chest X-Rays Using Deep Neural Network and Grad-CAM Explanations
Kiran Shahi,Anup Bagale
Main category: cs.CV
TL;DR: 提出弱监督深度学习框架,使用Grad-CAM解释进行肺炎分类和定位,无需像素级标注,仅需图像级标签即可生成临床意义的热力图。
- Motivation: 解决传统肺炎诊断需要昂贵像素级标注的问题,开发更实用的弱监督方法,提高AI辅助医学影像的透明度和临床信任度。
- Method: 使用七种ImageNet预训练架构(ResNet-18/50、DenseNet-121、EfficientNet-B0、MobileNet-V2/V3、ViT-B16),在相同训练条件下使用焦点损失和患者级数据分割,避免数据泄露。
- Result: 在Kermany CXR数据集上,ResNet-18和EfficientNet-B0达到最佳测试准确率98%,ROC-AUC=0.997,F1=0.987;MobileNet-V2在准确率和计算成本间提供最优平衡。
- Conclusion: Grad-CAM可视化证实模型聚焦于临床相关肺部区域,支持可解释AI在放射学诊断中的应用,突显弱监督可解释模型在肺炎筛查透明度和临床信任方面的潜力。
[54] HumanCrafter: Synergizing Generalizable Human Reconstruction and Semantic 3D Segmentation
Panwang Pan,Tingting Shen,Chenxin Li,Yunlong Lin,Kairun Wen,Jingjing Zhao,Yixuan Yuan
Main category: cs.CV
TL;DR: HumanCrafter是一个统一框架,可从单张图像联合建模外观和人体部位语义,在3D人体部位分割和重建任务上超越现有方法。
- Motivation: 现有生成模型在3D人体重建方面取得了高保真度,但在特定任务(如人体3D分割)中的应用仍受限。
- Method: 在重建阶段集成人体几何先验,在分割阶段集成自监督语义先验;开发交互式标注程序生成高质量数据标签对;通过像素对齐聚合实现跨任务协同,多任务目标同时优化纹理建模保真度和语义一致性。
- Result: 大量实验表明,HumanCrafter在3D人体部位分割和单图像3D人体重建方面均超越了现有最先进方法。
- Conclusion: HumanCrafter框架成功实现了从单张图像联合建模外观和人体部位语义,在多个任务上表现出色。
[55] Longitudinal Vestibular Schwannoma Dataset with Consensus-based Human-in-the-loop Annotations
Navodini Wijethilake,Marina Ivory,Oscar MacCormac,Siddhant Kumar,Aaron Kujawa,Lorena Garcia-Foncillas Macias,Rebecca Burger,Amanda Hitchings,Suki Thomson,Sinan Barazi,Eleni Maratos,Rupert Obholzer,Dan Jiang,Fiona McClenaghan,Kazumi Chia,Omar Al-Salihi,Nick Thomas,Steve Connor,Tom Vercauteren,Jonathan Shapey
Main category: cs.CV
TL;DR: 提出了一种基于深度学习的迭代分割和质量优化框架,用于MRI中前庭神经鞘瘤的自动分割,通过多中心数据和专家共识构建了公开数据集,显著提升了分割精度和效率。
- Motivation: 前庭神经鞘瘤的MRI精确分割对患者管理至关重要,但传统手动标注耗时且依赖专家。现有深度学习方法在多样化数据集和复杂临床案例中的鲁棒性仍存在挑战。
- Method: 采用自举式深度学习框架进行迭代分割和质量优化,结合多中心数据并依赖专家共识确保标注可信度,实现人机协作的模型训练。
- Result: 在目标内部验证数据集上,Dice相似系数从0.9125显著提升至0.9670,在代表性外部数据集上保持稳定性能,相比传统手动标注过程效率提升约37.4%。
- Conclusion: 该人机协作模型训练方法实现了高分割精度,展示了作为临床适应性强、可推广的自动前庭神经鞘瘤分割策略的潜力。
[56] FedMGP: Personalized Federated Learning with Multi-Group Text-Visual Prompts
Weihao Bo,Yanpeng Sun,Yu Wang,Xinyu Zhang,Zechao Li
Main category: cs.CV
TL;DR: FedMGP是一种用于视觉语言模型的个性化联邦提示学习新范式,通过多组文本和视觉提示捕捉细粒度语义,采用基于相似度的动态提示聚合策略,在保持参数效率的同时实现最先进的性能。
- Motivation: 解决联邦学习中如何有效平衡共享知识和客户端特定特征的问题,同时提升模型的个性化能力和领域泛化性能。
- Method: 为每个客户端配备多组配对的文本和视觉提示,引入多样性损失使各组专注于不同的语义方面,采用基于余弦相似度的概率采样进行动态提示聚合。
- Result: 在多个联邦视觉语言基准测试中,FedMGP在个性化和领域泛化方面均优于现有方法,且在所有联邦提示学习方法中通信参数最低。
- Conclusion: FedMGP通过多组提示和动态聚合策略,有效平衡了共享语义学习和客户端特定特征的保留,实现了参数高效的个性化联邦学习。
[57] Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models
Panwang Pan,Chenguo Lin,Jingjing Zhao,Chenxin Li,Yuchen Lin,Haopeng Li,Honglei Yan,Kairun Wen,Yunlong Lin,Yixuan Yuan,Yadong Mu
Main category: cs.CV
TL;DR: Diff4Splat是一种前馈方法,可从单张图像合成可控的显式4D场景,结合视频扩散模型的生成先验和4D数据集学习到的几何运动约束,无需测试时优化即可预测可变形3D高斯场。
- Motivation: 解决从单张图像生成高质量4D场景的挑战,统一视频扩散模型的生成能力和4D数据的几何运动约束,实现高效可控的动态场景合成。
- Method: 使用视频潜在变换器增强视频扩散模型,联合捕捉时空依赖性并预测时变3D高斯基元,通过外观保真度、几何精度和运动一致性的目标进行训练。
- Result: 在30秒内合成高质量4D场景,在视频生成、新视角合成和几何提取方面匹配或超越基于优化的方法,同时效率显著更高。
- Conclusion: Diff4Splat提供了一种高效的前馈方法,能够从单张图像合成可控的4D场景,在保持高质量的同时大幅提升效率。
[58] VinDr-CXR-VQA: A Visual Question Answering Dataset for Explainable Chest X-Ray Analysis with Multi-Task Learning
Hai-Dang Nguyen,Ha-Hieu Pham,Hao T. Nguyen,Huy-Hieu Pham
Main category: cs.CV
TL;DR: VinDr-CXR-VQA是一个大规模胸部X光视觉问答数据集,包含17,597个问答对和4,394张图像,带有放射科医生验证的边界框和临床推理解释,旨在推进可解释的医学视觉问答研究。
- Motivation: 当前医学视觉问答研究缺乏大规模、可解释且具有空间定位能力的数据集,需要构建一个能够提供临床推理和病灶定位的可靠基准数据集。
- Method: 构建包含六种诊断类型(位置、内容、存在性、数量、选择和是/非)的问题分类法,创建平衡的数据分布(41.7%阳性样本和58.3%阴性样本),并使用MedGemma-4B-it模型进行基准测试。
- Result: 在基准测试中,F1得分达到0.624,比基线提高了11.8%,同时实现了病灶定位功能,证明了数据集的有效性。
- Conclusion: VinDr-CXR-VQA数据集为医学视觉问答研究提供了可重复和临床基础的新基准,公开可用的数据集和评估工具将促进该领域的发展。
[59] OmniTrack++: Omnidirectional Multi-Object Tracking by Learning Large-FoV Trajectory Feedback
Kai Luo,Hao Shi,Kunyu Peng,Fei Teng,Sheng Wu,Kaiwei Wang,Kailun Yang
Main category: cs.CV
TL;DR: OmniTrack++是一个用于全景图像多目标跟踪的反馈驱动框架,通过动态特征稳定、轨迹引导的灵活定位和专家记忆设计,解决了全景图像中的失真、大搜索空间和身份模糊问题,在JRDB和EmboTrack基准上实现了最先进的性能。
- Motivation: 传统多目标跟踪方法在全景图像中表现不佳,因为全景图像具有360度视野、分辨率稀释和严重的视角相关失真等独特挑战,需要专门的方法来处理这些条件。
- Method: 采用反馈驱动框架,包括:DynamicSSM块稳定全景特征;FlexiTrack实例使用轨迹反馈进行灵活定位和短期关联;ExpertTrack记忆通过专家混合设计整合外观线索;Tracklet管理模块根据场景动态自适应切换端到端和检测跟踪模式。
- Result: 在JRDB和EmboTrack基准上实现了最先进的性能,相比原始OmniTrack,在JRDB上HOTA提升25.5%,在QuadTrack上提升43.07%。
- Conclusion: OmniTrack++通过创新的反馈驱动框架有效解决了全景多目标跟踪的挑战,建立了EmboTrack基准用于严格评估,为真实世界全景感知提供了平衡且可扩展的解决方案。
[60] ID-Composer: Multi-Subject Video Synthesis with Hierarchical Identity Preservation
Panwang Pan,Jingjing Zhao,Yuchen Lin,Chenguo Lin,Chenxin Li,Haopeng Li,Honglei Yan,Tingting Shen,Yadong Mu
Main category: cs.CV
TL;DR: ID-Composer是一个用于多主体视频生成的新框架,通过文本提示和参考图像生成视频,解决了现有模型在可控性和适用性方面的限制。
- Motivation: 现有的视频生成模型通常只能基于文本或单张图像生成视频,这限制了可控性和应用范围。需要一种能够处理多主体视频生成的方法,同时保持主体身份一致性和时间一致性。
- Method: 设计了分层身份保持注意力机制来聚合跨主体和模态的特征;利用预训练视觉语言模型提供细粒度语义指导;采用在线强化学习阶段来优化关键概念对齐。
- Result: 大量实验表明,该模型在身份保持、时间一致性和视频质量方面优于现有方法。
- Conclusion: ID-Composer通过创新的注意力机制、语义理解和强化学习策略,有效解决了多主体视频生成的挑战,为可控视频生成提供了新的解决方案。
[61] SegDebias: Test-Time Bias Mitigation for ViT-Based CLIP via Segmentation
Fangyu Wu,Yujun Cai
Main category: cs.CV
TL;DR: 提出一种无需训练或偏置标注的测试时去偏方法,使用预训练分割模型隔离目标视觉属性,调整非目标区域使其嵌入与所有类别文本提示均匀相似,从而消除混杂视觉区域的偏置信号。
- Motivation: 现有去偏方法通常需要训练数据和明确的组标签进行微调或调整嵌入,限制了实际应用。测试时方法虽然避免了这个约束,但许多仍依赖数据集特定偏置的先验知识,在开放集设置中泛化性有限。
- Method: 使用预训练分割模型隔离目标视觉属性,然后调整非目标区域,使其嵌入与所有类别特定文本提示均匀相似,从而在保留目标属性的同时消除混杂视觉区域的意外偏置信号。
- Result: 在Waterbirds和CelebA上的实验表明,该方法在组鲁棒性指标和Attention IoU方面优于现有的测试时去偏方法。
- Conclusion: 分割引导的干预在视觉语言模型中实现可扩展且无需标注的偏置缓解是有效的。
[62] Text-guided Fine-Grained Video Anomaly Detection
Jihao Gu,Kun Li,He Wang,Kaan Akşit
Main category: cs.CV
TL;DR: 提出T-VAD框架,基于大视觉语言模型实现细粒度视频异常检测,通过异常热图解码器和区域感知异常编码器,在多个数据集上达到SOTA性能。
- Motivation: 传统视频异常检测方法输出有限(仅正常或异常),且多为半自动化需要人工评估,需要更细粒度和交互式的异常检测方案。
- Method: T-VAD框架包含异常热图解码器(AHD)进行像素级视觉-文本特征对齐生成细粒度异常热图,以及区域感知异常编码器(RAE)将热图转换为可学习文本嵌入,指导LVLM准确识别和定位视频异常事件。
- Result: 在UBnormal数据集上达到94.8% AUC和67.8%/76.7%异常热图准确率;在ShanghaiTech数据集上BLEU-4为62.67/88.84,是/否准确率97.67%;在UBnormal数据集上BLEU-4为50.32/78.10,是/否准确率89.73%。
- Conclusion: T-VAD显著提升了异常检测的粒度和交互性,在多个基准数据集上实现了最先进的性能。
[63] Real-IAD Variety: Pushing Industrial Anomaly Detection Dataset to a Modern Era
Wenbing Zhu,Chengjie Wang,Bin-Bin Gao,Jiangning Zhang,Guannan Jiang,Jie Hu,Zhenye Gan,Lidong Wang,Ziqing Zhou,Linjie Cheng,Yurui Pan,Bo Peng,Mingmin Chi,Lizhuang Ma
Main category: cs.CV
TL;DR: 提出了Real-IAD Variety,这是最大最全面的工业异常检测基准数据集,包含198,960张高分辨率图像,涵盖160个物体类别、28个行业、24种材料和22种颜色变化,解决了现有基准数据集类别多样性不足和规模有限的问题。
- Motivation: 现有工业异常检测基准数据集存在类别多样性受限、规模不足的问题,导致指标饱和和模型在真实场景中泛化能力有限,需要更全面的基准来推动该领域发展。
- Method: 构建了Real-IAD Variety基准数据集,通过覆盖28个行业、24种材料类型和22种颜色变化来确保多样性,并在多类无监督、多视角和零/少样本设置下进行严格评估。
- Result: 实验表明,最先进的多类无监督异常检测方法在类别从30扩展到160时性能显著下降,而视觉语言模型对类别扩展表现出显著鲁棒性,在不同类别数量下性能变化最小。
- Conclusion: Real-IAD Variety的规模和复杂性使其成为训练和评估下一代异常检测基础模型的重要资源,将加速超越领域特定约束的研究,推动可扩展通用异常检测系统的发展。
[64] MIFO: Learning and Synthesizing Multi-Instance from One Image
Kailun Su,Ziqi He,Xi Wang,Yang Zhou
Main category: cs.CV
TL;DR: 提出了一种从单张图像中精确学习和合成多实例语义的方法,通过基于惩罚的注意力优化来解耦相似语义,并在合成阶段引入注意力层的框控制来防止语义泄漏。
- Motivation: 解决从单张图像学习多实例语义时训练数据有限的问题,特别是在实例具有相似语义或外观时的挑战。
- Method: 使用基于惩罚的注意力优化在学习阶段解耦相似语义,在合成阶段引入并优化注意力层的框控制以精确控制输出布局。
- Result: 实验结果表明该方法实现了高质量的解耦语义学习和合成,在可编辑性和实例一致性之间取得了良好平衡,对语义或视觉相似实例及罕见物体具有鲁棒性。
- Conclusion: 该方法能够有效处理多实例语义学习和合成问题,特别是在面对相似语义或罕见对象时表现出色。
[65] 4D Neural Voxel Splatting: Dynamic Scene Rendering with Voxelized Guassian Splatting
Chun-Tin Wu,Jun-Cheng Chen
Main category: cs.CV
TL;DR: 4D-NVS结合体素表示和神经高斯泼溅,通过紧凑的神经体素和变形场建模动态场景,大幅减少内存消耗并加速训练,同时保持高质量渲染。
- Motivation: 解决3D高斯泼溅在动态场景中因跨帧复制高斯而导致的巨大内存开销问题。
- Method: 使用紧凑的神经体素集合和学习的变形场来建模时间动态,避免为每个时间戳生成独立的高斯集;引入视图细化阶段,通过针对性优化改进挑战性视角的渲染质量。
- Result: 实验表明该方法在显著减少内存消耗和加速训练的同时,超越了现有最优方法,实现了实时渲染和卓越的视觉保真度。
- Conclusion: 4D-NVS通过神经体素和变形场的结合,为动态场景建模提供了一种高效且高质量的解决方案,在内存效率和渲染质量方面均表现出色。
[66] Generalized Category Discovery under Domain Shift: A Frequency Domain Perspective
Wei Feng,Zongyuan Ge
Main category: cs.CV
TL;DR: 提出了FREE框架,通过频域信息增强模型在分布偏移下发现类别的能力,解决了域偏移广义类别发现(DS_GCD)问题
- Motivation: 现有的广义类别发现方法在标准条件下表现良好,但在存在分布偏移时性能会下降。本文探索了更现实的任务:域偏移广义类别发现,其中未标记数据不仅包含未知类别,还包含来自未知域的样本
- Method: 1. 基于频域的域分离策略,通过测量样本的幅度差异将样本划分为已知域和未知域;2. 两种频域扰动策略:跨域策略(通过交换跨域的幅度分量适应新分布)和域内策略(增强对未知域内变化的鲁棒性);3. 扩展自监督对比目标和语义聚类损失;4. 聚类难度感知重采样技术
- Result: 大量实验表明,该方法有效减轻了分布偏移的影响,在多个基准数据集上实现了优越性能,能够同时发现已知和未知类别
- Conclusion: FREE框架通过利用频域信息,显著提升了模型在分布偏移条件下发现类别的能力,为域偏移广义类别发现任务提供了有效的解决方案
[67] TRACES: Temporal Recall with Contextual Embeddings for Real-Time Video Anomaly Detection
Yousuf Ahmed Siddiqui,Sufiyaan Usmani,Umer Tariq,Jawwad Ahmed Shamsi,Muhammad Burhan Khan
Main category: cs.CV
TL;DR: 提出了一种上下文感知的零样本异常检测方法,通过融合时间特征和视觉嵌入,结合上下文记忆实现实时异常检测。
- Motivation: 视频异常通常依赖于上下文信息和时间演化,现有异常检测器无法有效处理这种上下文依赖性,限制了在真实场景中的泛化能力。
- Method: 构建记忆增强的管道,使用交叉注意力关联时间信号与视觉嵌入,通过上下文相似性评分实现实时零样本异常分类。
- Result: 在UCF-Crime上达到90.4% AUC,在XD-Violence上达到83.67% AP,创下零样本模型的新最先进水平,并实现实时推理。
- Conclusion: 通过融合交叉注意力时间融合和上下文记忆,实现了高保真度的异常检测,为零样本模型在真实世界监控和基础设施监测中的应用迈出了重要一步。
[68] CueBench: Advancing Unified Understanding of Context-Aware Video Anomalies in Real-World
Yating Yu,Congqi Cao,Zhaoying Wang,Weihua Meng,Jie Li,Yuxin Li,Zihao Wei,Zhongpei Shen,Jiajun Zhang
Main category: cs.CV
TL;DR: CueBench是首个面向上下文感知视频异常理解的基准测试,通过统一评估框架和事件中心层次分类法,系统评估现有模型在复杂现实异常理解方面的能力。
- Motivation: 现有视频异常理解方法对现实世界异常的理解较为肤浅,缺乏对复杂原理和微妙上下文的理解能力,需要更全面的评估基准。
- Method: 构建包含14种条件异常和18种绝对异常事件的层次分类法,涵盖174个场景和198个属性;提出基于R1风格强化微调的Cue-R1模型,使用可验证、任务对齐和层次细化的奖励机制。
- Result: 实验显示现有视觉语言模型在真实异常理解方面表现不佳,而Cue-R1模型在各项任务上平均超越现有最优方法24%以上。
- Conclusion: 当前深度模型与现实世界视频异常理解仍有较大差距,CueBench为系统评估提供了有效工具,Cue-R1展示了在复杂异常理解任务上的显著改进。
[69] Grounding Surgical Action Triplets with Instrument Instance Segmentation: A Dataset and Target-Aware Fusion Approach
Oluwatosin Alabi,Meng Wei,Charlie Budd,Tom Vercauteren,Miaojing Shi
Main category: cs.CV
TL;DR: 提出了triplet segmentation新任务,通过结合器械实例分割来空间定位手术动作三元组(器械、动词、目标),并开发了TargetFusionNet架构和CholecTriplet-Seg数据集。
- Motivation: 现有手术动作识别方法只能进行帧级分类,无法可靠地将动作与特定器械实例关联,且基于类激活图的空间定位方法缺乏精确性和鲁棒性。
- Method: 提出triplet segmentation统一任务,创建CholecTriplet-Seg数据集(3万+标注帧),开发TargetFusionNet架构,通过目标感知融合机制将弱解剖先验与器械实例查询融合。
- Result: TargetFusionNet在识别、检测和三元组分段指标上均优于现有基线,证明强实例监督结合弱目标先验能显著提升手术动作理解的准确性和鲁棒性。
- Conclusion: 三元组分段为空间定位手术动作三元组建立了统一框架,提出的基准和架构为更可解释的手术场景理解铺平了道路。
[70] Benchmarking individual tree segmentation using multispectral airborne laser scanning data: the FGI-EMIT dataset
Lassi Ruoppa,Tarmo Hietala,Verneri Seppänen,Josef Taher,Teemu Hakala,Xiaowei Yu,Antero Kukko,Harri Kaartinen,Juha Hyyppä
Main category: cs.CV
TL;DR: 本文介绍了FGI-EMIT,首个大规模多光谱激光雷达基准数据集,用于个体树木分割。通过比较传统无监督算法和深度学习方法的性能,发现深度学习方法显著优于传统方法,特别是在下层植被分割方面。
- Motivation: 个体树木分割对于森林调查和生态监测至关重要,但缺乏大规模多光谱激光雷达基准数据集限制了方法发展。多光谱反射率信息被证明能提高分割精度,但相关数据稀缺。
- Method: 创建了包含1,561棵人工标注树木的多光谱激光雷达数据集,比较了4种传统无监督算法和4种深度学习方法的性能。无监督方法使用贝叶斯优化超参数,深度学习模型从头训练。
- Result: 无监督方法中Treeiso表现最佳,F1分数52.7%。深度学习方法显著更优,ForestFormer3D达到73.3%的F1分数。在下层植被分割中,ForestFormer3D比Treeiso高出25.9个百分点。当前深度学习方法未能充分利用多光谱反射率信息。
- Conclusion: 深度学习方法在个体树木分割任务中显著优于传统无监督算法,特别是在复杂场景和低点密度条件下。然而,当前深度学习方法尚未能有效利用多光谱反射率信息,这为未来研究提供了改进方向。
[71] Metadata-Aligned 3D MRI Representations for Contrast Understanding and Quality Control
Mehmet Yigit Avci,Pedro Borges,Virginia Fernandez,Paul Wright,Mehmet Yigitsoy,Sebastien Ourselin,Jorge Cardoso
Main category: cs.CV
TL;DR: MR-CLIP是一个元数据引导的框架,通过将MRI体积图像与其DICOM采集参数对齐来学习MRI对比度表示,无需手动标注即可实现序列识别、协调和质量控制。
- Motivation: 解决MRI数据异质性和缺乏标准化对比度标签的问题,这些限制了大规模自动化分析。统一的MRI对比度表示可以实现从自动序列识别到协调和质量控制的下游应用。
- Method: 引入MR-CLIP框架,通过将体积图像与其DICOM采集参数对齐来学习MRI对比度表示。利用常规可用的采集元数据作为监督信号。
- Result: 生成的嵌入显示MRI序列的明显聚类,在数据稀缺情况下,在少样本序列分类中优于监督3D基线。通过图像-元数据嵌入距离实现无监督数据质量控制,识别损坏或不一致的元数据。
- Conclusion: MR-CLIP通过将常规采集元数据转化为监督信号,为跨不同临床数据集的标签高效MRI分析提供了可扩展的基础。
[72] Outlier-Aware Post-Training Quantization for Image Super-Resolution
Hailing Wang,jianglin Lu,Yitian Zhang,Yun Fu
Main category: cs.CV
TL;DR: 提出了一种用于图像超分辨率网络的后训练量化方法,通过双区域量化策略和敏感度感知微调,有效处理激活值中的异常值问题,在保持性能的同时显著加速推理。
- Motivation: 现有后训练量化方法在处理图像超分辨率网络时性能不佳,主要原因是忽视了激活值中的异常值影响。研究发现这些异常值与图像颜色信息密切相关,直接移除会导致性能显著下降。
- Method: 1. 双区域量化策略:将激活值划分为异常值区域和密集区域,分别进行均匀量化以优化比特分配;2. 敏感度感知微调:根据网络层对量化的不同敏感度,让模型更关注高敏感层。
- Result: 在多种超分辨率网络和数据集上的实验表明,该方法优于现有后训练量化方法,在大多数场景下达到与量化感知训练相当的性能,同时实现至少75倍的加速。
- Conclusion: 所提出的双区域量化策略和敏感度感知微调有效解决了后训练量化中的异常值问题,为图像超分辨率网络提供了高效实用的量化解决方案。
[73] Evolve to Inspire: Novelty Search for Diverse Image Generation
Alex Inch,Passawis Chaiyapattanaporn,Yuchen Zhu,Yuan Lu,Ting-Wen Ko,Davide Paglieri
Main category: cs.CV
TL;DR: WANDER是一个基于新颖性搜索的方法,通过LLM进行语义演化并使用CLIP嵌入量化新颖性,从单一输入提示生成多样化的图像集合,显著提升了图像多样性。
- Motivation: 文本到图像扩散模型虽然能生成高质量图像,但输出多样性有限,限制了在探索性和构思任务中的应用。现有的提示优化技术通常针对审美适应性或不适合创意视觉领域。
- Method: WANDER直接在自然语言提示上操作,使用大型语言模型进行语义演化,利用CLIP嵌入量化新颖性,并应用发射器引导搜索到提示空间的不同区域。
- Result: 使用FLUX-DEV生成和GPT-4o-mini进行突变的实证评估显示,WANDER在多样性指标上显著优于现有的进化提示优化基线方法。消融研究证实了发射器的有效性。
- Conclusion: WANDER通过新颖性搜索和发射器机制,成功解决了文本到图像扩散模型输出多样性不足的问题,为创意视觉任务提供了有效的解决方案。
[74] Toward Better Optimization of Low-Dose CT Enhancement: A Critical Analysis of Loss Functions and Image Quality Assessment Metrics
Taifour Yousra,Beghdadi Azeddine,Marie Luong,Zuheng Ming
Main category: cs.CV
TL;DR: 该论文分析了低剂量CT图像增强中不同损失函数与图像质量指标之间的一致性,发现两者存在不一致性,强调在开发新损失函数时需要考虑图像质量指标。
- Motivation: 低剂量CT图像常受噪声和伪影影响,虽然深度学习模型在PSNR和SSIM指标上表现良好,但这些指标难以反映医学图像的感知质量。
- Method: 对基于深度学习的低剂量CT图像增强架构中的损失函数进行客观分析,评估不同损失函数与图像质量指标的相关性。
- Result: 研究发现损失函数与质量指标之间存在不一致性,现有损失函数在提升图像质量方面存在局限性。
- Conclusion: 在开发图像质量增强的新损失函数时,必须考虑图像质量指标,以确保模型性能与感知质量一致。
[75] Validating Deep Models for Alzheimer's 18F-FDG PET Diagnosis Across Populations: A Study with Latin American Data
Hugo Massaroli,Hernan Chaves,Pilar Anania,Mauricio Farez,Emmanuel Iarussi,Viviana Siless
Main category: cs.CV
TL;DR: 深度学习模型在ADNI数据集上对阿尔茨海默病诊断表现出色,但在拉丁美洲FLENI队列上性能显著下降,揭示了显著的领域偏移问题。
- Motivation: 评估深度学习模型在不同人群中的泛化能力,特别是从北美ADNI数据集到拉丁美洲FLENI临床队列的迁移性能。
- Method: 使用卷积神经网络和Transformer模型在ADNI数据集上训练,并在FLENI数据集上测试泛化性能,通过消融研究分析关键影响因素。
- Result: 模型在ADNI上AUC高达0.96-0.97,但在FLENI上降至0.80-0.82,显示显著性能下降。不同架构表现相似,Transformer无明显优势。
- Conclusion: 需要基于人群的AI模型验证,未来工作应关注领域适应和队列多样化,以提高模型在不同人群中的泛化能力。
[76] Towards classification-based representation learning for place recognition on LiDAR scans
Dmitrii Khizbullin,Maksim Konoplia
Main category: cs.CV
TL;DR: 将地点识别重新定义为多分类问题,使用LiDAR扫描和离散位置标签训练编码器-解码器模型,在NuScenes数据集上取得与对比学习方法相当的性能,但训练更高效稳定。
- Motivation: 大多数现有方法依赖对比学习,本文探索将地点识别作为多类分类问题的替代方案,以提升训练效率和稳定性。
- Method: 为LiDAR扫描分配离散位置标签,训练编码器-解码器模型直接分类每个扫描的位置。
- Result: 在NuScenes数据集上评估,该方法与基于对比学习的方法性能相当,同时在训练效率和稳定性方面具有优势。
- Conclusion: 将地点识别作为多类分类问题是可行的替代方案,在保持性能的同时提供更好的训练效率。
[77] Erasing 'Ugly' from the Internet: Propagation of the Beauty Myth in Text-Image Models
Tanvi Dinkar,Aiqi Jiang,Gavin Abercrombie,Ioannis Konstas
Main category: cs.CV
TL;DR: 本研究通过生成5984张图像,发现生成式AI模型存在严重的美学偏见:86.5%图像为浅肤色人群,74%为年轻年龄段,22%包含NSFW内容。非二元性别个体被描绘得更年轻和过度性化,负面美学特征提示会产生更多NSFW内容。
- Motivation: 社交媒体加剧了西方美学标准的推广,导致负面自我形象和身体畸形恐惧。生成式AI可能进一步夸大这些标准,本研究旨在探究AI如何编码'美'并消除'丑'。
- Method: 创建两个图像生成流程:文本到图像模型和文本到语言模型到图像模型。开发结构化美学分类法,使用三个语言模型和两个文本到图像模型生成5984张图像。招募女性和非二元社交媒体用户通过李克特量表评估1200张图像。
- Result: 参与者评分高度一致。86.5%图像描绘浅肤色人群,22%包含NSFW内容,74%为年轻年龄段。非二元个体图像被评价为更年轻和过度性化。带有负面美学特征的提示产生更高NSFW评分。
- Conclusion: 生成式AI模型存在普遍的人口统计学偏见,这些偏见通过模型开发者的负面提示等方式被积极延续。这可能导致数据流污染和不符合开发者美丽刻板印象的特征被主动消除。
[78] A Hybrid YOLOv5-SSD IoT-Based Animal Detection System for Durian Plantation Protection
Anis Suttan Shahrir,Zakiah Ayop,Syarulnaziah Anawar,Norulzahrah Mohd Zainudin
Main category: cs.CV
TL;DR: 开发了一个结合YOLOv5和SSD算法的物联网动物检测系统,用于榴莲种植园,通过Telegram实时通知和声音威慑机制来防止动物入侵。
- Motivation: 传统农业实践因缺乏无人值守监控而无法有效防止动物入侵榴莲种植园,导致作物损失和经济损失。现有系统依赖单一检测算法、通知平台不便捷且威慑机制有限。
- Method: 集成YOLOv5和SSD目标检测算法提高检测精度,结合物联网技术实现实时监控,通过Telegram自动通知农民,并触发老虎吼叫等声音威慑机制。
- Result: YOLO+SSD模型对大象、野猪和猴子的检测准确率分别为90%、85%和70%。系统在白天准确率最高,夜间下降,对静态图像和视频都有效。
- Conclusion: 该研究提供了一个结合检测、通知和威慑的全面实用框架,为自动化农业解决方案的未来创新铺平了道路。
[79] Class-agnostic 3D Segmentation by Granularity-Consistent Automatic 2D Mask Tracking
Juan Wang,Yasutomo Kawanishi,Tomo Miyazaki,Zhijie Wang,Shinichiro Omachi
Main category: cs.CV
TL;DR: 提出了一种粒度一致的自适应2D掩码跟踪方法,通过保持帧间时间对应关系消除冲突的伪标签,结合三阶段课程学习框架,从碎片化单视图数据逐步训练到统一的多视图标注。
- Motivation: 现有方法通过将2D掩码从基础模型转移到3D来生成伪标签,但由于视频帧被独立处理,导致分割粒度不一致和冲突的3D伪标签,降低了最终分割的准确性。
- Method: 粒度一致的自适应2D掩码跟踪方法,结合三阶段课程学习框架:从碎片化单视图数据到统一多视图标注,再到全局连贯的全场景监督。
- Result: 实验结果表明,该方法能有效生成一致且准确的3D分割,在标准基准测试中达到了最先进的性能,并具备开放词汇能力。
- Conclusion: 通过结构化学习流程,能够从初始碎片化和矛盾的2D先验中稳健地提取一致的3D表示,解决了现有方法中的不一致性问题。
[80] FedOnco-Bench: A Reproducible Benchmark for Privacy-Aware Federated Tumor Segmentation with Synthetic CT Data
Viswa Chaitanya Marella,Suhasnadh Reddy Veluru,Sai Teja Erukude
Main category: cs.CV
TL;DR: FedOnco-Bench是一个用于隐私保护联邦学习的可重复基准测试平台,使用合成的肿瘤CT扫描数据评估分割性能和隐私泄露,揭示了隐私与性能之间的权衡关系。
- Motivation: 联邦学习系统在隐私敏感环境中具有重要价值,但仍面临成员推理攻击和数据异构性的脆弱性问题,需要建立标准化评估平台。
- Method: 开发FedOnco-Bench基准测试平台,使用合成肿瘤CT扫描数据,评估FedAvg、FedProx、FedBN和FedAvg+DP-SGD等联邦学习方法的分割性能和隐私泄露。
- Result: FedAvg性能最佳(Dice约0.85)但隐私泄露最多(攻击AUC约0.72),DP-SGD隐私保护最强(AUC约0.25)但性能下降(Dice约0.79),FedProx和FedBN在异构数据下表现均衡。
- Conclusion: FedOnco-Bench为医学图像分割的隐私保护联邦学习方法提供了标准化开源基准测试平台,揭示了不同方法在隐私与性能之间的权衡关系。
[81] Med-Banana-50K: A Cross-modality Large-Scale Dataset for Text-guided Medical Image Editing
Zhihui Chen,Mengling Feng
Main category: cs.CV
TL;DR: 提出了Med-Banana-50K数据集,这是一个包含5万张图像的医疗图像编辑数据集,涵盖三种模态和23种疾病类型,通过Gemini模型生成双向编辑,并采用医学质量控制方法确保质量。
- Motivation: 当前多模态大语言模型在医疗图像编辑方面取得进展,但缺乏大规模、高质量、开放可访问的专门医疗图像编辑数据集,限制了研究进展。
- Method: 利用Gemini-2.5-Flash-Image从真实医疗图像生成双向编辑(病变添加和移除),采用LLM-as-Judge医学质量评估和最多五轮迭代优化。
- Result: 构建了包含5万张图像的数据集,涵盖三种医疗成像模态和23种疾病类型,还包括3.7万次失败尝试的完整对话记录。
- Conclusion: Med-Banana-50K为训练和评估下一代医疗图像编辑模型奠定了基础,数据集和代码已公开。
[82] GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding
Shijie Zhou,Viet Dac Lai,Hao Tan,Jihyung Kil,Wanrong Zhu,Changyou Chen,Ruiyi Zhang
Main category: cs.CV
TL;DR: GUI-AIMA是一个基于注意力机制的坐标无关GUI定位框架,通过监督微调触发MLLMs的固有定位能力,在3B参数模型上实现了最先进的GUI定位性能。
- Motivation: 现有基于MLLMs的GUI定位方法将任务视为基于文本的坐标生成,但直接从视觉输入生成精确坐标具有挑战性且计算量大。研究发现通用MLLMs在其注意力机制中具有固有的定位能力。
- Method: 提出GUI-AIMA框架,将MLLMs的多模态注意力与基于patch的定位信号对齐。通过多头聚合简化的查询-视觉注意力矩阵来适应不同用户指令,采用坐标无关方式并可轻松集成放大阶段。
- Result: GUI-AIMA-3B仅使用85k张截图训练,在ScreenSpot-Pro上达到58.6%的平均准确率,在OSWorld-G上达到62.2%,在3B模型中实现最先进性能。
- Conclusion: 轻量级训练可以触发MLLMs的固有定位能力,GUI-AIMA展示了卓越的数据效率和性能,为高效的GUI定位提供了新思路。
[83] TA-LSDiff:Topology-Aware Diffusion Guided by a Level Set Energy for Pancreas Segmentation
Yue Gou,Fanghui Song,Yuming Xing,Shengzhu Shi,Zhichang Guo,Boying Wu
Main category: cs.CV
TL;DR: 提出TA-LSDiff模型,结合拓扑感知扩散概率模型和水平集能量,无需显式几何演化即可实现胰腺分割,在四个公开数据集上达到最先进精度。
- Motivation: 胰腺分割面临尺寸小、对比度低和拓扑变化大的挑战。传统水平集方法忽略点状拓扑效应,而深度学习方法牺牲结构细节,需要弥合这一差距。
- Method: 结合拓扑感知扩散概率模型和水平集能量,通过四个互补项整合输入图像和深度特征来指导隐式曲线演化,并引入像素自适应细化模块通过邻域证据的亲和权重局部调制能量函数。
- Result: 在四个公开胰腺数据集上的评估显示,TA-LSDiff实现了最先进的准确度,超越了现有方法。消融研究系统量化了每个组件的贡献。
- Conclusion: TA-LSDiff为胰腺分割提供了一个实用且准确的解决方案,在精度和边界精确度方面表现出色。
[84] OMEGA: Optimized Multimodal Position Encoding Index Derivation with Global Adaptive Scaling for Vision-Language Models
Ruoxiang Huang,Xindian Ma,Rundong Kong,Zhen Yuan,Peng Zhang
Main category: cs.CV
TL;DR: OMEGA是一个新颖的位置编码框架,通过模态特定位置编码和全局自适应编码步长缩放来提升视觉语言模型的性能。
- Motivation: 当前视觉语言模型使用统一的1D或2D位置索引策略,未能充分考虑文本和视觉模态在结构特性和连续性方面的差异。
- Method: 采用模态特定位置编码为不同模态分配位置索引,并引入全局自适应编码步长缩放来调整视觉token的位置编码步长。
- Result: 在Qwen2.5-VL-3B上,视觉密集型任务性能提升达3.43%,在Qwen2.5-VL-7B和LLaVA-v1.5-7B等更大模型上也观察到一致性能提升。
- Conclusion: OMEGA能够有效提升视觉语言模型在各种架构和VQA基准测试上的性能表现。
[85] Enhancing Adversarial Transferability in Visual-Language Pre-training Models via Local Shuffle and Sample-based Attack
Xin Liu,Aoyang Zhou,Aoyang Zhou
Main category: cs.CV
TL;DR: 提出了一种名为LSSA的新型多模态对抗攻击方法,通过局部图像块随机重排和采样来增强对抗样本的迁移性,在多种VLP模型和下游任务中表现出色。
- Motivation: 现有的多模态对抗攻击方法由于过度依赖单一模态的对抗样本信息,缺乏输入多样性,导致过拟合问题,限制了对抗样本的迁移能力。
- Method: LSSA方法随机重排局部图像块来扩展原始图像-文本对,生成对抗图像并进行采样,然后利用原始图像和采样图像来生成对抗文本。
- Result: 在多个模型和数据集上的广泛实验表明,LSSA显著提升了多模态对抗样本在不同VLP模型和下游任务中的迁移性,并在大型视觉语言模型上优于其他先进攻击方法。
- Conclusion: LSSA通过增加输入多样性有效解决了多模态对抗攻击中的过拟合问题,显著提升了对抗样本的迁移性能。
[86] Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials
Yifan Pu,Jixuan Ying,Qixiu Li,Tianzhu Ye,Dongchen Han,Xiaochen Wang,Ziyi Wang,Xinyu Shao,Gao Huang,Xiu Li
Main category: cs.CV
TL;DR: 提出了Visual-Contrast Attention (VCA)作为MHSA的替代方案,通过视觉对比机制降低计算复杂度,在图像识别和生成任务中显著提升性能。
- Motivation: Vision Transformers的MHSA层对所有token对进行二次方查询-键交互,计算大量浪费在视觉上弱或冗余的相关性上。
- Method: VCA将每个头的密集查询场蒸馏为少量空间池化的视觉对比token,分为可学习的正负流,通过差分交互突出区域间的真正差异。
- Result: 在DeiT-Tiny上将ImageNet-1K准确率从72.2%提升到75.6%;在图像生成任务中,FID-50K指标降低2.1-5.2点。
- Conclusion: VCA为构建更快更锐利的Vision Transformers提供了一条简单路径,理论复杂度从O(NNC)降至O(NnC)。
[87] Parameter Interpolation Adversarial Training for Robust Image Classification
Xin Liu,Yichen Yang,Kun He,John E. Hopcroft
Main category: cs.CV
TL;DR: 提出参数插值对抗训练(PIAT)框架,通过插值前后epoch的模型参数来缓解对抗训练中的振荡和过拟合问题,并使用归一化均方误差(NMSE)进一步提升模型鲁棒性。
- Motivation: 现有对抗训练方法存在模型鲁棒性明显振荡和过拟合问题,降低了防御效果。
- Method: PIAT框架在epoch间插值模型参数,使决策边界变化更平缓;使用NMSE对齐干净样本和对抗样本的logits相对大小而非绝对大小。
- Result: 在多个基准数据集上的实验表明,该框架能显著提升CNN和ViT的鲁棒性。
- Conclusion: PIAT通过参数插值和NMSE有效解决了对抗训练中的振荡和过拟合问题,显著提高了模型鲁棒性。
[88] OmniBrainBench: A Comprehensive Multimodal Benchmark for Brain Imaging Analysis Across Multi-stage Clinical Tasks
Zhihao Peng,Cheng Wang,Shengyuan Liu,Zhiying Liang,Yixuan Yuan
Main category: cs.CV
TL;DR: OmniBrainBench是首个专门评估多模态大语言模型在脑成像分析中多模态理解能力的综合性VQA基准,包含15种脑成像模态、9,527个验证问答对和31,706张图像,涵盖15个多阶段临床任务。
- Motivation: 当前面向脑部的视觉问答基准要么覆盖的成像模态有限,要么局限于粗粒度的病理描述,无法全面评估MLLMs在整个临床连续体中的表现。
- Method: 构建包含15种脑成像模态的综合性多模态VQA基准,模拟临床工作流程,涵盖15个多阶段临床任务,并由专业放射科医生严格验证。
- Result: 评估24个最先进模型发现:专有MLLMs优于开源和医学模型但仍落后于医生;医学MLLMs性能差异大;开源MLLMs整体落后但在特定任务中表现优异;MLLMs在复杂术前任务中表现明显不佳,存在视觉到临床推理的差距。
- Conclusion: OmniBrainBench为评估和推进MLLMs在脑成像分析中设立了新标准,揭示了与专家临床推理之间的差距。
[89] Occlusion-Aware Diffusion Model for Pedestrian Intention Prediction
Yu Liu,Zhijie Liu,Zedong Yang,You-Fu Li,He Kong
Main category: cs.CV
TL;DR: 提出了一种遮挡感知扩散模型(ODM),用于在遮挡场景下预测行人过街意图,通过重建被遮挡的运动模式来指导未来意图预测。
- Motivation: 现有深度学习模型在预测行人过街意图方面取得显著成功,但很少考虑遮挡场景下的不完整观察问题。
- Method: 采用遮挡感知扩散变换器架构,在去噪阶段估计与遮挡模式相关的噪声特征,并引入遮挡掩码引导的反向过程来有效利用观察信息。
- Result: 在PIE和JAAD基准测试上的广泛实验表明,该方法在各种遮挡场景下比现有方法具有更鲁棒的性能。
- Conclusion: 所提出的ODM方法能够有效处理遮挡场景下的行人意图预测问题,提高了预测准确性。
[90] Layer-Wise Modality Decomposition for Interpretable Multimodal Sensor Fusion
Jaehyun Park,Konyul Park,Daehun Kim,Junseo Park,Jun Won Choi
Main category: cs.CV
TL;DR: 提出LMD方法,用于解耦自动驾驶多传感器融合模型中各模态的贡献,实现模型决策的透明化解释。
- Motivation: 自动驾驶中感知模型的决策透明度至关重要,但多传感器输入使得难以确定各模态对预测的贡献,因为传感器信息在融合网络中相互纠缠。
- Method: 提出层间模态分解(LMD)方法,这是一种后处理、模型无关的可解释性方法,能够在预训练融合模型的所有层中解耦模态特定信息。
- Result: 在相机-雷达、相机-LiDAR和相机-雷达-LiDAR三种自动驾驶传感器融合设置下验证了LMD的有效性,通过结构化扰动指标和模态可视化分解证明了其适用性。
- Conclusion: LMD是首个能够将感知模型预测归因于自动驾驶传感器融合系统中单个输入模态的方法,适用于解释高容量多模态架构。
[91] GraphGeo: Multi-Agent Debate Framework for Visual Geo-localization with Heterogeneous Graph Neural Networks
Heng Zheng,Yuling Shi,Xiaodong Gu,Haochen You,Zijian Zhang,Lubin Gan,Hao Zhang,Wenjun Huang,Jin Huang
Main category: cs.CV
TL;DR: GraphGeo是一个基于异构图神经网络的多智能体辩论框架,用于视觉地理定位,通过类型化边建模不同的辩论关系,显著提升了定位精度。
- Motivation: 传统检索方法受限于数据库覆盖范围和质量,而现有的大视觉语言模型在处理多样化地理区域和复杂场景时表现不佳。现有的多智能体系统虽然通过模型协作提升性能,但缺乏有效处理冲突预测的机制。
- Method: 提出GraphGeo框架,使用异构图神经网络建模多智能体辩论关系,包括支持性协作、竞争性论证和知识转移。引入双层级辩论机制,结合节点级细化和边级论证建模,以及跨层级拓扑优化策略实现图结构与智能体表示的协同进化。
- Result: 在多个基准测试上的实验表明,GraphGeo显著优于现有最先进方法,将智能体间的认知冲突转化为增强的地理定位精度。
- Conclusion: GraphGeo通过结构化辩论框架有效提升了视觉地理定位性能,证明了异构图神经网络在多智能体协作中的优势。
[92] Fleming-VL: Towards Universal Medical Visual Reasoning with Multimodal LLMs
Yan Shu,Chi Liu,Robin Chen,Derek Li,Bryan Dai
Main category: cs.CV
TL;DR: Fleming-VL是一个统一的端到端多模态大语言模型框架,专门针对异构医疗数据(2D图像、3D体积扫描、时序视频)进行综合视觉理解,通过数据中心的策略实现跨模态的医疗视觉理解。
- Motivation: 医疗数据具有异构性(包含2D图像、3D体积扫描、时序视频等多种模态),存在显著的领域差距和数据格式不一致问题,阻碍了统一医疗MLLMs的发展。
- Method: 采用数据中心的三个关键策略:1)整合自然和医疗领域的长上下文数据进行预训练扩展;2)用罕见医疗数据(全视频分析和代表性不足的2D模态)补充微调;3)扩展评估框架以包含3D体积和视频理解基准。通过监督微调和组相对策略优化开发多个模型规模。
- Result: Fleming-VL在多个基准测试中(包括医疗VQA、视频QA和3D医疗图像理解)实现了最先进的性能。
- Conclusion: Fleming-VL为医疗AI的透明、可复现和可审计进展提供了统一的端到端解决方案,并公开发布以促进该领域的发展。
[93] Dynamic Multi-level Weighted Alignment Network for Zero-shot Sketch-based Image Retrieval
Hanwen Su,Ge Song,Jiyan Wang,Yuanbo Zhu
Main category: cs.CV
TL;DR: 提出动态多级加权对齐网络解决零样本基于草图的图像检索问题,通过多级权重对齐和加权四元组损失提升性能
- Motivation: 解决现有方法在训练过程中使用不平衡模态样本和低质量信息导致的性能不佳问题
- Method: 包含三个组件:单模态特征提取模块(CLIP文本编码器和ViT)、跨模态多级加权模块(生成对齐权重列表)、加权四元组损失模块(改善领域平衡)
- Result: 在Sketchy、TU-Berlin和QuickDraw三个基准数据集上优于现有最先进的ZS-SBIR方法
- Conclusion: 提出的动态多级加权对齐网络在零样本基于草图的图像检索任务中表现出优越性能
[94] EVTAR: End-to-End Try on with Additional Unpaired Visual Reference
Liuzhuozheng Li,Yue Gong,Shanyuan Liu,Bo Cheng,Yuhang Ma,Liebucha Wu,Dengyang Jiang,Zanyi Wang,Dawei Leng,Yuhui Yin
Main category: cs.CV
TL;DR: EVTAR是一个端到端的虚拟试穿模型,通过引入额外参考图像直接拟合目标服装到人物图像,无需复杂输入如分割图或姿态信息,提高了试穿准确性和实用性。
- Motivation: 现有虚拟试穿方法依赖复杂输入(如分割图、人体姿态等),导致实际应用困难。EVTAR旨在简化输入要求,仅需源图像和目标服装,同时通过参考图像提升试穿质量。
- Method: 采用两阶段训练策略,在推理时仅需源图像和目标服装。利用不同人穿着同一服装的参考图像来保留服装纹理和细节,模拟人类选择服装时的参考行为。
- Result: 在两个广泛使用的基准测试和多样化任务上评估,结果一致验证了方法的有效性。
- Conclusion: EVTAR提供了一种更实用、高质量的虚拟试穿解决方案,无需复杂预处理,通过参考图像机制显著提升了试穿效果。
[95] A Unified Reasoning Framework for Holistic Zero-Shot Video Anomaly Analysis
Dongheng Lin,Mengxue Qu,Kunyang Han,Jianbo Jiao,Xiaojie Jin,Yunchao Wei
Main category: cs.CV
TL;DR: 提出统一的零样本视频异常分析框架,通过链式推理连接时间检测、空间定位和文本解释任务,无需额外训练即可实现全面的异常分析。
- Motivation: 现有视频异常研究大多停留在帧级检测,缺乏空间和语义上下文,无法解释异常原因。现有方法虽然提高了可解释性,但仍依赖数据和特定任务。
- Method: 基于链式测试时推理过程,通过任务内推理优化时间检测,任务间链接实现空间和语义理解,利用基础模型的推理能力进行零样本分析。
- Result: 在多个视频异常检测、定位和解释基准测试中实现了最先进的零样本性能,无需额外数据或梯度更新。
- Conclusion: 精心设计的提示与任务链式连接可以释放基础模型的推理能力,实现实用、可解释的零样本视频异常分析。
[96] VesSAM: Efficient Multi-Prompting for Segmenting Complex Vessel
Suzhong Fu,Rui Sun,Xuan Ding,Jingqi Dong,Yiming Yang,Yao Zhu,Min Chang Jordan Ren,Delin Deng,Angelica Aviles-Rivero,Shuguang Cui,Zhen Li
Main category: cs.CV
TL;DR: VesSAM是一个专门用于2D血管分割的高效框架,通过集成卷积适配器、多提示编码器和轻量级掩码解码器,在多个数据集上显著优于现有方法。
- Motivation: 准确的血管分割对临床诊断和手术规划至关重要,但现有基础模型如SAM在血管结构上表现不佳,需要专门优化的解决方案。
- Method: VesSAM框架包含三个核心组件:卷积适配器增强局部纹理特征;多提示编码器融合解剖学提示(骨架、分叉点、段中点);轻量级掩码解码器减少锯齿伪影。
- Result: 实验结果显示VesSAM比最先进的PEFT-based SAM变体在Dice和IoU指标上分别提升超过10%和13%,参数量显著减少,在分布外设置下也表现优异。
- Conclusion: VesSAM为血管分割提供了一个强大而高效的解决方案,在保持竞争力的同时大幅减少了模型参数,并具有良好的泛化能力。
[97] MID: A Self-supervised Multimodal Iterative Denoising Framework
Chang Nie,Tianchen Deng,Zhe Liu,Hesheng Wang
Main category: cs.CV
TL;DR: 提出了一种新颖的自监督多模态迭代去噪框架MID,通过建模非线性噪声积累过程,无需配对干净-噪声数据集即可有效去除复杂非线性噪声。
- Motivation: 现实世界数据常被复杂非线性噪声污染,传统基于规则的降噪方法难以应对,需要开发无需配对数据的自监督去噪方法。
- Method: MID将噪声数据建模为非线性噪声积累过程中的状态,通过迭代添加噪声学习两个神经网络:一个估计当前噪声步长,另一个预测并减去相应噪声增量。对于复杂非线性污染,使用一阶泰勒展开局部线性化噪声过程。
- Result: 在四个经典计算机视觉任务上的实验表明MID具有鲁棒性、适应性和最先进的性能。在生物医学和生物信息学领域任务中也表现出强大的性能和适应性。
- Conclusion: MID框架能够有效处理复杂非线性噪声,无需配对数据集,在多个领域展现出优异的去噪性能。
[98] Integrating Visual and X-Ray Machine Learning Features in the Study of Paintings by Goya
Hassan Ugail,Ismail Lujain Jaleel
Main category: cs.CV
TL;DR: 提出了一种多模态机器学习框架,通过统一特征提取技术分析戈雅画作的视觉图像和X射线图像,用于艺术真伪鉴定,相比单模态方法性能显著提升。
- Motivation: 解决弗朗西斯科·戈雅作品艺术真伪鉴定中的计算挑战,包括其异质性风格演变和广泛的历史伪造模式。
- Method: 使用统一特征提取管道(包括灰度共生矩阵描述符、局部二值模式、熵度量、能量计算和颜色分布分析)处理视觉和X射线图像,通过优化的单类支持向量机进行分类。
- Result: 在24幅认证戈雅画作数据集上达到97.8%分类准确率和0.022假阳性率,案例研究显示92.3%认证置信度。
- Conclusion: 在视觉和放射影像上应用相同计算方法的多模态方法在艺术认证应用中效果显著优于单模态方法。
[99] HyFormer-Net: A Synergistic CNN-Transformer with Interpretable Multi-Scale Fusion for Breast Lesion Segmentation and Classification in Ultrasound Images
Mohammad Amanour Rahman
Main category: cs.CV
TL;DR: 提出HyFormer-Net混合CNN-Transformer网络,用于乳腺癌超声图像的同时分割和分类,具有内在可解释性,在BUSI数据集上表现优异,并通过跨数据集研究验证了泛化能力。
- Motivation: 解决B型超声乳腺癌诊断面临的挑战:斑点噪声、操作者依赖性和边界模糊。现有深度学习方法存在单任务学习、架构限制(CNN缺乏全局上下文,Transformer缺乏局部特征)和黑盒决策等问题,阻碍了临床采用。
- Method: HyFormer-Net采用双分支编码器集成EfficientNet-B3和Swin Transformer,通过多尺度分层融合块结合两者优势。使用注意力门控解码器提供精确性和可解释性,并引入双管道可解释性方法:内在注意力验证和Grad-CAM分类推理。
- Result: 在BUSI数据集上,Dice分数0.761±0.072,准确率93.2%,优于U-Net、Attention U-Net和TransUNet。恶性召回率92.1±2.2%。集成模型达到Dice 90.2%,准确率99.5%,恶性召回率100%。跨数据集研究中,仅用10%目标域数据即可恢复92.5%性能,50%数据时Dice达77.3%,超过源域性能。
- Conclusion: HyFormer-Net成功解决了乳腺癌超声诊断的关键挑战,提供了高性能和内在可解释性。跨数据集研究表明该模型具有良好的泛化能力,仅需少量目标域数据即可达到优异性能,为临床部署提供了可行路径。
[100] FastBoost: Progressive Attention with Dynamic Scaling for Efficient Deep Learning
JunXi Yuan
Main category: cs.CV
TL;DR: FastBoost是一种参数高效的神经网络架构,通过动态缩放渐进注意力机制,在CIFAR基准测试中实现了最先进的性能,同时大幅减少参数数量。
- Motivation: 解决在资源受限的边缘设备上部署高性能神经网络的需求,通过参数效率优化来平衡模型精度和计算资源消耗。
- Method: 采用动态缩放渐进注意力机制,包括自适应融合、阶段缩放和残差自适应三个核心创新,结合增强的MBConv模块。
- Result: 在CIFAR-10上达到95.57%准确率(0.85M参数)和93.80%(0.37M参数),在CIFAR-100上达到81.37%准确率(0.92M参数)和74.85%(0.44M参数),相比MobileNetV3参数减少2.1倍且准确率提升3.2个百分点。
- Conclusion: FastBoost通过动态注意力与高效卷积操作的协同优化,实现了前所未有的参数-精度权衡,可在资源受限的边缘设备上部署而不损失精度。
[101] T-MLA: A Targeted Multiscale Log--Exponential Attack Framework for Neural Image Compression
Nikolay I. Kalmykov,Razan Dibo,Kaiyu Shen,Xu Zhonghan,Anh-Huy Phan,Yipeng Liu,Ivan Oseledets
Main category: cs.CV
TL;DR: 提出了T-MLA攻击框架,这是首个针对神经图像压缩系统的目标多尺度对数-指数攻击方法,在保持视觉不可察觉的同时显著降低重建质量。
- Motivation: 现有对神经图像压缩系统的攻击方法往往只是像素空间方法的简单移植,忽视了压缩管道的独特结构化特性,需要开发更先进的漏洞利用方法。
- Method: 在小波域中构建对抗性扰动,直接针对攻击和重建图像的质量,将扰动策略性地限制在特定小波子带中,最大化失真同时确保感知隐蔽性。
- Result: 在多个最先进的神经图像压缩架构上的广泛评估显示,重建质量大幅下降,而扰动在视觉上仍然不可察觉。
- Conclusion: 研究揭示了生成式和内容分发管道核心存在的关键安全漏洞。
[102] GeoToken: Hierarchical Geolocalization of Images via Next Token Prediction
Narges Ghasemi,Amir Ziashahabi,Salman Avestimehr,Cyrus Shahabi
Main category: cs.CV
TL;DR: 提出了一种基于分层序列预测的图像地理定位方法,使用S2网格单元进行自回归预测,通过beam search和多样本推理提升性能,在Im2GPS3k和YFCC4k数据集上达到最先进水平。
- Motivation: 解决图像地理定位中因视觉相似性和大搜索空间带来的挑战,模仿人类从宽泛区域到具体地址的定位过程。
- Method: 使用S2网格单元构建分层结构,采用自回归方式预测地理标记,结合beam search和多样本推理策略管理不确定性。
- Result: 在MLLM-free设置下超越其他基线方法,准确率提升高达13.9%;结合MLLM时在所有指标上达到新的最先进水平。
- Conclusion: 分层序列预测方法能有效解决图像地理定位问题,自回归采样策略显著提升性能,为地理定位任务提供了新的解决方案。
[103] SliceVision-F2I: A Synthetic Feature-to-Image Dataset for Visual Pattern Representation on Network Slices
Md. Abid Hasan Rafi,Mst. Fatematuj Johora,Pankaj Bhowmik
Main category: cs.CV
TL;DR: SliceVision-F2I是一个用于网络切片特征可视化的合成数据集,包含12万样本,通过四种编码方法将KPI向量转换为RGB图像,适用于视觉学习和网络状态分析。
- Motivation: 5G/6G网络中网络切片需要精细的识别方法,但缺乏支持特征可视化的健壮数据集。
- Method: 使用四种编码方法(物理启发映射、Perlin噪声、神经壁纸、分形分支)将多变量KPI向量转换为低分辨率RGB图像,生成30,000个样本/方法。
- Result: 创建了包含12万样本的公开数据集,模拟真实网络条件和噪声,支持网络状态分类、异常检测等任务。
- Conclusion: SliceVision-F2I为网络切片研究提供了可视化数据集,适用于多变量时间序列分析和基于图像的机器学习技术基准测试。
[104] Epanechnikov nonparametric kernel density estimation based feature-learning in respiratory disease chest X-ray images
Veronica Marsico,Antonio Quintero-Rincon,Hadj Batatia
Main category: cs.CV
TL;DR: 提出了一种结合Epanechnikov核密度估计和双峰逻辑回归分类器的新方法,用于基于医学图像诊断呼吸系统疾病。
- Motivation: 开发一种能够灵活建模医学图像数据分布、适应像素强度变化的方法,以提高呼吸系统疾病的诊断准确性。
- Method: 使用Epanechnikov非参数核密度估计(EKDE)结合双峰逻辑回归分类器的统计模型学习方案,从医学图像中提取关键特征。
- Result: 在COVID-19放射影像数据集的13808张随机选择的胸部X光片上测试,准确率为70.14%,敏感度为59.26%,特异度为74.18%。
- Conclusion: 该方法在检测呼吸系统疾病方面表现出中等性能,敏感度有待提高,但展示了EKDE方法在提高医学影像诊断准确性和可靠性方面的潜力。
[105] Anatomically Constrained Transformers for Echocardiogram Analysis
Alexander Thorley,Agis Chartsias,Jordan Strom,Jeremy Slivnick,Dipak Kotecha,Alberto Gomez,Jinming Duan
Main category: cs.CV
TL;DR: 提出ViACT框架,将解剖先验直接集成到transformer架构中,通过掩码自编码策略专注于解剖区域学习,提高超声心动图分析的准确性和可解释性。
- Motivation: 视频transformer在超声心动图分析中容易学习非诊断区域(如图像背景)的虚假相关性,需要克服这一限制。
- Method: ViACT将变形解剖结构表示为点集,编码其空间几何和对应图像块到transformer tokens中,采用掩码自编码策略仅重建解剖区域。
- Result: ViACT在左心室射血分数回归和心脏淀粉样变性检测任务中表现良好,产生与已知病理区域对齐的可解释注意力图,并能泛化到心肌点跟踪任务。
- Conclusion: 解剖约束使transformer注意力集中在心肌区域内,提高了模型性能和可解释性,无需特定任务组件即可泛化到跟踪任务。
[106] Boosting performance of computer vision applications through embedded GPUs on the edge
Fabio Diniz Rossi
Main category: cs.CV
TL;DR: 该论文提出使用带GPU的嵌入式设备来提升边缘计算中计算机视觉应用的性能,通过GPU加速来改善用户体验。
- Motivation: 移动设备上的计算机视觉应用(特别是增强现实)资源需求高,边缘计算设备容量有限,可能影响用户体验。
- Method: 在边缘计算中使用带GPU的嵌入式设备来卸载高强度的计算任务,通过GPU加速处理计算机视觉应用。
- Result: 实验表明,与仅使用CPU相比,GPU能够获得显著的性能提升。
- Conclusion: 使用GPU的嵌入式设备能够保证用户在使用计算机视觉应用时获得更好的体验。
[107] Weakly Supervised Concept Learning with Class-Level Priors for Interpretable Medical Diagnosis
Md Nahiduzzaman,Steven Korevaar,Alireza Bab-Hadiashar,Ruwan Tennakoon
Main category: cs.CV
TL;DR: 提出了PCP框架,无需概念标注即可进行概念预测,在医学影像中实现可解释预测
- Motivation: 现有可解释设计框架需要昂贵的概念标注,而零样本方法难以捕捉医学领域特征,导致可靠性差
- Method: 使用类级概念先验作为弱监督,结合KL散度和熵正则化机制来对齐临床推理
- Result: 在PH2和WBCatt数据集上概念级F1分数比零样本基线提高33%以上,在四个医学数据集上分类性能与全监督方法相当
- Conclusion: PCP框架有效解决了医学影像中概念标注成本高的问题,实现了可靠的可解释预测
[108] Learning with Category-Equivariant Architectures for Human Activity Recognition
Yoshihiro Maruyama
Main category: cs.CV
TL;DR: CatEquiv是一种用于惯性传感器人体活动识别的类别等变神经网络,通过编码时间、幅度和结构对称性来提升模型鲁棒性
- Motivation: 传统方法在处理惯性传感器数据时未能系统性地编码数据的对称性结构,导致在分布外扰动下鲁棒性不足
- Method: 引入分类对称性乘积,结合循环时间偏移、正增益和传感器层次偏序集来捕捉数据的分类对称结构,实现对该乘积的等变性
- Result: 在UCI-HAR数据集上,面对分布外扰动时,CatEquiv相比循环填充CNN和普通CNN展现出显著更高的鲁棒性
- Conclusion: 强制实施分类对称性可以在不增加模型容量的情况下实现强大的不变性和泛化能力
[109] MicroAUNet: Boundary-Enhanced Multi-scale Fusion with Knowledge Distillation for Colonoscopy Polyp Image Segmentation
Ziyi Wang,Yuanmei Zhang,Dorna Esrafilzadeh,Ali R. Jalili,Suncheng Xiang
Main category: cs.CV
TL;DR: 提出MicroAUNet,一种轻量级注意力分割网络,结合深度可分离扩张卷积和通道-空间注意力块,通过两阶段知识蒸馏实现高精度实时结肠息肉分割。
- Motivation: 现有深度学习息肉分割模型要么提供模糊边界影响临床决策,要么架构复杂计算量大,无法满足实时内窥镜应用需求。
- Method: 使用深度可分离扩张卷积和参数共享的通道-空间注意力块增强多尺度边界特征,并采用渐进式两阶段知识蒸馏从大容量教师网络转移语义和边界信息。
- Result: 在基准测试中表现出最先进的准确性,同时保持极低的模型复杂度,适合实时临床息肉分割。
- Conclusion: MicroAUNet在极低模型复杂度下实现了最先进的精度,适用于实时临床结肠息肉分割应用。
[110] ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation
Yongyuan Liang,Wei Chow,Feng Li,Ziqiao Ma,Xiyao Wang,Jiageng Mao,Jiuhai Chen,Jiatao Gu,Yue Wang,Furong Huang
Main category: cs.CV
TL;DR: ROVER是一个新基准,专门评估多模态模型的双向跨模态推理能力,包含1312个任务和1876张图像,测试模型使用一种模态来指导、验证或优化另一种模态输出的能力。
- Motivation: 现有评估方法孤立地处理文本和图像能力,而真正的统一多模态智能需要测试模型在不同模态间进行相互推理的能力。
- Method: ROVER包含两个互补设置:1) 语言增强的视觉生成推理 - 测试模型能否使用语言提示和推理链指导忠实图像合成;2) 视觉增强的语言生成推理 - 测试模型能否生成中间可视化来加强自身推理过程。
- Result: 对17个统一模型的实验发现:1) 跨模态推理决定视觉生成质量,交错模型显著优于非交错模型;2) 模型在物理和符号推理间存在分离,能解释感知概念但无法为符号任务构建视觉抽象。
- Conclusion: 双向跨模态推理是实现真正全模态生成的关键前沿,现有模型在此能力上仍有明显局限。
[111] Web-Scale Collection of Video Data for 4D Animal Reconstruction
Brian Nlong Zhao,Jiajun Wu,Shangzhe Wu
Main category: cs.CV
TL;DR: 提出了一个自动化流水线从YouTube视频中提取动物中心剪辑,构建了包含30K视频(2M帧)的大规模数据集,并创建了Animal-in-Motion基准用于4D四足动物重建任务评估。
- Motivation: 现有动物视频数据集规模有限且缺乏对动物中心3D/4D任务的关键处理,需要开发非侵入式的大规模数据收集方法来推进野生动物研究。
- Method: 开发自动化流水线从YouTube视频挖掘并处理成对象中心剪辑,附带姿态估计、跟踪和3D/4D重建等下游任务的有用注释。
- Result: 收集了比先前工作多一个数量级的30K视频(2M帧),创建了包含230个序列11K帧的Animal-in-Motion基准,并建立了首个4D动物重建基线。
- Conclusion: 该流水线、基准和基线旨在推进从野外视频中进行大规模、无标记的4D动物重建及相关任务的发展。
[112] Diffusion Transformer meets Multi-level Wavelet Spectrum for Single Image Super-Resolution
Peng Du,Hui Li,Han Xu,Paul Barom Jeon,Dongwook Lee,Daehyun Ji,Ran Yang,Feng Zhu
Main category: cs.CV
TL;DR: 提出基于图像小波谱的扩散变换器模型DTWSR,通过多级离散小波变换分解图像,利用金字塔标记化方法处理多尺度频率子带间的相互关系,设计双解码器分别处理低频和高频子带,实现更一致和逼真的超分辨率重建。
- Motivation: 现有基于DWT的超分辨率方法大多忽视多尺度频率子带间的相互关系,导致重建图像存在不一致性和不自然伪影,需要解决这一挑战。
- Method: 使用多级离散小波变换分解图像为小波谱,提出金字塔标记化方法将谱嵌入为变换器序列,设计双解码器分别处理低频和高频子带,同时保持它们在图像生成中的对齐。
- Result: 在多个基准数据集上的广泛实验表明,该方法在感知质量和保真度方面均表现出高性能。
- Conclusion: DTWSR模型成功结合了扩散模型和变换器的优势,有效捕捉多尺度频率子带间的相互关系,实现了更一致和逼真的超分辨率图像重建。
[113] A Topology-Aware Graph Convolutional Network for Human Pose Similarity and Action Quality Assessment
Minmin Zeng
Main category: cs.CV
TL;DR: 提出了一种基于拓扑感知图卷积网络(GCN-PSN)的动作质量评估方法,通过骨架图建模学习具有区分度的姿态嵌入,在AQA-7和FineDiving基准测试中表现优异。
- Motivation: 动作质量评估需要精细理解人体运动和精确评估姿态相似性,现有基于坐标的方法可能无法充分利用骨架的拓扑结构信息。
- Method: 使用拓扑感知的图卷积网络(GCN-PSN),将人体骨架建模为图结构,采用孪生网络架构和对比回归目标进行训练。
- Result: 在AQA-7和FineDiving基准测试中超越了基于坐标的基线方法,取得了具有竞争力的性能表现。
- Conclusion: 实验结果表明,利用骨架拓扑结构进行姿态相似性和动作质量评估是有效的,验证了所提方法的有效性。
[114] MoSa: Motion Generation with Scalable Autoregressive Modeling
Mengyuan Liu,Sheng Yan,Yong Wang,Yingjie Li,Gui-Bin Bian,Hong Liu
Main category: cs.CV
TL;DR: MoSa是一个分层运动生成框架,通过多尺度令牌保留策略和可扩展自回归建模,显著提升了文本驱动的3D人体运动生成的质量和效率。
- Motivation: 传统方法在生成3D人体运动时存在效率低下的问题,需要大量推理步骤。MoSa旨在通过分层量化策略减少推理步骤,同时保持生成质量。
- Method: 提出多尺度令牌保留策略(MTPS)集成到分层残差向量量化变分自编码器(RQ-VAE)中,使用可扩展自回归建模预测尺度令牌,并设计了轻量级卷积-注意力混合VQ-VAE(CAQ-VAE)来缓解插值带来的重建退化问题。
- Result: 在Motion-X数据集上,MoSa实现了0.06的FID(相比MoMask的0.20),推理时间减少27%,在生成质量和效率方面均达到最先进水平。
- Conclusion: MoSa框架在文本驱动的3D人体运动生成任务中表现出色,不仅生成质量高、效率快,还能很好地泛化到运动编辑等下游任务,无需额外微调。
[115] OmniVLA: Unifiying Multi-Sensor Perception for Physically-Grounded Multimodal VLA
Heyu Guo,Shanmu Wang,Ruichun Ma,Shiqi Jiang,Yasaman Ghasempour,Omid Abari,Baining Guo,Lili Qi
Main category: cs.CV
TL;DR: OmniVLA是一个多模态视觉-语言-动作模型,通过整合红外相机、毫米波雷达和麦克风阵列等新型传感模态,超越了传统RGB感知的限制,实现了84%的平均任务成功率。
- Motivation: 现有的视觉-语言-动作模型主要依赖RGB摄像头,限制了感知能力和操作能力。需要整合多种传感模态来增强物理空间智能。
- Method: 提出传感器掩码图像的统一表示方法,将空间基础和物理意义的掩码叠加到RGB图像上。基于RGB预训练的VLA骨干网络构建多感官VLA模型架构,使用轻量级传感器投影器实现数据高效学习。
- Result: 在需要传感器模态感知的挑战性现实任务中,OmniVLA达到84%的平均任务成功率,显著优于RGB-only基线模型(提升59%)和原始传感器输入基线模型(提升28%),同时表现出更高的学习效率和更强的泛化能力。
- Conclusion: OmniVLA通过多模态传感整合成功扩展了VLA模型的感知能力,证明了传感器掩码图像表示的有效性,为物理基础的空间智能提供了新途径。
[116] Thought-For-Food: Reasoning Chain Induced Food Visual Question Answering
Riddhi Jain,Manasi Patwardhan,Parijat Deshpande,Venkataramana Runkana
Main category: cs.CV
TL;DR: 该论文提出了一种为印度食物VQA任务构建推理链的方法,通过自动验证的推理链微调小型LLM和VLM,并使用强化学习进行训练,在基准上平均提升了10个百分点的准确率。
- Motivation: 现有VQA系统偏向西方食物,无法处理印度食物的文化多样性和复杂烹饪背景。现有的印度食物VQA数据集采用两步生成方法,但作者认为需要多步推理过程才能准确理解印度食物的复杂关系。
- Method: 创建自动验证的推理链,微调小型LLM和VLM,并使用强化学习进行训练。通过推理链增强来改进印度食物VQA任务的性能。
- Result: 通过推理链增强,在基准上平均提升了10个百分点的准确率。提供了推理链添加对印度食物VQA任务影响的详细分析。
- Conclusion: 多步推理过程对于处理印度食物的复杂烹饪背景和关系识别至关重要,推理链增强能显著提升VQA系统的性能。
[117] Saliency-Guided Domain Adaptation for Left-Hand Driving in Autonomous Steering
Zahra Mehraban,Sebastien Glaser,Michael Milford,Ronald Schroeter
Main category: cs.CV
TL;DR: 该论文研究了通过翻转数据预训练和微调的方法,提升端到端自动驾驶模型在左右舵驾驶条件间的领域适应能力。
- Motivation: 自动驾驶模型需要良好的领域适应能力来应对不同道路条件,特别是左右舵驾驶的差异。
- Method: 评估了四种训练方法:美国右舵数据基线模型、翻转美国数据模型、美国数据预训练后澳大利亚微调、翻转美国数据预训练后澳大利亚微调。
- Result: 仅翻转数据预训练会降低预测稳定性,但翻转预训练后微调能显著改善适应效果,降低预测误差并增强对左侧线索的关注。
- Conclusion: 翻转数据预训练结合微调是提升模型领域适应能力的有效方法,且在不同架构中具有普适性。
[118] Gesture Generation (Still) Needs Improved Human Evaluation Practices: Insights from a Community-Driven State-of-the-Art Benchmark
Rajmund Nagy,Hendric Voss,Thanh Hoang-Minh,Mihail Tsakov,Teodor Nikolov,Zeyi Zhang,Tenglong Ao,Sicheng Yang,Shaoli Huang,Yongkang Cheng,M. Hamza Mughal,Rishabh Dabral,Kiran Chhatre,Christian Theobalt,Libin Liu,Stefan Kopp,Rachel McDonnell,Michael Neff,Taras Kucherenko,Youngwoo Yoon,Gustav Eje Henter
Main category: cs.CV
TL;DR: 本文分析了语音驱动3D手势生成领域的人类评估实践,发现缺乏标准化和存在实验设计缺陷。作者提出了BEAT2数据集的人类评估协议,并对6个最新手势生成模型进行了大规模众包评估。
- Motivation: 当前手势生成领域缺乏标准化的评估方法,导致无法比较不同方法的性能,也无法确定该领域的最新技术水平。
- Method: 引入BEAT2运动捕捉数据集的详细人类评估协议,通过大规模众包评估对6个最新手势生成模型在两个关键维度(运动真实性和语音-手势对齐)上进行排名。
- Result: 评估结果显示:1)新模型并不总是优于早期方法;2)已发表的高运动真实性或语音-手势对齐声明在严格评估下可能不成立;3)领域需要采用解耦的运动质量和多模态对齐评估以进行准确基准测试。
- Conclusion: 作者将发布5小时合成运动数据、750多个渲染视频刺激、开源渲染脚本和16,000对人工偏好投票,以推动标准化和新的评估研究。
[119] Eyes on Target: Gaze-Aware Object Detection in Egocentric Video
Vishakha Lall,Yisi Liu
Main category: cs.CV
TL;DR: 提出Eyes on Target框架,将人眼注视特征注入Vision Transformer注意力机制,在自我中心视频中实现注视引导的深度感知目标检测。
- Motivation: 人类注视为理解复杂视觉环境中的注意力提供了丰富的监督信号,传统目标检测器对所有区域平等处理,而实际应用中需要关注人类优先关注的区域。
- Method: 将注视衍生特征注入ViT的注意力机制,偏向空间特征选择到人类注视区域,提出注视感知注意力头重要性指标来解释模型行为。
- Result: 在自定义模拟器数据集和公共基准测试(Ego4D Ego-Motion和Ego-CH-Gaze)上,相比无视注视的基线方法,检测准确率持续提升。
- Conclusion: 注视引导的目标检测框架能有效提升自我中心视频中的检测性能,特别是在需要评估人类任务表现的模拟场景中具有重要应用价值。
[120] Beyond Deceptive Flatness: Dual-Order Solution for Strengthening Adversarial Transferability
Zhixuan Zhang,Pingyu Wang,Xingjian Zheng,Linbo Qing,Qi Liu
Main category: cs.CV
TL;DR: 提出了一种基于双阶信息的黑盒梯度可迁移攻击方法,通过对抗平坦性(AF)解决欺骗性平坦问题,并开发了对抗平坦性攻击(AFA)和蒙特卡洛对抗采样(MCAS)来提升攻击效果。
- Motivation: 现有可迁移攻击方法虽然关注平坦损失,但仍陷入次优区域(特别是平坦但尖锐的欺骗性平坦区域),限制了对抗样本在不同模型间的迁移能力。
- Method: 1. 提出对抗平坦性(AF)理论框架解决欺骗性平坦问题;2. 开发对抗平坦性攻击(AFA),通过高效近似目标函数解决梯度符号改变问题;3. 设计蒙特卡洛对抗采样(MCAS)提升内循环采样效率。
- Result: 在ImageNet兼容数据集上的综合实验表明,该方法优于六个基线方法,生成的对抗样本位于更平坦区域,显著提升了跨模型架构的迁移性。在输入变换攻击和百度云API测试中也表现优异。
- Conclusion: 该研究从双阶信息角度提出了解决欺骗性平坦问题的有效方法,显著提高了黑盒可迁移攻击的性能,为现实世界威胁防御提供了重要参考。
[121] CenterMamba-SAM: Center-Prioritized Scanning and Temporal Prototypes for Brain Lesion Segmentation
Yu Tian,Zhongheng Yang,Chenshi Liu,Yiyun Su,Ziwei Hong,Zexi Gong,Jingyuan Xu
Main category: cs.CV
TL;DR: CenterMamba-SAM是一个用于脑部病灶分割的端到端框架,通过冻结预训练主干网络、训练轻量级适配器实现高效微调,采用创新的3x3角-轴-中心短序列扫描策略和内存驱动的结构提示生成器,在公共基准测试中达到最先进性能。
- Motivation: 脑部病灶分割面临小病灶、低对比度、各向异性采样和跨切片不连续性等挑战,需要开发能够有效处理这些问题的分割方法。
- Method: 提出CenterMamba-SAM框架:1) CenterMamba编码器使用3x3角-轴-中心短序列扫描策略实现中心优先、轴增强和对角补偿的信息聚合;2) 内存驱动的结构提示生成器维护邻近切片原型库,自动合成可靠提示;3) 内存增强的多尺度解码器集成多级内存注意力模块,结合深度监督和渐进细化。
- Result: 在公共基准测试上的广泛实验表明,CenterMamba-SAM在脑部病灶分割任务中达到了最先进的性能。
- Conclusion: CenterMamba-SAM通过创新的扫描策略、内存驱动的提示生成和多尺度解码机制,有效解决了脑部病灶分割中的关键挑战,实现了优异的性能。
[122] Source-Only Cross-Weather LiDAR via Geometry-Aware Point Drop
YoungJae Cheong,Jhonghyun An
Main category: cs.CV
TL;DR: 提出了一个轻量级几何感知适配器,通过方位对齐和水平循环填充来保护边界连续性,使用局部窗口K近邻计算几何统计特征,在训练时驱动区域感知正则化来稳定结构脆弱区域的预测。
- Motivation: LiDAR语义分割在恶劣天气下性能下降,因为折射、散射和点丢失会破坏几何结构。现有方法忽略了边界、角落和稀疏区域的结构脆弱性。
- Method: 设计几何感知适配器,包含方位对齐、水平循环填充、局部窗口K近邻特征提取,以及基于几何线索的区域感知正则化。该模块即插即用,仅在训练时启用。
- Result: 在SemanticKITTI上训练、SemanticSTF上评估的跨天气设置中,mIoU比数据增强基线提高7.9个百分点,比类别中心正则化基线提高0.6个百分点。
- Conclusion: 几何驱动的正则化是全天气LiDAR分割的关键方向,几何感知适配器能有效提升模型在恶劣天气下的鲁棒性。
[123] MotionStream: Real-Time Video Generation with Interactive Motion Controls
Joonghyuk Shin,Zhengqi Li,Richard Zhang,Jun-Yan Zhu,Jaesik Park,Eli Schechtman,Xun Huang
Main category: cs.CV
TL;DR: MotionStream是一个实时运动条件视频生成系统,能在单GPU上实现亚秒级延迟和最高29FPS的流式生成,解决了现有方法延迟高和无法实时交互的问题。
- Motivation: 现有运动条件视频生成方法存在分钟级延迟和非因果处理的问题,无法支持实时交互。需要开发能够实时生成高质量视频的系统。
- Method: 通过将双向教师模型蒸馏为因果学生模型,使用自强制分布匹配蒸馏。采用滑动窗口因果注意力结合注意力汇点技术,通过自展开和KV缓存滚动训练来模拟无限长度推理。
- Result: 在运动跟随和视频质量方面达到最先进水平,速度比现有方法快两个数量级,能够实现无限长度的流式生成。
- Conclusion: MotionStream实现了实时交互式视频生成,用户可以通过绘制轨迹、控制相机或传输运动来实时查看结果,提供了真正的交互体验。
[124] PRevivor: Reviving Ancient Chinese Paintings using Prior-Guided Color Transformers
Tan Tang,Yanhong Wu,Junming Gao,Yingcai Wu
Main category: cs.CV
TL;DR: PRevivor是一个基于先验引导的颜色转换器,通过学习明清时期绘画来恢复唐宋时期古画的色彩,通过亮度增强和色调校正两个子任务实现古画色彩复原。
- Motivation: 中国古代绘画是宝贵的文化遗产,但受到不可逆的色彩退化影响。由于复杂的化学机制,恢复色彩退化的绘画极其困难,且缺乏高质量数据集阻碍了端到端数字修复工具的开发。
- Method: 将颜色恢复分解为亮度增强和色调校正两个顺序子任务。亮度增强使用两个变分U-Net和多尺度映射模块;色调校正设计双分支颜色查询模块,一个分支通过掩码先验引导局部色调校正,另一个分支保持全局推理能力。
- Result: 与最先进的着色方法进行广泛实验对比,结果显示在定量和定性评估上都表现出优越性能。
- Conclusion: PRevivor通过先验引导的颜色转换方法,能够有效恢复古代绘画的色彩,为文化遗产保护提供了有效的数字修复工具。
[125] Adaptation of Foundation Models for Medical Image Analysis: Strategies, Challenges, and Future Directions
Karma Phuntsho,Abdullah,Kyungmi Lee,Ickjai Lee,Euijoon Ahn
Main category: cs.CV
TL;DR: 这篇综述系统评估了基础模型在医学影像分析中的适应策略,包括监督微调、领域特定预训练、参数高效微调等方法,并指出了领域偏移、数据稀缺、计算需求和隐私保护等关键挑战。
- Motivation: 基础模型在医学影像分析中具有巨大潜力,但将其适应到真实临床实践仍面临领域偏移、高质量标注数据稀缺、计算需求大和隐私要求严格等挑战。
- Method: 综述了多种适应策略:监督微调、领域特定预训练、参数高效微调、自监督学习、混合方法以及多模态/跨模态框架,并评估了每种方法的性能增益、临床适用性和局限性。
- Result: 识别了现有方法的权衡和未解决挑战,同时强调了新兴研究方向,包括持续学习、联邦学习、混合自监督学习、数据中心的合成生成与人工验证结合等方法。
- Conclusion: 通过系统评估适应策略和相关研究空白,为开发能够满足真实世界医学影像需求的适应性、可信赖且临床集成的基础模型提供了路线图。
[126] Detecting Generated Images by Fitting Natural Image Distributions
Yonggang Zhang,Jun Nie,Xinmei Tian,Mingming Gong,Kun Zhang,Bo Han
Main category: cs.CV
TL;DR: 提出了一种基于数据流形几何差异的图像生成检测框架,利用自然图像和生成图像在流形结构上的正交性进行检测,并通过归一化流放大可检测差异。
- Motivation: 随着生成图像真实感的提升,其潜在滥用风险增加,需要更鲁棒的检测方法。现有方法依赖大量生成图像训练二元分类器,存在局限性。
- Method: 设计一对函数使自然图像输出一致而生成图像输出发散,利用梯度正交性;通过自监督模型在数据流形变换时的损失变化检测生成图像;使用归一化流放大流形差异。
- Result: 大量实验证明了该方法的有效性,代码已开源。
- Conclusion: 该方法提供了一种简单有效的生成图像检测方案,特别针对先进生成模型中流形差异减小的问题提出了解决方案。
[127] UniREditBench: A Unified Reasoning-based Image Editing Benchmark
Feng Han,Yibin Wang,Chenglin Li,Zheming Liang,Dianyi Wang,Yang Jiao,Zhipeng Wei,Chao Gong,Cheng Jin,Jingjing Chen,Jiaqi Wang
Main category: cs.CV
TL;DR: 提出了UniREditBench基准测试,用于评估基于推理的图像编辑模型性能,包含2700个样本,涵盖真实世界和游戏世界场景,并引入多模态双参考评估方法。
- Motivation: 当前生成模型在处理需要隐式推理的复杂图像编辑任务时表现不佳,现有基准主要关注单对象属性变换,忽略了多对象交互和游戏场景,且仅依赖文本参考可能导致误判。
- Method: 构建了包含2700个样本的统一基准,涵盖8个主要维度和18个子维度;设计了多场景数据合成管道,创建了包含10万个样本的大规模合成数据集UniREdit-Data-100K;开发了多模态双参考评估方法。
- Result: 在Bagel模型上微调得到UniREdit-Bagel,在域内和域外设置下均表现出显著改进;通过对开源和闭源图像编辑模型的全面基准测试,揭示了它们在不同方面的优势和弱点。
- Conclusion: UniREditBench为基于推理的图像编辑提供了系统评估框架,多模态双参考评估提高了可靠性,合成数据集和微调模型展示了实际应用价值。
[128] REASON: Probability map-guided dual-branch fusion framework for gastric content assessment
Nu-Fnag Xiao,De-Xing Huang,Le-Tian Wang,Mei-Jiang Gui,Qi Fu,Xiao-Liang Xie,Shi-Qi Liu,Shuangyi Wang,Zeng-Guang Hou,Ying-Wei Wang,Xiao-Hu Zhou
Main category: cs.CV
TL;DR: 提出REASON框架,通过两阶段概率图引导的双分支融合方法,自动评估胃内容物以评估麻醉诱导时的误吸风险。
- Motivation: 传统胃内容物超声评估方法依赖手动追踪和经验公式,在效率和准确性方面存在显著局限性。
- Method: 两阶段框架:第一阶段使用分割模型生成概率图抑制伪影并突出胃解剖结构;第二阶段使用双分支分类器融合右侧卧位和仰卧位两个标准视图的信息。
- Result: 在自收集数据集上的实验结果表明,该框架显著优于当前最先进方法。
- Conclusion: 该框架为术前误吸风险评估提供了更稳健、高效和准确的自动化解决方案,具有临床应用前景。
[129] Positive Semi-definite Latent Factor Grouping-Boosted Cluster-reasoning Instance Disentangled Learning for WSI Representation
Chentao Li,Behzad Bozorgtabar,Yifang Ping,Pan Huang,Jing Qin
Main category: cs.CV
TL;DR: 提出了一种用于全切片病理图像的三阶段解缠学习框架,通过潜在因子分组、聚类推理实例解缠和实例效应重加权,有效解决MIL中的空间、语义和决策纠缠问题。
- Motivation: 多实例学习在病理图像表示中存在空间、语义和决策纠缠问题,限制了其表示能力和可解释性。
- Method: 三阶段框架:1) 正半定潜在因子分组缓解空间纠缠;2) 聚类推理实例解缠通过概率反事实推理缓解语义纠缠;3) 广义线性加权决策通过实例效应重加权解决决策纠缠。
- Result: 在多中心数据集上的实验表明,该模型优于所有最先进模型,并通过解缠表示和透明决策过程实现了与病理学家对齐的可解释性。
- Conclusion: 该框架成功解决了MIL中的纠缠问题,在保持高性能的同时实现了病理学级别的可解释性。
[130] Perturb a Model, Not an Image: Towards Robust Privacy Protection via Anti-Personalized Diffusion Models
Tae-Young Lee,Juwon Seo,Jong Hwan Ko,Gyeong-Moon Park
Main category: cs.CV
TL;DR: 提出了APDM框架,通过将保护目标从图像转移到扩散模型本身来防止特定主题的个性化,引入DPO损失函数和L2P双重优化策略,有效阻止未经授权的个性化生成。
- Motivation: 扩散模型的高质量特定主题合成能力带来了隐私风险,现有对抗扰动方法在少量干净图像或简单图像变换下失效,需要更鲁棒的保护机制。
- Method: 提出APDM框架,包括理论分析证明现有损失函数无法确保鲁棒反个性化收敛,引入DPO损失函数和L2P双重优化策略,通过交替个性化与保护路径来模拟未来个性化轨迹并自适应强化保护。
- Result: 实验结果表明该框架优于现有方法,在防止未经授权个性化方面达到最先进性能。
- Conclusion: APDM框架通过模型层面的保护机制和创新的优化策略,有效解决了扩散模型个性化带来的隐私风险问题,为内容创作安全提供了可靠保障。
[131] MVSMamba: Multi-View Stereo with State Space Model
Jianfei Jiang,Qiankun Liu,Hongyuan Liu,Haochen Yu,Liyong Wang,Jiansheng Chen,Huimin Ma
Main category: cs.CV
TL;DR: MVSMamba是首个基于Mamba架构的多视角立体视觉网络,通过动态Mamba模块实现高效全局特征聚合,在DTU和Tanks-and-Temples数据集上超越了现有方法。
- Motivation: 基于Transformer的MVS方法存在二次复杂度问题,难以平衡性能与效率。Mamba架构具有全局建模能力和线性复杂度,为解决这一问题提供了新思路。
- Method: 提出MVSMamba网络,采用动态Mamba模块,基于参考中心动态扫描策略,实现视图内和视图间特征交互、全方位多视角特征表示和多尺度全局特征聚合。
- Result: 在DTU数据集和Tanks-and-Temples基准测试中,MVSMamba在性能和效率方面均优于最先进的MVS方法。
- Conclusion: MVSMamba成功展示了Mamba架构在MVS任务中的潜力,实现了高效全局特征建模,为MVS研究提供了新的方向。
[132] A Generative Adversarial Approach to Adversarial Attacks Guided by Contrastive Language-Image Pre-trained Model
Sampriti Soor,Alik Pramanick,Jothiprakash K,Arijit Sur
Main category: cs.CV
TL;DR: 提出了一种基于CLIP模型的生成对抗攻击方法,通过结合文本和图像表示能力,生成视觉不可察觉但有效的对抗扰动来欺骗多标签分类器。
- Motivation: 深度学习模型容易受到对抗攻击的影响,现有方法在保持视觉保真度和攻击效果方面存在不足,需要开发更有效的对抗样本生成方法。
- Method: 结合SSAE的集中扰动策略和GAMA的差异文本嵌入,利用CLIP模型的跨模态对齐能力,通过引导损失函数生成对抗扰动。
- Result: 在多种黑盒受害者模型上的实验表明,该方法在攻击成功率上与现有技术相当或更优,同时保持了更高的视觉保真度。
- Conclusion: 所提出的CLIP-based生成对抗攻击方法能够有效欺骗多标签分类器,同时保持与原始图像的高度结构相似性,为对抗攻击研究提供了新思路。
[133] RDTE-UNet: A Boundary and Detail Aware UNet for Precise Medical Image Segmentation
Jierui Qu,Jianchun Zhao
Main category: cs.CV
TL;DR: RDTE-UNet是一种医学图像分割网络,通过结合局部建模和全局上下文来增强边界描绘和细节保留,在Synapse和BUSI数据集上实现了可比较的分割精度和边界质量。
- Motivation: 医学图像分割对于计算机辅助诊断和治疗规划至关重要,但显著的解剖变异性和边界模糊性阻碍了对精细结构的可靠描绘。
- Method: RDTE-UNet采用混合ResBlock细节感知Transformer骨干网络和三个模块:ASBE用于自适应边界增强,HVDA用于细粒度特征建模,EulerFF用于基于欧拉公式的融合加权。
- Result: 在Synapse和BUSI数据集上,RDTE-UNet在分割精度和边界质量方面达到了可比较的水平。
- Conclusion: RDTE-UNet通过统一局部建模与全局上下文,改善了跨形态、方向和尺度的结构一致性和边界准确性。
[134] : A Large and Diverse Multimodal Benchmark for evaluating the ability of Vision-Language Models to understand Rebus Puzzles
Trishanu Das,Abhilash Nandy,Khush Bajaj,Deepiha S
Main category: cs.CV
TL;DR: 提出了一个包含1333个英语Rebus谜题的大型多样化基准,并开发了RebusDescProgICE框架,通过结合非结构化描述和基于代码的结构化推理,显著提升了视觉语言模型在Rebus谜题上的性能。
- Motivation: Rebus谜题需要图像识别、认知技能、常识推理、多步推理和基于图像的文字游戏等多种能力,这对当前的视觉语言模型具有挑战性。
- Method: 提出了RebusDescProgICE框架,结合非结构化描述和基于代码的结构化推理,并改进了基于推理的上下文示例选择方法。
- Result: 相比链式思维推理,在闭源和开源模型上分别提升了2.1-4.1%和20-30%的性能。
- Conclusion: 该基准和框架有效提升了视觉语言模型在复杂Rebus谜题任务上的表现,证明了结合描述性和结构化推理方法的有效性。
[135] MIQ-SAM3D: From Single-Point Prompt to Multi-Instance Segmentation via Competitive Query Refinement
Jierui Qu,Jianchun Zhao
Main category: cs.CV
TL;DR: MIQ-SAM3D是一个多实例3D医学图像分割框架,通过竞争性查询优化策略实现从单点-单对象到单点-多实例的转变,能够从单个点提示中分割多个语义相似的病变。
- Motivation: 解决SAM-based交互式分割中单点-单对象范式限制多病灶分割的问题,以及ViT骨干网络捕获全局上下文但缺乏高保真局部细节的局限性。
- Method: 1) 提示条件实例查询生成器将单点提示转换为多个专门化查询;2) 混合CNN-Transformer编码器通过空间门控将CNN边界显著性注入ViT自注意力;3) 竞争优化查询解码器通过查询间竞争实现端到端并行多实例预测。
- Result: 在LiTS17和KiTS21数据集上,MIQ-SAM3D达到了可比较的性能水平,并对提示具有强鲁棒性。
- Conclusion: 该方法为临床相关多病灶病例的高效标注提供了实用解决方案。
[136] Expanding the Content-Style Frontier: a Balanced Subspace Blending Approach for Content-Style LoRA Fusion
Linhao Huang
Main category: cs.CV
TL;DR: 提出了一种通过内容-风格子空间混合和平衡损失来扩展内容-风格边界的方法,在保持风格强度的同时显著改善内容相似性。
- Motivation: 现有文本到图像扩散模型在单一风格强度下评估内容相似性,但增加风格强度会导致内容特征显著丢失,形成次优的内容-风格边界。
- Method: 采用内容-风格子空间混合和内容-风格平衡损失来扩展内容-风格边界。
- Result: 在定性和定量评估中均优于现有技术,实现了更优的内容-风格权衡,IGD和GD分数显著低于当前方法。
- Conclusion: 该方法有效扩展了内容-风格边界,在保持风格多样性的同时显著提升了内容保真度。
[137] CMI-MTL: Cross-Mamba interaction based multi-task learning for medical visual question answering
Qiangguo Jin,Xianyao Zheng,Hui Cui,Changming Sun,Yuqi Fang,Cong Cong,Ran Su,Leyi Wei,Ping Xuan,Junbo Wang
Main category: cs.CV
TL;DR: 提出CMI-MTL框架,通过细粒度视觉-文本特征对齐、跨模态交错特征表示和自由形式答案增强多任务学习,解决Med-VQA任务中的跨模态语义对齐和自由形式答案多样性问题。
- Motivation: 现有自注意力方法难以有效处理视觉与语言间的跨模态语义对齐,分类方法依赖预定义答案集,无法适应自由形式答案的多样性且忽略详细语义信息。
- Method: 包含三个关键模块:FVTA(细粒度视觉-文本特征对齐)、CIFR(跨模态交错特征表示)、FFAE(自由形式答案增强多任务学习),学习图像和文本的跨模态特征表示。
- Result: 在VQA-RAD、SLAKE和OVQA三个Med-VQA数据集上优于现有最先进方法,并通过可解释性实验验证有效性。
- Conclusion: CMI-MTL框架有效解决了Med-VQA中的跨模态语义对齐和自由形式答案处理问题,在多个数据集上取得优异性能。
[138] EREBUS: End-to-end Robust Event Based Underwater Simulation
Hitesh Kyatham,Arjun Suresh,Aadi Palnitkar,Yiannis Aloimonos
Main category: cs.CV
TL;DR: 提出了一种用于生成水下环境中安装在AUV上的事件相机合成数据的流水线,用于训练视觉模型,并在岩石检测任务中验证了有效性。
- Motivation: 水下环境存在光照条件差、高动态范围场景等挑战,传统视觉技术难以适应,而事件相机通过逐帧跟踪变化能够缓解这些问题。
- Method: 开发了一个流水线来生成事件相机在水下环境中的逼真合成数据,特别针对能见度差和悬浮颗粒物的情况。
- Result: 在能见度差和悬浮颗粒物条件下的岩石检测任务中证明了该流水线的有效性。
- Conclusion: 该方法可以推广到其他水下任务,为水下事件相机视觉模型训练提供了有效的合成数据生成方案。
[139] SEPS: Semantic-enhanced Patch Slimming Framework for fine-grained cross-modal alignment
Xinyu Mao,Junsi Li,Haoji Zhang,Yu Liang,Ming Sun
Main category: cs.CV
TL;DR: 提出了SEPS框架,通过两阶段机制整合密集和稀疏文本的统一语义,解决视觉-语言细粒度对齐中的补丁冗余和模糊性问题,显著提升跨模态检索性能。
- Motivation: 当前方法在处理视觉补丁冗余和模糊性方面存在挑战,MLLMs虽然能生成丰富语义但可能与原始稀疏描述冲突,且难以准确量化视觉补丁与文本描述之间的语义相关性。
- Method: 采用语义增强的补丁精简框架,包括两阶段机制整合统一语义,以及基于均值计算的相关性感知选择来突出关键补丁-词对应关系。
- Result: 在Flickr30K和MS-COCO数据集上的实验表明,SEPS在rSum指标上比现有方法提升23%-86%,在文本到图像检索场景中表现尤为突出。
- Conclusion: SEPS框架有效解决了跨模态对齐中的补丁冗余和模糊性问题,通过语义整合和相关性选择显著提升了细粒度视觉-语言对齐性能。
[140] Semantic BIM enrichment for firefighting assets: Fire-ART dataset and panoramic image-based 3D reconstruction
Ya Wen,Yutong Qiao,Chi Chiu Lam,Ioannis Brilakis,Sanghoon Lee,Mun On Wong
Main category: cs.CV
TL;DR: 该研究提出了Fire-ART数据集和基于全景图像的消防资产重建方法,用于将消防资产语义丰富到BIM模型中,提高消防资产管理的自动化和准确性。
- Motivation: 传统消防资产管理方法效率低下,缺乏自动化的资产识别和重建能力,需要更有效的技术解决方案来支持应急准备和现场火灾响应。
- Method: 开发了包含15种基础资产、2626张图像和6627个实例的Fire-ART数据集,并集成了改进的立方体贴图转换和基于半径的球面相机投影的重建方法。
- Result: 在两个真实案例验证中,F1分数分别达到73%和88%,定位误差分别为0.620米和0.428米。
- Conclusion: Fire-ART数据集和重建方法为消防设备精确数字化管理提供了宝贵资源和强大的技术解决方案。
[141] Extremal Contours: Gradient-driven contours for compact visual attribution
Reza Karimzadeh,Albert Alonso,Frans Zdyb,Julius B. Kirkegaard,Bulat Ibragimov
Main category: cs.CV
TL;DR: 提出了一种基于平滑可调轮廓的训练无关解释方法,用星凸区域替代密集扰动掩码,通过截断傅里叶级数参数化,在极值保留/删除目标下优化分类器梯度,生成紧凑、可解释的区域。
- Motivation: 当前视觉模型解释方法中常用的密集扰动掩码往往碎片化且过拟合,需要复杂的后处理。需要一种既能保持保真度又紧凑的解释方法。
- Method: 使用星凸区域参数化,通过截断傅里叶级数表示平滑轮廓,在极值保留/删除目标下优化分类器梯度,保证生成单一、简单连接的掩码。
- Result: 在ImageNet分类器上,匹配密集掩码的极值保真度,同时产生紧凑、可解释区域,提高运行一致性。在多轮廓扩展中能定位多个对象,在基准测试中比基于梯度和扰动的基线方法获得更高的相关性质量和更低的复杂度。
- Conclusion: 该方法通过限制解为低维平滑轮廓,对对抗性掩码伪影具有鲁棒性,特别在自监督DINO模型上表现优异,相关性质量提升超过15%,保持正忠实相关性。
[142] Towards One-step Causal Video Generation via Adversarial Self-Distillation
Yongqi Yang,Huayang Huang,Xu Peng,Xiaobin Hu,Donghao Luo,Jiangning Zhang,Chengjie Wang,Yu Wu
Main category: cs.CV
TL;DR: 提出了一种基于蒸馏的高效因果视频生成框架,通过对抗自蒸馏策略和首帧增强技术,在极少的去噪步骤下实现高质量视频合成。
- Motivation: 现有混合视频生成模型结合自回归时间动态和基于扩散的空间去噪,但其顺序迭代特性导致错误累积和长推理时间。
- Method: 基于分布匹配蒸馏框架,提出对抗自蒸馏策略,将学生模型的n步去噪输出与其(n+1)步版本在分布层面对齐;同时采用首帧增强策略,为首帧分配更多去噪步骤以减少错误传播。
- Result: 在VBench上的广泛实验表明,该方法在一步和两步视频生成中均优于最先进方法,且单个蒸馏模型可灵活支持多种推理步骤设置。
- Conclusion: 该框架通过蒸馏技术实现了高效高质量的视频生成,无需重复再蒸馏,支持灵活的推理步骤配置。
[143] UniSOT: A Unified Framework for Multi-Modality Single Object Tracking
Yinchao Ma,Yuyang Tang,Wenfei Yang,Tianzhu Zhang,Xu Zhou,Feng Wu
Main category: cs.CV
TL;DR: 提出UniSOT统一跟踪器,能够处理三种参考模态(边界框、自然语言或两者)和四种视频模态(RGB、RGB+深度、RGB+热成像或RGB+事件)的组合跟踪任务。
- Motivation: 现有跟踪器通常针对单一或少数几种视频模态和参考模态设计,导致模型分离且限制实际应用,需要统一的跟踪器来处理各种需求。
- Method: 开发UniSOT统一跟踪器,使用统一参数处理三种参考模态和四种视频模态的不同组合。
- Result: 在18个视觉跟踪、视觉语言跟踪和RGB+X跟踪基准测试中,UniSOT表现出优于模态特定对应方法的性能,在TNL2K上所有三种参考模态的AUC超过先前方法3.0%以上,在RGB+X视频模态上主要指标超过Un-Track 2.0%以上。
- Conclusion: UniSOT是一个有效的统一跟踪器,能够同时处理多种参考模态和视频模态,在多个基准测试中表现出优越性能。
[144] Terrain-Enhanced Resolution-aware Refinement Attention for Off-Road Segmentation
Seongkyu Choi,Jhonghyun An
Main category: cs.CV
TL;DR: 提出一种分辨率感知的令牌解码器,在低分辨率瓶颈处进行大部分计算,通过门控交叉注意力注入精细细节,仅对稀疏的不确定性选择像素进行细化,平衡全局语义、局部一致性和边界保真度。
- Motivation: 越野语义分割面临边界模糊、稀有类别监督稀疏和普遍标签噪声的问题。现有方法要么在低分辨率融合导致边缘模糊和局部错误传播,要么保持高分辨率路径成本高昂且对噪声敏感。
- Method: 使用分辨率感知令牌解码器,在低分辨率瓶颈进行主要计算;门控交叉注意力集成高分辨率编码器流中的精细特征;类别感知点细化校正残余模糊性;训练时添加边界带一致性正则化器。
- Result: 结果表明具有竞争力的性能和跨过渡的改进稳定性。
- Conclusion: 该方法在保持计算效率的同时,有效解决了越野语义分割中的边界模糊、噪声敏感和局部错误传播问题。
[145] Contrast-Guided Cross-Modal Distillation for Thermal Object Detection
SiWoo Kim,JhongHyun An
Main category: cs.CV
TL;DR: 提出了一种仅用于训练的方法,通过增强热红外图像的实例级决策边界和注入跨模态语义先验,解决夜间热红外检测中的重复检测、小目标漏检和类别混淆问题。
- Motivation: 夜间热红外感知面临低对比度和弱高频线索导致的重复检测框、小目标漏检和类别混淆问题。现有方法要么将TIR转换为RGB(易受伪影影响),要么融合RGB和TIR(需要额外传感器和校准),都不能直接优化检测器使用的热表示。
- Method: 在训练阶段引入两个目标:1)通过拉近同类特征、推远异类特征来锐化实例级决策边界;2)通过将学生的多级金字塔特征与RGB训练的教师模型对齐,注入跨模态语义先验。
- Result: 在实验中,该方法优于先前方法,实现了最先进的性能。
- Conclusion: 提出的训练阶段方法有效解决了热红外检测的核心问题,无需测试时的可见光输入,保持了单模态推理的优势。
[146] Privacy Preserving Ordinal-Meta Learning with VLMs for Fine-Grained Fruit Quality Prediction
Riddhi Jain,Manasi Patwardhan,Aayush Mishra,Parijat Deshpande,Beena Rai
Main category: cs.CV
TL;DR: 提出了一种模型无关的序数元学习算法(MAOML),用于训练小型视觉语言模型,在零样本和少样本设置下实现水果新鲜度分类的最先进性能,平均准确率达到92.71%。
- Motivation: 解决易腐水果浪费问题需要准确预测其新鲜度,但获取专家标注的细粒度标签成本高导致数据稀缺。专有视觉语言模型性能好但存在数据隐私问题,开源模型性能不足且有限数据微调效果不佳。
- Method: 采用模型无关的序数元学习算法(MAOML),结合元学习解决数据稀疏性问题,并利用标签的序数性来训练小型视觉语言模型。
- Result: 在水果新鲜度分类任务中,该方法在零样本和少样本设置下均达到最先进性能,平均准确率为92.71%,符合行业标准。
- Conclusion: MAOML算法通过元学习和利用标签序数性,成功解决了数据稀疏性问题,使小型视觉语言模型在水果新鲜度分类任务中达到与专有模型相当的性能,同时避免了数据隐私问题。
[147] Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation
Jie Du,Xinyu Gong,Qingshan Tan,Wen Li,Yangming Cheng,Weitao Wang,Chenlu Zhan,Suhui Wu,Hao Zhang,Jun Zhang
Main category: cs.CV
TL;DR: 提出Reg-DPO方法,通过自动构建GT-Pair偏好对、引入SFT损失作为正则化项,并结合内存优化技术,显著提升视频生成质量。
- Motivation: 现有DPO方法主要基于图像领域范式,在小型模型上开发,难以应对视频任务的数据构建成本高、训练不稳定和内存消耗大等独特挑战。
- Method: 1) 使用GT-Pair自动构建高质量偏好对(真实视频为正样本,模型生成视频为负样本);2) 在DPO目标中引入SFT损失作为正则化项;3) 结合FSDP框架和多种内存优化技术。
- Result: 在多个数据集的I2V和T2V任务上,该方法持续优于现有方法,提供更优的视频生成质量,训练容量比单独使用FSDP提高近三倍。
- Conclusion: Reg-DPO方法有效解决了视频生成中的关键挑战,无需外部标注即可实现稳定训练和高质量生成,为大规模视频模型优化提供了可行方案。
[148] When to Trust the Answer: Question-Aligned Semantic Nearest Neighbor Entropy for Safer Surgical VQA
Dennis Pierantozzi,Luca Carlini,Mauro Orazio Drago,Chiara Lena,Cesare Hassan,Elena De Momi,Danail Stoyanov,Sophia Bano,Mobarak I. Hoque
Main category: cs.CV
TL;DR: 该论文提出了一种名为QA-SNNE的黑盒不确定性估计方法,通过将问题语义纳入预测置信度来改善手术视觉问答系统的安全性和可靠性。
- Motivation: 在手术环境中部署视觉问答系统时,错误或模糊的响应可能对患者造成伤害,因此安全性和可靠性至关重要。现有研究大多关注准确性或语言质量,而忽视了安全行为,如模糊意识、转诊给人类专家或触发二次意见。
- Method: 引入问题对齐语义最近邻熵(QA-SNNE),这是一种黑盒不确定性估计器,通过在医学文本嵌入空间中比较生成的答案与最近邻来测量语义熵,并以问题为条件。
- Result: 在EndoVis18-VQA和PitVQA数据集上评估了五个模型,包括领域特定的参数高效微调模型和零样本大型视觉语言模型。QA-SNNE在大多数模板内设置中提高了AUROC,并增强了幻觉检测。零样本模型的AUROC提高了15-38%,在模板外压力下仍保持增益。
- Conclusion: QA-SNNE通过将语义不确定性与问题上下文联系起来,为手术视觉问答中的自动故障检测提供了实用且可解释的步骤。将LVLM骨干与问题对齐的不确定性估计相结合可以提高安全性和临床医生的信任度。
[149] Efficiently Training A Flat Neural Network Before It has been Quantizated
Peng Xia,Junbiao Pang,Tianyang Cai
Main category: cs.CV
TL;DR: 提出了一种用于视觉Transformer后训练量化的框架,通过统计建模激活和权重量化误差为独立高斯噪声,使用噪声注入优化方法获得平坦最小值,从而提高低比特量化效果。
- Motivation: 现有后训练量化方法通常忽略训练好的神经网络与量化模型之间的关系,导致较大的量化误差。需要一种模型无关的方法来为预定义精度的低比特模型定制神经网络。
- Method: 首先发现平坦的全精度神经网络对低比特量化至关重要。提出通过测量和解耦误差源来主动预处理模型的框架,将激活量化误差和权重量化误差统计建模为独立高斯噪声,研究多种噪声注入优化方法以获得平坦最小值。
- Result: 实验结果验证了该方法的有效性。
- Conclusion: 这些结果为获得低比特后训练量化模型开辟了新的途径。
[150] HMVLM: Human Motion-Vision-Lanuage Model via MoE LoRA
Lei Hu,Yongjing Ye,Shihong Xia
Main category: cs.CV
TL;DR: 提出了Human Motion-Vision-Language Model (HMVLM)框架,通过MoE LoRA策略解决3D人体运动与文本模态融合中的灾难性遗忘问题,并开发了基于身体部位分区的姿态表示方法。
- Motivation: 解决基础语言模型在整合语义丰富的3D人体运动时面临的模态差距导致的灾难性遗忘问题,以及开发跨异构下游任务保持泛化能力的自回归兼容姿态表示的技术障碍。
- Method: 基于Mixture of Expert Low-Rank Adaption (MoE LoRA)策略的统一框架,利用门控网络根据输入提示动态分配LoRA专家权重;引入零专家保留预训练参数;通过将人体划分为不同关节组实现身体部位特定标记化。
- Result: 实验表明该方法有效缓解了指令调优过程中的知识遗忘,在多样化人体运动下游任务中取得了显著性能。
- Conclusion: HMVLM框架成功解决了3D人体运动与语言模型整合中的关键挑战,为多模态理解和跨模态生成提供了有效解决方案。
[151] SecDiff: Diffusion-Aided Secure Deep Joint Source-Channel Coding Against Adversarial Attacks
Changyuan Zhao,Jiacheng Wang,Ruichen Zhang,Dusit Niyato,Hongyang Du,Zehui Xiong,Dong In Kim,Ping Zhang
Main category: cs.CV
TL;DR: SecDiff是一个基于扩散模型的即插即用解码框架,通过伪逆引导采样和自适应引导权重,显著提升了深度联合源信道编码在对抗性无线环境下的安全性和鲁棒性。
- Motivation: 现有的深度联合源信道编码框架容易受到物理层对抗威胁(如导频欺骗和子载波干扰)的影响,这会损害语义保真度。
- Method: 采用伪逆引导采样和自适应引导权重实现灵活步长控制和高效语义重建;针对干扰攻击引入基于功率的子载波掩码策略;针对导频欺骗将信道估计重构为盲逆问题,开发EM驱动的重建算法。
- Result: 在对抗性条件下的OFDM信道实验中,SecDiff在重建质量和计算成本之间实现了有利的权衡,优于现有的安全和生成式JSCC基线方法。
- Conclusion: SecDiff是实现实用、低延迟和抗攻击语义通信的有前景的一步。
[152] EPAN: Robust Pedestrian Re-Identification via Enhanced Alignment Network for IoT Surveillance
Zhiyang Jia,Hongyan Cui,Ge Gao,Bo Li,Minjie Zhang,Zishuo Gao,Huiwen Huang,Caisheng Zhuo
Main category: cs.CV
TL;DR: 本文提出了增强行人对齐网络(EPAN),用于物联网监控环境下的行人重识别,在Inspection-Personnel数据集上取得了90.09%的Rank-1准确率和78.82%的mAP。
- Motivation: 解决物联网智能环境中监控和安全应用的行人重识别问题,特别是在视角和环境变化条件下的鲁棒性需求。
- Method: 采用双分支架构来减轻视角和环境变化的影响,在不同尺度和视角下提取对齐信息。
- Result: 在Inspection-Personnel数据集上表现优异,Rank-1准确率达到90.09%,mAP达到78.82%。
- Conclusion: EPAN在现实世界物联网应用中具有潜力,能够在监控和安全系统中实现跨摄像头的有效可靠行人重识别。
[153] SE(3)-PoseFlow: Estimating 6D Pose Distributions for Uncertainty-Aware Robotic Manipulation
Yufeng Jin,Niklas Funk,Vignesh Prasad,Zechu Li,Mathias Franzius,Jan Peters,Georgia Chalvatzaki
Main category: cs.CV
TL;DR: 提出一种基于SE(3)流匹配的概率框架,用于估计6D物体姿态分布,解决姿态模糊性问题
- Motivation: 物体姿态估计面临部分可观测性、遮挡和物体对称性等挑战,导致姿态模糊性和多假设问题。确定性深度网络在受限条件下表现良好,但无法捕捉底层姿态分布的多模态特性
- Method: 利用SE(3)流形上的流匹配技术,建模完整的姿态分布,提供基于样本的估计,能够处理对称物体或严重遮挡等模糊情况
- Result: 在Real275、YCB-V和LM-O数据集上取得最先进的结果,并展示了在机器人操作任务中的应用,如主动感知和不确定性感知的抓取合成
- Conclusion: 该概率框架能够有效建模姿态分布的多模态特性,在模糊情况下提供不确定性推理,为下游机器人任务提供更好的姿态估计
[154] Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning
Mengtan Zhang,Zizhan Guo,Hongbo Zhao,Yi Feng,Zuyi Xiong,Yue Wang,Shaoyi Du,Hanli Wang,Rui Fan
Main category: cs.CV
TL;DR: 该论文提出了一种区分处理运动组件的方法,通过利用各自刚性流的几何规律来改进深度和自运动估计。DiMoDE框架通过相机轴对齐和成像平面对齐,引入针对性的几何约束,在多个数据集上实现了最先进的性能。
- Motivation: 现有无监督深度和自运动学习方法通常将自运动作为辅助任务,要么混合所有运动类型,要么排除与深度无关的旋转运动,这限制了强几何约束的引入,降低了在不同条件下的可靠性和鲁棒性。
- Method: 提出区分处理运动组件的方法:首先对齐源相机和目标相机的光轴和成像平面,通过变换光流并量化偏差来对每个自运动组件施加几何约束。进一步将联合学习过程重新表述为同轴和共面形式,通过闭式几何关系实现深度和每个平移分量的相互推导。
- Result: DiMoDE框架在多个公共数据集和新收集的多样化真实世界数据集上实现了最先进的性能,特别是在具有挑战性的条件下表现优异。
- Conclusion: 通过区分处理运动组件并利用其几何规律,可以显著改进深度和自运动估计的可靠性和鲁棒性,DiMoDE框架验证了这种方法的有效性。
[155] Luminance-Aware Statistical Quantization: Unsupervised Hierarchical Learning for Illumination Enhancement
Derong Kong,Zhixiong Yang,Shengxi Li,Shuaifeng Zhi,Li Liu,Zhen Liu,Jingyuan Xia
Main category: cs.CV
TL;DR: 本文提出Luminance-Aware Statistical Quantification (LASQ)框架,将低光图像增强重新定义为基于分层亮度分布的统计采样过程,通过扩散前向过程自主发现亮度层间的最优转换路径,实现无需正常光参考的无监督分布模拟。
- Motivation: 现有低光图像增强方法主要关注低/正常光图像对之间的确定性像素级映射,忽略了真实环境中亮度转换的连续物理过程,导致在缺乏正常光参考时性能下降。
- Method: 引入LASQ框架,将亮度转换重新概念化为强度坐标空间中的幂律分布,通过分层幂函数近似,用概率采样替代确定性映射。设计扩散前向过程自主发现亮度层间最优转换路径。
- Result: 该方法显著提升了实际场景中的性能,实现了更适应和通用的光照恢复。在有正常光参考的情况下,在领域特定数据集上取得优越性能,并在无参考数据集上具有更好的泛化能力。
- Conclusion: LASQ框架通过统计量化方法重新定义低光图像增强问题,解决了现有方法在重建保真度和跨场景泛化之间的平衡问题,为实际应用提供了更有效的解决方案。
[156] Example-Based Feature Painting on Textures
Andrei-Timotei Ardelean,Tim Weyrich
Main category: cs.CV
TL;DR: 提出一个完整的纹理控制创作和编辑系统,能够生成具有局部特征(如污渍、撕裂、孔洞等)的逼真纹理,采用基于学习的无监督方法,无需手动标注。
- Motivation: 自然界中纹理通常包含各种局部特征变化,这些变化对于生成逼真纹理至关重要,但传统方法需要大量手动标注工作。
- Method: 采用无监督异常检测方法自动识别纹理中的外观改变特征,通过自动聚类形成语义连贯的组别,并基于扩散模型进行条件生成和编辑。
- Result: 开发了一个从少量图像到多功能生成模型的完整流程,支持用户交互式创建和绘制任意尺寸的纹理特征。
- Conclusion: 该系统实现了无需标注的纹理特征控制生成,提出的扩散编辑和无限平稳纹理生成算法具有通用性,可应用于其他场景。
[157] NSYNC: Negative Synthetic Image Generation for Contrastive Training to Improve Stylized Text-To-Image Translation
Serkan Ozturk,Samet Hicsonmez,Pinar Duygulu
Main category: cs.CV
TL;DR: 提出了一种新颖的对比学习框架NSYNC,通过生成负合成图像集并结合对比训练方案,提升大型文本到图像扩散模型的风格化能力。
- Motivation: 当前文本条件图像生成方法虽然能生成逼真图像,但无法捕捉特定风格。直接在目标风格数据集上微调仍难以掌握风格特征。
- Method: 使用合成图像生成技术创建负样本集,在对比训练中同时处理正负数据,通过从正梯度中减去其在负梯度上的投影来获得正交分量,以此更新参数。
- Result: 在多种画家和插画师风格上的实验表明,该方法在定量和定性上都优于基线方法。
- Conclusion: NSYNC方法通过对比学习有效消除了正负数据中共同存在的平凡属性,使模型能够捕捉更独特的风格特征。
[158] Driving scenario generation and evaluation using a structured layer representation and foundational models
Arthur Hubert,Gamal Elghazaly,Raphaël Frank
Main category: cs.CV
TL;DR: 提出结构化五层模型用于生成和评估罕见驾驶场景,结合基础模型进行数据增强,并引入多样性和原创性指标来评估合成数据集的质量。
- Motivation: 罕见驾驶场景对自动驾驶开发至关重要,但由于难以遇到,需要通过生成模型来模拟或生成这些场景。
- Method: 使用结构化五层模型和大型基础模型生成新驾驶场景,引入子类和特征来描述每个场景代理,并使用特定嵌入进行比较。
- Result: 展示了在不同生成设置下的多样性和原创性指标评估,以及对结构化场景描述生成的合成视频进行定性评估。
- Conclusion: 提出的结构化模型和评估指标能够有效生成和评估罕见驾驶场景,为自动驾驶开发提供重要支持。
[159] PCD-ReID: Occluded Person Re-Identification for Base Station Inspection
Ge Gao,Zishuo Gao,Hongyan Cui,Zhiyang Jia,Zhuang Luo,ChaoPeng Liu
Main category: cs.CV
TL;DR: 提出了PCD-ReID算法,通过Transformer网络提取共享组件特征(如头盔、制服)来解决基站环境中被遮挡行人重识别问题,在真实巡逻监控数据集上取得了79.0% mAP和82.7% Rank-1准确率。
- Motivation: 基站环境中的被遮挡行人重识别对监控和安全应用至关重要,但传统ResNet算法难以有效处理遮挡问题,需要新的重识别方法。
- Method: 设计了基于Transformer的PCD网络,能够提取共享组件特征;收集了新的真实世界巡逻监控图像数据集进行训练,包含6个月、1万人、5万多张图像。
- Result: 与现有重识别算法相比,模型达到79.0% mAP和82.7% Rank-1准确率,比基于ResNet50的方法提升了15.9% Rank-1准确率。
- Conclusion: PCD-ReID在塔检场景中有效实现了遮挡感知的行人重识别性能,展示了在监控安全应用中实际部署的潜力。
[160] NOA: a versatile, extensible tool for AI-based organoid analysis
Mikhail Konov,Lion J. Gleiter,Khoa Co,Monica Yabal,Tingying Peng
Main category: cs.CV
TL;DR: 开发了Napari Organoid Analyzer (NOA),一个用于简化AI驱动器官图像分析的通用图形用户界面,整合了检测、分割、跟踪、特征提取等功能。
- Motivation: AI工具能增强器官显微镜图像分析,但缺乏编程经验的生物学家难以使用现有工具,导致工作流程劳动密集且主要依赖手动操作。
- Method: 开发NOA作为开源napari插件,集成多个先进算法模块,包括检测、分割、跟踪、特征提取、自定义特征标注和基于机器学习的特征预测。
- Result: 通过三个案例研究展示了NOA的多功能性:量化器官分化过程中的形态变化、评估光毒性效应、预测器官活性和分化状态。
- Conclusion: NOA在可访问和可扩展的框架内实现了全面的AI驱动器官图像分析。
[161] PixelVLA: Advancing Pixel-level Understanding in Vision-Language-Action Model
Wenqi Liang,Gan Sun,Yao He,Jiahua Dong,Suyan Dai,Ivan Laptev,Salman Khan,Yang Cong
Main category: cs.CV
TL;DR: PixelVLA是首个支持像素级推理和多模态提示的视觉-语言-动作模型,通过新的视觉运动指令调优框架和两阶段自动标注流程,在多个基准测试中显著提升操作成功率,同时大幅降低预训练成本。
- Motivation: 当前VLA模型存在两个主要限制:难以进行像素级场景理解,以及过度依赖文本提示导致在真实环境中灵活性不足。
- Method: 提出PixelVLA模型,采用多尺度像素感知编码器和视觉提示编码器的新视觉运动指令调优框架,并通过两阶段自动标注流程生成Pixel-160K大规模像素级标注数据集。
- Result: 在三个标准VLA基准测试和两个VLA模型变体上,PixelVLA相比OpenVLA将操作成功率提升了10.1%-17.8%,同时仅需其预训练成本的1.5%。
- Conclusion: PixelVLA可以集成到现有VLA模型中,在复杂环境中实现更准确、高效和通用的机器人控制。
[162] Generative Adversarial Synthesis and Deep Feature Discrimination of Brain Tumor MRI Images
Md Sumon Ali,Muzammil Behzad
Main category: cs.CV
TL;DR: 该论文提出使用深度卷积生成对抗网络(DC-GAN)生成合成MRI数据,并利用CNN分类器评估合成图像的质量和实用性,解决了医学影像数据有限的问题。
- Motivation: 传统MRI数据有限,而生成逼真的医学图像具有挑战性。需要解决医学影像数据稀缺的问题,以便更好地支持下游任务如脑肿瘤分类。
- Method: 采用深度卷积生成对抗网络(DC-GAN)生成合成MRI数据,并使用卷积神经网络(CNN)分类器对真实和合成MRI数据进行脑肿瘤分类,以评估合成图像的质量。
- Result: 分类结果显示在真实图像和合成图像上具有可比较的性能,验证了GAN生成图像在下游任务中的有效性。
- Conclusion: GAN生成的合成医学图像可以有效地用于下游任务,为解决医学影像数据有限问题提供了可行的解决方案。
[163] Wave-Particle (Continuous-Discrete) Dualistic Visual Tokenization for Unified Understanding and Generation
Yizhu Chen,Chen Ju,Zhicheng Wang,Shuai Xiao,Xu Chen,Jinsong Lan,Xiaoyong Zhu,Ying Chen
Main category: cs.CV
TL;DR: 提出了连续-离散二元视觉分词器(CDD-VT),通过自适应分配图像基元数量来解决多模态大模型中理解与生成的统一问题。
- Motivation: 解决多模态大模型中理解与生成统一化的挑战,避免连续分词器的复杂流水线和离散分词器的信息损失问题。
- Method: 将视觉数据视为量化码本中图像基元的灵活组合,根据样本复杂度自适应确定基元数量:简单实例使用少量基元(类似离散分词),复杂实例使用多个基元(类似连续分词)。设计了多样化量化基元和动态基元分配器两个核心组件。
- Result: 在重建、检索和分类任务上的广泛实验表明,CDD-VT在性能上优于专门的连续分词器和离散分词器。
- Conclusion: CDD-VT能够在简洁且可扩展的多模态大模型中实现强大性能,有效解决了连续与离散分词之间的二元选择困境。
[164] Lite ENSAM: a lightweight cancer segmentation model for 3D Computed Tomography
Agnar Martin Bjørnstad,Elias Stenhede,Arian Ranjbar
Main category: cs.CV
TL;DR: Lite ENSAM是一个轻量级的肿瘤体积分割模型,专门用于从带有RECIST标注的CT扫描中高效分割肿瘤体积,在MICCAI FLARE 2025比赛中取得了良好性能。
- Motivation: 当前肿瘤治疗评估主要依赖RECIST标准,但体积测量更可靠。然而手动体积标注耗时耗力,限制了临床应用。
- Method: 提出Lite ENSAM架构,这是ENSAM的轻量级适配版本,专门用于从RECIST标注的CT扫描中进行高效的肿瘤体积分割。
- Result: 在MICCAI FLARE 2025任务1的隐藏测试集上,Dice相似系数达到60.7%,归一化表面Dice达到63.6%。在公开验证集上,平均RAM使用50.6GB,CPU推理时间14.4秒。
- Conclusion: Lite ENSAM证明了从RECIST标注自动生成肿瘤体积分割的可行性,为临床采用更可靠的体积评估方法提供了技术基础。
[165] DINO-MX: A Modular & Flexible Framework for Self-Supervised Learning
Mahmut Selman Gokmen,Cody Bumgardner
Main category: cs.CV
TL;DR: DINO-MX是一个模块化、可扩展的自监督视觉基础模型训练框架,结合了DINO系列的核心原理,支持多种Transformer架构和训练策略,显著降低计算成本并保持竞争力性能。
- Motivation: 现有视觉基础模型训练流程存在不灵活、领域特定或计算成本高的问题,限制了在不同领域和资源设置下的可用性。
- Method: 采用统一配置驱动系统,支持多种Transformer架构,包含LoRA、层冻结、知识蒸馏等训练策略,以及DDP和FSDP分布式训练,兼容Hugging Face生态系统。
- Result: 在多样化数据集上的实验表明,DINO-MX在显著降低计算成本的同时实现了竞争力性能,并提供可解释性工具和标签引导数据增强方法。
- Conclusion: DINO-MX为开发和基准测试自监督视觉模型提供了可复现、可扩展的基础,适用于广泛的研究和实际应用场景。
[166] Benchmark-Ready 3D Anatomical Shape Classification
Tomáš Krsička,Tibor Kubík
Main category: cs.CV
TL;DR: 提出PSPooling(预计算结构池化)方法用于3D解剖形状分类,通过自监督图自编码器学习解剖感知表示,并在MedShapeNet19基准数据集上验证了其有效性。
- Motivation: 解剖3D形状分类受限于网格数据复杂性和缺乏标准化基准,需要鲁棒的学习方法和可复现的评估。
- Method: 提出非学习的PSPooling网格池化算子,基于几何邻近预计算节点对应集,实现并行化可逆的池化和上采样操作;集成到自监督图自编码器中学习无标签表面网格的表示。
- Result: PSPooling显著提高了重建保真度和低标签情况下的分类准确率,在MedShapeNet19数据集上建立了医学3D形状学习的强基线。
- Conclusion: PSPooling为解剖形状分类提供了有效的结构保持池化方法,MedShapeNet19可作为医学3D形状分析的标准化基准。
[167] Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers
Mohamed Eltahir,Ali Habibullah,Lama Ayash,Tanveer Hussain,Naeemullah Khan
Main category: cs.CV
TL;DR: ViC是一个无需训练的通用框架,将列表重排序和融合重新定义为视觉语言模型的零样本推理任务,通过序列化内容证据和检索器元数据,在跨模态视频检索中实现最先进的性能。
- Motivation: 解决异构检索器候选融合的长期挑战,特别是在复杂多模态数据(如视频)中。传统融合方法仅依赖排名或分数信号,忽略了候选表示。
- Method: 提出Vote-in-Context框架,在VLM提示中序列化内容证据和检索器元数据,使用S-Grid紧凑序列化地图表示视频,可选配字幕进行列表推理。
- Result: 在视频检索基准测试中实现新的零样本检索最先进性能,MSR-VTT上Recall@1达到87.1%(t2v)/89.0%(v2t),VATEX上v2t达到99.6%,相比之前最佳基线提升高达+40 Recall@1。
- Conclusion: ViC是将现代VLM转变为强大零样本重排序器和融合器的简单、可复现且高效的方案。
[168] Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models
Xiaoyu Zhan,Wenxuan Huang,Hao Sun,Xinyu Fu,Changfeng Ma,Shaosheng Cao,Bohan Jia,Shaohui Lin,Zhenfei Yin,Lei Bai,Wanli Ouyang,Yuanqi Li,Jie Guo,Yanwen Guo
Main category: cs.CV
TL;DR: 本文提出了Viewpoint Learning任务来评估和提升多模态大语言模型的空间推理能力,通过Viewpoint-100K数据集和两阶段微调策略,显著提升了模型在3D空间推理任务上的表现。
- Motivation: 尽管多模态大语言模型在2D视觉理解方面取得了显著进展,但它们在处理复杂3D推理任务时是否能有效捕捉详细空间信息,特别是跨视角一致性这一关键要求,仍不清楚。
- Method: 提出了Viewpoint Learning任务,构建了包含10万对物体中心图像和对应问答对的Viewpoint-100K数据集。采用两阶段微调策略:首先通过监督微调注入基础知识,然后使用GRPO强化学习算法增强泛化能力,并引入了混合冷启动初始化方法。
- Result: 实验结果表明,该方法显著激活了多模态大语言模型的空间推理能力,在领域内和领域外推理任务上的性能均有提升。
- Conclusion: 开发多模态大语言模型的基础空间技能具有重要价值,将支持未来在机器人、自主系统和3D场景理解等领域的进展。
[169] Enhancing Diffusion-based Restoration Models via Difficulty-Adaptive Reinforcement Learning with IQA Reward
Xiaogang Xu,Ruihang Chu,Jian Wang,Kun Zhou,Wenjie Shu,Harry Yang,Ser-Nam Lim,Hao Chen,Liang Lin
Main category: cs.CV
TL;DR: 本文提出了一种将强化学习有效集成到基于扩散的图像修复模型中的方法,通过使用图像质量评估模型作为奖励函数,并针对远离真实值的困难样本进行RL训练,实现了性能提升。
- Motivation: 现有的RL方法直接应用于基于扩散的图像修复模型效果不佳,因为修复任务更强调保真度而非纯生成。需要研究如何有效将RL集成到这类模型中。
- Method: 使用IQA模型作为奖励函数,针对困难样本进行RL训练,采用MLLM-based IQA模型进行分布对齐,并自适应地结合SFT进行细粒度对齐,通过自动权重策略调整训练难度。
- Result: 该方法可无缝应用于基于扩散的修复模型,在各种修复任务中显著提升了性能,多个基准测试验证了其有效性。
- Conclusion: 提出的RL框架能够有效提升扩散修复模型的性能,通过IQA奖励函数和自适应训练策略实现了更好的修复效果。
[170] UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback
Ropeway Liu,Hangjie Yuan,Bo Dong,Jiazheng Xing,Jinwang Wang,Rui Zhao,Yan Xing,Weihua Chen,Fan Wang
Main category: cs.CV
TL;DR: UniLumos是一个统一的图像和视频重光照框架,通过将RGB空间几何反馈引入流匹配主干,显著提升了重光照的物理一致性和质量,同时实现了20倍的速度提升。
- Motivation: 现有基于扩散模型的重光照方法在语义潜在空间中优化,虽然能产生丰富的光照效果,但缺乏物理正确性,经常产生过度曝光的高光、错位的阴影和不正确的遮挡等不真实结果。
- Method: 提出UniLumos框架,通过从输出中提取深度和法线图来监督模型,将光照效果与场景结构对齐;采用路径一致性学习减少计算开销;设计六维标注协议实现细粒度控制;构建LumosBench基准进行自动评估。
- Result: UniLumos在重光照质量上达到最先进水平,物理一致性显著改善,图像和视频重光照速度提升20倍。
- Conclusion: UniLumos通过引入几何反馈和监督机制,成功解决了重光照中的物理一致性问题,同时保持了高效性,为图像和视频重光照提供了统一的解决方案。
[171] Progressive Translation of H&E to IHC with Enhanced Structural Fidelity
Yuhang Kang,Ziyu Su,Tianyang Wang,Zaibo Li,Wei Chen,Muhammad Khalid Khan Niazi
Main category: cs.CV
TL;DR: 提出了一种渐进式网络架构,通过分阶段优化颜色和细胞边界生成,从H&E染色图像合成IHC等效图像,显著提升视觉质量和结构细节。
- Motivation: IHC染色虽然能提供高分辨率蛋白定位信息,但成本高、耗时长且多重染色能力有限。现有染色转换技术使用线性加权损失函数,无法同时保持结构真实性和颜色保真度。
- Method: 基于ASP框架,提出渐进式网络架构,分阶段优化颜色和细胞边界生成,引入DAB色原浓度和图像梯度损失函数。
- Result: 在HER2和ER数据集上的实验表明,该模型显著改善了视觉质量并实现了更精细的结构细节。
- Conclusion: 渐进式结构-颜色-细胞边界机制有效解决了现有染色转换技术的局限性,能够同时保持结构真实性和颜色保真度。
[172] Learnable Fractional Reaction-Diffusion Dynamics for Under-Display ToF Imaging and Beyond
Xin Qiao,Matteo Poggi,Xing Wei,Pengchao Deng,Yanhui Zhou,Stefano Mattoccia
Main category: cs.CV
TL;DR: 提出LFRD2框架,结合神经网络表达能力和物理模型可解释性,解决屏下ToF成像因TOLED层导致的信号衰减、多径干扰和时序噪声问题。
- Motivation: 屏下ToF成像中,透明OLED层会引入严重的信号衰减、多径干扰和时序噪声,显著降低深度感知质量。
- Method: 采用可学习分数反应-扩散动力学框架,包含时间分数反应-扩散模块实现迭代深度优化,以及通过系数预测和重复微分的高效连续卷积算子。
- Result: 在四个基准数据集上的实验证明了该方法的有效性。
- Conclusion: LFRD2框架成功结合了神经网络的表达能力和物理模型的可解释性,有效提升了屏下ToF成像的深度感知质量。
[173] Probabilistic Robustness for Free? Revisiting Training via a Benchmark
Yi Zhang,Zheng Wang,Chen Zhen,Wenjie Ruan,Qing Guo,Siddartha Khastgir,Carsten Maple,Xingyu Zhao
Main category: cs.CV
TL;DR: PRBench是首个专门评估不同鲁棒性训练方法对概率鲁棒性(PR)改进效果的基准测试,通过综合指标比较对抗训练(AT)和PR针对性训练方法,发现AT方法在提升AR和PR方面更通用,而PR针对性训练方法具有更低的泛化误差和更高的干净准确率。
- Motivation: 深度学习模型对微小扰动非常脆弱。概率鲁棒性(PR)从统计角度衡量模型在随机扰动下预测保持正确的概率,作为对抗鲁棒性(AR)的实用补充。然而,专门针对PR的训练方法研究相对不足,且现有方法存在评估协议不可比、与强AT基线比较有限、缺乏统一框架等问题。
- Method: 提出了PRBench基准测试,使用包括干净准确率、PR和AR性能、训练效率和泛化误差在内的综合指标集,对常见的AT和PR针对性训练方法进行实证比较,并提供了PR性能泛化误差的理论分析。
- Result: 主要发现:AT方法在提升AR和PR性能方面比PR针对性训练方法更通用,而PR针对性训练方法始终产生更低的泛化误差和更高的干净准确率。构建了包含222个训练模型的排行榜,涵盖7个数据集和10种模型架构。
- Conclusion: PRBench为评估PR改进提供了标准化基准,揭示了AT和PR针对性训练方法的相对优势和局限性,促进了鲁棒性训练方法的公平比较和进一步发展。
[174] Toward Strategy Identification and Subtask Decomposition In Task Exploration
Tom Odem
Main category: cs.CV
TL;DR: 开发了一个任务探索管道,使用聚类技术、因子分析和字符串编辑距离自动识别完成任务的关键全局和局部策略,并识别有意义的子任务。
- Motivation: 推进机器对用户知识、技能和行为的理解,以实现隐式协调。
- Method: 开发任务探索管道,结合聚类技术、因子分析和字符串编辑距离,自动识别全局策略(完成任务的动作集合)和局部策略(相似动作组合的序列),并识别各种长度的有意义的子任务。
- Result: 任务探索管道能够自动识别完成任务的关键策略,并用层次化子任务结构编码用户运行过程。开发了Task Explorer应用来轻松查看管道结果。
- Conclusion: 该管道可轻松修改以适应任何基于动作的时间序列数据,识别的策略和子任务有助于人类和机器了解用户的知识、技能和行为。
[175] CGF-DETR: Cross-Gated Fusion DETR for Enhanced Pneumonia Detection in Chest X-rays
Yefeng Wu,Yucheng Song,Ling Wu,Shan Wan,Yecheng Zhao
Main category: cs.CV
TL;DR: 本文提出了CGF-DETR,一种专为肺炎检测设计的增强型实时检测变换器,在RSNA肺炎检测数据集上达到82.2% mAP@0.5,比基线RT-DETR-l提升3.7%,同时保持48.1 FPS的推理速度。
- Motivation: 肺炎是全球发病率和死亡率的主要原因,需要准确高效的自动检测系统。虽然基于变换器的检测器在目标检测任务中表现出色,但在医学影像特别是胸部X光肺炎检测中的应用仍待探索。
- Method: 提出CGF-DETR模型:1)在骨干网络中引入XFABlock,通过卷积注意力机制与CSP架构结合改进多尺度特征提取;2)提出SPGA模块,用动态门控机制和单头自注意力替代标准多头注意力;3)设计GCFC3用于颈部网络,通过多路径卷积融合增强特征表示,同时通过结构重参数化保持实时性能。
- Result: 在RSNA肺炎检测数据集上,CGF-DETR达到82.2% mAP@0.5,比基线RT-DETR-l提升3.7%,同时保持48.1 FPS的推理速度。完整模型达到50.4% mAP@[0.5:0.95]。
- Conclusion: 消融研究证实每个提出的模块都对整体性能提升有显著贡献。CGF-DETR在肺炎检测任务中表现出色,在保持实时性能的同时显著提升了检测精度。
[176] 3EED: Ground Everything Everywhere in 3D
Rong Li,Yuhao Dong,Tianshuai Hu,Ao Liang,Youquan Liu,Dongyue Lu,Liang Pan,Lingdong Kong,Junwei Liang,Ziwei Liu
Main category: cs.CV
TL;DR: 3EED是一个多平台、多模态的3D视觉定位基准,包含车辆、无人机和四足机器人平台的RGB和LiDAR数据,规模比现有数据集大10倍,支持跨平台评估。
- Motivation: 现有的3D视觉定位基准局限于室内环境、单一平台和小规模,无法满足开放世界环境中语言驱动3D感知的需求。
- Method: 结合视觉语言模型提示和人工验证的可扩展标注流程,提出平台感知归一化和跨模态对齐技术,建立域内和跨平台评估协议。
- Result: 提供了超过128,000个对象和22,000个验证过的参考表达式,揭示了显著的性能差距,突出了可泛化3D定位的挑战和机遇。
- Conclusion: 3EED数据集和基准工具包的发布将推动语言驱动3D具身感知的未来研究。
[177] HGFreNet: Hop-hybrid GraphFomer for 3D Human Pose Estimation with Trajectory Consistency in Frequency Domain
Kai Zhai,Ziyan Huang,Qiang Nie,Xiang Li,Bo Ouyang
Main category: cs.CV
TL;DR: 提出HGFreNet,一种结合图注意力和Transformer的架构,通过跳数混合特征聚合和频域3D轨迹一致性来解决2D到3D人体姿态提升中的深度模糊和时间不一致性问题。
- Motivation: 解决2D到3D人体姿态提升中深度模糊和2D姿态估计误差导致的3D轨迹不一致问题,现有方法仅约束相邻帧差异而忽略了骨骼关节运动的全局时空相关性。
- Method: 设计HGFreNet架构,包含跳数混合图注意力模块和Transformer编码器来建模全局关节时空相关性,并在频域约束轨迹一致性,使用初步网络估计3D姿态以提供跨帧深度信息。
- Result: 在Human3.6M和MPI-INF-3DHP基准数据集上的实验表明,HGFreNet在位置精度和时间一致性方面优于现有最优方法。
- Conclusion: HGFreNet通过全局时空建模和频域轨迹约束,有效提升了2D到3D人体姿态估计的准确性和时间一致性。
[178] Wonder3D++: Cross-domain Diffusion for High-fidelity 3D Generation from a Single Image
Yuxiao Yang,Xiao-Xiao Long,Zhiyang Dou,Cheng Lin,Yuan Liu,Qingsong Yan,Yuexin Ma,Haoqian Wang,Zhiqiang Wu,Wei Yin
Main category: cs.CV
TL;DR: Wonder3D++ 是一种从单视图图像高效生成高质量纹理网格的新方法,通过跨域扩散模型生成多视图法线图和彩色图像,在约3分钟内完成高质量3D重建。
- Motivation: 现有方法存在效率低(基于SDS的方法需要逐形状优化)或质量差(直接网络推理方法缺乏几何细节)的问题,需要一种能同时保证质量、一致性和效率的单视图重建方法。
- Method: 提出跨域扩散模型生成多视图法线图和彩色图像,使用多视图跨域注意力机制确保视图间和模态间的一致性,采用级联3D网格提取算法以粗到细的方式从2D表示中提取高质量表面。
- Result: 方法在广泛评估中实现了高质量的重建结果、强大的泛化能力和良好的效率,相比先前工作有明显提升。
- Conclusion: Wonder3D++ 在单视图3D重建任务中成功平衡了质量、一致性和效率,为高质量3D内容生成提供了有效解决方案。
[179] UniLION: Towards Unified Autonomous Driving Model with Linear Group RNNs
Zhe Liu,Jinghua Hou,Xiaoqing Ye,Jingdong Wang,Hengshuang Zhao,Xiang Bai
Main category: cs.CV
TL;DR: UniLION是一个统一的自动驾驶模型,通过线性组RNN算子高效处理大规模LiDAR点云、高分辨率多视角图像和时间序列,无需显式的时间或多模态融合模块,在多种核心任务中实现竞争性甚至最先进的性能。
- Motivation: 解决Transformer在处理长序列数据时二次注意力机制带来的显著计算开销问题,同时简化多模态和多任务自动驾驶系统的设计。
- Method: 基于线性组RNN算子(对分组特征执行线性RNN),构建单一通用架构,支持多种专用变体(LiDAR-only、时序LiDAR、多模态和多模态时序融合配置)。
- Result: 在3D感知(3D目标检测、跟踪、占用预测、BEV地图分割)、预测(运动预测)和规划(端到端规划)等广泛核心任务中,持续提供竞争性甚至最先进的性能。
- Conclusion: UniLION为自动驾驶中3D基础模型的开发提供了新视角,自然简化了多模态和多任务系统的设计,同时保持优越性能。
[180] How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment
Zhen Chen,Qing Xu,Jinlin Wu,Biao Yang,Yuhao Zhai,Geng Guo,Jing Zhang,Yinlu Ding,Nassir Navab,Jiebo Luo
Main category: cs.CV
TL;DR: SurgVeo是首个专家策划的手术视频生成模型评估基准,结合手术合理性金字塔(SPP)框架,评估发现Veo-3模型在视觉感知层面表现优异,但在手术器械操作、环境反馈和手术意图等高级合理性方面存在显著差距。
- Motivation: 现有视频生成模型在通用物理世界模拟方面表现出色,但在需要深度专业因果知识的高风险领域如手术中应用仍存在关键空白,需要专门评估框架。
- Method: 提出SurgVeo基准和四层级SPP框架,使用Veo-3模型进行零样本预测任务,由四位认证外科医生根据SPP评估生成的腹腔镜和神经外科手术视频。
- Result: 发现明显的"合理性差距":Veo-3在视觉感知合理性方面表现卓越,但在器械操作合理性、环境反馈合理性和手术意图合理性等更高层级上严重失败。
- Conclusion: 这项工作首次量化证明了手术AI中视觉逼真模仿与因果理解之间的鸿沟,为开发能够应对专业医疗领域复杂性的未来模型奠定了关键基础。
[181] PROPEX-RAG: Enhanced GraphRAG using Prompt-Driven Prompt Execution
Tejas Sarnaik,Manan Shah,Ravi Hegde
Main category: cs.CV
TL;DR: 提出基于提示驱动的GraphRAG框架,强调提示设计在提升图检索增强生成中的重要性,在HotpotQA和2WikiMultiHopQA上达到SOTA性能。
- Motivation: 现有图检索增强生成方法中,提示设计对检索和推理过程的影响研究不足,需要探索提示在实体提取、事实选择和段落重排中的作用。
- Method: 构建符号知识图谱表示实体和事实关系,使用LLM进行语义过滤和答案生成,采用基于个性化PageRank的实体引导图遍历实现高效可扩展检索。
- Result: 在HotpotQA和2WikiMultiHopQA上分别获得80.7%和78.9%的F1分数,以及97.1%和98.1%的Recall@5,达到最先进性能。
- Conclusion: 提示设计是提高检索准确性和响应质量的关键因素,为更高效可解释的多跳问答系统奠定了基础。
[182] SciTextures: Collecting and Connecting Visual Patterns, Models, and Code Across Science and Art
Sagi Eppel,Alona Strugatski
Main category: cs.CV
TL;DR: 提出了Scitextures数据集,包含1200多个模型和10万张来自科学、技术和艺术领域的纹理图像,用于研究视觉模式与生成机制之间的联系,并评估AI模型理解物理系统背后机制的能力。
- Motivation: 探索视觉模式与形成机制之间的深层联系,这种联系代表了视觉理解的最高层次。云层、波浪、城市生长等模式都源于底层机制。
- Method: 通过自主AI流水线收集和实现标准化模型,创建大规模纹理数据集。使用该数据集评估AI模型将视觉模式与生成代码关联的能力,以及推断和重建模式形成机制的能力。
- Result: 视觉语言模型能够超越视觉模式本身,理解和模拟物理系统。AI能够识别相同过程产生的不同模式,并能根据真实世界图像推断、建模和编码形成机制。
- Conclusion: Scitextures数据集为探索视觉模式与生成机制之间的联系提供了重要资源,证明了AI在理解物理系统方面的潜力,为视觉理解的深入研究奠定了基础。
[183] TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning
Ming Li,Jike Zhong,Shitian Zhao,Haoquan Zhang,Shaoheng Lin,Yuxiang Lai,Wei Chen,Konstantinos Psounis,Kaipeng Zhang
Main category: cs.CV
TL;DR: 提出了TIR-Bench基准测试,用于评估智能体在图像处理中的思维-图像能力,测试了22个多模态大语言模型,发现该基准具有普遍挑战性。
- Motivation: 现有基准测试无法充分捕捉像OpenAI o3这样能够智能创建和操作工具进行图像变换的模型的先进能力,即使是视觉搜索这样的基准也只测试基本操作。
- Method: 引入TIR-Bench基准,包含13个多样化任务,每个任务都需要在思维链中使用新颖工具进行图像处理和操作。
- Result: 评估了22个多模态大语言模型,包括领先的开源和专有模型,以及具有显式工具使用增强的模型。结果表明TIR-Bench具有普遍挑战性。
- Conclusion: 强性能需要真正的思维-图像能力,并进行了直接与智能体微调的初步比较研究。
cs.RO
[184] SonarSweep: Fusing Sonar and Vision for Robust 3D Reconstruction via Plane Sweeping
Lingpeng Chen,Jiakun Tang,Apple Pui-Yi Chui,Ziyang Hong,Junfeng Wu
Main category: cs.RO
TL;DR: SonarSweep是一个新颖的端到端深度学习框架,通过改进平面扫描算法实现声纳和视觉数据的跨模态融合,在水下视觉退化环境中实现准确3D重建。
- Motivation: 水下视觉退化环境中的3D重建面临巨大挑战,单模态方法不足:视觉方法因能见度差和几何约束而失败,声纳方法存在高度模糊和低分辨率问题。现有融合技术依赖启发式和有缺陷的几何假设,导致显著伪影且无法建模复杂场景。
- Method: SonarSweep采用端到端深度学习框架,改进平面扫描算法实现声纳和视觉数据的跨模态融合。
- Result: 在高保真模拟和真实环境中的广泛实验表明,SonarSweep能持续生成密集准确的深度图,在高浊度等挑战性条件下显著优于最先进方法。
- Conclusion: SonarSweep克服了现有方法的局限性,为水下3D重建提供了有效解决方案,并将公开代码和首个同步立体相机与声纳数据的新型数据集以促进进一步研究。
[185] Fast-SmartWay: Panoramic-Free End-to-End Zero-Shot Vision-and-Language Navigation
Xiangyu Shi,Zerui Li,Yanyuan Qiao,Qi Wu
Main category: cs.RO
TL;DR: Fast-SmartWay是一个端到端的零样本视觉语言导航框架,仅使用三个前视RGB-D图像和自然语言指令,无需全景视图和路径点预测器,显著降低了延迟并提升了实际应用性。
- Motivation: 现有的视觉语言导航方法依赖全景观测和两阶段流水线,导致显著延迟并限制实际应用。本文旨在消除这些限制,实现更高效的零样本导航。
- Method: 提出Fast-SmartWay框架,仅使用三个前视RGB-D图像,通过多模态大语言模型直接预测动作。引入不确定性感知推理模块,包括消歧模块和未来-过去双向推理机制,以增强决策鲁棒性。
- Result: 在模拟和真实机器人环境中的实验表明,该方法显著降低了每步延迟,同时实现了与全景视图基线相当或更优的性能。
- Conclusion: Fast-SmartWay证明了在现实世界中零样本具身导航的实用性和有效性,为实时导航应用提供了可行解决方案。
[186] LiDAR-VGGT: Cross-Modal Coarse-to-Fine Fusion for Globally Consistent and Metric-Scale Dense Mapping
Lijie Wang,Lianjie Guo,Ziyi Xu,Qianhao Wang,Fei Gao,Xieyuanli Chen
Main category: cs.RO
TL;DR: 提出LiDAR-VGGT框架,通过两阶段粗到精融合将LiDAR惯性里程计与VGGT模型紧密耦合,实现大规模彩色点云重建,在多个数据集上优于现有方法。
- Motivation: 现有LIVO方法对外部标定高度敏感,而3D视觉基础模型VGGT在大规模环境中可扩展性有限且缺乏度量尺度,需要克服这些限制。
- Method: 采用两阶段融合管道:预融合模块通过鲁棒初始化细化估计VGGT位姿和点云;后融合模块使用边界框正则化增强跨模态3D相似性变换,减少传感器FOV不一致导致的尺度失真。
- Result: 在多个数据集上的实验表明,LiDAR-VGGT实现了密集、全局一致的彩色点云,优于VGGT方法和LIVO基线。
- Conclusion: 提出的LiDAR-VGGT框架成功解决了现有方法的局限性,实现了高质量的大规模彩色点云重建,并将发布开源的颜色点云评估工具包。
[187] Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects
Jiawei Wang,Dingyou Wang,Jiaming Hu,Qixuan Zhang,Jingyi Yu,Lan Xu
Main category: cs.RO
TL;DR: Kinematify是一个从RGB图像或文本提示自动合成铰接对象的框架,解决了高自由度对象的运动学拓扑推断和关节参数估计问题。
- Motivation: 铰接对象建模对于机器人操作和物理仿真至关重要,但现有方法依赖运动序列或手工数据集,难以扩展到复杂系统。
- Method: 结合MCTS搜索进行结构推断和几何驱动的优化进行关节推理,生成物理一致且功能有效的描述。
- Result: 在合成和真实环境中的多样化输入上评估,在配准和运动学拓扑准确性方面优于先前工作。
- Conclusion: Kinematify能够从静态几何中自动推断复杂铰接对象的运动学结构,为机器人操作和仿真提供了可扩展的解决方案。
[188] MARS: Multi-Agent Robotic System with Multimodal Large Language Models for Assistive Intelligence
Renjun Gao,Peiyan Zhong
Main category: cs.RO
TL;DR: MARS是一个基于多模态大语言模型的多智能体机器人系统,专为智能家居机器人设计,旨在为残障人士提供风险感知和个性化的辅助服务。
- Motivation: 现有系统在风险感知规划、用户个性化和将语言计划转化为可执行技能方面存在困难,特别是在杂乱的家庭环境中。
- Method: 系统集成四个智能体:视觉感知智能体提取环境语义和空间特征,风险评估智能体识别和优先处理危险,规划智能体生成可执行动作序列,评估智能体进行迭代优化。
- Result: 在多个数据集上的实验表明,该系统在风险感知规划和协调多智能体执行方面优于最先进的多模态模型。
- Conclusion: 该方法展示了协作AI在实际辅助场景中的潜力,并为在真实环境中部署基于MLLM的多智能体系统提供了可推广的方法论。
[189] Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process
Jiayi Chen,Wenxuan Song,Pengxiang Ding,Ziyang Zhou,Han Zhao,Feilong Tang,Donglin Wang,Haoang Li
Main category: cs.RO
TL;DR: 提出了统一的扩散视觉语言动作模型,通过联合去噪过程同步优化图像生成和动作预测,在多个基准测试中达到最先进性能,推理速度比自回归方法快4倍。
- Motivation: 现有视觉语言动作模型要么依赖外部专家进行模态统一,要么将图像生成和动作预测作为独立过程处理,限制了这些任务之间的直接协同效益。
- Method: 提出统一扩散VLA和联合离散去噪扩散过程,通过单一去噪轨迹整合多模态,使用统一标记化空间和混合注意力机制,采用两阶段训练流程和推理时优化技术。
- Result: 在CALVIN、LIBERO和SimplerEnv等基准测试中达到最先进性能,推理速度比自回归方法快4倍,并通过深入分析和真实世界评估验证了有效性。
- Conclusion: 通过同步去噪过程联合优化生成和动作,实现了理解、生成和行动的内在协同,为视觉语言动作模型提供了更高效的统一框架。
cs.LG
[190] VRScout: Towards Real-Time, Autonomous Testing of Virtual Reality Games
Yurun Wu,Yousong Sun,Burkhard Wunsche,Jia Wang,Elliott Wen
Main category: cs.LG
TL;DR: VRScout是一个基于深度学习的自主VR测试代理,能够实时导航VR环境并交互虚拟对象,用于自动化VR游戏测试。
- Motivation: VR内容的质量、安全和适用性保证面临挑战,传统人工测试无法满足行业快速增长的需求,而现有自动化测试方法难以适应VR的高维感官输入和实时性能要求。
- Method: 使用增强型Action Chunking Transformer从人类演示中学习,预测多步动作序列;引入动态可调滑动视界来平衡响应性和精确度。
- Result: 在商业VR游戏中达到专家级性能,仅需有限训练数据,在消费级硬件上保持60FPS的实时推理。
- Conclusion: VRScout为自动化VR游戏测试提供了一个实用且可扩展的框架,在质量保证和安全审计方面具有直接应用价值。
[191] A generative adversarial network optimization method for damage detection and digital twinning by deep AI fault learning: Z24 Bridge structural health monitoring benchmark validation
Marios Impraimakis,Evangelia Nektaria Palkanoglou
Main category: cs.LG
TL;DR: 提出了一种基于条件标记生成对抗网络的无监督损伤检测和数字孪生方法,无需系统健康状态的先验信息,在Z24桥梁基准测试中验证了其优越性能。
- Motivation: 当前基于人工智能的数字孪生方法在测量数据少、物理知识缺失或损伤状态未知时预测效果不佳,需要开发无需先验信息的无监督框架。
- Method: 使用条件标记生成对抗网络,将不同损伤级别的测量数据作为输入,强制模型收敛到不同损伤状态,通过比较收敛分数识别不同损伤状态。
- Result: 该方法能准确捕捉健康测量中的损伤,为基于振动的系统级监测和可扩展基础设施韧性提供了强大工具。
- Conclusion: 该无监督框架在损伤检测和数字孪生方面优于现有方法,特别适用于实际应用中损伤状态未知的情况。
[192] Deep recurrent-convolutional neural network learning and physics Kalman filtering comparison in dynamic load identification
Marios Impraimakis
Main category: cs.LG
TL;DR: 比较门控循环单元、长短期记忆网络和卷积神经网络在动态结构载荷识别中的性能,并与基于物理的残差卡尔曼滤波器进行对比分析。
- Motivation: 解决土木工程应用中由于测试数据有限或结构模型不可识别导致的动态载荷识别不确定性问题。
- Method: 使用三种神经网络(GRU、LSTM、CNN)和残差卡尔曼滤波器(RKF),通过三个案例研究:模拟结构在顶层激振器激励下的响应、加州建筑在地震基底激励下的响应、以及IASC-ASCE结构健康监测基准问题的冲击和瞬时载荷条件。
- Result: 不同方法在不同载荷场景下表现各异,RKF在物理参数可识别的情况下优于神经网络。
- Conclusion: 各种方法在不同载荷识别场景中各有优势,RKF在物理参数可识别情况下表现最佳,而神经网络在其他场景中可能更优。
[193] Melanoma Classification Through Deep Ensemble Learning and Explainable AI
Wadduwage Shanika Perera,ABM Islam,Van Vung Pham,Min Kyung An
Main category: cs.LG
TL;DR: 提出了一种基于集成学习和可解释人工智能的黑色素瘤检测模型,通过结合三种先进的深度迁移学习网络并使用XAI技术来解释预测结果,以提高诊断的可靠性和可信度。
- Motivation: 黑色素瘤是一种侵袭性强且致命的皮肤癌,早期检测至关重要。虽然深度学习在检测黑色素瘤方面取得了高准确率,但由于其黑盒特性,缺乏可靠性和信任度。可解释人工智能可以解决这个问题。
- Method: 使用三种最先进的深度迁移学习网络进行集成学习,并结合可解释人工智能技术来解释预测的基础。
- Result: 模型能够以高准确率检测黑色素瘤,同时通过XAI技术提供预测的解释,增强了诊断结果的可信度。
- Conclusion: 通过集成学习和XAI技术的结合,不仅提高了黑色素瘤检测的准确性,还解决了深度学习模型的可解释性问题,为医疗诊断提供了更可靠的AI辅助工具。
[194] Enhancing Adversarial Transferability by Balancing Exploration and Exploitation with Gradient-Guided Sampling
Zenghao Niu,Weicheng Xie,Siyang Song,Zitong Yu,Feng Liu,Linlin Shen
Main category: cs.LG
TL;DR: 提出了梯度引导采样(GGS)方法来解决对抗攻击在迁移场景中的利用与探索困境,通过在动量迭代攻击中引入梯度引导的内层迭代随机采样,平衡攻击强度与跨模型泛化能力。
- Motivation: 对抗攻击在跨模型迁移时面临利用与探索的困境:传统动量方法过度强调利用(攻击强度)但泛化能力弱,而采样方法过度强调探索(泛化能力)但攻击强度不足。
- Method: 基于MI-FGSM,引入内层迭代随机采样,并使用前一次内层迭代的梯度来引导采样方向,采样幅度由随机分布决定,从而找到既平坦又具有较高局部最大值的平衡区域。
- Result: 在多个DNN架构和多模态大语言模型上的综合实验表明,该方法在迁移攻击性能上优于现有最先进方法。
- Conclusion: GGS方法通过梯度引导采样有效解决了对抗攻击迁移中的利用与探索困境,实现了攻击强度与跨模型泛化能力的平衡。
[195] Region-Aware Reconstruction Strategy for Pre-training fMRI Foundation Model
Ruthwik Reddy Doodipala,Pankaj Pandey,Carolina Torres Rojas,Manob Jyoti Saikia,Ranganatha Sitaram
Main category: cs.LG
TL;DR: 本文提出了一种基于ROI引导掩码策略的自监督学习方法,用于静息态fMRI基础模型预训练,相比传统随机掩码方法在ADHD分类任务上提升了4.23%的准确率。
- Motivation: 随着大规模脑成像数据集的可用性增加,神经影像学领域需要能够有效泛化到不同下游任务的基础模型。现有方法主要依赖随机区域掩码,缺乏对大脑解剖结构的考虑。
- Method: 使用AAL3图谱进行ROI引导的掩码策略,在4D fMRI数据上选择性地掩码语义一致的大脑区域,在ADHD-200数据集(973名受试者)上进行自监督预训练。
- Result: 在ADHD分类任务中,相比传统随机掩码方法准确率提升4.23%。归因分析显示边缘系统和脑小脑区域对重建保真度和模型表示贡献最大。
- Conclusion: 在模型预训练期间掩码解剖区域不仅能增强可解释性,还能产生更稳健和具有区分性的表示。未来计划扩展到更多神经影像数据集并开发新的损失函数。
[196] Learning an Efficient Optimizer via Hybrid-Policy Sub-Trajectory Balance
Yunchuan Guan,Yu Liu,Ke Zhou,Hui Li,Sen Jia,Zhiqi Shen,Ziyang Wang,Xinglin Zhang,Tao Chen,Jenq-Neng Hwang,Lei Li
Main category: cs.LG
TL;DR: 提出Lo-Hp框架,通过解耦的两阶段权重生成方法解决生成式权重优化中的过耦合和长视野问题,采用混合策略子轨迹平衡目标来学习局部优化策略。
- Motivation: 当前基于生成模型的权重生成方法存在过耦合和长视野问题,前者限制了优化器的灵活性,后者导致推理效率低和准确性差。
- Method: 采用解耦的两阶段权重生成框架,结合混合策略子轨迹平衡目标,整合在线策略和离线策略学习来捕获局部优化策略。
- Result: 理论证明仅学习局部优化策略即可解决长视野问题并提升全局最优权重的生成质量,在迁移学习、少样本学习等任务中展现出优越的准确性和推理效率。
- Conclusion: Lo-Hp框架通过解耦设计和局部策略学习有效解决了权重生成中的关键问题,在多种需要频繁权重更新的任务中表现优异。
[197] EraseFlow: Learning Concept Erasure Policies via GFlowNet-Driven Alignment
Abhiram Kusumba,Maitreya Patel,Kyle Min,Changhoon Kim,Chitta Baral,Yezhou Yang
Main category: cs.LG
TL;DR: EraseFlow是一个基于GFlowNets的概念擦除框架,通过探索去噪路径空间来引导生成过程远离目标概念,同时保持模型先验知识。
- Motivation: 当前的概念擦除技术存在图像质量下降、依赖脆弱的对抗损失或需要大量重新训练的问题,需要一种更有效的方法来从文本到图像生成器中移除有害或专有概念。
- Method: 将概念遗忘视为去噪路径空间的探索问题,使用配备轨迹平衡目标的GFlowNets来优化,通过采样整个轨迹而非单个最终状态来学习随机策略。
- Result: EraseFlow在广泛实验中优于现有基线,在性能和先验保持之间实现了最佳平衡,无需精心设计的奖励模型即可有效泛化到未见概念。
- Conclusion: EraseFlow通过重新定义概念擦除为去噪路径探索问题,提供了一种无需对抗训练或大量重新训练的有效解决方案,在安全性和实用性之间取得了良好平衡。
[198] LL-ViT: Edge Deployable Vision Transformers with Look Up Table Neurons
Shashank Nag,Alan T. L. Bacellar,Zachary Susskind,Anshul Jha,Logan Liberty,Aishwarya Sivakumar,Eugene B. John,Krishnan Kailas,Priscila M. V. Lima,Neeraja J. Yadwadkar,Felipe M. G. Franca,Lizy K. John
Main category: cs.LG
TL;DR: LL-ViT是一种面向边缘设备的优化视觉Transformer设计,通过集成LUT神经元层来减少模型大小和计算需求,在保持准确性的同时显著提升能效。
- Motivation: 传统视觉Transformer在边缘设备上的计算、内存和能耗需求过高,而现有的LUT网络模型在视觉任务上表现不佳,需要一种既能保持性能又能优化边缘推理的解决方案。
- Method: 基于分析发现大部分模型权重和计算来自通道混合器(MLP层),设计了基于LUT的替代通道混合器,并开发了相应的FPGA加速器,采用神经网络学习方法原生学习LUT函数。
- Result: 在CIFAR-10、CIFAR-100和Tiny-ImageNet上分别达到95.5%、78.8%和60.9%的准确率,与基线Transformer相当,同时减少60%模型权重和50%乘法运算,能效提升1.9倍,延迟降低1.3倍。
- Conclusion: LL-ViT提供了一种计算和能效高效的视觉Transformer推理解决方案,在边缘设备上实现了性能与效率的良好平衡。
[199] Learning with Category-Equivariant Representations for Human Activity Recognition
Yoshihiro Maruyama
Main category: cs.LG
TL;DR: 提出了一种基于范畴对称性感知的学习框架,通过将时间、尺度和传感器层次结构的变化因素融入特征表示结构,使模型在面对时间偏移、幅度漂移和设备方向变化等现实扭曲时保持稳定。
- Motivation: 人类活动识别面临传感器信号随上下文、运动和环境变化的挑战,需要模型在周围世界变化时保持稳定。
- Method: 构建范畴对称性感知学习框架,将信号随时间、尺度和传感器层次结构的变化因素融入特征表示的结构中。
- Result: 在UCI人类活动识别基准测试中,该设计将分布外准确率提高了约46个百分点(约3.6倍于基线)。
- Conclusion: 抽象对称性原理可以通过范畴等变表示理论转化为日常感知任务中的具体性能提升。
[200] Explore More, Learn Better: Parallel MLLM Embeddings under Mutual Information Minimization
Zhicheng Wang,Chen Ju,Xu Chen,Shuai Xiao,Jinsong Lan,Xiaoyong Zhu,Ying Chen,Zhiguo Cao
Main category: cs.LG
TL;DR: 提出并行解耦框架PDF,通过在多模态大语言模型中使用可学习前缀生成并行嵌入路径,解决传统SSC范式将多模态输入压缩为单一嵌入的问题,显著提升嵌入模型性能。
- Motivation: 传统嵌入模型采用SSC范式(单输入、单一嵌入、对比监督),将丰富的多模态输入压缩为单一嵌入,无法充分利用MLLM的能力。需要新的框架来生成更丰富、多样化的嵌入表示。
- Method: PDF框架在共享MLLM骨干网络上使用不同的可学习前缀,为单个输入生成多个并行路径,获得并行嵌入。采用互信息最小化约束促进路径多样性,结合每路径对比监督保持语义对齐。
- Result: 在MMEB基准测试中显著提升性能:VLM2Vec-LLaVA-1.6-LR模型提升+8.9%(7B),VLM2Vec-Qwen2VL模型提升+4.2%(2B)和+3.1%(7B)。2B模型仅用一半计算预算就超越基线+2.6%。
- Conclusion: PDF框架有效解决了传统SSC范式的局限性,通过并行解耦方法充分利用MLLM的引导能力,生成多样化且语义对齐的嵌入,在性能和效率上都取得了显著提升。
[201] Fractional Diffusion Bridge Models
Gabriel Nobis,Maximilian Springenberg,Arina Belova,Rembert Daems,Christoph Knochenhauer,Manfred Opper,Tolga Birdal,Wojciech Samek
Main category: cs.LG
TL;DR: 提出了分数扩散桥模型(FDBM),这是一个基于分数布朗运动近似的新型生成扩散桥框架,能够捕捉现实随机过程中的记忆效应、长程依赖性和反常扩散现象。
- Motivation: 现实随机过程存在记忆效应、时间相关性、长程依赖性和反常扩散等现象,这些在标准扩散或桥模型中无法被捕捉,因为标准模型使用布朗运动。
- Method: 利用分数布朗运动的马尔可夫近似(MA-fBM)构建FDBM,保持分数布朗运动的非马尔可夫特性同时实现可处理的推理。扩展到Schrödinger桥问题并推导出学习非配对数据转换的原则性损失函数。
- Result: 在蛋白质构象预测和图像翻译任务中,FDBM相比布朗运动基线表现更优:蛋白质结构预测中Cα原子位置的均方根偏差更低,非配对图像翻译中Fréchet Inception距离更低。
- Conclusion: FDBM框架能够有效捕捉现实随机过程的复杂特性,在多个任务中优于传统基于布朗运动的模型。
q-bio.QM
[202] GeneFlow: Translation of Single-cell Gene Expression to Histopathological Images via Rectified Flow
Mengbo Wang,Shourya Verma,Aditya Malusare,Luopin Wang,Yiyang Lu,Vaneet Aggarwal,Mario Sola,Ananth Grama,Nadia Atallah Lanman
Main category: q-bio.QM
TL;DR: GeneFlow是一个基于校正流的新型框架,能够将空间转录组数据映射到配对的细胞图像上,生成高分辨率的不同染色方法的细胞图像。
- Motivation: 空间转录组技术能够将转录组与组织病理学形态对齐,为生物分子发现提供了新机会。然而,转录组到图像映射存在多对一关系的问题,需要解决这一挑战。
- Method: 结合基于注意力的RNA编码器和由校正流引导的条件UNet,使用高阶ODE求解器创建转录组和图像流形之间的连续双射映射。
- Result: 该方法能够从观察到的基因表达谱生成逼真的细胞形态特征和空间分辨的细胞间相互作用,在所有实验中优于基于扩散的基线方法。
- Conclusion: GeneFlow框架不仅能够生成真实的细胞图像,还具有整合遗传/化学扰动和通过成像表型揭示失调模式进行疾病诊断的潜力。
math.NA
[203] Three-dimensional narrow volume reconstruction method with unconditional stability based on a phase-field Lagrange multiplier approach
Renjun Gao,Xiangjie Kong,Dongting Cai,Boyi Fu,Junxiang Yang
Main category: math.NA
TL;DR: 提出了一种基于Allen-Cahn模型和拉格朗日乘子法的点云重建算法,通过无符号距离函数构建边缘检测函数确保能量稳定性,采用Crank-Nicolson时间离散和有限差分空间近似,实现了无条件稳定的3D体积重建。
- Motivation: 点云重建在假肢、医学成像和计算机视觉等领域至关重要,需要开发有效且稳定的重建算法来处理复杂3D物体的重建问题。
- Method: 使用拉格朗日乘子法重新表述Allen-Cahn型模型,结合无符号距离函数构建边缘检测函数,采用Crank-Nicolson时间离散和有限差分方法进行数值求解。
- Result: 算法在复杂3D体积重建(如《星球大战》字符)中表现出良好的准确性、稳定性和有效性,并分析了参数选择对重建细节水平的影响。
- Conclusion: 提出的算法能够稳定有效地重建复杂3D物体,提供了无条件稳定的数值方案,并在GitHub上分享了计算代码和数据以便读者理解。
cs.CY
[204] Multimodal Learning with Augmentation Techniques for Natural Disaster Assessment
Adrian-Dinu Urse,Dumitru-Clementin Cercel,Florin Pop
Main category: cs.CY
TL;DR: 本文研究数据增强技术解决灾害评估中的类别不平衡和样本不足问题,在CrisisMMD多模态数据集上评估了视觉和文本增强方法,发现增强技术能提升分类性能,特别是对少数类。
- Motivation: 自然灾害评估需要准确快速获取信息,社交媒体成为有价值的实时来源。但现有数据集存在类别不平衡和样本有限的问题,使得模型开发具有挑战性。
- Method: 对于视觉数据应用基于扩散的方法(Real Guidance和DiffuseMix);对于文本数据探索回译、基于变换器的释义和基于图像描述的增强;在单模态、多模态和多视图学习设置中评估这些方法。
- Result: 结果显示选定的增强方法提高了分类性能,特别是对于代表性不足的类别,而多视图学习显示出潜力但需要进一步改进。
- Conclusion: 本研究强调了构建更鲁棒的灾害评估系统的有效增强策略。
cs.AI
[205] Multimodal Detection of Fake Reviews using BERT and ResNet-50
Suhasnadh Reddy Veluru,Sai Teja Erukude,Viswa Chaitanya Marella
Main category: cs.AI
TL;DR: 提出了一种结合文本和视觉特征的多模态虚假评论检测框架,使用BERT和ResNet-50提取特征,在包含21,142张用户上传图片的数据集上取得了0.934的F1分数。
- Motivation: 当前数字商务中虚假评论泛滥,现有检测模型仅依赖文本数据,无法捕捉跨模态的语义不一致性,威胁平台可信度。
- Method: 集成BERT编码的文本特征和ResNet-50提取的视觉特征,通过分类头融合进行联合预测。
- Result: 多模态模型优于单模态基线,测试集F1分数达0.934,能有效检测文本赞美与不相关/低质量图片之间的不一致性。
- Conclusion: 多模态学习在维护数字信任中发挥关键作用,为在线平台内容审核提供了可扩展解决方案。
[206] Learning to Seek Evidence: A Verifiable Reasoning Agent with Causal Faithfulness Analysis
Yuhang Huang,Zekai Lin,Fan Zhong,Lei Liu
Main category: cs.AI
TL;DR: 提出一种交互式AI代理,通过可审计的行动序列生成可验证的解释,在医疗诊断中显著提升校准准确度。
- Motivation: 解决高风险领域AI模型解释缺乏可验证性,影响用户信任的问题。
- Method: 使用强化学习优化策略,让代理主动获取外部视觉证据来支持诊断推理。
- Result: 相比非交互式基线,Brier分数降低18%;通过因果干预验证解释的真实性。
- Conclusion: 提供了一个构建具有可验证和真实推理能力AI系统的实用框架。
stat.ML
[207] Few-Shot Multimodal Medical Imaging: A Theoretical Framework
Md Talha Mohsin,Ismail Abdulrashid
Main category: stat.ML
TL;DR: 提出一个统一的理论框架,用于解决医学影像在数据稀缺条件下的学习和推理问题,涵盖样本效率、不确定性量化和可解释性。
- Motivation: 医学影像领域面临数据获取困难、数据系统碎片化、数据集不平衡等结构障碍,导致诊断不确定性增加、模型鲁棒性降低和诊断决策偏差。现有方法缺乏在数据稀缺情况下成功或失败的理论依据。
- Method: 基于PAC学习和PAC-Bayesian理论,形式化少样本条件下的学习目标,计算样本复杂度约束,提出多模态集成促进泛化的理论解释,并设计解释稳定性的形式化度量。
- Result: 建立了数据高效诊断系统的原则性基础,能够联合表征样本效率、不确定性量化和可解释性,为构建可靠的医学影像诊断系统提供理论支撑。
- Conclusion: 该框架为在低资源医学影像条件下构建可靠、数据高效的诊断系统奠定了统一的理论基础,解决了现有方法缺乏理论依据的问题。
cs.IR
[208] LookSync: Large-Scale Visual Product Search System for AI-Generated Fashion Looks
Pradeep M,Ritesh Pallod,Satyen Abrol,Muthu Raman,Ian Anderson
Main category: cs.IR
TL;DR: 提出并部署了一个端到端的AI生成时尚造型产品搜索系统,通过查询生成、向量化、候选检索和重排序四个组件,将AI生成的虚拟造型与真实产品进行匹配。
- Motivation: 生成式AI正在重塑时尚行业,能够创建虚拟造型和头像,因此需要找到与AI生成风格最匹配的真实产品。
- Method: 构建包含查询生成、向量化、候选检索和重排序四个关键组件的搜索流水线,使用CLIP模型作为骨干网络,在包含1200万产品的全球市场中进行产品匹配。
- Result: 系统每天处理超过35万个AI造型,CLIP模型在平均意见分数上比其他模型相对高出3-7%,在用户感知匹配方面表现更好。
- Conclusion: CLIP被确立为生产部署中最可靠的骨干网络,虽然绝对改进幅度不大,但能带来明显更好的用户感知匹配效果。
cs.CL
[209] POSESTITCH-SLT: Linguistically Inspired Pose-Stitching for End-to-End Sign Language Translation
Abhinav Joshi,Vaibhav Sharma,Sanjeet Singh,Ashutosh Modi
Main category: cs.CL
TL;DR: 提出POSESTITCH-SLT预训练方案,通过模板生成句子对训练,在How2Sign和iSign数据集上显著提升手语翻译性能,BLEU-4分数分别从1.97提升至4.56和从0.55提升至3.43。
- Motivation: 手语翻译面临大规模句子对齐数据集稀缺的挑战,需要解决低资源环境下的翻译问题。
- Method: 基于语言模板的句子生成技术,提出POSESTITCH-SLT预训练方案,使用简单的基于transformer的编码器-解码器架构。
- Result: 在How2Sign数据集上BLEU-4从1.97提升到4.56,在iSign数据集上从0.55提升到3.43,超越了基于姿态的无注释翻译的现有最佳方法。
- Conclusion: 模板驱动的合成监督在低资源手语设置中具有显著效果,证明了该方法在解决数据稀缺问题上的有效性。
eess.IV
[210] Towards Reliable Pediatric Brain Tumor Segmentation: Task-Specific nnU-Net Enhancements
Xiaolong Li,Zhi-Qin John Xu,Yan Ren,Tianming Qiu,Xiaowen Wang
Main category: eess.IV
TL;DR: 本文提出了一个改进的nnU-Net框架,专门用于BraTS 2025 Task-6儿科脑肿瘤分割,在验证集上取得了最佳性能。
- Motivation: 儿科脑肿瘤在mpMRI中的准确分割对诊断、治疗计划和监测至关重要,但由于数据有限、解剖变异大和机构间成像异质性等挑战,现有方法效果有限。
- Method: 采用改进的nnU-Net框架,包括:拓宽的残差编码器与SE注意力机制、3D深度可分离卷积、特异性驱动的正则化项、小尺度高斯权重初始化,以及两个后处理步骤。
- Result: 在Task-6验证排行榜上获得第一名,病灶级Dice分数分别为:CC 0.759、ED 0.967、ET 0.826、NET 0.910、TC 0.928、WT 0.928。
- Conclusion: 所提出的改进nnU-Net框架在儿科高级别胶质瘤分割任务中表现出色,为儿科脑肿瘤的精确分割提供了有效解决方案。
[211] Investigating Label Bias and Representational Sources of Age-Related Disparities in Medical Segmentation
Aditya Parikh,Sneha Das,Aasa Feragen
Main category: eess.IV
TL;DR: 该论文研究了医学影像分割中的算法偏见问题,特别关注乳腺癌分割中年轻患者面临的性能差异。研究发现存在'偏见标尺效应',即验证标签的系统性缺陷会误导模型偏见的评估,并证明这种偏见源于年轻患者病例本质上更难学习,而非标签质量问题。
- Motivation: 医学影像中的算法偏见可能加剧健康不平等,但在分割任务中其成因仍不清楚。尽管分类中的公平性已被广泛研究,但具有临床重要性的分割任务却研究不足。乳腺癌分割模型对年轻患者表现出显著的性能差异,通常归因于乳腺密度的生理差异。
- Method: 通过审计MAMA-MIA数据集,建立了年龄相关偏见的定量基线,揭示了'偏见标尺效应'。通过受控实验系统性地反驳了偏见源于标签质量敏感性或病例难度不平衡的假设,并分析了在偏见机器生成标签上训练时系统性偏见的学习和放大过程。
- Result: 研究发现年轻患者病例本质上更难学习,平衡训练数据的难度无法缓解差异。提供了直接证据表明当在偏见的机器生成标签上训练时,系统性偏见会被学习和放大。
- Conclusion: 这项工作为诊断医学分割中的算法偏见引入了系统框架,并证明实现公平需要解决定性的分布差异,而不仅仅是平衡病例数量。这对于自动化标注流程具有关键意义。
[212] Image-based ground distance detection for crop-residue-covered soil
Baochao Wang,Xingyu Zhang,Qingtao Zong,Alim Pulatov,Shuqi Shang,Dongwei Wang
Main category: eess.IV
TL;DR: 提出了一种基于图像的方法来测量覆盖作物残留物的土壤地面距离,使用3D相机和RGB相机结合,通过颜色图像区分残留物和土壤区域,生成掩码图像应用于深度图像,实现精确的地面距离测量。
- Motivation: 保护性农业中土壤表面覆盖作物残留物,但现有距离测量技术无法区分残留物和土壤,导致播种深度控制不精确。
- Method: 使用3D相机获取深度图像,RGB相机获取颜色图像,通过颜色图像区分残留物和土壤区域生成掩码,将掩码应用于深度图像以排除残留物区域,仅使用土壤区域深度信息计算地面距离。
- Result: 该方法可实现实时测量,测量误差在±3mm以内。
- Conclusion: 该方法适用于保护性农业机械的精确深度播种,以及移栽或耕作等其他需要深度控制的应用。
[213] GDROS: A Geometry-Guided Dense Registration Framework for Optical-SAR Images under Large Geometric Transformations
Zixuan Sun,Shuaifeng Zhi,Ruize Li,Jingyuan Xia,Yongxiang Liu,Weidong Jiang
Main category: eess.IV
TL;DR: 提出了一种几何引导的密集配准框架GDROS,用于解决光学和SAR图像之间的模态差异问题,通过全局跨模态交互和几何约束实现像素级密集对应。
- Motivation: 光学和SAR遥感图像配准是图像融合和视觉导航的关键基础,但由于模态差异(非线性辐射差异、几何畸变和噪声变化)以及大几何变换,现有方法难以实现可靠配准。
- Method: 使用CNN-Transformer混合特征提取模块提取跨模态深度特征,构建多尺度4D相关体并迭代优化建立像素级密集对应,通过最小二乘回归模块对预测的光流场施加几何约束。
- Result: 在WHU-Opt-SAR、OS和UBCv2三个具有不同空间分辨率的代表性数据集上进行了广泛实验,定性定量结果均显示GDROS在所有指标上显著优于当前最先进方法。
- Conclusion: GDROS框架通过几何引导的密集配准策略,有效解决了光学-SAR图像配准中的模态差异和几何变换挑战,在不同成像分辨率下均表现出鲁棒性能。
[214] Been There, Scanned That: Nostalgia-Driven LiDAR Compression for Self-Driving Cars
Ali Khalid,Jaiaid Mobin,Sumanth Rao Appala,Avinash Maurya,Stephany Berrio Perez,M. Mustafa Rafique,Fawad Ahmad
Main category: eess.IV
TL;DR: DejaView是一个针对自动驾驶车辆3D点云数据的压缩系统,通过利用车辆在相同路线上重复行驶产生的长期时间冗余性,将点云表示为相对于历史数据的差异,实现210倍的压缩比。
- Motivation: 自动驾驶车辆每天产生数TB的3D点云数据,传输和存储成本高昂。车辆通常在同一条路线上重复行驶,导致收集的数据具有长期时间冗余性。
- Method: 设计DejaView系统,核心是差分操作,将当前点云紧凑表示为相对于过去3D数据的差异。利用车辆运行区域有限且路线重复的特点,在更大时间尺度(天和月)上寻找冗余。
- Result: 使用两个月的LiDAR数据,端到端实现可将点云压缩210倍,重建误差仅为15厘米。
- Conclusion: 通过利用长期时间冗余性,DejaView能显著降低自动驾驶车辆点云数据的网络和存储成本,同时保持较低的重建误差。
cs.GR
[215] Applying Medical Imaging Tractography Techniques to Painterly Rendering of Images
Alberto Di Biase
Main category: cs.GR
TL;DR: 该论文探索了将医学影像中的扩散张量成像和纤维束追踪技术应用于绘画风格图像渲染的方法,通过结构张量分析图像局部方向信息来模拟艺术家笔触放置过程。
- Motivation: 将医学影像领域成熟的扩散张量成像和纤维束追踪技术跨界应用于艺术图像渲染,探索两种看似不同领域之间的技术关联性和应用可能性。
- Method: 使用结构张量替代梯度来获取更好的局部方向信息,通过纤维束追踪算法来放置笔触,模拟人类艺术家的绘画过程。
- Result: 成功实现了在肖像和一般图像上的绘画风格渲染,展示了纤维束追踪与笔触放置之间的平行关系。
- Conclusion: 这项探索性研究证明了扩散张量成像技术在绘画风格渲染中的跨领域应用潜力,为艺术图像处理提供了新的技术视角。
Powered by Deepseek & arXiv Daily AI Enhanced