Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Privacy Enhancement for Gaze Data Using a Noise-Infused Autoencoder
Samantha Aziz,Oleg Komogortsev
Main category: cs.CV
TL;DR: 提出一种基于潜在噪声自编码器的隐私增强机制,保护用户在游戏会话中的视线数据不被重新识别,同时保持数据的可用性。
- Motivation: 保护用户视线数据的隐私,防止未经同意的重新识别,同时确保数据在良性任务中的可用性。
- Method: 使用潜在噪声自编码器对视线信号进行处理,平衡隐私与实用性。
- Result: 显著降低生物识别的可能性,同时实用性损失最小,优于现有方法。
- Conclusion: 该机制为视线数据提供了有效且实用的隐私保护方案,推动了视线系统隐私保护的发展。
[2] A Survey on Video Temporal Grounding with Multimodal Large Language Model
Jianlong Wu,Wei Liu,Ye Liu,Meng Liu,Liqiang Nie,Zhouchen Lin,Chang Wen Chen
Main category: cs.CV
TL;DR: 综述系统分析了基于多模态大语言模型(MLLMs)的视频时序定位(VTG-MLLMs)研究,提出了三维分类法,并总结了当前进展与未来方向。
- Motivation: 填补针对VTG-MLLMs的全面综述空白,推动该领域发展。
- Method: 通过三维分类法(MLLMs功能角色、训练范式、视频特征处理技术)系统分析现有研究。
- Result: 总结了VTG-MLLMs在性能、泛化能力等方面的优势,并讨论了数据集、评估协议和实证结果。
- Conclusion: 指出了当前研究的局限性,并提出了未来研究方向。
[3] VSF: Simple, Efficient, and Effective Negative Guidance in Few-Step Image Generation Models By \underline{V}alue \underline{S}ign \underline{F}lip
Wenqi Guo,Shan Du
Main category: cs.CV
TL;DR: VSF是一种通过翻转负提示的注意力值符号来动态抑制不需要内容的方法,适用于少步扩散和流匹配图像生成模型。
- Motivation: 现有方法如CFG、NASA和NAG在负提示引导方面效率不足,VSF旨在以低计算开销实现更好的负提示遵循。
- Method: VSF通过翻转负提示的注意力值符号动态抑制内容,适用于MMDiT架构和交叉注意力模型。
- Result: 实验表明VSF在少步模型中显著优于现有方法,在非少步模型中也优于CFG,同时保持图像质量。
- Conclusion: VSF是一种高效且有效的负提示引导方法,适用于多种模型和任务。
[4] Relative Pose Regression with Pose Auto-Encoders: Enhancing Accuracy and Data Efficiency for Retail Applications
Yoli Shavit,Yosi Keller
Main category: cs.CV
TL;DR: 论文提出了一种基于相机姿态自动编码器(PAE)的相对姿态回归(RPR)方法,用于改进单图像绝对姿态回归(APR)的定位精度,无需额外存储图像或姿态数据。
- Motivation: 现代零售环境中,精确的相机定位对提升客户体验、优化库存管理和实现自主操作至关重要。现有APR方法虽有效,但结合视觉和空间场景先验的方法通常更准确。
- Method: 扩展PAE至RPR任务,并提出一种新的重定位方案,利用PAE-based RPR改进APR预测,无需额外数据存储。
- Result: 实验表明,PAE-based RPR优于等效架构的图像RPR模型,且仅需30%数据即可实现竞争性能,显著减少数据收集负担。
- Conclusion: 该方法在室内基准测试中显著提升了APR定位精度,为零售部署提供了高效解决方案。
[5] ViPE: Video Pose Engine for 3D Geometric Perception
Jiahui Huang,Qunjie Zhou,Hesam Rabeti,Aleksandr Korovko,Huan Ling,Xuanchi Ren,Tianchang Shen,Jun Gao,Dmitry Slepichev,Chen-Hsuan Lin,Jiawei Ren,Kevin Xie,Joydeep Biswas,Laura Leal-Taixe,Sanja Fidler
Main category: cs.CV
TL;DR: ViPE是一种高效视频处理引擎,用于从未约束视频中估计相机参数、运动和深度图,性能优于现有基线,并用于标注大规模视频数据集。
- Motivation: 解决现有方法依赖大规模训练数据且难以从野外视频中获取精确3D标注的问题。
- Method: ViPE通过高效算法估计相机内参、运动和密集深度图,支持多种相机模型和场景。
- Result: 在TUM/KITTI序列上性能提升18%/50%,单GPU运行速度3-5FPS,标注了96M帧视频数据。
- Conclusion: ViPE及其开源数据集有望加速空间AI系统的发展。
[6] HQ-OV3D: A High Box Quality Open-World 3D Detection Framework based on Diffision Model
Qi Liu,Yabei Li,Hongsong Wang,Lei He
Main category: cs.CV
TL;DR: 提出HQ-OV3D框架,通过几何一致性生成高质量伪标签,提升开放词汇3D检测性能。
- Motivation: 传统封闭集3D检测无法满足开放世界需求,现有开放词汇方法忽视几何质量。
- Method: 结合跨模态几何一致性的IMCV提案生成器和基于DDIM的ACA去噪器。
- Result: 在新型类别上mAP提升7.37%。
- Conclusion: HQ-OV3D可作为独立检测器或高质量伪标签生成器。
[7] Vision-Only Gaussian Splatting for Collaborative Semantic Occupancy Prediction
Cheng Chen,Hao Huang,Saurabh Bagchi
Main category: cs.CV
TL;DR: 提出了一种基于稀疏3D语义高斯泼溅的协作3D语义占用预测方法,显著提升了性能并降低了通信成本。
- Motivation: 解决现有方法在协作场景中因高通信成本或依赖深度估计而受限的问题。
- Method: 通过共享和融合中间高斯基元,实现跨代理融合、几何与语义联合编码及稀疏通信。
- Result: 在mIoU和IoU上分别提升+8.42/+3.28和+5.11/+22.41,通信量减少至34.6%时仍保持性能。
- Conclusion: 该方法在协作感知中表现出高效性和鲁棒性,适用于通信受限场景。
[8] Personalized Face Super-Resolution with Identity Decoupling and Fitting
Jiarui Yang,Hang Guo,Wen Huang,Tao Dai,Shutao Xia
Main category: cs.CV
TL;DR: 提出了一种新的FSR方法IDFSR,通过身份解耦和拟合,在极端退化场景下提升身份恢复质量并减少幻觉效应。
- Motivation: 现有FSR方法在极端退化场景下(如缩放>8倍)难以恢复真实且身份一致的面部图像,常产生幻觉效应。
- Method: 1)掩蔽LR图像中的面部区域以消除不可靠身份线索;2)对齐参考图像以提供风格指导;3)利用GT图像提取的身份嵌入进行细粒度身份建模。
- Result: IDFSR在极端退化场景下显著优于现有方法,尤其在身份一致性方面表现优异。
- Conclusion: IDFSR通过身份解耦和拟合,有效解决了极端退化场景下的身份恢复问题,提升了重建质量。
[9] Deep Learning for Automated Identification of Vietnamese Timber Species: A Tool for Ecological Monitoring and Conservation
Tianyu Song,Van-Doan Duong,Thi-Phuong Le,Ton Viet Ta
Main category: cs.CV
TL;DR: 该研究利用深度学习技术对越南常见的10种木材进行自动分类,评估了五种卷积神经网络架构,其中ShuffleNetV2在分类性能和计算效率上表现最佳。
- Motivation: 传统的木材分类方法依赖宏观和微观检查,耗时且需要专业知识,而深度学习可以自动化这一过程。
- Method: 构建了自定义图像数据集,并评估了五种卷积神经网络架构(ResNet50、EfficientNet、MobileViT、MobileNetV3和ShuffleNetV2)。
- Result: ShuffleNetV2表现最佳,平均准确率为99.29%,F1分数为99.35%。
- Conclusion: 轻量级深度学习模型在资源受限环境中具有实时、高精度物种识别的潜力,为生态信息学提供了可扩展的图像解决方案。
[10] NIRMAL Pooling: An Adaptive Max Pooling Approach with Non-linear Activation for Enhanced Image Classification
Nirmal Gaud,Krishna Kumar Jha,Jhimli Adhikari,Adhini Nasarin P S,Joydeep Das,Samarth S Deshpande,Nitasha Barara,Vaduguru Venkata Ramya,Santu Saha,Mehmet Tarik Baran,Sarangi Venkateshwarlu,Anusha M D,Surej Mouli,Preeti Katiyar,Vipin Kumar Chaudhary
Main category: cs.CV
TL;DR: NIRMAL Pooling是一种新型的CNN池化层,结合自适应最大池化和非线性激活函数,在图像分类任务中表现优于传统最大池化。
- Motivation: 传统池化方法在特征表达和鲁棒性上存在局限,NIRMAL Pooling旨在通过动态调整参数和引入非线性激活提升性能。
- Method: NIRMAL Pooling通过动态调整池化参数并应用ReLU激活,结合自适应最大池化,增强特征表达。
- Result: 在MNIST Digits、MNIST Fashion和CIFAR-10数据集上,NIRMAL Pooling的测试准确率分别为99.25%、91.59%和70.49%,均优于传统最大池化。
- Conclusion: NIRMAL Pooling为图像识别任务提供了一种灵活可靠的池化方法,显著提升了CNN性能。
[11] Topological Structure Description for Artcode Detection Using the Shape of Orientation Histogram
Liming Xu,Dave Towey,Andrew P. French,Steve Benford
Main category: cs.CV
TL;DR: 论文研究了Artcodes的检测问题,提出了一种新的特征描述符(形状方向直方图),用于识别拓扑结构相似但几何和语义不同的对象。实验验证了该方法的可行性和有效性。
- Motivation: 随着智能手机和VR/AR技术的普及,环境中虚拟与现实结合的物体增多,识别这些物体是触发后续交互的第一步。Artcodes是一种兼具人类可读性和机器可读性的装饰性标记,其检测具有重要意义。
- Method: 提出了一种新的特征描述符——形状方向直方图,用于描述Artcode的通用拓扑结构,并构建了Artcode检测系统进行实验验证。
- Result: 实验结果表明,所提出的特征向量能有效表示拓扑结构,检测系统在Artcode提案检测中表现良好。
- Conclusion: 该研究为拓扑对象检测提供了初步尝试,为未来的交互和应用开辟了新机会。
[12] Analysis of the Compaction Behavior of Textile Reinforcements in Low-Resolution In-Situ CT Scans via Machine-Learning and Descriptor-Based Methods
Christian Düreth,Jan Condé-Wolter,Marek Danczak,Karsten Tittmann,Jörn Jaschinski,Andreas Hornig,Maik Gude
Main category: cs.CV
TL;DR: 该研究提出了一种利用低分辨率CT量化干织物增强材料在压实过程中嵌套行为的框架,通过3D-UNet实现语义分割,并分析空间结构。
- Motivation: 理解多尺度材料结构对预测纺织增强复合材料性能至关重要,嵌套行为直接影响机械性能。
- Method: 采用低分辨率CT进行原位压实实验,使用3D-UNet进行语义分割,并通过两点相关函数分析空间结构。
- Result: 模型分割性能优异(IoU 0.822,F1 0.902),结果与显微图像验证一致。
- Conclusion: 该方法为从工业CT数据中提取几何特征提供了可靠途径,并为逆向建模和结构分析奠定了基础。
[13] iWatchRoad: Scalable Detection and Geospatial Visualization of Potholes for Smart Cities
Rishi Raj Sahoo,Surbhi Saswati Mohanty,Subhankar Mishra
Main category: cs.CV
TL;DR: iWatchRoad是一个端到端系统,用于自动检测坑洼、GPS标记和实时地图绘制,适用于印度多样化的道路环境。
- Motivation: 印度道路上的坑洼对安全和车辆寿命构成威胁,需要高效且经济的解决方案。
- Method: 利用自标注数据集和YOLO模型进行实时检测,结合OCR和GPS同步地理标记,数据通过OSM可视化。
- Result: 系统在复杂条件下提高了检测精度,并生成政府兼容的输出用于道路维护。
- Conclusion: iWatchRoad是一个成本低、硬件高效且可扩展的实用工具,适用于发展中国家的道路管理。
[14] IPG: Incremental Patch Generation for Generalized Adversarial Patch Training
Wonho Lee,Hyunsik Na,Jisu Lee,Daeseon Choi
Main category: cs.CV
TL;DR: 论文提出了一种名为IPG的高效对抗补丁生成方法,比现有方法快11.1倍,同时保持攻击性能。
- Motivation: 对抗补丁对AI模型的鲁棒性构成挑战,尤其在计算机视觉任务中。
- Method: 采用增量补丁生成(IPG)方法,通过实验和消融研究验证其有效性。
- Result: IPG生成的补丁能广泛覆盖模型漏洞,并可作为构建鲁棒模型的知识基础。
- Conclusion: IPG在对抗补丁防御和实际应用(如自动驾驶、医疗影像)中具有潜力。
[15] MedAtlas: Evaluating LLMs for Multi-Round, Multi-Task Medical Reasoning Across Diverse Imaging Modalities and Clinical Text
Ronghao Xu,Zhen Huang,Yangbo Wei,Xiaoqian Zhou,Zikang Xu,Ting Liu,Zihang Jiang,S. Kevin Zhou
Main category: cs.CV
TL;DR: MedAtlas是一个新的医学多模态基准框架,旨在评估大型语言模型在真实医学推理任务中的表现,填补现有基准的不足。
- Motivation: 现有医学多模态基准局限于单图像、单轮任务,无法反映临床实践中的多模态交互和纵向特性。
- Method: MedAtlas支持多轮对话、多模态医学图像交互、多任务集成和高临床保真度,包含四项核心任务。
- Result: 现有多模态模型在多阶段临床推理中表现不足,MedAtlas提出了新的评估指标。
- Conclusion: MedAtlas为开发稳健可信的医学AI提供了挑战性评估平台。
[16] From Promise to Practical Reality: Transforming Diffusion MRI Analysis with Fast Deep Learning Enhancement
Xinyi Wang,Michael Barnett,Frederique Boonstra,Yael Barnett,Mariano Cabezas,Arkiev D'Souza,Matthew C. Kiernan,Kain Kyle,Meng Law,Lynette Masters,Zihao Tang,Stephen Tisch,Sicong Tu,Anneke Van Der Walt,Dongang Wang,Fernando Calamante,Weidong Cai,Chenyu Wang
Main category: cs.CV
TL;DR: FastFOD-Net是一种基于深度学习的FOD增强框架,显著提升了临床扩散MRI数据的分析效率和准确性,适用于多种神经系统疾病研究。
- Motivation: 解决临床单壳低角度分辨率MRI数据生成可靠FOD的挑战,并验证深度学习增强技术在临床中的应用潜力。
- Method: 采用加速端到端深度学习框架FastFOD-Net,优化FOD增强性能,并显著提升训练和推理效率。
- Result: FastFOD-Net在健康对照和六种神经系统疾病中表现优异,分析速度比前代快60倍,支持临床研究和疾病鉴别。
- Conclusion: FastFOD-Net有望推动临床扩散MRI分析的广泛应用,增强深度学习方法的可信度,并降低样本量需求。
[17] Empowering Multimodal LLMs with External Tools: A Comprehensive Survey
Wenbin An,Jiahao Nie,Yaqiang Wu,Feng Tian,Shijian Lu,Qinghua Zheng
Main category: cs.CV
TL;DR: 论文探讨了通过外部工具增强多模态大语言模型(MLLMs)性能的方法,总结了工具在数据获取、任务性能提升、评估优化等方面的作用,并展望了未来方向。
- Motivation: 当前MLLMs在数据质量、复杂任务表现和评估协议方面存在不足,外部工具可以借鉴人类利用工具解决问题的思路,提升MLLMs的可靠性和适用性。
- Method: 通过四个维度分析外部工具的作用:数据获取与标注、任务性能提升、模型评估优化,以及当前局限与未来方向。
- Result: 外部工具在提升MLLMs性能方面具有潜力,尤其在数据质量和任务表现上有显著帮助。
- Conclusion: 外部工具是推动MLLMs发展的关键,未来需进一步探索其潜力和应用场景。
[18] ORBIT: An Object Property Reasoning Benchmark for Visual Inference Tasks
Abhishek Kolari,Mohammadhossein Khojasteh,Yifan Jiang,Floris den Hengst,Filip Ilievski
Main category: cs.CV
TL;DR: 论文提出了ORBIT,一个多层次的视觉问答基准测试,用于评估视觉语言模型在对象属性推理上的表现,发现现有模型在复杂推理和真实图像上表现不佳。
- Motivation: 现有视觉问答基准在对象属性推理上存在局限性,缺乏代表性和复杂推理能力,因此需要一个新的评估框架。
- Method: 设计了ORBIT基准测试,包含360张图像和1,080个计数问题,涵盖三种图像类型、三种推理复杂度和四种对象属性维度。
- Result: 12个先进视觉语言模型在零样本设置下表现不佳,最高准确率仅40%,尤其在真实图像和复杂推理任务中表现较差。
- Conclusion: ORBIT揭示了现有模型的局限性,呼吁开发更可扩展的基准测试方法和更通用的标注指南。
[19] CSNR and JMIM Based Spectral Band Selection for Reducing Metamerism in Urban Driving
Jiarong Li,Imad Ali Shah,Diarmaid Geever,Fiachra Collins,Enda Ward,Martin Glavin,Edward Jones,Brian Deegan
Main category: cs.CV
TL;DR: 论文提出了一种基于高光谱成像(HSI)的方法,通过选择信息量最高的波段来减少视觉模糊,从而提升对弱势道路使用者(VRU)的识别能力。
- Motivation: 解决汽车感知系统在RGB图像中因材料相似性(metamerism)导致的视觉模糊问题,提升弱势道路使用者的安全性。
- Method: 结合信息论技术(联合互信息最大化、相关性分析)和图像质量指标(对比信噪比),选择最具信息量的HSI波段,并重构伪彩色图像进行对比。
- Result: 选定的HSI波段(497 nm、607 nm、895 nm)显著提升了VRU与背景的区分度,各项指标(欧氏距离、SAM、T²、CIE ΔE)均优于RGB图像。
- Conclusion: 该方法通过优化光谱输入,显著减少了视觉模糊,为ADAS和自动驾驶的下游感知任务提供了更可靠的基础,从而提升道路安全。
[20] EVCtrl: Efficient Control Adapter for Visual Generation
Zixiang Yang,Yue Ma,Yinhan Zhang,Shanhui Mo,Dongrui Liu,Linfeng Zhang
Main category: cs.CV
TL;DR: 论文提出EVCtrl,一种轻量级即插即用的控制适配器,通过时空双重缓存策略减少冗余计算,显著提升图像和视频生成效率。
- Motivation: 现有方法如ControlNet虽能实现精确控制,但引入额外分支导致延迟和冗余计算,尤其在视频生成中问题突出。
- Method: 提出时空双重缓存策略:空间上分区为全局和局部功能区域,局部缓存聚焦关键控制信号;时间上选择性跳过冗余去噪步骤。
- Result: 在CogVideo-Controlnet和Wan2.1-Controlnet上分别实现2.16和2.05倍加速,生成质量几乎无损。
- Conclusion: EVCtrl无需重新训练模型即可高效实现可控生成,显著提升性能。
[21] Not There Yet: Evaluating Vision Language Models in Simulating the Visual Perception of People with Low Vision
Rosiana Natalie,Wenqian Xu,Ruei-Che Chang,Rada Mihalcea,Anhong Guo
Main category: cs.CV
TL;DR: 论文评估了视觉语言模型(VLMs)在模拟低视力人群视觉感知方面的能力,发现结合视觉信息和示例图像响应能显著提高模拟准确性。
- Motivation: 研究VLMs在无障碍领域的模拟能力,填补了此前研究的空白。
- Method: 通过调查40名低视力参与者构建基准数据集,并设计提示让VLMs模拟其视觉感知,评估生成响应与原始答案的一致性。
- Result: VLMs在仅提供少量信息时推断能力超出范围,一致性较低(0.59)。结合视觉信息和示例图像响应后一致性显著提高(0.70)。
- Conclusion: 结合视觉信息和示例图像响应能有效提升VLMs模拟低视力人群视觉感知的准确性,但额外示例效果有限。
[22] Are Large Pre-trained Vision Language Models Effective Construction Safety Inspectors?
Xuezheng Chen,Zhengbo Zou
Main category: cs.CV
TL;DR: 论文提出ConstructionSite 10k数据集,包含10,000张建筑工地图像,用于评估和微调视觉语言模型(VLMs)在安全检查任务中的表现。
- Motivation: 现有数据集规模小且监督性强,限制了VLMs在建筑安全检查任务中的泛化能力。
- Method: 构建包含图像描述、安全违规视觉问答(VQA)和建筑元素视觉定位三个任务的数据集,并评估现有VLMs的零样本和少样本表现。
- Result: 现有VLMs在零样本和少样本设置下表现良好,但仍需额外训练以适应实际工地场景。
- Conclusion: ConstructionSite 10k为研究人员提供了训练和评估VLMs的基准,推动了建筑安全检查领域的发展。
[23] Can Multi-modal (reasoning) LLMs detect document manipulation?
Zisheng Liang,Kidus Zewde,Rudra Pratap Singh,Disha Patil,Zexi Chen,Jiayu Xue,Yao Yao,Yifei Chen,Qinzhe Liu,Simiao Ren
Main category: cs.CV
TL;DR: 研究评估了多模态大语言模型(LLMs)在检测伪造文档中的表现,发现部分模型在零样本泛化能力上优于传统方法,但模型大小与检测准确性相关性有限。
- Motivation: 文档伪造对依赖安全文档的行业构成威胁,需高效检测机制。
- Method: 通过提示优化和模型推理分析,评估多模态LLMs在检测伪造文档中的能力。
- Result: 部分多模态LLMs在零样本泛化中表现优异,但模型大小与准确性相关性低。
- Conclusion: 多模态LLMs在文档伪造检测中潜力显著,需任务特定微调。
[24] MedSAMix: A Training-Free Model Merging Approach for Medical Image Segmentation
Yanwu Yang,Guinan Su,Jiesi Hu,Francesco Sammarco,Jonas Geiping,Thomas Wolfers
Main category: cs.CV
TL;DR: MedSAMix是一种无需训练的方法,通过结合通用模型(如SAM)和专用模型(如MedSAM)的优势,提升医学图像分割的性能。
- Motivation: 现有医学图像分割模型(如MedSAM)因数据有限、异质性和分布偏移等问题,泛化能力受限。
- Method: 提出一种零阶优化方法,自动发现最优层间合并方案,并通过单任务优化和多目标优化适应不同临床需求。
- Result: 在25个医学分割任务中,MedSAMix显著提升性能,专用任务和多任务评估分别提高6.67%和4.37%。
- Conclusion: MedSAMix通过自动合并通用与专用模型,有效解决了医学图像分割中的泛化和领域特异性问题。
[25] Advancing 3D Scene Understanding with MV-ScanQA Multi-View Reasoning Evaluation and TripAlign Pre-training Dataset
Wentao Mo,Qingchao Chen,Yuxin Peng,Siyuan Huang,Yang Liu
Main category: cs.CV
TL;DR: MV-ScanQA和TripAlign数据集解决了现有3D视觉语言数据集的局限性,通过多视图推理和丰富的多对象对齐信号提升3D场景理解能力。LEGO方法在预训练后表现出色。
- Motivation: 现有3D VL数据集缺乏多视图推理和丰富的多对象对齐,限制了模型对远距离对象的深度理解。
- Method: 提出MV-ScanQA数据集测试多视图推理,TripAlign数据集提供2D-3D-语言预训练信号,并开发LEGO方法进行知识迁移。
- Result: LEGO在MV-ScanQA和现有3D密集描述与问答基准上达到最优性能。
- Conclusion: MV-ScanQA和TripAlign推动了3D VL学习的发展,LEGO展示了多视图推理的潜力。
[26] Data-Driven Abdominal Phenotypes of Type 2 Diabetes in Lean, Overweight, and Obese Cohorts
Lucas W. Remedios,Chloe Choe,Trent M. Schwartz,Dingjie Su,Gaurav Rudravaram,Chenyu Gao,Aravind R. Krishnan,Adam M. Saunders,Michael E. Kim,Shunxing Bao,Alvin C. Powers,Bennett A. Landman,John Virostko
Main category: cs.CV
TL;DR: 研究利用AI从3D临床影像中提取腹部结构特征,揭示BMI特异性糖尿病腹部模式,发现糖尿病驱动因素在不同体重类别中可能一致。
- Motivation: 尽管BMI升高是2型糖尿病的已知风险因素,但瘦人和肥胖者中糖尿病的差异分布表明,详细的身体组成可能揭示腹部表型。
- Method: 通过AI分析临床CT数据,将腹部扫描转化为可解释的测量值,使用随机森林分类和SHAP分析识别糖尿病风险和保护特征。
- Result: 随机森林模型的AUC为0.72-0.74,发现脂肪肌肉、年龄、内脏和皮下脂肪增加、胰腺较小或脂肪化是共享的糖尿病特征。
- Conclusion: 腹部驱动因素在不同体重类别中可能一致,为糖尿病风险预测提供了新视角。
[27] HierOctFusion: Multi-scale Octree-based 3D Shape Generation via Part-Whole-Hierarchy Message Passing
Xinjie Gao,Bi'an Du,Wei Hu
Main category: cs.CV
TL;DR: HierOctFusion是一种基于八叉树的多尺度扩散模型,通过分层特征交互和语义部分信息注入,提升了3D内容生成的精细度和效率。
- Motivation: 现有方法将3D对象视为整体,忽略了语义部分层次结构,且高分辨率建模计算成本高。HierOctFusion旨在解决这些问题。
- Method: 提出HierOctFusion模型,结合分层特征交互和跨注意力机制,注入部分级信息,并使用带部分标注的3D数据集。
- Result: 实验表明,HierOctFusion在形状质量和效率上优于现有方法。
- Conclusion: HierOctFusion通过分层和部分感知生成,显著提升了3D内容生成的性能。
[28] UWB-PostureGuard: A Privacy-Preserving RF Sensing System for Continuous Ergonomic Sitting Posture Monitoring
Haotang Li,Zhenyu Qi,Sen He,Kebin Peng,Sheng Tan,Yili Ren,Tomas Cerny,Jiyue Zhao,Zi Wang
Main category: cs.CV
TL;DR: UWB-PostureGuard是一种基于超宽带(UWB)技术的隐私保护坐姿监测系统,通过非接触式监测和高级特征工程实现高精度坐姿识别。
- Motivation: 长时间使用电脑时的不良坐姿已成为公共健康问题,传统监测方法存在隐私和舒适性问题。
- Method: 利用商用UWB设备,结合特征工程和PoseGBDT模型,捕捉坐姿的时序依赖性。
- Result: 在10名参与者和19种不同坐姿的测试中,系统达到99.11%的准确率,且对环境变量具有鲁棒性。
- Conclusion: UWB-PostureGuard提供了一种低成本、可扩展且隐私保护的移动健康解决方案,适用于主动的坐姿管理。
[29] Residual-based Efficient Bidirectional Diffusion Model for Image Dehazing and Haze Generation
Bing Liu,Le Wang,Hao Liu,Mingming Liu
Main category: cs.CV
TL;DR: 提出了一种基于残差的高效双向扩散模型(RBDM),能够同时实现去雾和雾生成的双向转换。
- Motivation: 现有深度去雾方法仅关注去雾,缺乏雾与无雾图像之间的双向转换能力。
- Method: 设计了双马尔可夫链以平滑转换残差,通过扰动图像并预测噪声学习条件分布,引入统一评分函数降低计算成本。
- Result: RBDM仅需15步采样即可实现图像尺寸无关的双向转换,在合成和真实数据集上表现优于或媲美现有方法。
- Conclusion: RBDM成功解决了双向转换问题,并在性能和效率上取得显著提升。
[30] A Cross-Modal Rumor Detection Scheme via Contrastive Learning by Exploring Text and Image internal Correlations
Bin Ma,Yifei Zhang,Yongjin Xian,Qi Li,Linna Zhou,Gongxun Miao
Main category: cs.CV
TL;DR: 本文提出了一种基于对比学习的跨模态谣言检测方法(MICC),通过多尺度图像和上下文关联探索算法,显著提升了谣言检测性能。
- Motivation: 现有谣言检测方法常忽略图像内容及多尺度上下文与图像的关系,导致关键信息丢失。
- Method: 设计了SCLIP编码器生成统一语义嵌入,引入跨模态多尺度对齐模块,并通过尺度感知融合网络整合特征。
- Result: 在两个真实数据集上验证,性能显著优于现有方法。
- Conclusion: MICC方法有效且具有实际应用潜力。
[31] LEARN: A Story-Driven Layout-to-Image Generation Framework for STEM Instruction
Maoquan Zhang,Bisser Raytchev,Xiujuan Sun
Main category: cs.CV
TL;DR: LEARN是一个布局感知的扩散框架,用于生成与STEM教育内容对齐的教学插图。
- Motivation: 解决STEM教育中抽象科学概念的视觉表达问题,同时减少认知负荷。
- Method: 利用BookCover数据集,结合布局条件生成、对比视觉语义训练和提示调制。
- Result: 生成连贯的视觉序列,支持中高层次的推理,并减少认知负荷。
- Conclusion: LEARN为教育领域的生成AI提供了新方向,代码和数据集将公开。
[32] Semi-supervised Image Dehazing via Expectation-Maximization and Bidirectional Brownian Bridge Diffusion Models
Bing Liu,Le Wang,Mingming Liu,Hao Liu,Rui Yao,Yong Zhou,Peng Liu,Tongqiang Xia
Main category: cs.CV
TL;DR: 提出了一种基于EM和双向布朗桥扩散模型(EM-B3DM)的半监督图像去雾方法,通过两阶段学习方案解决真实世界雾霾图像的去雾问题。
- Motivation: 现有去雾方法在处理真实世界厚雾场景时效果不佳,主要原因是缺乏真实配对数据和鲁棒先验。
- Method: 采用两阶段学习:第一阶段用EM算法解耦配对图像的联合分布,并用布朗桥扩散模型建模;第二阶段利用预训练模型和大规模未配对数据提升性能。此外,引入RDC模块增强细节。
- Result: 在合成和真实数据集上表现优于或与现有方法相当。
- Conclusion: EM-B3DM是一种高效的去雾方法,尤其适用于真实世界厚雾场景。
[33] VFM-Guided Semi-Supervised Detection Transformer for Source-Free Object Detection in Remote Sensing Images
Jianhong Han,Yupei Wang,Liang Chen
Main category: cs.CV
TL;DR: VG-DETR是一种基于半监督框架的源自由目标检测方法,通过结合视觉基础模型(VFM)提升伪标签质量,并在遥感图像中实现跨域适应。
- Motivation: 解决源自由目标检测(SFOD)中因伪标签噪声导致的训练崩溃问题,特别是在遥感图像中密集目标和复杂背景的挑战。
- Method: 提出VG-DETR,集成VFM的语义先验指导伪标签挖掘,并通过双级对齐方法增强特征表示。
- Result: 实验表明VG-DETR在源自由遥感检测任务中表现优异。
- Conclusion: VG-DETR通过VFM的辅助显著提升了SFOD的性能和鲁棒性。
[34] Better Supervised Fine-tuning for VQA: Integer-Only Loss
Baihong Qian,Haotian Fan,Wenjie Liao,Yunqiu Wang,Tao Li,Junhui Cui
Main category: cs.CV
TL;DR: 提出IOVQA方法,通过整数标签和针对性损失计算优化视觉语言模型在视频质量评估中的性能。
- Motivation: 现有方法在视频质量评估中存在结果不精确和损失计算低效的问题,限制了模型对关键指标的学习。
- Method: 采用整数标签范围约束和目标掩码策略,优化损失计算,提升模型对关键评估指标的学习。
- Result: 实验表明IOVQA显著提升模型准确性,在VQualA 2025挑战赛中排名第三。
- Conclusion: 整数标签微调在定量评估场景中优化视觉语言模型的有效方法。
[35] Exploring the Tradeoff Between Diversity and Discrimination for Continuous Category Discovery
Ruobing Jiang,Yang Liu,Haobing Liu,Yanwei Yu,Chunyang Wang
Main category: cs.CV
TL;DR: 论文提出IDOD方法,通过独立多样性模块、联合发现模块和正交增量模块,解决连续类别发现中的矛盾与错误积累问题,同时减少存储开销。
- Motivation: 连续类别发现(CCD)中,新数据无类别标签且需避免灾难性遗忘,现有方法难以平衡新类发现与分类,且易积累错误。
- Method: IDOD方法包括独立多样性模块、联合发现模块和正交增量模块,分别用于特征多样性、单阶段新类发现和低存储开销的遗忘预防。
- Result: 在细粒度数据集上,IDOD优于现有方法。
- Conclusion: IDOD有效解决了CCD中的矛盾与错误积累问题,同时降低了存储需求。
[36] Fine-Grained VLM Fine-tuning via Latent Hierarchical Adapter Learning
Yumiao Zhao,Bo Jiang,Yuhe Ding,Xiao Wang,Jin Tang,Bin Luo
Main category: cs.CV
TL;DR: 论文提出了一种新型的Latent Hierarchical Adapter (LatHAdapter),用于在少样本分类任务中微调视觉语言模型,通过利用潜在语义层次结构提升性能。
- Motivation: 现有适配器方法在视觉和文本表示对齐时依赖空间邻近性,无法捕捉类别与图像样本间的一对多关联,且难以处理未知类别。
- Method: LatHAdapter引入可学习的属性提示作为桥梁,在双曲空间中投影类别、属性和图像,并通过层次正则化学习潜在语义层次结构。
- Result: 在四个少样本任务上的实验表明,LatHAdapter在已知类别适应和未知类别泛化方面优于其他微调方法。
- Conclusion: LatHAdapter通过潜在语义层次结构有效建模了一对多关联,显著提升了少样本分类任务的性能。
[37] Versatile Video Tokenization with Generative 2D Gaussian Splatting
Zhenghao Chen,Zicong Chen,Lei Liu,Yiming Wu,Dong Xu
Main category: cs.CV
TL;DR: GVT是一种基于2D高斯生成策略的视频标记化方法,通过STGE机制生成高斯表示,提升空间适应性和时间效率。
- Motivation: 现有视频标记化方法在空间和时间上存在冗余和适应性不足的问题。
- Method: 使用STGE机制生成2D高斯表示,并通过GSP策略分离静态和动态内容。
- Result: 在视频重建、动作识别和压缩任务中表现优异,优于基线方法。
- Conclusion: GVT在视频处理任务中具有高效性和通用性。
[38] CHARM3R: Towards Unseen Camera Height Robust Monocular 3D Detector
Abhinav Kumar,Yuliang Guo,Zhihao Zhang,Xinyu Huang,Liu Ren,Xiaoming Liu
Main category: cs.CV
TL;DR: 论文研究了单目3D目标检测器在不同相机高度下的性能问题,提出了一种新方法CHARM3R,通过结合两种深度估计提升性能。
- Motivation: 现有单目3D检测器在相机高度变化时性能下降,尤其是深度估计问题显著。
- Method: 通过系统分析相机高度变化对深度估计的影响,提出CHARM3R方法,结合回归和基于地面的深度估计。
- Result: CHARM3R在未见过的相机高度上性能提升超过45%,在CARLA数据集上达到最佳表现。
- Conclusion: CHARM3R有效解决了相机高度变化对单目3D检测的影响,提升了模型的泛化能力。
[39] Generating Dialogues from Egocentric Instructional Videos for Task Assistance: Dataset, Method and Benchmark
Lavisha Aggarwal,Vikas Bahirwani,Lin Li,Andrea Colaco
Main category: cs.CV
TL;DR: 论文提出了一种自动将单人教学视频转化为任务指导对话的方法,并构建了大规模数据集HowToDIV,用于多步骤任务辅助的对话研究。
- Motivation: 现实中的复杂任务需要专家知识,但缺乏基于对话和视频的任务辅助数据集。
- Method: 利用大语言模型自动将单人教学视频转化为两人任务指导对话,并与视频片段对齐。
- Result: 构建了包含507个对话、6636个问答对和24小时视频的HowToDIV数据集,并提供了基准性能。
- Conclusion: 该方法为任务辅助对话研究提供了高效的数据集构建方案。
[40] UAV-VL-R1: Generalizing Vision-Language Models via Supervised Fine-Tuning and Multi-Stage GRPO for UAV Visual Reasoning
Jiajin Guan,Haibo Mei,Bonan Zhang,Dan Liu,Yuanshuang Fu,Yue Zhang
Main category: cs.CV
TL;DR: 论文提出了一种轻量级视觉语言模型UAV-VL-R1,专为无人机航拍图像设计,结合监督微调与多阶段强化学习,显著提升了在复杂航拍任务中的性能。
- Motivation: 现有视觉语言模型在自然图像任务中表现良好,但在无人机航拍图像中性能下降,因其高分辨率、复杂空间语义和实时性要求限制了通用模型的适用性。
- Method: 提出UAV-VL-R1模型,采用监督微调(SFT)和多阶段强化学习(RL)的混合训练方法,使用GRPO算法提升结构化推理能力。
- Result: UAV-VL-R1在零样本任务中准确率比基线模型高48.17%,甚至优于更大的72B模型,且内存占用低,支持实时部署。
- Conclusion: UAV-VL-R1通过结合SFT和RL,显著提升了航拍图像任务的性能,同时保持了轻量化和实时性,适用于资源受限的无人机平台。
[41] A Coarse-to-Fine Human Pose Estimation Method based on Two-stage Distillation and Progressive Graph Neural Network
Zhangjian Ji,Wenjin Zhang,Shaotong Qiao,Kai Feng,Yuhua Qian
Main category: cs.CV
TL;DR: 提出了一种新颖的从粗到细两阶段知识蒸馏框架,用于轻量化人体姿态估计,通过挖掘关节结构信息和渐进式图卷积网络提升性能。
- Motivation: 现有的人体姿态估计方法计算资源消耗大,传统知识蒸馏未充分利用关节上下文信息,需改进。
- Method: 两阶段知识蒸馏:第一阶段通过关节结构损失传递高级语义知识;第二阶段利用渐进式图卷积网络(IGP-GCN)细化姿态。
- Result: 在COCO keypoint和CrowdPose数据集上表现优异,尤其在复杂场景下性能提升显著。
- Conclusion: 提出的框架有效提升了轻量化人体姿态估计的准确性和鲁棒性。
[42] A CLIP-based Uncertainty Modal Modeling (UMM) Framework for Pedestrian Re-Identification in Autonomous Driving
Jialin Li,Shuqi Wu,Ning Wang
Main category: cs.CV
TL;DR: 提出了一种轻量级不确定性模态建模(UMM)框架,解决自动驾驶中行人重识别(ReID)在多模态输入不确定或缺失时的挑战。
- Motivation: 自动驾驶中行人重识别需要处理多模态输入的不确定性,现有方法计算开销大,难以实际部署。
- Method: UMM框架结合多模态令牌映射器、合成模态增强策略和跨模态线索交互学习器,利用CLIP的视觉-语言对齐能力高效融合多模态输入。
- Result: 实验表明UMM在模态不确定条件下具有强鲁棒性、泛化能力和计算效率。
- Conclusion: UMM为自动驾驶中的行人重识别提供了一种可扩展且实用的解决方案。
[43] FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation
MengChao Wang,Qiang Wang,Fan Jiang,Mu Xu
Main category: cs.CV
TL;DR: 论文提出Talking-Critic奖励模型和TLPO框架,解决音频驱动肖像动画在多维偏好对齐上的问题,并引入大规模数据集Talking-NSQ。
- Motivation: 现有方法难以在多维偏好(如动作自然性、唇同步准确性和视觉质量)上对齐,且缺乏高质量标注数据集。
- Method: 引入Talking-Critic奖励模型学习人类偏好;构建Talking-NSQ数据集;提出TLPO框架,通过专家模块分步优化偏好。
- Result: Talking-Critic在偏好评分上优于现有方法;TLPO在唇同步、动作自然性和视觉质量上显著提升。
- Conclusion: Talking-Critic和TLPO有效解决了多维偏好对齐问题,并在实验中表现优异。
[44] Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception
Junjie Wang,Keyu Chen,Yulin Li,Bin Chen,Hengshuang Zhao,Xiaojuan Qi,Zhuotao Tian
Main category: cs.CV
TL;DR: DeCLIP改进CLIP,通过解耦自注意力模块提升密集视觉感知任务的性能。
- Motivation: 现有密集视觉感知任务受限于预定义类别,且CLIP在局部特征表示上表现不佳。
- Method: 提出DeCLIP框架,解耦自注意力模块为‘内容’和‘上下文’特征,并分别增强。
- Result: 在多种任务中实现最佳性能,包括2D检测、3D分割等。
- Conclusion: DeCLIP为开放词汇密集感知任务提供了有效解决方案。
[45] Vision-Language Models display a strong gender bias
Aiswarya Konavoor,Raj Abhijit Dandekar,Rajat Dandekar,Sreedath Panat
Main category: cs.CV
TL;DR: 该研究探讨了视觉语言模型(VLM)中性别刻板印象的潜在编码问题,通过分析图像与文本嵌入的相似性,揭示了模型在职业和活动描述中的性别偏见。
- Motivation: 视觉语言模型在共享表示空间中对齐图像和文本,但这种对齐可能隐含并放大社会刻板印象。研究旨在测试模型是否在职业和活动描述中表现出性别关联。
- Method: 研究使用220张按感知性别分类的人脸照片和150条描述职业和活动的语句,计算图像和文本嵌入的余弦相似性,并通过自举法和标签交换零模型评估性别关联。
- Result: 研究提供了视觉语言空间中性别关联的详细映射,包括不确定性分析和性别偏见评估框架。
- Conclusion: 视觉语言模型可能隐含性别偏见,研究为评估和减少此类偏见提供了方法和工具。
[46] Domain-aware Category-level Geometry Learning Segmentation for 3D Point Clouds
Pei He,Lingling Li,Licheng Jiao,Ronghua Shang,Fang Liu,Shuang Wang,Xu Liu,Wenping Ma
Main category: cs.CV
TL;DR: 提出了一种基于类别级几何学习的框架,用于解决3D点云分割中的领域泛化问题,通过几何嵌入和一致性学习提升模型泛化能力。
- Motivation: 现有方法在3D分割中通过点云数据增强缓解领域偏移,但忽略了类别级分布和对齐,导致泛化能力不足。
- Method: 提出类别级几何嵌入(CGE)感知点云特征的细粒度几何属性,并结合几何一致性学习(GCL)模拟潜在3D分布和对齐几何嵌入。
- Result: 实验表明,该方法在领域泛化3D分割任务中具有竞争力,分割精度优于现有方法。
- Conclusion: 通过类别级几何学习和一致性对齐,显著提升了模型在未见环境中的泛化能力。
[47] Enhancing Supervised Composed Image Retrieval via Reasoning-Augmented Representation Engineering
Jun Li,Kai Li,Shaoguo Liu,Tingting Gao
Main category: cs.CV
TL;DR: 提出了一种名为PMTFR的框架,通过Pyramid Patcher模块和Training-Free Refinement范式,在监督式CIR任务中超越现有方法。
- Motivation: 现有方法在组合图像检索(CIR)中需要额外训练排序模型,且Chain-of-Thought(CoT)技术在此任务中应用有限。
- Method: 使用Pyramid Matching Model和Pyramid Patcher模块增强视觉信息理解,结合CoT数据的表示工程实现无训练优化。
- Result: 在CIR基准测试中表现优于现有方法。
- Conclusion: PMTFR框架在监督式CIR任务中取得了显著效果,代码将公开。
[48] Probing the Representational Power of Sparse Autoencoders in Vision Models
Matthew Lyle Olson,Musashi Hinck,Neale Ratzlaff,Changbai Li,Phillip Howard,Vasudev Lal,Shao-Yen Tseng
Main category: cs.CV
TL;DR: 稀疏自编码器(SAEs)在视觉模型中的应用潜力被广泛评估,结果显示其在语义理解、泛化能力和可控生成方面表现优异。
- Motivation: 尽管SAEs在语言模型中广泛应用,但在视觉领域的研究较少,本文旨在填补这一空白。
- Method: 通过多种视觉任务(如视觉嵌入模型、多模态LLMs和扩散模型)评估SAEs的表征能力。
- Result: SAE特征具有语义意义,能提升泛化能力,并支持可控生成,揭示了跨模态共享表征。
- Conclusion: SAEs在视觉模型中具有显著潜力,可提升可解释性、泛化能力和可控性。
[49] Unifying Scale-Aware Depth Prediction and Perceptual Priors for Monocular Endoscope Pose Estimation and Tissue Reconstruction
Muzammil Khan,Enzo Kerkhof,Matteo Fusaglia,Koert Kuhlmann,Theo Ruers,Françoise J. Siepel
Main category: cs.CV
TL;DR: 提出了一种统一框架,结合深度预测和时间感知细化,解决单目内窥镜组织重建中的挑战。
- Motivation: 单目内窥镜姿态估计和组织重建面临深度模糊、组织变形等问题,需改进导航和空间感知。
- Method: 整合MAPIS-Depth模块(Depth Pro和Depth Anything)和L-BFGS-B优化,结合RAFT和LPIPS进行时间细化,WEMA-RTDL模块优化配准。
- Result: 在HEVD和SCARED数据集上验证,优于现有方法。
- Conclusion: 框架有效解决了单目内窥镜重建的挑战,提升了准确性和鲁棒性。
[50] TimeMachine: Fine-Grained Facial Age Editing with Identity Preservation
Yilin Mi,Qixin Yan,Zheng-Peng Duan,Chunle Guo,Hubery Yin,Hao Liu,Chen Li,Chongyi Li
Main category: cs.CV
TL;DR: TimeMachine是一种基于扩散的框架,用于细粒度年龄编辑,同时保持身份特征不变。通过注入高精度年龄信息和引入Age Classifier Guidance模块,实现了精确的年龄操作。
- Motivation: 当前生成模型在面部图像编辑中取得了进展,但细粒度年龄编辑且保持身份不变仍具挑战性。
- Method: 提出TimeMachine框架,利用多交叉注意力模块分离年龄和身份特征,并引入ACG模块在潜在空间预测年龄。构建HFFA数据集支持训练。
- Result: 实验表明,TimeMachine在细粒度年龄编辑和身份一致性保持方面达到最先进性能。
- Conclusion: TimeMachine通过创新设计和高质量数据集,解决了细粒度年龄编辑的挑战。
[51] Hyperspectral vs. RGB for Pedestrian Segmentation in Urban Driving Scenes: A Comparative Study
Jiarong Li,Imad Ali Shah,Enda Ward,Martin Glavin,Edward Jones,Brian Deegan
Main category: cs.CV
TL;DR: 研究探讨了高光谱成像(HSI)在行人分割中的优势,通过对比RGB和两种降维方法(PCA和CSNR-JMIM),证明CSNR-JMIM在性能上显著优于RGB。
- Motivation: RGB成像中的同色异谱现象导致行人与背景难以区分,影响自动驾驶系统的安全性。
- Method: 使用H-City数据集,将128通道HSI数据降维为三通道(PCA和CSNR-JMIM),并评估了U-Net、DeepLabV3+和SegFormer三种模型。
- Result: CSNR-JMIM在行人和骑行者分割中均表现最佳,IoU和F1-score分别平均提升1.44%和2.18%。
- Conclusion: 优化HSI波段选择能显著提升行人分割性能,对安全关键型自动驾驶应用具有重要潜力。
[52] Denoise-then-Retrieve: Text-Conditioned Video Denoising for Video Moment Retrieval
Weijia Liu,Jiuxin Cao,Bo Miao,Zhiheng Fu,Xuelin Zhu,Jiawei Ge,Bo Liu,Mehwish Nasim,Ajmal Mian
Main category: cs.CV
TL;DR: 提出了一种去噪后检索的范式(DRNet),通过过滤无关视频片段提升视频时刻检索性能。
- Motivation: 现有方法编码所有视频片段(包括无关内容),破坏多模态对齐并阻碍优化。
- Method: 采用TCD模块动态识别噪声片段并生成噪声掩码,TRF模块进一步对齐文本和视频表示。
- Result: 在Charades-STA和QVHighlights数据集上表现优于现有方法。
- Conclusion: 去噪后检索范式可提升现有VMR模型性能。
[53] Logic Unseen: Revealing the Logical Blindspots of Vision-Language Models
Yuchen Zhou,Jiayu Tang,Shuo Yang,Xiaoyan Xiao,Yuqin Dai,Wenhao Yang,Chao Gou,Xiaobo Xia,Tat-Seng Chua
Main category: cs.CV
TL;DR: 论文介绍了LogicBench和LogicCLIP,前者是一个用于评估视觉语言模型(VLMs)逻辑理解能力的基准,后者是一种提升VLMs逻辑敏感性的训练框架。
- Motivation: 现有VLMs在逻辑理解方面存在明显不足,限制了其在实际应用中的可靠性。
- Method: 提出LogicBench基准和LogicCLIP框架,后者通过逻辑感知数据生成和多目标对比学习提升逻辑理解能力。
- Result: LogicCLIP在所有LogicBench领域显著提升了逻辑理解能力,同时保持了通用视觉语言任务的竞争力。
- Conclusion: LogicBench和LogicCLIP为提升VLMs的逻辑能力提供了重要资源。
[54] Delving into Dynamic Scene Cue-Consistency for Robust 3D Multi-Object Tracking
Haonan Zhang,Xinyao Wang,Boxi Wu,Tu Zheng,Wang Yunhua,Zheng Yang
Main category: cs.CV
TL;DR: 论文提出了一种基于空间线索一致性的3D多目标跟踪方法DSC-Track,通过动态场景线索一致性提升跟踪性能。
- Motivation: 传统方法依赖单一物体运动建模(如卡尔曼滤波),在拥挤场景或检测不准确时表现不佳,忽视了物体间的几何关系。现有几何感知方法易受无关物体干扰,导致特征模糊和错误关联。
- Method: 设计了基于点对特征(PPF)的时空编码器,学习区分性轨迹嵌入并抑制干扰;引入线索一致性变换模块,对齐历史轨迹与当前检测的特征表示;采用动态更新机制保留关键时空信息。
- Result: 在nuScenes和Waymo Open Datasets上验证了方法的有效性,nuScenes验证集和测试集的AMOTA分别达到73.2%和70.3%,达到SOTA性能。
- Conclusion: DSC-Track通过动态场景线索一致性显著提升了3D多目标跟踪的鲁棒性和准确性。
[55] Noise Matters: Optimizing Matching Noise for Diffusion Classifiers
Yanghao Wang,Long Chen
Main category: cs.CV
TL;DR: 论文提出NoOp方法,通过优化噪声解决扩散分类器(DC)的噪声不稳定性问题,提升分类性能。
- Motivation: 现有的扩散分类器(DC)因噪声不稳定性需大量噪声采样,导致分类速度慢。论文旨在找到稳定的“好噪声”以提升效率。
- Method: 提出NoOp方法,通过频率匹配和空间匹配原则优化噪声:1)优化数据集特定噪声;2)训练Meta-Network生成图像特定噪声偏移。
- Result: 实验表明NoOp能有效提升DC的分类性能。
- Conclusion: NoOp通过优化噪声解决了DC的噪声不稳定性问题,显著提升了分类速度和性能。
[56] GANDiff FR: Hybrid GAN Diffusion Synthesis for Causal Bias Attribution in Face Recognition
Md Asgor Hossain Reaj,Rajan Das Gupta,Md Yeasin Rahat,Nafiz Fahad,Md Jawadul Hasan,Tze Hui Liew
Main category: cs.CV
TL;DR: GANDiff FR是一个合成框架,通过精确控制人口统计和环境因素来测量、解释和减少偏见,结合StyleGAN3和扩散模型实现细粒度属性控制。
- Motivation: 旨在提供一个可重复、严谨的方法来量化和减少人脸识别系统中的偏见。
- Method: 结合StyleGAN3的身份保留生成和扩散模型的属性控制,生成10,000张人口平衡的面孔,并在ArcFace、CosFace和AdaFace上进行基准测试。
- Result: AdaFace将组间TPR差异减少了60%,光照占剩余偏见的42%,合成数据与真实数据的相关性为0.85。
- Conclusion: GANDiff FR为公平性审计提供了一个可重复、符合法规的标准,尽管计算开销较高,但能生成更多属性条件变体。
[57] Index-Aligned Query Distillation for Transformer-based Incremental Object Detection
Mingxiao Ma,Shunyao Zhu,Guoliang Kang
Main category: cs.CV
TL;DR: 论文提出了一种名为IAQD的新蒸馏方法,用于解决基于Transformer的增量目标检测中的知识遗忘问题。
- Motivation: 在增量目标检测任务中,传统的匈牙利匹配方法可能导致知识遗忘,因此需要一种更有效的方法来保持旧类别的检测性能。
- Method: 提出Index-Aligned Query Distillation (IAQD),通过索引对齐的方式建立查询对应关系,并仅对关键查询进行蒸馏。
- Result: 实验表明,IAQD有效减少了知识遗忘,并在多个基准测试中取得了最优性能。
- Conclusion: IAQD是一种高效的蒸馏方法,适用于基于Transformer的增量目标检测任务。
[58] Cost-Effective Active Labeling for Data-Efficient Cervical Cell Classification
Yuanlin Liu,Zhihan Zhou,Mingqiang Wei,Youyi Song
Main category: cs.CV
TL;DR: 提出了一种低成本高效的方法(主动标记)用于宫颈细胞分类,通过选择最有价值的未标记图像进行标记,显著减少人工成本并提升数据集代表性。
- Motivation: 现有自动分类方法需要大量代表性训练数据,人工成本高昂甚至难以承受,因此需要一种更高效的方法。
- Method: 利用分类器对未标记宫颈细胞图像的不确定性,选择最有价值的图像进行标记,从而构建更具代表性的训练数据集。
- Result: 新算法通过快速估计不确定性,显著提升了训练数据集的代表性,并在实验中证实了其高效性。
- Conclusion: 该方法为低成本高效的宫颈细胞分类提供了可行途径,有效优化了人工成本的使用。
[59] Semantically Guided Adversarial Testing of Vision Models Using Language Models
Katarzyna Filus,Jorge M. Cruz-Duarte
Main category: cs.CV
TL;DR: 论文提出了一种基于语义引导的对抗目标选择框架,利用预训练语言和视觉语言模型的跨模态知识转移,优于传统静态语义资源。
- Motivation: 现有对抗攻击的目标标签选择方法依赖随机性、模型预测或静态语义资源,缺乏可解释性、可重复性或灵活性。
- Method: 使用BERT、TinyLLAMA和CLIP等预训练模型作为相似性来源,选择与真实标签最相关和最不相关的标签,构建最佳和最差对抗场景。
- Result: 实验表明,这些模型能提供实用的对抗目标,优于静态词汇数据库(如WordNet),尤其在远距离类别关系上表现突出。
- Conclusion: 预训练模型适合构建可解释、标准化且可扩展的对抗基准,适用于不同架构和数据集。
[60] HOID-R1: Reinforcement Learning for Open-World Human-Object Interaction Detection Reasoning with Multimodal Large Language Model
Zhenhao Zhang,Hanqing Wang,Xiangyu Zeng,Ziyu Cheng,Jiaxin Liu,Haoyu Yan,Zhirui Liu,Kaiyang Ji,Tianxiang Gui,Ke Hu,Kangyi Chen,Yahao Fan,Mokai Pan
Main category: cs.CV
TL;DR: HOID-R1是首个结合链式思维(CoT)引导的监督微调(SFT)和组相对策略优化(GRPO)的HOI检测框架,通过强化学习提升性能,并在开放世界泛化中表现优异。
- Motivation: 现有开放词汇HOI检测方法依赖大型语言模型,但忽视了其3D空间理解能力,HOID-R1旨在弥补这一不足。
- Method: 结合SFT和GRPO,通过CoT引导模型输出思维过程,并利用多奖励信号优化策略,引入MLLM监督以减少幻觉。
- Result: HOID-R1在HOI检测基准上达到最优性能,并在开放世界泛化中超越现有方法。
- Conclusion: HOID-R1通过整合CoT和GRPO,显著提升了HOI检测的性能和泛化能力。
[61] Leveraging the RETFound foundation model for optic disc segmentation in retinal images
Zhenyi Zhao,Muthu Rama Krishnan Mookiah,Emanuele Trucco
Main category: cs.CV
TL;DR: RETFound首次被用于视盘分割任务,表现优异,仅需少量任务样本即可超越现有最佳分割模型。
- Motivation: 探索RETFound在视盘分割任务中的潜力,验证基础模型在特定任务中的适用性。
- Method: 通过训练一个轻量级头部,将RETFound适配于视盘分割任务,并在多个公开和私有数据集上测试。
- Result: 在五个数据集上平均Dice达到96%,表现优于现有最佳分割模型。
- Conclusion: RETFound在视盘分割任务中表现出色,为基础模型替代任务专用架构提供了有力支持。
[62] Does the Skeleton-Recall Loss Really Work?
Devansh Arora,Nitin Kumar,Sukrit Gupta
Main category: cs.CV
TL;DR: 本文对Skeleton Recall Loss(SRL)进行了理论分析,发现其在管状结构分割任务中并未超越传统基线模型,揭示了基于拓扑的损失函数的局限性。
- Motivation: 研究SRL在管状结构分割中的实际效果,验证其是否如原论文所述优于传统方法。
- Method: 通过理论分析SRL的梯度,并在多个管状数据集上比较SRL与传统模型的性能。
- Result: SRL的性能未超越传统基线模型,理论分析和实验数据均支持这一结论。
- Conclusion: 基于拓扑的损失函数在复杂管状结构分割中存在局限性,为未来研究提供了重要参考。
[63] Unified Knowledge Distillation Framework: Fine-Grained Alignment and Geometric Relationship Preservation for Deep Face Recognition
Durgesh Mishra,Rishabh Uikey
Main category: cs.CV
TL;DR: 论文提出了一种统一的知识蒸馏框架,结合实例级嵌入蒸馏和关系型成对相似性蒸馏,显著提升了人脸识别模型的性能。
- Motivation: 传统知识蒸馏方法在捕捉细粒度实例级细节和复杂关系结构方面表现不佳,导致性能不理想。
- Method: 提出两种新型损失函数:实例级嵌入蒸馏(动态硬挖掘策略)和关系型成对相似性蒸馏(记忆库机制和样本挖掘策略)。
- Result: 统一框架在多个基准数据集上优于现有蒸馏方法,学生模型甚至能超越教师模型的准确率。
- Conclusion: 该框架通过同时优化实例级对齐和样本间几何关系,实现了更全面的知识蒸馏。
[64] G-CUT3R: Guided 3D Reconstruction with Camera and Depth Prior Integration
Ramil Khafizov,Artem Komarichev,Ruslan Rakhimov,Peter Wonka,Evgeny Burnaev
Main category: cs.CV
TL;DR: G-CUT3R是一种新颖的前馈方法,通过整合先验信息改进了CUT3R模型,用于3D场景重建。
- Motivation: 现有方法仅依赖输入图像,而G-CUT3R利用深度、相机标定等辅助数据,更贴近实际场景需求。
- Method: 对CUT3R进行轻量级修改,为每种模态设计专用编码器,通过零卷积将特征与RGB图像标记融合。
- Result: 在多个基准测试中表现优异,显著提升了性能,并能灵活利用不同输入模态的先验信息。
- Conclusion: G-CUT3R有效利用先验信息,兼容多种输入模态,为3D重建任务提供了高效解决方案。
[65] RMFAT: Recurrent Multi-scale Feature Atmospheric Turbulence Mitigator
Zhiming Liu,Nantheera Anantrasirichai
Main category: cs.CV
TL;DR: RMFAT是一种轻量级循环框架,用于高效恢复受大气湍流影响的视频,显著降低计算负担并提升实时性能。
- Motivation: 大气湍流导致视频质量下降,现有方法计算成本高,难以实时部署。
- Method: 采用轻量级循环框架,仅需两帧输入,结合多尺度特征编码和解码模块。
- Result: 在清晰度恢复(SSIM提升9%)和推理速度(运行时减少四倍)上优于现有方法。
- Conclusion: RMFAT适用于实时大气湍流抑制任务,兼具高效性和性能优势。
[66] SelfAdapt: Unsupervised Domain Adaptation of Cell Segmentation Models
Fabian H. Reith,Jannik Franzen,Dinesh R. Palli,J. Lorenz Rumberger,Dagmar Kainmueller
Main category: cs.CV
TL;DR: SelfAdapt是一种无需标签的预训练细胞分割模型自适应方法,通过学生-教师增强一致性训练、L2-SP正则化和无标签停止准则,显著提升性能。
- Motivation: 现有通用模型(如Cellpose)在训练数据以外的领域表现下降,而监督微调需要标注数据,但标注数据可能难以获取。
- Method: 采用学生-教师增强一致性训练,结合L2-SP正则化和无标签停止准则,实现无监督自适应。
- Result: 在LiveCell和TissueNet数据集上,AP0.5相对基线Cellpose提升高达29.64%。
- Conclusion: SelfAdapt是一种高效的无监督自适应方法,可进一步提升监督微调模型的性能,并已集成到Cellpose框架中。
[67] Training-free Dimensionality Reduction via Feature Truncation: Enhancing Efficiency in Privacy-preserving Multi-Biometric Systems
Florian Bayer,Maximilian Russo,Christian Rathgeb
Main category: cs.CV
TL;DR: 论文研究了多模态生物特征模板尺寸缩减对性能的影响,通过融合特征向量实现了67%的模板尺寸缩减且不影响识别精度。
- Motivation: 生物特征识别广泛使用,但模板隐私与安全是关键问题,尤其是基于同态加密的方案计算量大。多模态融合能提升安全性,但需解决计算效率问题。
- Method: 利用深度神经网络提取特征,结合FRGC、MCYT和CASIA数据库构建虚拟多模态数据库,评估可解释、免训练且通用的维度缩减方法。
- Result: 多模态融合下,模板尺寸减少67%,且等错误率(EER)与最佳单模态性能相当或更优。
- Conclusion: 维度缩减可在保持生物特征识别精度的同时,显著提升同态加密域的计算效率。
[68] ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving
Jingyu Li,Bozhou Zhang,Xin Jin,Jiankang Deng,Xiatian Zhu,Li Zhang
Main category: cs.CV
TL;DR: ImagiDrive整合视觉语言模型(VLM)和驾驶世界模型(DWM),通过统一的想象-规划循环提升自动驾驶性能。
- Motivation: 自动驾驶需要结合多模态上下文理解和精确预测,而VLM和DWM各有优势但未充分整合。
- Method: 提出ImagiDrive框架,结合VLM的驾驶代理和DWM的场景想象器,通过迭代优化规划决策。
- Result: 在nuScenes和NAVSIM数据集上验证了其鲁棒性和优越性。
- Conclusion: ImagiDrive有效整合VLM和DWM,解决了行为预测与场景生成的高效结合问题。
[69] Remove360: Benchmarking Residuals After Object Removal in 3D Gaussian Splatting
Simona Kocour,Assia Benbihi,Torsten Sattler
Main category: cs.CV
TL;DR: 论文提出了一种评估3D高斯泼溅中物体移除后语义残留的新基准和框架,并发布了包含真实场景数据的Remove360数据集。
- Motivation: 研究物体移除后残留的语义信息对隐私保护和可编辑场景表示的重要性。
- Method: 通过实验评估多种场景下的语义残留,并利用Remove360数据集进行验证。
- Result: 发现当前方法在移除物体后仍可能保留语义信息,揭示了现有技术的局限性。
- Conclusion: 强调需要更鲁棒的解决方案来处理真实世界的复杂性。
[70] MM-R1: Unleashing the Power of Unified Multimodal Large Language Models for Personalized Image Generation
Qian Liang,Yujia Wu,Kuncheng Li,Jiwei Wei,Shiyuan He,Jinyu Guo,Ning Xie
Main category: cs.CV
TL;DR: MM-R1框架通过跨模态思维链推理(X-CoT)和分组奖励近端策略优化(GRPO),实现了统一多模态大语言模型(MLLMs)的个性化图像生成,无需针对每个新主题进行数据密集型微调。
- Motivation: 现有MLLMs方法通常需要针对每个新主题进行数据密集型微调,限制了其扩展性。MM-R1旨在解决这一问题,释放统一MLLMs在个性化图像生成中的潜力。
- Method: MM-R1采用跨模态思维链推理(X-CoT)策略,将个性化分解为视觉推理和生成过程,并结合GRPO优化生成对齐。
- Result: 实验表明,MM-R1能以零样本方式生成高主题保真度和强文本对齐的个性化图像。
- Conclusion: MM-R1通过创新方法成功解锁了统一MLLMs的个性化图像生成能力,为相关领域提供了高效解决方案。
[71] Inside Knowledge: Graph-based Path Generation with Explainable Data Augmentation and Curriculum Learning for Visual Indoor Navigation
Daniel Airinei,Elena Burceanu,Marius Leordeanu
Main category: cs.CV
TL;DR: 提出了一种基于视觉输入的实时室内导航方法,无需GPS、特殊传感器或地图知识,通过深度学习预测目标方向。
- Motivation: 室内导航因GPS信号差而困难,现有解决方案复杂且难以部署,需依赖额外信息源。
- Method: 采用图基路径生成方法,结合可解释数据增强和课程学习,实现高效、自动化的数据收集与训练。
- Result: 创建了一个大型购物中心视频数据集,并开发了Android应用,仅依赖视觉输入。
- Conclusion: 该方法高效、易部署,为室内导航提供了新解决方案,数据和代码将公开。
[72] Data-Driven Deepfake Image Detection Method -- The 2024 Global Deepfake Image Detection Challenge
Xiaoya Zhu,Yibing Nan,Shiguo Lian
Main category: cs.CV
TL;DR: 论文探讨了基于Swin Transformer V2-B分类网络的Deepfake图像检测方法,通过数据增强提升模型泛化能力,并取得优异成果。
- Motivation: 随着AI技术的快速发展,Deepfake技术成为双刃剑,既生成大量AI内容,也对数字安全构成挑战。
- Method: 采用Swin Transformer V2-B分类网络,结合在线数据增强和离线样本生成方法,丰富训练样本多样性。
- Result: 在Deepfake图像检测竞赛中获得卓越奖。
- Conclusion: 该方法有效提升了Deepfake检测的准确性和泛化能力。
[73] CoFi: A Fast Coarse-to-Fine Few-Shot Pipeline for Glomerular Basement Membrane Segmentation
Hongjin Fang,Daniel Reisenbüchler,Kenji Ikemura,Mert R. Sabuncu,Yihe Yang,Ruining Deng
Main category: cs.CV
TL;DR: CoFi是一种粗到精的少样本分割方法,用于电子显微镜图像中的肾小球基底膜分割,减少标注负担并提高效率。
- Motivation: 传统监督深度学习方法依赖大量标注,临床实用性低;少样本学习难以捕捉精细结构。
- Method: CoFi先用三张标注图像训练轻量网络生成粗分割掩码,再通过形态学修剪生成高质量点提示,引导SAM细化分割。
- Result: Dice系数74.54%,推理速度1.9 FPS,显著减轻标注和计算负担。
- Conclusion: CoFi高效准确,适合研究和临床应用,代码已开源。
[74] TACR-YOLO: A Real-time Detection Framework for Abnormal Human Behaviors Enhanced with Coordinate and Task-Aware Representations
Xinyi Yin,Wenbo Yuan,Xuecheng Wu,Liangyu Fu,Danlei Huang
Main category: cs.CV
TL;DR: TACR-YOLO是一种用于特殊场景下异常行为检测的实时框架,通过引入坐标注意力模块、任务感知注意力模块和强化颈部网络,解决了小物体检测、任务冲突和多尺度融合问题。实验表明其在PABD数据集上表现优异。
- Motivation: 特殊场景下的异常行为检测需求日益增长,但现有YOLO方法在小物体检测、任务冲突和多尺度融合方面存在不足。
- Method: 提出TACR-YOLO框架,包括坐标注意力模块、任务感知注意力模块、强化颈部网络,并优化锚框大小和边界框回归损失函数。
- Result: 在PABD数据集上达到91.92% mAP,速度和鲁棒性表现优异。
- Conclusion: TACR-YOLO为特殊场景下的异常行为检测提供了新思路,推动了该领域的发展。
[75] OpenConstruction: A Systematic Synthesis of Open Visual Datasets for Data-Centric Artificial Intelligence in Construction Monitoring
Ruoxin Xiong,Yanyu Wang,Jiannan Cai,Kaijian Liu,Yuansheng Zhu,Pingbo Tang,Nora El-Gohary
Main category: cs.CV
TL;DR: 本文系统回顾了建筑行业中用于AI和ML应用的视觉数据集,提出了一个分类框架,并创建了开源目录OpenConstruction,同时指出了现有数据集的不足并提出了未来发展方向。
- Motivation: 建筑行业依赖视觉数据支持AI/ML应用,但现有数据集在规模、模态、标注质量和代表性上差异大,缺乏系统性分类,限制了数据驱动方法的发展。
- Method: 通过搜索学术数据库和开放数据平台,收集了51个公开视觉数据集(2005-2024),并用结构化数据模式分类。
- Result: 创建了开源目录OpenConstruction,总结了数据集特征和应用领域,并指出了现有数据集的局限性。
- Conclusion: 提出了基于FAIR原则的未来数据基础设施路线图,支持建筑行业数据驱动解决方案的发展。
[76] CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models
Xiaoxue Wu,Bingjie Gao,Yu Qiao,Yaohui Wang,Xinyuan Chen
Main category: cs.CV
TL;DR: CineTrans是一个新框架,用于生成具有电影风格过渡的多镜头视频,通过基于掩码的控制机制和新的数据集Cine250K实现。
- Motivation: 尽管视频合成技术取得进展,但多镜头视频生成的研究仍处于初级阶段,现有模型的镜头过渡能力有限且不稳定。
- Method: 构建Cine250K数据集,分析视频扩散模型的注意力图与镜头边界的关系,设计基于掩码的控制机制,并在训练中应用。
- Result: CineTrans生成了具有电影风格的多镜头视频,避免了不稳定过渡或简单拼接,显著优于现有基线。
- Conclusion: CineTrans在多镜头视频生成中表现出色,通过新机制和数据集实现了高质量的过渡和一致性。
[77] Automated Building Heritage Assessment Using Street-Level Imagery
Kristina Dabrock,Tim Johansson,Anna Donarelli,Mikael Mangold,Noah Pflugradt,Jann Michael Weinand,Jochen Linßen
Main category: cs.CV
TL;DR: 利用GPT和机器学习结合建筑登记数据,识别建筑文化遗产价值,支持节能改造。
- Motivation: 量化建筑节能措施(如外墙改造)需详细数据,同时保护文化遗产。传统方法成本高、耗时长,AI工具可提高效率。
- Method: 使用GPT检测建筑立面图像的文化遗产价值,结合建筑登记数据训练机器学习模型,分类建筑类型。
- Result: 验证显示,结合GPT和登记数据的模型F1得分为0.71,仅用GPT数据得分为0.60。
- Conclusion: 该方法可提升数据库质量,支持节能改造中文化遗产价值的综合考虑。
[78] Perception in Plan: Coupled Perception and Planning for End-to-End Autonomous Driving
Bozhou Zhang,Jingyu Li,Nan Song,Li Zhang
Main category: cs.CV
TL;DR: VeteranAD提出了一种感知与规划耦合的端到端自动驾驶框架,通过将感知融入规划过程,实现目标导向的感知,从而提升规划性能。
- Motivation: 现有方法通常采用感知-规划的顺序执行模式,但感知与规划的分离可能限制性能。本文旨在通过感知与规划的紧密耦合,优化自动驾驶系统的整体表现。
- Method: 提出VeteranAD框架,采用多模式锚定轨迹作为规划先验,感知模块专注于沿这些轨迹收集交通元素,并通过自回归策略逐步预测未来轨迹。
- Result: 在NAVSIM和Bench2Drive数据集上,VeteranAD实现了最先进的性能,表现出更准确和可靠的驾驶行为。
- Conclusion: VeteranAD通过感知与规划的紧密耦合,充分释放了端到端自动驾驶方法的潜力,为未来研究提供了新思路。
[79] Hierarchical Graph Feature Enhancement with Adaptive Frequency Modulation for Visual Recognition
Feiyue Zhao,Zhichao Zhang
Main category: cs.CV
TL;DR: 提出了一种名为HGFE的框架,通过图推理增强CNN的结构感知和特征表示能力,实验验证了其有效性。
- Motivation: 解决CNN因依赖规则网格结构而难以建模复杂拓扑关系和非局部语义的问题。
- Method: 构建了层次化的图结构(局部和全局),并引入自适应频率调制模块平衡信号传播。
- Result: 在多个数据集(分类、检测、分割任务)上验证了HGFE的性能提升。
- Conclusion: HGFE是一种轻量级、可端到端训练的方法,能有效增强CNN的结构表示和识别性能。
[80] Handwritten Text Recognition of Historical Manuscripts Using Transformer-Based Models
Erez Meoded
Main category: cs.CV
TL;DR: 该研究通过应用TrOCR模型和改进的数据增强技术,显著提升了16世纪拉丁手稿的识别准确率。
- Motivation: 解决历史手写文本识别中因稀缺转录、语言变异和多样书写风格导致的数字化障碍。
- Method: 采用TrOCR模型,结合针对性图像预处理和四种新数据增强方法,并评估集成学习策略。
- Result: 最佳单模型增强方法(Elastic)CER为1.86,集成方法CER为1.60,性能提升显著。
- Conclusion: 领域特定的数据增强和集成策略对提升历史手稿识别性能具有重要影响。
[81] AIM: Amending Inherent Interpretability via Self-Supervised Masking
Eyad Alshami,Shashank Agnihotri,Bernt Schiele,Margret Keuper
Main category: cs.CV
TL;DR: AIM方法通过自监督掩码促进DNN使用真实特征而非虚假特征,提升模型性能和可解释性。
- Motivation: 解决DNN常同时使用真实和虚假特征的问题,无需额外标注即可提升模型的可解释性和性能。
- Method: 利用多阶段编码特征指导自监督的样本特定特征掩码过程。
- Result: 在多个数据集上验证,AIM显著提升EPG分数和准确率,表明其促进真实特征的使用。
- Conclusion: AIM能有效提升模型的泛化能力和人类对齐的可解释性。
[82] A Real-time Concrete Crack Detection and Segmentation Model Based on YOLOv11
Shaoze Huang,Qi Liu,Chao Chen,Yuhang Chen
Main category: cs.CV
TL;DR: 本文提出了一种基于YOLOv11n架构的多任务混凝土裂缝检测与分割模型YOLOv11-KW-TA-FP,通过动态KernelWarehouse卷积、三重注意力机制和FP-IoU损失函数优化,显著提升了检测性能。
- Motivation: 长江三角洲地区交通基础设施老化加速,传统人工检测效率低,现有深度学习模型对小目标裂缝检测效果不佳,亟需高效解决方案。
- Method: 模型采用三阶段优化框架:动态KernelWarehouse卷积增强特征表示,三重注意力机制强化通道-空间交互建模,FP-IoU损失函数优化边界框回归。
- Result: 实验表明,模型性能显著提升,精度达91.3%,召回率76.6%,mAP@50为86.4%,且在数据稀缺和噪声干扰下表现稳定。
- Conclusion: 该研究为自动化基础设施检测提供了高效计算机视觉解决方案,具有重要工程实用价值。
[83] Multi-State Tracker: Enhancing Efficient Object Tracking via Multi-State Specialization and Interaction
Shilei Wang,Gong Cheng,Pujian Lai,Dong Gao,Junwei Han
Main category: cs.CV
TL;DR: 提出多状态跟踪器(MST),通过轻量级状态增强(SSE)和跨状态交互(CSI)提升特征表示能力,显著提高跟踪鲁棒性。
- Motivation: 现有高效跟踪器因降低计算复杂度而牺牲特征表示能力,难以准确捕捉目标状态。
- Method: MST结合多状态生成(MSG)、状态增强(SSE)和跨状态交互(CSI),采用轻量级HSA-SSD设计。
- Result: MST在多个数据集上表现优于现有高效跟踪器,计算开销仅0.1 GFLOPs和0.66 M参数。
- Conclusion: MST显著提升跟踪精度和鲁棒性,运行效率高,代码已开源。
[84] An Efficient Medical Image Classification Method Based on a Lightweight Improved ConvNeXt-Tiny Architecture
Jingsong Xia,Yue Yin,Xiuhan Li
Main category: cs.CV
TL;DR: 提出了一种基于改进ConvNeXt-Tiny架构的医学图像分类方法,通过结构优化和损失函数设计,提升特征提取能力和分类性能,同时降低计算复杂度。
- Motivation: 在计算资源受限的环境中实现高效高精度的医学图像分类仍具挑战性。
- Method: 引入双全局池化特征融合策略和轻量级通道注意力模块SEVector,结合特征平滑损失函数。
- Result: 在CPU条件下,10个训练周期内测试集分类准确率达89.10%,损失值稳定收敛。
- Conclusion: 该方法在资源受限环境中有效提升医学图像分类性能,为模型部署提供了可行方案。
[85] Reinforcing Video Reasoning Segmentation to Think Before It Segments
Sitong Gong,Lu Zhang,Yunzhi Zhuge,Xu Jia,Pingping Zhang,Huchuan Lu
Main category: cs.CV
TL;DR: Veason-R1是一种专用于视频推理分割(VRS)的大型视觉语言模型(LVLM),通过结构化推理和强化学习优化,显著提升了性能。
- Motivation: 现有方法在推理时缺乏可解释性且性能不足,无法充分处理时空推理。
- Method: 采用Group Relative Policy Optimization(GRPO)和Chain-of-Thought(CoT)初始化训练模型,结合高质量CoT数据和奖励机制优化推理链。
- Result: 在多个基准测试中达到最先进性能,显著超越现有方法(如ReVOS和ReasonVOS),并减少幻觉现象。
- Conclusion: Veason-R1通过结构化推理和强化学习优化,显著提升了视频推理分割的性能和鲁棒性。
[86] Training-Free Anomaly Generation via Dual-Attention Enhancement in Diffusion Model
Zuo Zuo,Jiahao Dong,Yanyun Qu,Zongze Wu
Main category: cs.CV
TL;DR: 提出了一种基于Stable Diffusion的无训练异常生成框架AAG,通过改进交叉注意力和自注意力机制,生成逼真的异常图像,提升下游异常检测任务性能。
- Motivation: 工业异常检测面临数据稀缺问题,现有异常生成方法缺乏逼真性或需额外训练数据。
- Method: AAG框架利用Stable Diffusion的生成能力,结合Cross-Attention Enhancement(CAE)和Self-Attention Enhancement(SAE)机制,通过文本提示和掩码生成特定区域的异常图像。
- Result: 在MVTec AD和VisA数据集上验证了AAG的有效性,生成的异常图像提升了多种下游异常检测任务的性能。
- Conclusion: AAG为工业异常检测提供了一种高效、无需训练的异常生成方法,具有实际应用价值。
[87] TrajSV: A Trajectory-based Model for Sports Video Representations and Applications
Zheng Wang,Shihao Xu,Wei Shi
Main category: cs.CV
TL;DR: TrajSV是一个基于轨迹的框架,解决了体育分析中的数据不可用、缺乏有效轨迹框架和标签不足的问题,通过三个组件实现无监督学习,并在多个体育视频任务中表现优异。
- Motivation: 解决体育分析中数据不可用、缺乏有效轨迹框架和标签不足的问题。
- Method: TrajSV包括数据预处理、Clip Representation Network (CRNet)和Video Representation Network (VRNet),使用轨迹增强的Transformer模块和无监督的三重对比损失优化表示。
- Result: 在体育视频检索、动作识别和视频字幕任务中表现优异,检索性能提升近70%,动作识别在17类中9类领先,字幕性能提升近20%。
- Conclusion: TrajSV在体育视频分析中实现了最先进的性能,并通过部署系统验证了其实际应用价值。
[88] Causality Matters: How Temporal Information Emerges in Video Language Models
Yumeng Shi,Quanyu Long,Yin Wu,Wenya Wang
Main category: cs.CV
TL;DR: 研究发现,视频语言模型中位置编码对时间理解影响有限,而帧顺序反转会导致性能显著下降。时间信息通过帧间注意力逐步合成,最终整合到查询令牌中。基于此,提出了两种高效策略并验证其有效性。
- Motivation: 探索视频语言模型中时间理解的机制,尤其是位置编码的作用,以改进模型性能。
- Method: 通过分析实验揭示时间信息的整合路径,并提出两种高效策略:分阶段跨模态注意力和时间退出机制。
- Result: 实验证明帧顺序反转对性能影响显著,而位置编码的修改影响较小。提出的策略在基准测试中表现有效。
- Conclusion: 时间理解源于帧间注意力交互,位置编码作用有限。提出的策略为未来模型改进提供了方向。
[89] DashCam Video: A complementary low-cost data stream for on-demand forest-infrastructure system monitoring
Durga Joshi,Chandi Witharana,Robert Fahey,Thomas Worthley,Zhe Zhu,Diego Cerrai
Main category: cs.CV
TL;DR: 提出了一种低成本、可复现的框架,利用车载摄像头视频数据实时评估和定位路边植被及基础设施。
- Motivation: 传统遥感方法(如LiDAR)成本高且不适用于实时监测,本研究旨在提供一种快速、低成本的替代方案。
- Method: 结合单目深度估计、深度误差校正和几何三角测量,从车载摄像头视频流中生成精确的空间和结构数据。
- Result: 深度校正模型表现优异(R2=0.92),低速车辆内部摄像头精度最高(定位误差2.83米,高度误差树木2.09米、杆0.88米)。
- Conclusion: 该框架为城市植被和基础设施监测提供了实时、低成本解决方案,适用于公用事业公司和城市规划者。
[90] CoreEditor: Consistent 3D Editing via Correspondence-constrained Diffusion
Zhe Zhu,Honghua Chen,Peng Li,Mingqiang Wei
Main category: cs.CV
TL;DR: CoreEditor提出了一种基于文本驱动的3D编辑框架,通过引入对应约束注意力机制和语义相似性,解决了多视角一致性问题,并支持用户选择性编辑。
- Motivation: 现有方法在文本驱动的3D编辑中难以保持多视角一致性,导致编辑效果不足和细节模糊。
- Method: CoreEditor采用对应约束注意力机制,结合几何对齐和语义相似性,设计了选择性编辑流程。
- Result: 实验表明,CoreEditor能生成高质量、3D一致的编辑结果,细节更清晰,优于现有方法。
- Conclusion: CoreEditor通过创新的注意力机制和用户控制流程,显著提升了文本驱动的3D编辑效果。
[91] Controlling Multimodal LLMs via Reward-guided Decoding
Oscar Mañas,Pierluca D'Oro,Koustuv Sinha,Adriana Romero-Soriano,Michal Drozdzal,Aishwarya Agrawal
Main category: cs.CV
TL;DR: 本文提出了一种通过奖励引导解码来适应多模态大语言模型(MLLMs)的方法,以提升其视觉定位能力,并在对象幻觉基准测试中表现出色。
- Motivation: 随着多模态大语言模型的广泛应用,需要适应多样化用户需求,本文旨在通过可控解码实现这一目标。
- Method: 构建两个独立的奖励模型,分别控制对象精度和召回率,并在解码过程中动态调整奖励函数的权重和搜索广度。
- Result: 方法在对象幻觉基准测试中显著优于现有方法,并提供了对MLLM推理过程的灵活控制。
- Conclusion: 该方法为MLLMs的视觉定位提供了可控的解码策略,同时有效减少了对象幻觉问题。
[92] LoRAtorio: An intrinsic approach to LoRA Skill Composition
Niki Foteinopoulou,Ignas Budvytis,Stephan Liwicki
Main category: cs.CV
TL;DR: LoRAtorio是一个无需训练的多LoRA组合框架,通过利用模型内在行为解决现有方法在多LoRA组合中的问题,显著提升了性能。
- Motivation: 现有方法在多LoRA组合中表现不佳,尤其是在开放环境下,无法有效处理未知数量和类型的技能需求。
- Method: 通过在潜在空间中将空间分块并计算与基础模型的余弦相似度,构建空间感知权重矩阵,加权聚合LoRA输出。
- Result: LoRAtorio在ClipScore上提升1.3%,在GPT-4V评估中胜率达72.43%,并适用于多种潜在扩散模型。
- Conclusion: LoRAtorio在多LoRA组合任务中表现出色,为开放环境下的视觉概念个性化提供了有效解决方案。
[93] Is ChatGPT-5 Ready for Mammogram VQA?
Qiang Li,Shansong Wang,Mingzhe Hu,Mojtaba Safari,Zachary Eidex,Xiaofeng Yang
Main category: cs.CV
TL;DR: GPT-5在乳腺X光片视觉问答(VQA)任务中表现优于GPT-4o,但在BI-RADS评估、异常检测和恶性分类任务中仍落后于人类专家和领域专用模型。
- Motivation: 探索通用大语言模型(LLMs)在乳腺X光片VQA任务中的潜力,以支持乳腺癌筛查。
- Method: 在四个公开乳腺X光片数据集(EMBED、InBreast、CMMD、CBIS-DDSM)上评估GPT-5和GPT-4o的性能,涵盖BI-RADS评估、异常检测和恶性分类任务。
- Result: GPT-5在多个任务中表现最佳,但敏感性和特异性低于人类专家。例如,在EMBED数据集上,GPT-5在密度、变形、肿块、钙化和恶性分类中得分最高。
- Conclusion: GPT-5在乳腺X光片VQA任务中展现出潜力,但仍需领域适应和优化才能用于高风险的临床影像应用。
[94] Thyme: Think Beyond Images
Yi-Fan Zhang,Xingyu Lu,Shukang Yin,Chaoyou Fu,Wei Chen,Xiao Hu,Bin Wen,Kaiyu Jiang,Changyi Liu,Tianke Zhang,Haonan Fan,Kaibing Chen,Jiankang Chen,Haojie Ding,Kaiyu Tang,Zhang Zhang,Liang Wang,Fan Yang,Tingting Gao,Guorui Zhou
Main category: cs.CV
TL;DR: 论文提出Thyme框架,通过生成和执行代码增强多模态大语言模型的图像处理和逻辑推理能力,采用两阶段训练策略,实验证明其在复杂任务中表现优异。
- Motivation: 现有开源模型在图像处理和逻辑推理能力上不如专有模型(如O3),因此作者提出Thyme框架,旨在通过代码生成和执行弥补这一差距。
- Method: 提出Thyme框架,通过两阶段训练(SFT和RL)实现代码生成和决策优化,并设计GRPO-ATS算法平衡推理探索与代码执行精度。
- Result: 在近20个基准测试中,Thyme在复杂推理和高分辨率感知任务中表现显著优于现有方法。
- Conclusion: Thyme通过代码生成和执行有效提升了多模态模型的图像处理和推理能力,为未来研究提供了新方向。
cs.MA
[95] Allen: Rethinking MAS Design through Step-Level Policy Autonomy
Qiangong Zhou,Zhiting Wang,Mingyou Yao,Zongyang Liu
Main category: cs.MA
TL;DR: Allen是一个新型多智能体系统(MAS),旨在提升策略自主性并平衡协作效率与任务监督。
- Motivation: 解决当前MAS设计中策略自主性不足及协作效率与监督难以权衡的问题。
- Method: 通过重新定义MAS中的基本执行单元,构建四层状态架构(任务、阶段、智能体、步骤)以实现拓扑优化与可控进度的统一。
- Result: Allen实现了前所未有的策略自主性,并在协作结构的可控性上取得平衡。
- Conclusion: Allen为MAS设计提供了新的解决方案,其代码已开源。
eess.IV
[96] The Role of Radiographic Knee Alignment in Knee Replacement Outcomes and Opportunities for Artificial Intelligence-Driven Assessment
Zhisen Hu,David S. Johnson,Aleksei Tiulpin,Timothy F. Cootes,Claudia Lindner
Main category: eess.IV
TL;DR: 本文综述了膝关节置换术(TKR)的预后评估及膝关节排列生物标志物的作用,探讨了AI在膝关节X光片自动分析中的应用,并展望了未来研究方向。
- Motivation: 膝关节骨关节炎(OA)的治疗依赖TKR,但手术预后难以预测。膝关节排列是影响TKR预后的关键因素之一,而现有研究多关注OA诊断而非TKR预后评估。
- Method: 综述了TKR预后评分协议、膝关节排列生物标志物,以及基于AI的膝关节X光片自动分析方法。
- Result: AI在膝关节排列生物标志物生成中显示出潜力,但现有研究多集中于OA诊断而非TKR预后预测。
- Conclusion: 未来需进一步探索膝关节排列与TKR预后的关系,并优化AI在预后预测中的应用。
[97] Deep Learning-Based Automated Segmentation of Uterine Myomas
Tausifa Jan Saleem,Mohammad Yaqub
Main category: eess.IV
TL;DR: 论文探讨了子宫肌瘤的自动化分割需求,利用公开数据集UMD建立基线,推动标准化评估。
- Motivation: 子宫肌瘤对女性生殖健康造成重大负担,MRI分割过程耗时且存在变异性,需自动化方法。
- Method: 利用深度学习算法和公开数据集UMD,实现子宫肌瘤的自动化分割。
- Result: 研究为子宫肌瘤的自动化分割提供了基线,支持标准化评估和未来研究。
- Conclusion: 公开数据集和深度学习算法为子宫肌瘤的自动化分割提供了可行方案,促进领域发展。
[98] HistoViT: Vision Transformer for Accurate and Scalable Histopathological Cancer Diagnosis
Faisal Ahmed
Main category: eess.IV
TL;DR: 提出了一种基于Transformer的深度学习框架,用于组织病理学图像中的多类肿瘤分类,显著提升了分类性能。
- Motivation: 癌症诊断的准确性和可扩展性在现代病理学中是一个关键挑战,尤其是对于乳腺癌、前列腺癌、骨癌和宫颈癌等具有复杂组织学变异性的恶性肿瘤。
- Method: 采用微调的Vision Transformer (ViT)架构,通过简化的预处理流程将全切片图像转换为PyTorch张量并进行数据标准化,以适配ViT架构。
- Result: 在四个基准数据集上(乳腺癌、前列腺癌、骨癌和宫颈癌)的分类准确率分别达到99.32%、96.92%、95.28%和96.94%,AUC分数均超过99%。
- Conclusion: 基于Transformer的架构在数字病理学中展现出强大的鲁棒性、泛化能力和临床潜力,为可靠、自动化和可解释的癌症诊断系统提供了重要进展。
[99] Efficient Image-to-Image Schrödinger Bridge for CT Field of View Extension
Zhenhao Li,Long Yang,Xiaojie Yin,Haijun Yu,Jiazhou Wang,Hongbin Han,Weigang Hu,Yixing Huang
Main category: eess.IV
TL;DR: 提出了一种基于Schrödinger Bridge扩散模型的高效CT视野扩展框架,显著提升了重建速度和准确性。
- Motivation: 传统CT扫描中,超出视野范围的投影数据会导致重建不完整和伪影,现有算法难以解决这一问题。
- Method: 采用I²SB扩散模型,直接学习有限视野与扩展视野图像之间的随机映射,避免了传统扩散模型的迭代采样过程。
- Result: 在模拟和真实数据上,I²SB的RMSE表现优于现有扩散模型,且重建速度显著提升(0.19秒/切片)。
- Conclusion: I²SB在准确性和效率上的优势使其适合实时或临床部署。
[100] Guiding WaveMamba with Frequency Maps for Image Debanding
Xinyi Wang,Smaranda Tasmoc,Nantheera Anantrasirichai,Angeliki Katsenou
Main category: eess.IV
TL;DR: 提出了一种基于小波状态空间模型和频率掩码图的频带修复方法,有效抑制低码率压缩中的条带伪影。
- Motivation: 低码率压缩常导致条带伪影(如天空区域),影响视觉质量,尤其在用户生成内容中因多次转码而常见。
- Method: 采用小波状态空间模型和频率掩码图,保留高频细节。
- Result: 在公开数据集上,所提方法优于现有技术(DBI值为0.082),同时保留图像纹理。
- Conclusion: 该方法有效抑制条带伪影,视觉质量提升,代码已开源。
[101] AnatoMaskGAN: GNN-Driven Slice Feature Fusion and Noise Augmentation for Medical Semantic Image Synthesis
Zonglin Wu,Yule Xue,Qianxiang Hu,Yaoyao Feng,Yuqi Ma,Shanxiong Chen
Main category: eess.IV
TL;DR: AnatoMaskGAN通过嵌入切片相关空间特征、引入多样化图像增强策略和优化深度特征学习,提升复杂医学图像的生成质量和空间一致性。
- Motivation: 现有GAN方法在复杂扫描中缺乏空间一致性且生成一对一图像,限制了数据增强和分析的效果。
- Method: 提出AnatoMaskGAN框架,包括GNN切片特征融合模块、三维空间噪声注入策略和灰度纹理分类器。
- Result: 在L2R-OASIS和L2R-Abdomen CT数据集上,PSNR和SSIM指标显著提升,优于现有方法。
- Conclusion: AnatoMaskGAN的核心设计均对提升重建精度和感知质量有独立贡献,验证了其有效性。
[102] LKFMixer: Exploring Large Kernel Feature For Efficient Image Super-Resolution
Yinggan Tang,Quanwei Hu
Main category: eess.IV
TL;DR: LKFMixer是一种纯卷积神经网络模型,通过大卷积核模拟自注意力机制的非局部特征捕捉能力,解决了Transformer计算量大的问题,并在图像超分辨率任务中表现优异。
- Motivation: 自注意力机制在Transformer中表现出色,但其计算量大,难以实现轻量化模型。因此,需要一种更高效的方法来捕捉非局部特征。
- Method: 提出LKFMixer模型,使用大卷积核(31x31)模拟自注意力机制,并通过坐标分解减少参数和计算量。同时设计了空间特征调制块(SFMB)和特征选择块(FSB)优化特征提取。
- Result: 实验表明,LKFMixer在超分辨率任务中优于其他SOTA方法,例如在Manga109数据集上比SwinIR-light PSNR提升0.6dB,推理速度快5倍。
- Conclusion: LKFMixer通过大卷积核和优化模块设计,实现了高效的非局部特征捕捉,为轻量化超分辨率模型提供了新思路。
[103] Subcortical Masks Generation in CT Images via Ensemble-Based Cross-Domain Label Transfer
Augustine X. W. Lee,Pak-Hei Yeung,Jagath C. Rajapakse
Main category: eess.IV
TL;DR: 本文提出了一种自动集成框架,利用MRI模型为CT扫描生成高质量皮层下分割标签,填补了CT领域的数据空白。
- Motivation: 皮层下分割在神经影像中对理解脑解剖和辅助诊断至关重要,但CT领域缺乏标注数据。
- Method: 通过集成MRI模型并应用于未标注的MRI-CT配对数据,生成CT皮层下分割数据集。
- Result: 实验证明该框架性能优越,生成的CT数据集提升了相关分割任务的模型表现。
- Conclusion: 开源了代码、数据集和模型,推动了CT皮层下分割的研究。
[104] Semi-Supervised Learning with Online Knowledge Distillation for Skin Lesion Classification
Siyamalan Manivannan
Main category: eess.IV
TL;DR: 提出了一种结合集成学习和在线知识蒸馏的半监督深度学习方法,用于皮肤病变分类,减少对大量标注数据的依赖。
- Motivation: 现有方法依赖全监督学习,需要大量标注数据,成本高且难以获取。
- Method: 训练卷积神经网络集成模型,通过在线知识蒸馏将集成模型的洞察传递给成员模型,提升个体性能。
- Result: 在ISIC 2018和2019数据集上表现优于现有方法,知识蒸馏后的个体模型性能优于独立训练模型。
- Conclusion: 该方法通过集成学习和在线知识蒸馏,降低了标注数据需求,提供了更高效的皮肤病变分类解决方案。
cs.MM
[105] Failures to Surface Harmful Contents in Video Large Language Models
Yuxin Cao,Wei Song,Derui Wang,Jingling Xue,Jin Song Dong
Main category: cs.MM
TL;DR: VideoLLMs存在安全漏洞,可能忽略视频中的有害内容,原因包括帧采样不足、空间信息丢失和编解码器脱节。
- Motivation: 揭示VideoLLMs在处理视频时可能忽略有害内容的安全漏洞。
- Method: 通过分析设计缺陷(帧采样、空间信息丢失、编解码器脱节),提出三种零查询黑盒攻击。
- Result: 评估显示,有害内容遗漏率超过90%,即使内容明显存在。
- Conclusion: 当前VideoLLMs设计存在根本性漏洞,需改进采样策略、压缩和解码机制。
cs.SD
[106] LD-LAudio-V1: Video-to-Long-Form-Audio Generation Extension with Dual Lightweight Adapters
Haomin Zhang,Kristin Qi,Shuxin Yang,Zihao Chen,Chaofan Ding,Xinhan Di
Main category: cs.SD
TL;DR: 论文提出LD-LAudio-V1模型,通过双轻量适配器实现长视频音频生成,并发布高质量数据集。
- Motivation: 解决现有方法在长视频音频生成中的噪声和同步问题。
- Method: 扩展现有模型,引入双轻量适配器,并构建干净数据集。
- Result: 显著减少拼接伪影和时间不一致性,多项指标提升显著。
- Conclusion: LD-LAudio-V1在长视频音频生成中表现优异,数据集促进后续研究。
cs.RO
[107] GenFlowRL: Shaping Rewards with Generative Object-Centric Flow in Visual Reinforcement Learning
Kelin Yu,Sheng Zhang,Harshit Soora,Furong Huang,Heng Huang,Pratap Tokekar,Ruohan Gao
Main category: cs.RO
TL;DR: GenFlowRL通过从多样化的跨体现数据集中提取生成流来设计奖励,解决了视频生成模型在机器人学习中的局限性,提升了策略的泛化性和鲁棒性。
- Motivation: 视频生成模型在机器人学习中依赖生成数据质量且缺乏环境反馈,导致细粒度操作困难。视频强化学习受限于视频生成的不确定性和大规模数据集收集的挑战。
- Method: GenFlowRL从多样化的跨体现数据集中提取生成流,利用低维、以对象为中心的特征设计奖励,学习泛化性强的策略。
- Result: 在10个模拟和真实世界的跨体现操作任务中,GenFlowRL表现优异,能够有效利用生成的对象中心流提取的操作特征。
- Conclusion: GenFlowRL通过生成流设计奖励,显著提升了策略的性能和泛化能力,适用于多样化和具有挑战性的场景。
[108] Scene Graph-Guided Proactive Replanning for Failure-Resilient Embodied Agent
Che Rin Yu,Daewon Chae,Dabin Seo,Sangwon Lee,Hyeongwoo Im,Jinkyu Kim
Main category: cs.RO
TL;DR: 提出了一种主动重新规划框架,通过比较当前场景图与参考图,在子任务边界检测并纠正潜在失败,提升机器人任务成功率。
- Motivation: 人类能根据环境状态调整行为,而机器人常因缺乏适应性导致失败。现有方法多为事后补救,效率低。
- Method: 构建当前RGB-D观测的场景图与成功演示的参考图,在子任务边界检测不匹配时,轻量推理模块调整计划。
- Result: 在AI2-THOR模拟器中,该方法能提前检测语义和空间不匹配,显著提高任务成功率和鲁棒性。
- Conclusion: 主动重新规划框架有效预防执行失败,提升机器人适应性。
[109] Relative Position Matters: Trajectory Prediction and Planning with Polar Representation
Bozhou Zhang,Nan Song,Bingzhao Gao,Li Zhang
Main category: cs.RO
TL;DR: 论文提出了一种基于极坐标的新方法Polaris,用于自动驾驶中的轨迹预测与规划,相比传统笛卡尔坐标方法更直观有效。
- Motivation: 现有方法在笛卡尔坐标系中建模车辆与周围交通元素的关系不够理想,未能自然捕捉距离和方向的影响。
- Method: 采用极坐标系表示位置,通过专用编码和细化模块显式建模距离和方向变化,实现结构化预测与规划。
- Result: 在Argoverse 2和nuPlan基准测试中,Polaris达到了最先进的性能。
- Conclusion: 极坐标表示能更有效地建模空间关系和相对影响,提升自动驾驶轨迹预测与规划的准确性。
[110] Visual Perception Engine: Fast and Flexible Multi-Head Inference for Robotic Vision Tasks
Jakub Łucki,Jonathan Becktor,Georgios Georgakis,Robert Royce,Shehryar Khattak
Main category: cs.RO
TL;DR: VPEngine是一个模块化框架,通过共享基础模型骨干和多任务并行处理,提升GPU利用效率,减少计算冗余,实现实时性能。
- Motivation: 解决资源受限机器人平台上多模型部署导致的冗余计算、内存占用大和集成复杂性问题。
- Method: 采用共享基础模型骨干提取图像表征,并行运行多任务专用模型头,动态调整任务优先级,基于CUDA MPS优化GPU利用。
- Result: 使用DINOv2作为基础模型,实现3倍加速,支持实时性能(≥50 Hz),内存占用恒定。
- Conclusion: VPEngine高效、可扩展,适用于机器人视觉多任务处理,开源且支持ROS2,便于社区使用。
cs.CL
[111] Model Interpretability and Rationale Extraction by Input Mask Optimization
Marc Brinner,Sina Zarriess
Main category: cs.CL
TL;DR: 提出一种基于梯度优化的新方法,通过掩码输入生成神经网络的解释,适用于文本和图像输入。
- Motivation: 随着神经网络模型的发展,解释其预测的需求日益增长。
- Method: 使用梯度优化和正则化方案生成掩码,确保解释的充分性、全面性和紧凑性。
- Result: 方法在文本和图像分类中均能生成高质量解释,证明其广泛适用性。
- Conclusion: 无需专门训练模型,即可实现模型可解释性与理由提取的结合。
eess.SP
[112] Temporally-Similar Structure-Aware Spatiotemporal Fusion of Satellite Images
Ryosuke Isono,Shunsuke Ono
Main category: eess.SP
TL;DR: TSSTF是一种新的时空融合框架,通过TGTV和TGEC机制提升噪声条件下的图像融合质量,优于现有方法。
- Motivation: 解决卫星图像时空分辨率权衡问题,并增强噪声鲁棒性,同时避免现有方法导致的过度平滑和伪影。
- Method: 引入TGTV和TGEC机制,将融合任务建模为约束优化问题,采用预处理原始-对偶分裂算法求解。
- Result: 在无噪声条件下与现有方法相当,在噪声条件下表现更优,并提供推荐参数以增强实用性。
- Conclusion: TSSTF在噪声鲁棒性和结构细节保留方面表现优异,具有实际应用潜力。
cs.GR
[113] StyleMM: Stylized 3D Morphable Face Model via Text-Driven Aligned Image Translation
Seungmi Lee,Kwan Yun,Junyong Noh
Main category: cs.GR
TL;DR: StyleMM是一个基于文本描述构建风格化3D可变形模型(3DMM)的新框架,通过扩散模型生成风格化目标图像,并保留原始面部属性。
- Motivation: 现有方法在风格化3DMM时难以保持面部属性和多样性,StyleMM旨在解决这一问题。
- Method: 结合预训练的网格变形网络和纹理生成器,通过文本引导的图像到图像翻译生成风格化目标,并保留关键面部属性。
- Result: StyleMM在面部多样性和风格化能力上优于现有方法,支持对形状、表情和纹理参数的显式控制。
- Conclusion: StyleMM提供了一种高效且可控的风格化3DMM生成方法,适用于动画和多样化应用。
[114] SPG: Style-Prompting Guidance for Style-Specific Content Creation
Qian Liang,Zichong Chen,Yang Zhou,Hui Huang
Main category: cs.GR
TL;DR: 提出了一种名为Style-Prompting Guidance (SPG)的新采样策略,用于生成特定风格的图像,结合Classifier-Free Guidance (CFG)实现语义保真和风格一致性。
- Motivation: 尽管现有的文本到图像(T2I)扩散模型在生成与文本提示对齐的图像方面表现优异,但控制输出图像的视觉风格仍具挑战性。
- Method: SPG通过构建风格噪声向量,并利用其与无条件噪声的方向偏差引导扩散过程朝向目标风格分布。
- Result: 实验表明,SPG在风格一致性方面优于现有方法,且兼容ControlNet和IPAdapter等可控框架。
- Conclusion: SPG是一种简单、鲁棒且广泛适用的方法,有效解决了风格控制问题。
cs.LG
[115] Match & Choose: Model Selection Framework for Fine-tuning Text-to-Image Diffusion Models
Basile Lewandowski,Robert Birke,Lydia Y. Chen
Main category: cs.LG
TL;DR: 本文提出了一种名为M&C的模型选择框架,帮助用户从模型平台中选择最适合目标数据域的预训练T2I模型,无需对所有模型进行微调。
- Motivation: 预训练的T2I模型虽然推动了模型的民主化,但用户面临如何选择最适合目标数据域的模型的挑战。目前模型选择在分类任务中已有研究,但在T2I模型中尚未解决。
- Method: M&C框架基于匹配图,包含模型和数据集节点,以及模型-数据和数据-数据对的边,通过图嵌入特征预测最佳微调模型。
- Result: 在10个T2I模型和32个数据集上的实验表明,M&C在61.3%的情况下成功预测最佳模型,其余情况下也能预测性能接近的模型。
- Conclusion: M&C为预训练T2I模型的模型选择提供了高效解决方案,显著减少了微调成本。
[116] Boosting the Robustness-Accuracy Trade-off of SNNs by Robust Temporal Self-Ensemble
Jihang Wang,Dongcheng Zhao,Ruolin Chen,Qian Zhang,Yi Zeng
Main category: cs.LG
TL;DR: 本文提出了一种名为RTE的训练框架,通过时间集成提升SNN的对抗鲁棒性,解决了时间子网络的脆弱性和对抗漏洞的时间传递性问题。
- Motivation: SNN在能效和类脑计算方面具有潜力,但其对抗扰动的脆弱性尚未被充分理解。
- Method: 提出RTE框架,通过统一损失函数和随机采样策略优化时间子网络的鲁棒性并减少对抗扰动的时间传递性。
- Result: 实验表明RTE在多基准测试中优于现有方法,重塑了SNN的内部鲁棒性景观。
- Conclusion: 研究强调了时间结构在对抗学习中的重要性,为构建鲁棒的SNN模型提供了理论基础。
[117] Robust Convolution Neural ODEs via Contractivity-promoting regularization
Muhammad Zakwan,Liang Xu,Giancarlo Ferrari-Trecate
Main category: cs.LG
TL;DR: 论文提出了一种通过收缩理论提升卷积神经常微分方程(NODEs)鲁棒性的方法,并通过正则化项和权重正则化实现。
- Motivation: 神经网络的输入噪声和对抗攻击可能导致脆弱性,因此需要提升其鲁棒性。
- Method: 利用收缩理论,通过正则化项或权重正则化项,使NODEs具有收缩性,从而减少特征扰动对输出的影响。
- Result: 在MNIST和FashionMNIST数据集上,该方法有效提升了模型对噪声和攻击的鲁棒性。
- Conclusion: 通过收缩理论和正则化方法,可以显著提升NODEs的鲁棒性,适用于对抗性环境。
math.NA
[118] Fluid Dynamics and Domain Reconstruction from Noisy Flow Images Using Physics-Informed Neural Networks and Quasi-Conformal Mapping
Han Zhang,Xue-Cheng Tai,Jean-Michel Morel,Raymond H. Chan
Main category: math.NA
TL;DR: 该论文提出了一种基于物理约束的优化方法,用于去噪血流图像,通过分解为流体和几何子问题,利用交替迭代优化速度和域重建。
- Motivation: 血流图像在医学诊断和治疗规划中至关重要,但高质量图像获取仍具挑战性,尤其是噪声和伪影问题。
- Method: 将任务建模为优化问题,分解为流体子问题(使用物理信息神经网络重建速度场)和几何子问题(优化准共形映射推断流区域),交替迭代求解。
- Result: 在合成和真实数据实验中验证了方法的有效性和鲁棒性,并通过消融研究评估了关键超参数的影响。
- Conclusion: 该方法能高质量重建血流图像,为医学图像处理提供了有效工具。
Powered by Deepseek & arXiv Daily AI Enhanced