Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Tuning adaptive gamma correction (TAGC) for enhancing images in low ligh
Ghufran Abualhail Alhamzawi,Ali Saeed Alfoudi,Ali Hakem Alsaeedi,Suha Mohammed Hadi,Amjed Abbas Ahmed,Md. Riad Hassan,Nurhizam Safie Mohd Satar,Waeel Yahya Yasseen
Main category: cs.CV
TL;DR: 提出了一种基于自适应伽马校正的低光图像增强模型(TAGC),通过自动计算伽马值提升图像质量。
- Motivation: 低光条件下图像质量下降,表现为低对比度、噪声和细节模糊,需要高效解决方案。
- Method: 分析图像颜色亮度,计算平均颜色以确定自适应伽马系数,自动调整伽马值。
- Result: 模型有效提升图像质量,保持细节和自然对比度,适用于多种应用场景。
- Conclusion: TAGC是一种高效的低光图像处理解决方案,无需人工干预。
[2] Is Exchangeability better than I.I.D to handle Data Distribution Shifts while Pooling Data for Data-scarce Medical image segmentation?
Ayush Roy,Samin Enam,Jun Xia,Vishnu Suresh Lokhande,Won Hwa Kim
Main category: cs.CV
TL;DR: 论文探讨了医学影像中数据稀缺问题,提出了一种通过控制特征差异提升分割性能的方法,并在多个数据集上验证了其有效性。
- Motivation: 医学影像数据稀缺,数据合并或增加可能导致分布偏移,影响模型性能,传统i.i.d.假设不适用。
- Method: 基于因果框架,提出控制深度网络各层前景-背景特征差异的方法,优化特征表示。
- Result: 在五个数据集(包括新贡献的超声数据集)上实现了最先进的分割性能,定性结果显示更精细的分割图。
- Conclusion: 该方法有效解决了数据增加带来的分布偏移问题,提升了医学图像分割的准确性。
[3] T-MPEDNet: Unveiling the Synergy of Transformer-aware Multiscale Progressive Encoder-Decoder Network with Feature Recalibration for Tumor and Liver Segmentation
Chandravardhan Singh Raghaw,Jasmer Singh Sanjotra,Mohammad Zia Ur Rehman,Shubhi Bansal,Shahid Shafi Dar,Nagendra Kumar
Main category: cs.CV
TL;DR: 论文提出了一种新型的Transformer-aware Multiscale Progressive Encoder-Decoder Network(T-MPEDNet),用于自动化肝脏和肿瘤的CT扫描分割,解决了肿瘤异质性和肝脏视觉特征多样性的挑战。
- Motivation: 自动化肝脏和肿瘤分割在快速诊断和治疗计划中至关重要,但面临肿瘤异质性和肝脏视觉特征多样性的挑战。
- Method: T-MPEDNet采用渐进式编码器-解码器结构,结合Transformer动态注意力机制和多尺度特征利用,并通过形态学边界细化提升边界清晰度。
- Result: 在LiTS和3DIRCADb数据集上,T-MPEDNet的肝脏和肿瘤分割DSC分别达到97.6%/89.1%和98.3%/83.3%,优于12种现有方法。
- Conclusion: T-MPEDNet是一种高效可靠的自动化肝脏和肿瘤分割框架。
[4] SurgPIS: Surgical-instrument-level Instances and Part-level Semantics for Weakly-supervised Part-aware Instance Segmentation
Meng Wei,Charlie Budd,Oluwatosin Alabi,Miaojing Shi,Tom Vercauteren
Main category: cs.CV
TL;DR: 提出了一种统一的部分感知实例分割(PIS)方法SurgPIS,用于手术器械分割,结合了实例级和部分级分割任务,并通过弱监督学习和师生框架解决了数据标注不完整的问题。
- Motivation: 现有方法仅单独处理实例级或部分级分割任务,缺乏交互,限制了自动化手术的准确性。
- Method: 采用基于Transformer的掩码分类方法,引入部分特定查询,并通过弱监督学习和师生框架训练模型。
- Result: 在多个数据集上验证了SurgPIS的有效性,实现了PIS、IIS、PSS和仪器级语义分割的最先进性能。
- Conclusion: SurgPIS通过统一任务和弱监督学习,显著提升了手术器械分割的准确性和一致性。
[5] Object-centric Video Question Answering with Visual Grounding and Referring
Haochen Wang,Qirui Chen,Cilin Yan,Jiayin Cai,Xiaolong Jiang,Yao Hu,Weidi Xie,Stratis Gavves
Main category: cs.CV
TL;DR: 论文提出了一种支持多模态交互的VideoLLM模型,通过STOM模块实现视觉提示的时空传播,并构建了VideoInfer数据集,实验表明其在视频问答和分割任务中优于基线方法。
- Motivation: 现有VideoLLM模型仅支持文本交互,缺乏对对象为中心的多轮交互能力,限制了灵活性。
- Method: 引入支持对象引用和定位的VideoLLM模型,提出STOM模块实现视觉提示的时空传播,构建VideoInfer数据集。
- Result: 在12个基准测试的6项任务中,模型在视频问答和分割任务中均优于基线方法。
- Conclusion: 该模型在多模态、对象为中心的视频理解中表现出鲁棒性,为视频交互提供了新思路。
[6] Exemplar Med-DETR: Toward Generalized and Robust Lesion Detection in Mammogram Images and beyond
Sheethal Bhat,Bogdan Georgescu,Adarsh Bhandary Panambur,Mathias Zinnen,Tri-Thien Nguyen,Awais Mansoor,Karim Khalifa Elbarbary,Siming Bayer,Florin-Cristian Ghesu,Sasa Grbic,Andreas Maier
Main category: cs.CV
TL;DR: 论文提出了一种名为Exemplar Med-DETR的多模态对比检测器,通过跨注意力机制和类特定示例特征,显著提升了医学图像中异常检测的性能。
- Motivation: 医学图像中异常检测的挑战在于特征表示的差异以及解剖结构与异常之间的复杂关系,尤其是在乳腺X光片中,致密组织可能掩盖病变。现有方法难以学习有效的类特定特征,限制了其跨任务和成像模态的适用性。
- Method: Exemplar Med-DETR采用多模态对比检测方法,利用跨注意力机制和直观的类特定示例特征,并通过迭代策略进行训练。
- Result: 在四种公共数据集上实现了最先进的性能,包括越南致密乳腺X光片(肿块检测mAP 0.7,钙化检测mAP 0.55)、中国队列的病变检测性能提升两倍,以及胸部X光和血管造影中的显著改进。
- Conclusion: 该方法展示了在医学图像中实现鲁棒且可泛化的检测系统的潜力。
[7] Pre- and Post-Treatment Glioma Segmentation with the Medical Imaging Segmentation Toolkit
Adrian Celaya,Tucker Netherton,Dawid Schellingerhout,Caroline Chung,Beatrice Riviere,David Fuentes
Main category: cs.CV
TL;DR: MIST是一个模块化医学图像分割工具包,专注于后处理框架的灵活性,支持多种变换和用户自定义策略,用于BraTS 2025挑战赛。
- Motivation: 医学图像分割方法缺乏标准化和可定制工具,难以进行严格比较。
- Method: 扩展MIST的后处理模块,支持多种变换(如小对象移除、形态学操作等),并允许用户自定义策略。
- Result: 评估三种策略,显示MIST能快速实验并优化分割结果。
- Conclusion: MIST开源且可扩展,支持医学图像分割的可重复和规模化研究。
[8] SynPAIN: A Synthetic Dataset of Pain and Non-Pain Facial Expressions
Babak Taati,Muhammad Muzammil,Yasamin Zarghami,Abhishek Moturu,Airhossein Kazerouni,Hailey Reimer,Alex Mihailidis,Thomas Hadjistavropoulos
Main category: cs.CV
TL;DR: SynPAIN是一个大规模合成数据集,用于解决疼痛评估中的种族/年龄多样性不足问题,并通过AI生成的面部表情验证了其临床有效性。
- Motivation: 疼痛评估在沟通受限患者(如痴呆老人)中具有挑战性,现有数据集缺乏多样性和代表性。
- Method: 使用商业生成AI工具创建了包含多民族、年龄和性别的合成数据集,并通过临床验证工具评估其有效性。
- Result: 合成数据展示了预期的疼痛模式,并揭示了现有疼痛检测模型的算法偏见,同时数据增强提高了7.0%的平均精度。
- Conclusion: SynPAIN填补了疼痛评估研究的空白,提供了首个公开的多样化合成数据集,并为减少算法偏见提供了框架。
[9] Efficient Learning for Product Attributes with Compact Multimodal Models
Mandar Kulkarni
Main category: cs.CV
TL;DR: 论文研究了基于标签高效的半监督微调策略,利用未标记数据和直接偏好优化(DPO)提升紧凑视觉语言模型(VLMs)的性能。
- Motivation: 由于手动或API标注成本高,监督微调视觉语言模型面临规模挑战,因此探索利用未标记数据的半监督方法。
- Method: 采用PEFT训练低秩适配器模块,通过生成多推理链并基于自一致性分类,利用DPO损失微调模型。
- Result: 在12个电商领域数据集上,DPO微调显著优于监督模型,且未标记数据越多,性能提升越明显。
- Conclusion: 研究表明,大量未标记数据可通过DPO有效提升模型性能,且计算开销低。
[10] DeepJIVE: Learning Joint and Individual Variation Explained from Multimodal Data Using Deep Learning
Matthew Drexler,Benjamin Risk,James J Lah,Suprateek Kundu,Deqiang Qiu
Main category: cs.CV
TL;DR: DeepJIVE是一种基于深度学习的多模态数据整合方法,能够处理高维数据并识别非线性结构,优于传统方法。
- Motivation: 传统多模态数据整合方法无法处理高维数据和非线性结构,限制了其应用。
- Method: 提出DeepJIVE方法,通过数学推导和实验验证(合成及真实1D、2D、3D数据集),探索了三种可行的损失函数以实现身份和正交约束。
- Result: DeepJIVE成功揭示了多模态数据的联合和独立变化,并在ADNI数据中发现了生物学上合理的淀粉样蛋白PET与MR图像的共变模式。
- Conclusion: DeepJIVE是多模态数据分析的有用工具。
[11] Co-Win: Joint Object Detection and Instance Segmentation in LiDAR Point Clouds via Collaborative Window Processing
Haichuan Li,Tomi Westerlund
Main category: cs.CV
TL;DR: Co-Win是一种新颖的鸟瞰图感知框架,通过点云编码和并行窗口特征提取解决复杂环境理解问题。
- Motivation: 解决复杂城市环境中准确感知和场景理解的挑战,以支持安全高效的自主导航。
- Method: 采用分层架构,包括专用编码器、窗口式主干和查询式解码器,结合变分方法和掩码实例分割。
- Result: 实现了数据一致且上下文相关的预测掩码,生成可解释且多样化的实例预测。
- Conclusion: Co-Win框架在自主驾驶系统中提升了场景分解能力和下游决策规划效果。
[12] Bias Analysis for Synthetic Face Detection: A Case Study of the Impact of Facial Attribute
Asmae Lamsaf,Lucia Cascone,Hugo Proença,João Neves
Main category: cs.CV
TL;DR: 本文提出了一种评估框架,用于分析合成人脸检测器的偏见,并通过合成数据生成和属性平衡来减少数据偏差。研究发现现有检测器对某些面部属性存在偏见,并探讨了偏见的来源。
- Motivation: 合成人脸检测器的偏见可能导致对某些人口群体的检测失败,引发社会、法律和伦理问题,因此需要分析其偏见。
- Method: 利用合成数据生成和均匀分布的属性标签构建评估框架,分析五种先进检测器在25种面部属性上的偏见。
- Result: 研究发现合成人脸检测器普遍对特定面部属性存在偏见,并揭示了偏见与训练数据平衡和检测器激活图的相关性。
- Conclusion: 该框架为合成人脸检测器的偏见分析提供了有效工具,并揭示了偏见的来源,为未来研究提供了方向。
[13] Quaternion-Based Robust PCA for Efficient Moving Target Detection and Background Recovery in Color Videos
Liyang Wang,Shiqian Wu,Shun Fang,Qile Zhu,Jiaxin Wu,Sos Again
Main category: cs.CV
TL;DR: 论文提出了一种基于四元数黎曼流形的低复杂度QSVD方法,并设计了uQRPCA框架,进一步扩展为uQRPCA+,通过CR1B方法优化背景恢复,实现了移动目标检测和背景恢复的SOTA性能。
- Motivation: 解决颜色视频处理中QSVD计算复杂度高和传统方法无法有效分离背景与目标的问题,以提升移动目标检测的准确性和背景恢复效果。
- Method: 利用四元数黎曼流形降低QSVD计算复杂度,提出uQRPCA框架平衡目标分割与背景恢复,并通过CR1B方法优化跨颜色通道的低秩背景。
- Result: uQRPCA+在移动目标检测和背景恢复任务上达到SOTA性能,显著优于现有开源方法。
- Conclusion: uQRPCA+通过高效的四元数处理和CR1B方法,显著提升了移动目标检测和背景恢复的效果,为实际应用提供了有力工具。
[14] Leveraging Sparse LiDAR for RAFT-Stereo: A Depth Pre-Fill Perspective
Jinsu Yoo,Sooyoung Jeon,Zanming Huang,Tai-Yu Pan,Wei-Lun Chao
Main category: cs.CV
TL;DR: 论文研究了在RAFT-Stereo框架中引入LiDAR引导以提高立体匹配精度,发现稀疏LiDAR点会导致性能下降,并提出基于信号处理的解释和简单解决方案。
- Motivation: 通过LiDAR深度信息提升立体匹配精度,但在稀疏LiDAR条件下效果显著下降,需找到解决方案。
- Method: 提出预填充稀疏初始视差图的简单方法,并针对早期融合采用不同预填充策略。
- Result: 结合两种预填充方法的GRAFT-Stereo在稀疏LiDAR条件下显著优于现有方法。
- Conclusion: 研究为LiDAR引导的立体匹配方法提供了新思路,有望激发更有效的技术发展。
[15] Latest Object Memory Management for Temporally Consistent Video Instance Segmentation
Seunghun Lee,Jiwan Seo,Minwoo Choi,Kiljoon Han,Jaehoon Jeong,Zane Durante,Ehsan Adeli,Sang Hyun Park,Sunghoon Im
Main category: cs.CV
TL;DR: LOMM方法通过最新对象内存(LOM)和解耦对象关联(DOA)显著提升视频实例分割的长期跟踪能力,实现了54.0的AP高分。
- Motivation: 解决视频实例分割中因对象频繁出现和消失导致的长期跟踪和身份管理问题。
- Method: 使用LOM跟踪和更新对象状态,DOA策略分别处理新出现和已存在对象,提升匹配精度。
- Result: 在YouTube-VIS 2022上达到54.0 AP,优于传统方法。
- Conclusion: LOMM通过内存管理和解耦策略,显著提升了视频实例分割的性能和可靠性。
[16] MoFRR: Mixture of Diffusion Models for Face Retouching Restoration
Jiaxin Liu,Qichao Ying,Zhenxing Qian,Sheng Li,Runqi Zhang,Jian Liu,Xinpeng Zhang
Main category: cs.CV
TL;DR: 本文提出了一种名为Face Retouching Restoration (FRR)的新任务,旨在从修饰过的面部图像中恢复原始面部。通过混合扩散模型MoFRR,结合专家隔离策略,实现了对不同修饰类型和程度的有效恢复。
- Motivation: 社交媒体上广泛使用的面部修饰技术引发了图像真实性的担忧,现有方法仅关注检测修饰,而如何从修饰图像中恢复原始面部尚未解决。
- Method: 提出MoFRR模型,采用专家隔离策略,包括处理特定修饰类型的专家和共享专家,结合DDIM低频分支和HFCAM高频分支进行细节优化。
- Result: 在RetouchingFFHQ++数据集上的实验证明了MoFRR的有效性。
- Conclusion: MoFRR为面部修饰恢复任务提供了创新解决方案,能够处理复杂的修饰操作。
[17] Self-Guided Masked Autoencoder
Jeongwoo Shin,Inseo Lee,Junho Lee,Joonseok Lee
Main category: cs.CV
TL;DR: 本文提出了一种自引导的掩码自编码器(MAE),通过利用其内部学习的补丁聚类信息生成智能掩码,显著提升了学习效果。
- Motivation: 尽管MAE在自监督表示学习中取得了成功,但其具体学习机制尚未完全明确。本文旨在揭示MAE的学习方式,并提出改进方法。
- Method: 通过深入分析发现MAE早期学习补丁聚类,提出自引导MAE,利用聚类信息生成智能掩码替代随机掩码。
- Result: 实验表明,该方法显著提升了学习效果,且无需依赖外部模型或额外信息。
- Conclusion: 自引导MAE通过智能掩码生成,有效提升了自监督表示学习的性能。
[18] HydraMamba: Multi-Head State Space Model for Global Point Cloud Learning
Kanglin Qu,Pan Gao,Qun Dai,Yuanhao Sun
Main category: cs.CV
TL;DR: HydraMamba提出了一种基于状态空间模型的点云网络,通过改进点云序列化和引入局部学习机制,解决了现有方法的不足,实现了在点云学习中的长程依赖建模。
- Motivation: 现有的注意力机制在点云学习中存在二次复杂度问题,限制了长程依赖建模。HydraMamba旨在通过状态空间模型(S6)的线性复杂度优势,解决这一问题。
- Method: 设计了shuffle序列化策略以适应S6的因果性,提出ConvBiS6层结合局部几何与全局上下文依赖,并扩展多头设计(MHS6)增强建模能力。
- Result: HydraMamba在对象级和场景级任务中均取得了最先进的结果。
- Conclusion: HydraMamba通过改进序列化和引入局部学习机制,显著提升了点云学习中的长程依赖建模能力。
[19] JDATT: A Joint Distillation Framework for Atmospheric Turbulence Mitigation and Target Detection
Zhiming Liu,Paul Hill,Nantheera Anantrasirichai
Main category: cs.CV
TL;DR: JDATT是一个联合蒸馏框架,用于大气湍流抑制和目标检测,通过知识蒸馏压缩模型,同时保持性能,适用于实时部署。
- Motivation: 现有方法计算复杂度高,且湍流抑制与目标检测分离导致效率低下,需要一种高效联合解决方案。
- Method: 结合湍流抑制与目标检测模块,采用特征级(CWD和MGD)和输出级(KL散度)蒸馏策略。
- Result: 在合成和真实数据集上,JDATT在视觉恢复和检测精度上表现优异,同时显著减少模型大小和推理时间。
- Conclusion: JDATT是一种高效、实时的联合解决方案,适用于资源受限场景。
[20] TransFlow: Motion Knowledge Transfer from Video Diffusion Models to Video Salient Object Detection
Suhwan Cho,Minhyeok Lee,Jungho Lee,Sunghun Yang,Sangyoun Lee
Main category: cs.CV
TL;DR: TransFlow利用预训练的视频扩散模型生成逼真的光学流数据,提升视频显著目标检测的性能。
- Motivation: 视频显著目标检测依赖运动线索,但训练数据稀缺,现有方法生成的光学流缺乏语义理解。
- Method: 通过预训练的视频扩散模型,从静态图像生成语义感知的光学流数据。
- Result: 在多个基准测试中表现优异,验证了运动知识迁移的有效性。
- Conclusion: TransFlow通过生成逼真的训练数据,显著提升了视频显著目标检测的性能。
[21] DepthFlow: Exploiting Depth-Flow Structural Correlations for Unsupervised Video Object Segmentation
Suhwan Cho,Minhyeok Lee,Jungho Lee,Donghyeong Kim,Sangyoun Lee
Main category: cs.CV
TL;DR: DepthFlow提出了一种从单张图像生成光流数据的方法,解决了无监督视频对象分割中训练数据不足的问题。
- Motivation: 现有双流方法因训练数据稀缺而性能受限,需解决数据不足问题。
- Method: 通过深度图估计并转换为合成光流,保留结构信息,生成大量训练数据。
- Result: 在公开VOS基准测试中达到新最优性能。
- Conclusion: DepthFlow为数据稀缺问题提供了可扩展且有效的解决方案。
[22] Smaller, Faster, Cheaper: Architectural Designs for Efficient Machine Learning
Steven Walton
Main category: cs.CV
TL;DR: 论文探讨了如何通过优化神经网络架构设计,在减少计算资源需求的同时提升性能,提出了三个方向的研究。
- Motivation: 随着计算机视觉模型在多样化和资源受限环境中的部署需求增加,亟需高性能且低计算需求的架构。
- Method: 1. 优化数据输入输出;2. 改进核心神经网络架构,如受限注意力机制;3. 利用归一化流的自然结构。
- Result: 研究表明,精心设计的神经网络架构可以提高效率,使模型更小、更快、更经济。
- Conclusion: 通过架构优化,可以在减少计算资源的同时提升模型性能,适用于资源受限的环境。
[23] ForCenNet: Foreground-Centric Network for Document Image Rectification
Peng Cai,Qiang Li,Kaicheng Yang,Dong Guo,Jia Li,Nan Zhou,Xiang An,Ninghua Yang,Jiankang Deng
Main category: cs.CV
TL;DR: 提出了一种名为ForCenNet的方法,通过关注前景元素来消除文档图像中的几何变形,显著提升了文本识别的效果。
- Motivation: 现有方法常忽略前景元素的重要性,而这些元素为文档图像校正提供了关键的几何参考和布局信息。
- Method: 提出了一种前景中心标签生成方法,提取未变形图像中的前景元素;引入前景中心掩码机制增强可读区域与背景的区分;设计了曲率一致性损失以利用前景标签理解几何分布。
- Result: 在四个真实基准测试(如DocUNet、DIR300等)上达到最新最优性能,有效校正了文本行和表格边框等布局元素。
- Conclusion: ForCenNet通过关注前景元素,显著提升了文档图像校正的效果,为文本识别提供了更好的基础。
[24] DS-Det: Single-Query Paradigm and Attention Disentangled Learning for Flexible Object Detection
Guiping Cao,Xiangyuan Lan,Wenjian Huang,Jianguo Zhang,Dongmei Jiang,Yaowei Wang
Main category: cs.CV
TL;DR: DS-Det提出了一种新的单查询范式,解决了固定查询的局限性,通过解耦注意力学习提升检测器效率,并在多个数据集上验证了其优越性。
- Motivation: 现有解码器查询类型(如内容查询和位置查询)的作用未被充分探索,且固定查询数量限制了灵活性。此外,自注意力和交叉注意力的交互(ROT)以及查询歧义问题影响了解码器效率。
- Method: 提出DS-Det,采用单查询范式,将固定查询转为灵活查询,并通过解耦注意力学习简化解码器框架,解决ROT和查询歧义问题。还引入PoCoo损失函数优化小目标检测。
- Result: 在COCO2017和WiderPerson数据集上,DS-Det在五种不同骨干模型上表现出高效性和优越性。
- Conclusion: DS-Det通过灵活查询和解耦注意力学习,显著提升了检测器效率,解决了现有方法的局限性。
[25] SeeDiff: Off-the-Shelf Seeded Mask Generation from Diffusion Models
Joon Hyun Park,Kumju Jo,Sungyong Baik
Main category: cs.CV
TL;DR: SeeDiff利用Stable Diffusion的注意力机制生成高质量像素级标注掩码,无需额外训练或提示调整。
- Motivation: 减少人工标注的负担,利用现有文本到图像生成模型的能力,无需依赖预训练分割网络或复杂提示调整。
- Method: 结合交叉注意力提供初始种子,利用自注意力机制迭代扩展区域,并通过背景掩码进一步优化。
- Result: 生成高质量的像素级标注掩码,无需额外训练或提示调整。
- Conclusion: SeeDiff展示了Stable Diffusion在像素级标注任务中的潜力,提供了一种高效的无监督解决方案。
[26] FM-LC: A Hierarchical Framework for Urban Flood Mapping by Land Cover Identification Models
Xin Hong,Longchao Da,Hua Wei
Main category: cs.CV
TL;DR: 论文提出FM-LC框架,通过多阶段方法改进干旱地区城市洪水的高分辨率遥感图像分类,显著提升精度。
- Motivation: 干旱地区城市洪水对基础设施和社区构成严重风险,但传统洪水测绘方法因光谱对比度低、水文动态快和城市覆盖异质性高而受限。
- Method: FM-LC框架分三阶段:1) 初始多类U-Net分割;2) 针对易混淆类别训练轻量级二元专家模型;3) 贝叶斯平滑优化边界。
- Result: 在2024年迪拜暴雨事件中验证,FM-LC平均F1分数提升29%,洪水边界更清晰,优于传统单阶段U-Net。
- Conclusion: FM-LC框架显著提升了干旱地区洪水测绘的精度和实用性,适用于应急响应和韧性规划。
[27] LAVA: Language Driven Scalable and Versatile Traffic Video Analytics
Yanrui Yu,Tianfei Zhou,Jiaxin Sun,Lianpeng Qiao,Lizhong Ding,Ye Yuan,Guoren Wang
Main category: cs.CV
TL;DR: 论文提出了一种基于自然语言的视频分析系统Lava,通过高效采样、开放世界检测和轨迹提取,显著提升了查询灵活性和处理速度。
- Motivation: 现代城市环境中,海量视频数据需要高效分析,但现有SQL范式限制了查询灵活性。
- Method: Lava系统包含三部分:基于多臂老虎机的采样、开放世界检测模块和轨迹提取方案。
- Result: 实验显示,Lava在查询准确性和处理速度上显著优于基线方法。
- Conclusion: Lava为大规模视频数据分析提供了灵活高效的解决方案。
[28] AutoSign: Direct Pose-to-Text Translation for Continuous Sign Language Recognition
Samuel Ebimobowei Johnny,Blessed Guda,Andrew Blayama Stephen,Assane Gueye
Main category: cs.CV
TL;DR: AutoSign提出了一种基于自回归解码器Transformer的连续手语识别方法,直接通过姿态序列生成自然语言文本,避免了传统对齐机制的问题,并在Isharah-1000数据集上显著提升了性能。
- Motivation: 传统连续手语识别方法依赖多阶段流程,存在错误传播、过拟合和词汇扩展瓶颈问题,需要更高效的解决方案。
- Method: AutoSign采用自回归解码器Transformer,结合1D CNN时间压缩模块和预训练阿拉伯语解码器AraGPT2,直接生成文本(glosses)。
- Result: 在Isharah-1000数据集上,AutoSign的WER分数比现有最佳方法提升了6.1%。
- Conclusion: AutoSign通过消除多阶段流程,显著提升了连续手语识别的性能,证明了手部和身体姿态特征的判别性。
[29] Knowledge Regularized Negative Feature Tuning for Out-of-Distribution Detection with Vision-Language Models
Wenjie Zhu,Yabin Zhang,Xin Jin,Wenjun Zeng,Lei Zhang
Main category: cs.CV
TL;DR: 提出了一种名为KR-NFT的新方法,通过负特征调优和知识正则化策略,显著提升了OOD检测性能,同时减少了预训练知识的遗忘。
- Motivation: 解决负提示调优在OOD检测中泛化性能下降的问题,尤其是在未见类别和风格上的表现。
- Method: 结合负特征调优(NFT)和知识正则化(KR)策略,通过分布感知变换和动态适应机制分离正负特征,并优化ID与OOD的区分。
- Result: 在ImageNet数据集上,KR-NFT显著降低了FPR95(5.44%),同时提升了ID分类准确性和OOD检测性能。
- Conclusion: KR-NFT在OOD检测中表现出高效性和可扩展性,适用于未见ID类别的泛化场景。
[30] FineMotion: A Dataset and Benchmark with both Spatial and Temporal Annotation for Fine-grained Motion Generation and Editing
Bizhu Wu,Jinheng Xie,Meidan Ding,Zhe Kong,Jianfeng Ren,Ruibin Bai,Rong Qu,Linlin Shen
Main category: cs.CV
TL;DR: 论文提出了FineMotion数据集,用于改进文本驱动的细粒度人体动作生成任务,显著提升了MDM模型的Top-3准确率,并支持零样本细粒度动作编辑。
- Motivation: 现有方法在从文本生成人体动作时,常忽略特定身体部位的运动及其时序细节。
- Method: 通过构建包含442,000个动作片段及其详细描述的FineMotion数据集,并设计零样本细粒度动作编辑流程。
- Result: 实验显示,数据集显著提升了MDM模型的Top-3准确率(+15.3%),并支持细粒度的时空维度动作编辑。
- Conclusion: FineMotion数据集和提出的方法在细粒度人体动作生成和编辑任务中表现出显著优势。
[31] A Structure-aware and Motion-adaptive Framework for 3D Human Pose Estimation with Mamba
Ye Lu,Jie Wang,Jianjun Gao,Rui Gong,Chen Cai,Kim-Hui Yap
Main category: cs.CV
TL;DR: 论文提出了一种名为SAMA的结构感知和运动自适应框架,用于解决姿态提升任务中关节依赖建模的不足。
- Motivation: 现有的Mamba方法在姿态提升任务中通过2D到1D映射建模关节依赖,但难以处理复杂的关节连接和忽略运动特性的内在差异。
- Method: SAMA框架包含结构感知状态积分器(SSI)和运动自适应状态调制器(MSM),分别处理关节拓扑和运动特性。
- Result: 实验表明,SAMA在多个基准测试中取得了先进的结果,同时计算成本更低。
- Conclusion: SAMA通过结构感知和运动自适应设计,有效提升了姿态提升任务的性能。
[32] RaGS: Unleashing 3D Gaussian Splatting from 4D Radar and Monocular Cues for 3D Object Detection
Xiaokai Bai,Chenxu Zhou,Lianqing Zheng,Si-Yuan Cao,Jianan Liu,Xiaohan Zhang,Zhengzhuang Zhang,Hui-liang Shen
Main category: cs.CV
TL;DR: RaGS提出了一种基于3D高斯散射(GS)的框架,用于融合4D毫米波雷达和单目图像进行3D目标检测,通过动态资源分配和灵活表示实现了高效检测。
- Motivation: 现有融合方法在4D雷达和单目图像的3D目标检测中缺乏全局场景理解或受限于固定网格结构,RaGS旨在解决这些问题。
- Method: RaGS采用级联流程:Frustum-based Localization Initiation(FLI)初始化高斯位置,Iterative Multimodal Aggregation(IMA)融合语义和几何信息,Multi-level Gaussian Fusion(MGF)生成多级BEV特征。
- Result: 在多个基准测试中(View-of-Delft、TJ4DRadSet、OmniHD-Scenes),RaGS表现出最先进的性能。
- Conclusion: RaGS通过动态聚焦稀疏目标,实现了高效且全面的3D目标检测,为自动驾驶传感器融合提供了新思路。
[33] OW-CLIP: Data-Efficient Visual Supervision for Open-World Object Detection via Human-AI Collaboration
Junwen Duan,Wei Xue,Ziyao Kang,Shixia Liu,Jiazhi Xia
Main category: cs.CV
TL;DR: OW-CLIP是一个视觉分析系统,通过多模态提示调优和Crop-Smoothing技术,解决开放世界目标检测中的数据依赖和过拟合问题,同时利用语言模型优化数据生成。
- Motivation: 传统开放世界目标检测方法依赖大量标注数据且易过拟合,OW-CLIP旨在通过数据高效训练和可视化工具提升性能。
- Method: 采用多模态提示调优和Crop-Smoothing技术,结合语言模型进行数据生成与过滤,并提供可视化界面辅助标注。
- Result: OW-CLIP仅需3.8%自生成数据即可达到89%的SOTA性能,数据量相同时性能更优。
- Conclusion: OW-CLIP通过数据高效训练和可视化工具,显著提升了开放世界目标检测的灵活性和性能。
[34] All-in-One Medical Image Restoration with Latent Diffusion-Enhanced Vector-Quantized Codebook Prior
Haowei Chen,Zhiwen Yang,Haotian Hou,Hui Zhang,Bingzheng Wei,Gang Zhou,Yan Xu
Main category: cs.CV
TL;DR: DiffCode提出了一种基于潜在扩散增强的向量量化码本先验的统一框架,用于解决多任务医学图像恢复(MedIR)中的异构性问题。
- Motivation: 多任务MedIR面临不同任务间信息损失多样性的挑战,现有方法难以处理。
- Method: DiffCode通过任务自适应码本库整合任务特定高质量先验特征,并利用潜在扩散策略优化先验检索。
- Result: DiffCode在MRI超分辨率、CT去噪和PET合成三个任务中表现出色。
- Conclusion: DiffCode通过任务自适应码本和潜在扩散策略,有效解决了多任务MedIR的异构性问题。
[35] ATCTrack: Aligning Target-Context Cues with Dynamic Target States for Robust Vision-Language Tracking
X. Feng,S. Hu,X. Li,D. Zhang,M. Wu,J. Zhang,X. Chen,K. Huang
Main category: cs.CV
TL;DR: ATCTrack是一种新型视觉语言跟踪器,通过动态目标状态对齐的多模态线索和全面的目标-上下文特征建模,实现鲁棒跟踪。
- Motivation: 现有视觉语言跟踪器在复杂长期场景中难以动态对齐目标状态,且无法有效区分文本提示中的目标与上下文词汇。
- Method: 1. 提出时间视觉目标-上下文建模方法;2. 基于文本内容精确识别目标词汇并校准上下文词汇;3. 在主流基准上广泛实验。
- Result: ATCTrack在主流基准上达到新的SOTA性能。
- Conclusion: ATCTrack通过动态对齐多模态线索和特征建模,显著提升了复杂场景下的跟踪性能。
[36] Efficient Self-Supervised Neuro-Analytic Visual Servoing for Real-time Quadrotor Control
Sebastian Mocanu,Sebastian-Ion Nae,Mihai-Eugen Barbu,Marius Leordeanu
Main category: cs.CV
TL;DR: 论文提出了一种自监督的神经分析方法,通过知识蒸馏将视觉伺服控制器的能力转移给学生模型,实现了高效、低成本的无人机视觉控制。
- Motivation: 解决传统视觉伺服控制器中的数值不稳定问题,并降低计算和内存成本,同时实现高效的实时控制。
- Method: 使用改进的图像视觉伺服(IBVS)控制器作为教师模型,通过知识蒸馏训练小型学生ConvNet;采用两阶段分割管道和仿真到现实的迁移学习。
- Result: 学生模型推理速度比教师模型快11倍,控制精度相近,计算和内存成本显著降低。
- Conclusion: 该方法在GPS缺失的室内环境中验证有效,为无人机视觉控制提供了一种高效、自监督的解决方案。
[37] FedS2R: One-Shot Federated Domain Generalization for Synthetic-to-Real Semantic Segmentation in Autonomous Driving
Tao Lian,Jose L. Gómez,Antonio M. López
Main category: cs.CV
TL;DR: FedS2R是一种用于自动驾驶中合成到真实语义分割的单次联邦领域泛化框架,通过数据增强和多客户端知识蒸馏提升性能。
- Motivation: 探索联邦领域泛化在自动驾驶语义分割中的潜力,解决数据隐私问题。
- Method: 采用不一致性驱动的数据增强和多客户端知识蒸馏方案。
- Result: 在五个真实数据集上表现优异,仅比全数据训练模型低2 mIoU。
- Conclusion: FedS2R在联邦学习下有效提升了合成到真实语义分割的性能。
[38] Interpretable Open-Vocabulary Referring Object Detection with Reverse Contrast Attention
Drandreb Earl O. Juanico,Rowel O. Atienza,Jeffrey Kenneth Go
Main category: cs.CV
TL;DR: 提出了一种名为Reverse Contrast Attention (RCA)的插件方法,无需重新训练即可增强视觉语言变换器中的对象定位能力。
- Motivation: 现有视觉语言变换器在对象定位任务中表现不足,尤其是对语义相关但被抑制的标记处理不佳。
- Method: RCA通过抑制极端值并放大中间层激活,重新加权最终层注意力,使语义相关但被抑制的标记能够指导预测。
- Result: 在15个开源视觉语言模型中,RCA在11个模型中提升了FitAP(基于IoU和框面积的置信度无关平均精度),最高提升达26.6%。
- Conclusion: RCA不仅提高了性能,还增强了多模态变换器的可解释性,适用于多种模型。
[39] TrackAny3D: Transferring Pretrained 3D Models for Category-unified 3D Point Cloud Tracking
Mengmeng Wang,Haonan Wang,Yulong Li,Xiangjie Kong,Jiaxin Du,Guojiang Shen,Feng Xia
Main category: cs.CV
TL;DR: TrackAny3D是一个类别无关的3D单目标跟踪框架,通过预训练模型和几何专家混合架构实现高性能跟踪。
- Motivation: 解决现有类别特定方法在实际应用中的局限性,如需要多个模型和泛化能力不足。
- Method: 结合参数高效适配器、几何专家混合架构(MoGE)和时间上下文优化策略。
- Result: 在三个常用基准测试中达到最先进性能,展示强泛化能力。
- Conclusion: TrackAny3D为统一模型和大规模预训练模型在3D跟踪领域的应用提供了启示。
[40] DriveIndia: An Object Detection Dataset for Diverse Indian Traffic Scenes
Rishav Kumar,D. Santhosh Reddy,P. Rajalakshmi
Main category: cs.CV
TL;DR: DriveIndia是一个针对印度交通环境的大规模目标检测数据集,包含66,986张高分辨率图像,标注了24个交通相关类别,覆盖多样化的条件。
- Motivation: 捕捉印度交通环境的复杂性和不可预测性,为自动驾驶研究提供真实世界的挑战性基准。
- Method: 数据集包含高分辨率图像,标注为YOLO格式,覆盖多种天气、光照和交通条件。使用YOLO系列模型进行基线测试。
- Result: 最佳模型在mAP50上达到78.7%。
- Conclusion: DriveIndia为研究鲁棒、通用的目标检测提供了重要资源,并将公开提供。
[41] A mini-batch training strategy for deep subspace clustering networks
Yuxuan Jiang,Chenwei Yu,Zhi Lin,Xiaolan Liu
Main category: cs.CV
TL;DR: 提出了一种基于mini-batch训练的深度子空间聚类方法,通过引入记忆库和对比学习,解决了传统方法依赖全批处理的瓶颈,并在性能上优于现有方法。
- Motivation: 现有的深度子空间聚类方法依赖全批处理,计算效率低,无法适应高分辨率图像和大规模预训练编码器的需求。
- Method: 结合记忆库保存全局特征表示,实现mini-batch训练;提出无解码器框架,利用对比学习替代自编码器。
- Result: 在COIL100和ORL数据集上表现优于其他方法,性能接近全批处理方法。
- Conclusion: 该方法显著提升了深度子空间聚类的计算效率和可扩展性,同时保持了高性能。
[42] HumanSAM: Classifying Human-centric Forgery Videos in Human Spatial, Appearance, and Motion Anomaly
Chang Liu,Yunfan Ye,Fan Zhang,Qingyang Zhou,Yuchuan Luo,Zhiping Cai
Main category: cs.CV
TL;DR: HumanSAM是一个新框架,用于细粒度分类人中心伪造视频,分为空间、外观和运动异常三类,通过融合视频理解和空间深度分支生成伪造表示,并在训练中采用基于排名的置信度增强策略。
- Motivation: 生成模型合成的视频,尤其是模拟真实人类行为的人中心视频,对信息安全和真实性构成威胁。现有二进制伪造检测缺乏细粒度分类,影响可靠性和可解释性。
- Method: 提出HumanSAM框架,融合视频理解和空间深度分支生成伪造表示,采用基于排名的置信度增强策略,并构建首个公开基准HFV数据集。
- Result: 实验表明,HumanSAM在二进制和多类伪造分类中优于现有方法。
- Conclusion: HumanSAM通过细粒度分类和增强策略,提升了伪造视频检测的可靠性和可解释性。
[43] MambaVesselNet++: A Hybrid CNN-Mamba Architecture for Medical Image Segmentation
Qing Xu,Yanming Chen,Yue Li,Ziyu Liu,Zhenye Lou,Yixuan Zhang,Xiangjian He
Main category: cs.CV
TL;DR: 提出MambaVesselNet++,一种混合CNN-Mamba框架,用于医学图像分割,结合卷积和Mamba模型,以高效捕获局部和全局特征。
- Motivation: 传统卷积方法受限于局部感受野,而视觉变换器虽能捕获全局上下文但计算成本高。Mamba模型因其高效的长程依赖建模能力成为解决方案。
- Method: 采用混合图像编码器(Hi-Encoder)和双焦点融合解码器(BF-Decoder)。Hi-Encoder结合卷积和Mamba模型,BF-Decoder通过跳跃连接融合局部和全局信息。
- Result: 在多种医学图像分割任务中优于现有卷积、变换器和Mamba方法。
- Conclusion: MambaVesselNet++通过混合CNN-Mamba框架,高效且准确地实现了医学图像分割。
[44] LLMControl: Grounded Control of Text-to-Image Diffusion-based Synthesis with Multimodal LLMs
Jiaze Wang,Rui Chen,Haowang Cui
Main category: cs.CV
TL;DR: LLM_Control框架通过LLM增强文本到图像生成的空间控制能力,解决复杂空间组合和多对象提示的挑战。
- Motivation: 现有方法在复杂空间组合和多对象提示下难以精确控制图像生成。
- Method: 利用多模态LLM作为全局控制器,优化空间布局和语义描述,注入控制信号以增强注意力图。
- Result: 实验表明LLM_Control在多种预训练T2I模型中达到竞争性合成质量。
- Conclusion: LLM_Control能够处理现有方法难以应对的复杂输入条件。
[45] SCALAR: Scale-wise Controllable Visual Autoregressive Learning
Ryan Xu,Dongyang Jin,Yancheng Bai,Rui Lan,Xu Duan,Lei Sun,Xiangxiang Chu
Main category: cs.CV
TL;DR: SCALAR提出了一种基于VAR的可控图像生成方法,通过尺度条件解码机制解决了现有方法在控制编码和注入机制上的低效问题。
- Motivation: 可控图像合成是视觉生成建模的关键方向,但VAR模型由于其分层、逐尺度预测的特点,难以实现高效控制。
- Method: SCALAR采用了一种新颖的尺度条件解码机制,优化了控制编码和注入方式。
- Result: 该方法在保持生成质量的同时,提高了控制效率和生成效果。
- Conclusion: SCALAR为VAR模型的可控生成提供了一种高效解决方案。
[46] UniCT Depth: Event-Image Fusion Based Monocular Depth Estimation with Convolution-Compensated ViT Dual SA Block
Luoxi Jing,Dianxi Shi,Zhe Liu,Songchang Jin,Chunping Qiu,Ziteng Qiao,Yuxian Li,Jianqiang Xia
Main category: cs.CV
TL;DR: UniCT Depth结合CNN和Transformer,提出CcViT-DA和DCC模块,优化事件与图像数据融合,提升深度估计性能。
- Motivation: 图像方法在复杂场景中表现不佳,事件相机数据稀疏,现有融合方法难以处理遮挡和深度差异。
- Method: 提出UniCT Depth,结合CcViT-DA块(CMSA和MFSA)和DCC块,实现局部与全局特征建模。
- Result: 实验表明UniCT Depth在关键指标上优于现有方法。
- Conclusion: UniCT Depth通过创新模块设计,有效解决了事件与图像数据融合的挑战。
[47] AF-CLIP: Zero-Shot Anomaly Detection via Anomaly-Focused CLIP Adaptation
Qingqing Fang,Wenxi Lv,Qinliang Su
Main category: cs.CV
TL;DR: AF-CLIP通过增强视觉表示和引入轻量级适配器,优化零/少样本异常检测,结合多尺度空间聚合和可学习文本提示,显著提升检测能力。
- Motivation: 现有方法在零/少样本场景下效果有限,且忽略局部异常优化,AF-CLIP旨在解决这些问题。
- Method: 引入轻量级适配器优化视觉特征,结合多尺度空间聚合和可学习文本提示,通过复合目标函数优化。
- Result: 在工业和医学数据集上展示了强大的零/少样本检测能力和泛化性。
- Conclusion: AF-CLIP在异常检测任务中表现出色,代码已开源。
[48] RARE: Refine Any Registration of Pairwise Point Clouds via Zero-Shot Learning
Chengyu Zheng,Jin Huang,Honghua Chen,Mingqiang Wei
Main category: cs.CV
TL;DR: 提出一种基于扩散特征的零样本点云配准方法,通过深度图像提取特征并与几何特征结合,显著提升配准精度。
- Motivation: 利用预训练扩散模型的潜力,改进点云配准算法,无需专用训练数据集。
- Method: 将点云投影为深度图,提取扩散特征并与几何特征结合,优化点云对应关系。
- Result: 实验表明方法显著提升配准精度,并具有跨数据集的鲁棒性。
- Conclusion: 该方法有效提升点云配准性能,且无需训练数据,具有广泛适用性。
[49] Predicting Brain Responses To Natural Movies With Multimodal LLMs
Cesar Kadir Torrico Villanueva,Jiaxin Cindy Tu,Mihir Tripathy,Connor Lane,Rishab Iyer,Paul S. Scotti
Main category: cs.CV
TL;DR: MedARC团队在Algonauts 2025挑战赛中提出了一种多模态特征融合的解决方案,通过线性投影、时间对齐和轻量级编码器映射到皮层区域,最终在测试集上取得了0.2085的平均皮尔逊相关系数,排名第四。
- Motivation: 探索如何通过结合不同模态的预训练模型特征,提升编码模型对新电影刺激的泛化能力。
- Method: 使用视频、语音、文本等多模态预训练模型提取特征,线性投影后时间对齐fMRI数据,通过共享组头和个体残差头的轻量级编码器映射到皮层区域,并进行超参数优化和模型集成。
- Result: 测试集上平均皮尔逊相关系数为0.2085,排名第四;通过进一步优化可提升至第二名。
- Conclusion: 多模态特征融合、简单架构和全面模型选择与集成能显著提升编码模型的泛化能力。
[50] Pic2Diagnosis: A Method for Diagnosis of Cardiovascular Diseases from the Printed ECG Pictures
Oğuzhan Büyüksolak,İlkay Öksüz
Main category: cs.CV
TL;DR: 提出了一种基于心电图(ECG)图像直接诊断心血管疾病(CVD)的方法,通过两步课程学习和模型集成,显著提高了诊断准确性。
- Motivation: 传统ECG诊断方法依赖过时数据集和逐步算法,准确性有限。本研究旨在简化诊断流程,提高自动化诊断的可靠性,尤其在资源有限的环境中。
- Method: 采用两步课程学习框架:先在分割掩码上预训练分类模型,再在灰度反转ECG图像上微调。通过集成三个模型的平均输出增强鲁棒性。
- Result: 在BHF ECG Challenge数据集上,AUC达到0.9534,F1分数为0.7801,优于单个模型。
- Conclusion: 该方法为自动化CVD诊断提供了可靠解决方案,尤其适用于资源有限的环境,能够快速准确诊断,为紧急干预提供支持。
[51] FROSS: Faster-than-Real-Time Online 3D Semantic Scene Graph Generation from RGB-D Images
Hao-Yu Hou,Chun-Yi Lee,Motoharu Sonogashira,Yasutomo Kawanishi
Main category: cs.CV
TL;DR: 提出了一种名为FROSS的快速在线3D语义场景图生成方法,通过将2D场景图直接提升到3D空间并利用高斯分布表示对象,解决了现有方法计算量大和非增量处理的问题。
- Motivation: 现有3D语义场景图生成方法计算需求高且无法增量处理,难以满足实时开放世界应用的需求。
- Method: FROSS通过直接提升2D场景图到3D空间,并用3D高斯分布表示对象,减少了对精确点云处理的依赖。
- Result: 在ReplicaSSG和3DSSG数据集上的实验表明,FROSS性能优越且速度显著快于现有方法。
- Conclusion: FROSS为实时3D语义场景图生成提供了一种高效解决方案,并公开了实现和数据集。
[52] VAMPIRE: Uncovering Vessel Directional and Morphological Information from OCTA Images for Cardiovascular Disease Risk Factor Prediction
Lehan Wang,Hualiang Wang,Chubin Ou,Lushi Chen,Yunyi Liang,Xiaomeng Li
Main category: cs.CV
TL;DR: 提出了一种基于OCTA图像的多功能心血管疾病(CVD)风险评估方法,结合血管特征和形态学知识,显著提升了预测准确性。
- Motivation: 现有方法无法从视网膜图像中捕捉到详细的血管特征,且仅提供高低风险分类,限制了预测的准确性和临床实用性。
- Method: 提出了OCTA-CVD数据集和VAMPIRE模型,包含Mamba-Based Directional模块和Information-Enhanced Morphological模块,用于提取血管轨迹和形态特征。
- Result: 实验表明,该方法优于标准分类模型、OCTA检测方法和眼科基础模型。
- Conclusion: 新方法通过结合血管特征和形态学知识,显著提升了CVD风险评估的准确性和临床实用性。
[53] Region-based Cluster Discrimination for Visual Representation Learning
Yin Xie,Kaicheng Yang,Xiang An,Kun Wu,Yongle Zhao,Weimo Deng,Zimin Ran,Yumeng Wang,Ziyong Feng,Roy Miles,Ismail Elezi,Jiankang Deng
Main category: cs.CV
TL;DR: RICE是一种新方法,通过区域级视觉和OCR能力增强视觉表示学习,解决了现有全局表示模型的局限性。
- Motivation: 现有视觉-语言对比模型(如CLIP和SigLIP)依赖全局表示,限制了在密集预测任务(如分割、OCR)中的效果。
- Method: 构建十亿级候选区域数据集,提出Region Transformer层提取区域语义,设计统一的区域聚类判别损失以支持对象和OCR学习。
- Result: RICE在分割、密集检测和MLLM视觉感知任务中表现优于现有方法。
- Conclusion: RICE通过区域级表示学习显著提升了密集预测任务的性能,模型已开源。
[54] TAPS : Frustratingly Simple Test Time Active Learning for VLMs
Dhruv Sarkar,Aprameyo Chakrabartty,Bibhudatta Bhanja
Main category: cs.CV
TL;DR: 提出了一种新的测试时主动学习框架(TTAL),用于在实时数据流中动态查询不确定样本并更新提示,解决了单样本、低延迟和内存限制的挑战。
- Motivation: 探索如何在连续数据流中有效利用预言机,仅处理单一样本并立即做出查询决策,同时满足延迟和内存限制。
- Method: 引入动态调整的熵阈值进行主动查询,类平衡替换策略以提高内存效率,以及类感知分布对齐技术以增强适应性。
- Result: 在10个跨数据集转移基准和4个域泛化数据集上表现优于现有方法,同时保持合理的延迟和内存开销。
- Conclusion: TTAL框架为自动驾驶和医疗诊断等安全关键应用提供了实用且有效的解决方案。
[55] FaRMamba: Frequency-based learning and Reconstruction aided Mamba for Medical Segmentation
Ze Rong,ZiYue Zhao,Zhaoxin Wang,Lei Ma
Main category: cs.CV
TL;DR: FaRMamba通过多尺度频率变换模块(MSFM)和自监督重建辅助编码器(SSRAE)解决了医学图像分割中的高频信息缺失和空间结构退化问题,显著提升了分割精度。
- Motivation: 医学图像分割面临模糊边界(LBA)、高频细节丢失(LHD)和长程结构建模困难(DC-LRSS)的挑战,现有方法如Vision Mamba虽能解决DC-LRSS,但会引入局部高频信息缺失(LHICD)和空间结构退化(2D-SSD)。
- Method: 提出FaRMamba,包含MSFM模块(通过小波、余弦和傅里叶变换恢复高频信息)和SSRAE模块(通过像素级重建恢复2D空间相关性)。
- Result: 在多个数据集(CAMUS、Mouse-cochlea、Kvasir-Seg)上优于现有CNN-Transformer混合模型和Mamba变体,提升了边界精度和细节保留。
- Conclusion: FaRMamba为医学图像分割提供了频率感知框架,直接解决了核心挑战,且计算效率高。
[56] The Devil is in the EOS: Sequence Training for Detailed Image Captioning
Abdelrahman Mohamed,Yova Kementchedjhieva
Main category: cs.CV
TL;DR: 论文提出了一种无监督方法,通过减少模型对EOS标记的偏见,生成长度更长、细节更丰富的图像描述,无需复杂奖励函数或监督。
- Motivation: 尽管视觉语言模型(VLMs)在图像描述生成方面取得了进展,但生成的描述往往简短且通用。研究发现,这是由于交叉熵训练中引入的对EOS标记的偏见。
- Method: 提出了一种无监督方法,通过减少模型对EOS标记的偏见,鼓励生成长且详细的描述。该方法简单且适用于任何预训练模型。
- Result: 在三个VLMs和三个详细描述基准上的实验表明,该方法显著增加了描述长度和相关细节,但幻觉率也有所增加。
- Conclusion: 该方法简单有效,能够显著提升图像描述的细节丰富度,适用于任何预训练模型。
[57] KB-DMGen: Knowledge-Based Global Guidance and Dynamic Pose Masking for Human Image Generation
Shibang Liu,Xuemei Xie,Guangming Shi
Main category: cs.CV
TL;DR: 论文提出KB-DMGen方法,结合知识库和动态掩码技术,提升人像生成的姿态准确性和整体图像质量。
- Motivation: 现有方法主要关注生成姿态的准确性,而忽略了整体图像质量,因此需要一种兼顾两者的方法。
- Method: 提出KB-DMGen,结合知识库(KB)增强姿态准确性并利用图像特征信息,以及动态掩码(DM)调整姿态相关区域的重要性。
- Result: 在HumanArt数据集上,模型在AP和CAP指标上达到新的最优结果。
- Conclusion: KB-DMGen有效提升了人像生成的姿态准确性和整体质量,代码将开源。
[58] Local Prompt Adaptation for Style-Consistent Multi-Object Generation in Diffusion Models
Ankit Sanjyal
Main category: cs.CV
TL;DR: 提出了一种无需训练的架构方法Local Prompt Adaptation(LPA),通过分解提示为内容和风格标记,并在不同阶段选择性注入U-Net的注意力层,提升了布局控制和风格一致性。
- Motivation: 扩散模型在复杂提示下缺乏风格一致性和空间连贯性,限制了可控内容生成的实用性。
- Method: 将提示分解为内容和风格标记,并在生成过程的不同阶段选择性注入U-Net的注意力层。
- Result: 在50个风格丰富的提示上评估,LPA在CLIP分数和风格一致性指标上优于现有方法。
- Conclusion: LPA为可控、表达性强的扩散生成提供了新方向。
[59] Hybrid-Domain Synergistic Transformer for Hyperspectral Image Denoising
Haoyue Li,Di Wu
Main category: cs.CV
TL;DR: 本文提出了一种基于频域增强和多尺度建模的高光谱图像去噪框架HDST,通过空间、频率和通道域的三维协同处理,显著提升了去噪性能。
- Motivation: 高光谱图像去噪面临空间非均匀噪声和光谱相关性干扰的多维耦合挑战,现有深度学习方法难以有效处理其独特的空间-光谱特性和复杂噪声分布。
- Method: HDST框架创新性地整合了三种关键机制:FFT预处理模块提取跨波段相关性、动态跨域注意力模块融合空间域纹理特征和频域噪声先验、以及分层架构实现全局噪声统计和细节恢复。
- Result: 在真实和合成数据集上的实验表明,HDST显著提升了去噪性能并保持了计算效率。
- Conclusion: 该研究为解决高光谱图像及其他高维视觉数据中的复杂噪声耦合问题提供了新思路和通用框架。
[60] Detection of Medial Epicondyle Avulsion in Elbow Ultrasound Images via Bone Structure Reconstruction
Shizuka Akahori,Shotaro Teruya,Pragyan Shrestha,Yuichi Yoshii,Satoshi Iizuka,Akira Ikumi,Hiromitsu Tsuge,Itaru Kitahara
Main category: cs.CV
TL;DR: 该研究提出了一种基于重建的框架,用于检测肘部超声图像中的内上髁撕脱,仅使用正常病例进行训练。通过掩码自编码器学习正常骨骼结构的连续性,从而在异常区域产生较大的重建误差。
- Motivation: 内上髁撕脱常见于棒球运动员,表现为骨骼轮廓的不连续性。通过学习正常骨骼的结构和连续性,可以更有效地检测此类异常。
- Method: 提出了一种基于掩码自编码器的结构感知重建框架,学习正常骨骼的连续性,并在异常区域产生重建误差。
- Result: 在包含16名棒球运动员的数据集上,该方法表现优于现有方法,像素级AUC为0.965,图像级AUC为0.967。
- Conclusion: 该方法通过学习正常骨骼结构,有效检测内上髁撕脱,且数据集已公开。
[61] NeuroVoxel-LM: Language-Aligned 3D Perception via Dynamic Voxelization and Meta-Embedding
Shiyu Liu,Lianlei Shan
Main category: cs.CV
TL;DR: NeuroVoxel-LM 提出了一种结合 NeRF 的动态分辨率体素化和轻量级元嵌入的新框架,解决了现有 3D 语言模型在大规模点云中特征提取慢和表示精度低的问题。
- Motivation: 现有 3D 语言模型在大规模稀疏点云中表现不佳,特征提取效率低且表示精度有限。
- Method: 提出动态分辨率多尺度体素化(DR-MSV)和轻量级元嵌入机制(TAP-LME),前者自适应调整体素粒度,后者通过注意力加权和残差融合增强语义表示。
- Result: 实验表明,DR-MSV 提高了点云特征提取的效率和精度,TAP-LME 在捕捉 NeRF 权重的细粒度语义上优于传统最大池化。
- Conclusion: NeuroVoxel-LM 通过创新的体素化和嵌入机制,显著提升了 3D 场景感知的语言驱动认知能力。
[62] RESCUE: Crowd Evacuation Simulation via Controlling SDM-United Characters
Xiaolin Liu,Tianyi Zhou,Hongbo Kang,Jian Ma,Ziwen Wang,Jing Huang,Wenguo Weng,Yu-Kun Lai,Kun Li
Main category: cs.CV
TL;DR: 提出了一种基于人类大脑感知-决策-运动(SDM)流程的实时3D人群疏散模拟框架,结合3D自适应SFM决策机制和个性化步态控制,支持动态轨迹规划和个性化行为,适用于多种场景。
- Motivation: 现有疏散模型忽视了疏散过程中复杂的人类行为(如碰撞、人际互动、地形影响等),导致模拟结果不准确。
- Method: 提出了一种实时3D人群疏散模拟框架,结合3D自适应SFM决策机制和个性化步态控制,支持动态轨迹规划和个性化行为。
- Result: 实验表明,该框架支持动态轨迹规划和个性化行为,适用于不平坦地形,生成的疏散结果更真实可信。
- Conclusion: 该框架为人群疏散模拟提供了更真实的解决方案,增强了模拟的实用性。
[63] Local2Global query Alignment for Video Instance Segmentation
Rajat Koner,Zhipeng Wang,Srinivas Parthasarathy,Chinghang Chen
Main category: cs.CV
TL;DR: Local2Global框架通过结合局部和全局查询,利用轻量级Transformer解码器实现视频实例分割的时序一致性,性能优于现有方法。
- Motivation: 在线视频分割方法在处理长序列和捕捉渐变时表现优异,但时序一致性和噪声积累问题仍是挑战。
- Method: 提出Local2Global框架,结合DETR的查询传播,引入局部和全局查询,并通过L2G-aligner实现早期对齐。
- Result: 在多个数据集上表现优异,如Youtube-VIS-19/-21分别达到54.3和49.4 AP,OVIS达到37.0 AP。
- Conclusion: Local2Global框架简单高效,无需复杂启发式或内存机制,显著提升时序一致性。
[64] Multi-output Deep-Supervised Classifier Chains for Plant Pathology
Jianping Yao,Son N. Tran
Main category: cs.CV
TL;DR: 提出了一种名为Mo-DsCC的新模型,通过链式输出层联合预测植物种类和病害类型,提升了分类性能。
- Motivation: 现有方法未充分研究植物种类与病害类型关系对预测性能的影响,需要更高效的分类模型。
- Method: 采用改进的VGG-16网络作为主干,结合深度监督训练和分类链结构。
- Result: 在Plant Village和PlantDoc数据集上,Mo-DsCC在准确率和F1分数上优于其他方法。
- Conclusion: Mo-DsCC为智能农业提供了高效工具,对学术界和工业界具有启发意义。
[65] An Automated Deep Segmentation and Spatial-Statistics Approach for Post-Blast Rock Fragmentation Assessment
Yukun Yang
Main category: cs.CV
TL;DR: 提出了一种基于YOLO12l-seg模型的端到端流程,用于实时实例分割和爆炸后碎片分析。
- Motivation: 开发一种自动化方法,用于快速评估爆炸后的碎片分布,以支持现场爆炸效应分析。
- Method: 使用YOLO12l-seg模型进行实例分割,并将高保真掩码转换为3D坐标,提取多指标空间描述符。
- Result: 模型性能优异(Box mAP@0.5 ~ 0.769, Mask mAP@0.5 ~ 0.800),适用于小物体密集场景。
- Conclusion: 该框架在爆炸效应评估中表现出高精度和鲁棒性,适用于现场快速自动化分析。
[66] Wavelet-guided Misalignment-aware Network for Visible-Infrared Object Detection
Haote Zhang,Lipeng Gu,Wuzhou Quan,Fu Lee Wang,Honghui Fan,Jiali Tang,Dingkun Zhu,Haoran Xie,Xiaoping Zhang,Mingqiang Wei
Main category: cs.CV
TL;DR: WMNet通过小波引导的多频分析和模态感知融合机制,解决可见光-红外图像对中的错位问题,提升目标检测的鲁棒性和准确性。
- Motivation: 可见光-红外目标检测的性能常因分辨率差异、空间位移和模态不一致导致的错位问题而受限。
- Method: 提出WMNet框架,结合小波多频分析和模态感知融合,自适应处理跨模态错位模式。
- Result: 在DVTOD、DroneVehicle和M3FD数据集上,WMNet实现了最先进的性能。
- Conclusion: WMNet有效解决了跨模态错位问题,提升了目标检测的准确性和鲁棒性。
[67] GT-Mean Loss: A Simple Yet Effective Solution for Brightness Mismatch in Low-Light Image Enhancement
Jingxi Liao,Shijie Hao,Richang Hong,Meng Wang
Main category: cs.CV
TL;DR: 论文提出了一种名为GT-mean loss的损失函数,用于解决低光图像增强中亮度不匹配的问题,显著提升了模型性能。
- Motivation: 现有监督式低光图像增强研究中,增强图像与真实图像之间的亮度不匹配问题被忽视,影响了模型训练效果。
- Method: 提出GT-mean loss,从概率角度直接建模图像均值,扩展现有损失函数,计算成本低。
- Result: 实验表明,GT-mean loss在不同方法和数据集上均能带来性能提升。
- Conclusion: GT-mean loss简单有效,解决了亮度不匹配问题,提升了低光图像增强的性能。
[68] Trust the Model: Compact VLMs as In-Context Judges for Image-Text Data Quality
Daulet Toibazar,Kesen Wang,Sherif Mohamed,Abdulaziz Al-Badawi,Abdulrahman Alfulayt,Pedro J. Moreno
Main category: cs.CV
TL;DR: 提出了一种轻量级视觉语言模型(VLM)数据过滤框架,通过小型VLM评估和过滤训练样本,提升数据质量,效果优于大规模噪声数据。
- Motivation: 视觉语言模型(VLMs)整合视觉数据扩展了AI应用,但数据质量维护面临挑战,需要高效过滤方法。
- Method: 使用小型VLM对图像-标题数据进行微调,评估样本质量和对齐性,无需额外模块。
- Result: 实验表明,过滤后的数据集性能优于大规模噪声数据,甚至表现更优。
- Conclusion: 该方法为构建高质量视觉语言训练数据提供了轻量且高效的解决方案。
[69] AnimeColor: Reference-based Animation Colorization with Diffusion Transformers
Yuhong Zhang,Liyao Wang,Han Wang,Danni Wu,Zuzeng Lin,Feng Wang,Li Song
Main category: cs.CV
TL;DR: AnimeColor是一个基于扩散变换器(DiT)的动画着色框架,通过高/低层颜色提取器提升颜色准确性和时间一致性。
- Motivation: 解决现有动画着色方法在颜色准确性和时间一致性上的不足。
- Method: 结合DiT视频扩散模型,引入高/低层颜色提取器(HCE/LCG),并采用多阶段训练策略。
- Result: 实验表明AnimeColor在颜色准确性、草图对齐、时间一致性和视觉质量上优于现有方法。
- Conclusion: AnimeColor不仅推动了动画着色技术,还为工业应用提供了实用解决方案。
[70] Player-Centric Multimodal Prompt Generation for Large Language Model Based Identity-Aware Basketball Video Captioning
Zeyu Xi,Haoying Sun,Yaofei Wu,Junchi Yan,Haoran Zhang,Lifang Wu,Liang Wang,Changwen Chen
Main category: cs.CV
TL;DR: 论文提出了一种基于多模态提示的身份感知体育视频描述生成方法(LLM-IAVC),通过提取球员身份信息和视频内容,生成包含球员身份的描述。
- Motivation: 现有体育视频描述方法常忽略球员身份,导致描述不完整。部分方法虽引入额外信息,但因与视频内容无关,身份识别不准确。
- Method: 设计了身份相关信息提取模块(IRIEM)和视觉上下文学习模块(VCLM),结合多模态提示生成描述。
- Result: 在NBA-Identity和VC-NBA-2022数据集上表现优异。
- Conclusion: LLM-IAVC通过多模态信息融合,有效提升了身份感知视频描述的性能。
[71] PUMPS: Skeleton-Agnostic Point-based Universal Motion Pre-Training for Synthesis in Human Motion Tasks
Clinton Ansun Mo,Kun Hu,Chengjiang Long,Dong Yuan,Wan-Chi Siu,Zhiyong Wang
Main category: cs.CV
TL;DR: 论文提出PUMPS,一种用于Temporal Point Clouds(TPCs)的自动编码器架构,解决了TPC数据在运动任务学习中的挑战,并在多种运动合成任务中表现出色。
- Motivation: 传统骨骼动画因比例或结构差异导致运动数据难以跨骨架转移,TPCs提供了一种无结构的兼容表示,但缺乏直接用于运动任务学习的能力。
- Method: 提出PUMPS架构,通过独立降维帧级点云为可采样特征向量,解码器利用潜在高斯噪声向量提取时间点,并引入线性分配优化重建过程。
- Result: PUMPS在运动预测、过渡生成和关键帧插值等任务中表现优异,无需原生数据集监督即可达到先进水平。
- Conclusion: PUMPS在运动去噪和估计等任务中优于其他方法,同时保持通用架构。
[72] LRR-Bench: Left, Right or Rotate? Vision-Language models Still Struggle With Spatial Understanding Tasks
Fei Kong,Jinhao Duan,Kaidi Xu,Zhenhua Guo,Xiaofeng Zhu,Xiaoshuang Shi
Main category: cs.CV
TL;DR: 论文提出了一种空间评估流程和基准测试,用于评估视觉语言模型(VLMs)的空间理解能力,发现其表现远低于人类水平。
- Motivation: 现实应用(如自动驾驶和人形机器人操作)需要精确的空间感知,但VLMs的空间关系识别能力尚未充分研究。
- Method: 构建合成数据集,将空间理解分为绝对空间理解和3D空间理解,并测试多种先进VLMs。
- Result: 人类表现接近完美,而VLMs仅在两个最简单任务上达到人类水平,其他任务表现显著较低,某些任务甚至接近零分。
- Conclusion: VLMs在空间理解能力上有显著提升空间,合成数据集为低成本测试提供了可能。
[73] Towards Universal Modal Tracking with Online Dense Temporal Token Learning
Yaozong Zheng,Bineng Zhong,Qihua Liang,Shengping Zhang,Guorong Li,Xianxian Li,Rongrong Ji
Main category: cs.CV
TL;DR: 提出了一种通用的视频级模态感知跟踪模型(Modaltracker),支持多种跟踪任务,通过视频级采样、关联和模态扩展实现高效多任务推理。
- Motivation: 解决多模态跟踪任务中模型独立训练和性能提升的问题,提出一种统一架构和参数的方法。
- Method: 采用视频级采样、在线密集时间标记关联和模态感知门控机制,通过一次性训练实现多模态推理。
- Result: 在可见和多模态基准测试中达到SOTA性能。
- Conclusion: Modaltracker通过统一架构和高效训练方案,显著提升了多模态跟踪的性能和效率。
[74] MoCTEFuse: Illumination-Gated Mixture of Chiral Transformer Experts for Multi-Level Infrared and Visible Image Fusion
Li Jinfu,Song Hong,Xia Jianghan,Lin Yucong,Wang Ting,Shao Long,Fan Jingfan,Yang Jian
Main category: cs.CV
TL;DR: 论文提出了一种动态多级图像融合网络MoCTEFuse,通过光照门控的混合手性Transformer专家(MoCTE)自适应平衡纹理细节和物体对比度,解决了现有方法忽略光照变化导致模态偏差的问题。
- Motivation: 现有红外与可见光图像融合方法常忽略光照变化,导致融合结果出现模态偏差。
- Method: 提出MoCTEFuse网络,采用光照门控的MoCTE(包含高/低光照专家子网络)和Chiral Transformer Fusion Block(CTFB),动态切换主/辅助模态并分配权重。
- Result: 在多个数据集上表现优异,检测mAP在MFNet和DroneVehicle数据集上分别达到70.93%和45.14%。
- Conclusion: MoCTEFuse通过动态多级融合和竞争性损失函数,显著提升了图像融合性能。
[75] SAMwave: Wavelet-Driven Feature Enrichment for Effective Adaptation of Segment Anything Model
Saurabh Yadav,Avi Gupta,Koteswar Rao Jerripothula
Main category: cs.CV
TL;DR: SAMwave是一种基于小波变换的新方法,用于改进SAM模型在复杂任务中的性能,显著优于现有适配方法。
- Motivation: 大型基础模型(如SAM)在复杂任务中性能下降,现有适配方法效果有限。
- Method: 提出SAMwave,利用小波变换提取多尺度高频特征,并引入复数适配器捕捉空间-频率信息。
- Result: 在四项低层视觉任务中,SAMwave显著优于现有方法,适用于不同SAM变体。
- Conclusion: SAMwave高效、灵活且可解释,为改进基础模型适配提供了新思路。
[76] SAViL-Det: Semantic-Aware Vision-Language Model for Multi-Script Text Detection
Mohammed-En-Nadhir Zighem,Abdenour Hadid
Main category: cs.CV
TL;DR: SAViL-Det是一种新型语义感知视觉语言模型,通过结合文本提示与视觉特征,提升多脚本文本检测性能。
- Motivation: 自然场景中的文本检测面临多样脚本和任意形状的挑战,现有方法未能充分利用语义上下文。
- Method: 结合预训练的CLIP模型和AFPN进行多尺度视觉特征融合,引入语言-视觉解码器通过跨模态注意力传播语义信息,并采用文本到像素对比学习机制。
- Result: 在MLT-2019和CTW1500数据集上分别达到84.8%和90.2%的F-score,表现优异。
- Conclusion: SAViL-Det通过语义与视觉特征的深度融合,显著提升了多脚本和任意形状文本的检测性能。
[77] Color histogram equalization and fine-tuning to improve expression recognition of (partially occluded) faces on sign language datasets
Fabrizio Nunnari,Alakshendra Jyotsnaditya Ramkrishna Singh,Patrick Gebhard
Main category: cs.CV
TL;DR: 研究通过计算机视觉方法量化面部表情分类在手语数据集上的表现,引入颜色归一化方法,结果显示分类准确率较高且方差小。
- Motivation: 探究计算机视觉在手语数据集中面部表情分类的能力,并比较听力正常与聋哑人群在情绪表现上的差异。
- Method: 采用颜色归一化(基于直方图均衡化和微调)并分别使用上半脸和下半脸进行表情识别。
- Result: 平均敏感度为83.8%,方差为0.042;下半脸识别率(79.6%)高于上半脸(77.9%),但上半脸分类准确率超过人类水平。
- Conclusion: 计算机视觉方法在手语数据集上能有效分类面部表情,且上半脸识别表现优于人类。
[78] When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios
Kele Shao,Keda Tao,Kejia Zhang,Sicheng Feng,Mu Cai,Yuzhang Shang,Haoxuan You,Can Qin,Yang Sui,Huan Wang
Main category: cs.CV
TL;DR: 该论文系统综述了多模态长上下文标记压缩领域,按数据模态分类现有方法,并分析了压缩机制,旨在推动未来研究。
- Motivation: 多模态大语言模型(MLLMs)在处理长上下文时面临计算挑战,标记压缩成为关键解决方案。
- Method: 按图像、视频、音频三种模态分类压缩方法,并基于机制(如变换、相似性、注意力等)进一步分析。
- Result: 提供了全面的分类和分析,总结了当前进展和挑战。
- Conclusion: 论文为多模态标记压缩领域提供了结构化综述,并维护公开资源以跟踪最新进展。
[79] Dual-Stream Global-Local Feature Collaborative Representation Network for Scene Classification of Mining Area
Shuqi Fan,Haoyi Wang,Xianju Li
Main category: cs.CV
TL;DR: 提出了一种双分支融合模型,用于矿区场景分类,结合全局和局部特征,准确率达83.63%。
- Motivation: 矿区场景分类为地质环境监测和资源开发规划提供基础数据,但复杂空间布局和多尺度特征带来挑战。
- Method: 模型包括多尺度全局Transformer分支、局部增强协作表示分支和双分支深度特征融合模块,通过多损失计算平衡模块。
- Result: 模型整体准确率为83.63%,优于其他对比模型,各项评估指标表现最佳。
- Conclusion: 双分支融合模型能有效捕捉矿区场景的全局和局部特征,提升分类精度。
[80] Motion-example-controlled Co-speech Gesture Generation Leveraging Large Language Models
Bohong Chen,Yumeng Li,Youyi Zheng,Yao-Xiang Ding,Kun Zhou
Main category: cs.CV
TL;DR: MECo框架利用大语言模型(LLMs)生成基于运动示例的共语音手势,保留细节并实现语音一致性。
- Motivation: 现有手势生成系统通过预定义标签或伪标签控制,常丢失原始运动细节。
- Method: 通过微调LLMs同时解析语音音频和运动示例,将运动示例作为显式查询上下文。
- Result: 在FGD、运动多样性和示例手势相似性上表现最优,支持多模态输入和局部控制。
- Conclusion: MECo在共语音手势生成中实现了高保真和灵活性。
[81] MambaMap: Online Vectorized HD Map Construction using State Space Model
Ruizi Yang,Xiaolu Liu,Junbo Chen,Jianke Zhu
Main category: cs.CV
TL;DR: MambaMap是一个高效融合长时域时空特征的框架,用于在线构建矢量化的高精地图,通过内存库和门控机制提升鲁棒性和计算效率。
- Motivation: 现有方法未能充分利用时空信息或计算开销大,MambaMap旨在解决这些问题。
- Method: 引入内存库存储历史帧信息,动态更新BEV特征和实例查询;设计门控机制和多方向时空扫描策略。
- Result: 在nuScenes和Argoverse2数据集上表现优于现有方法。
- Conclusion: MambaMap通过高效时空建模显著提升了高精地图的预测精度和一致性。
[82] Decomposing Densification in Gaussian Splatting for Faster 3D Scene Reconstruction
Binxiao Huang,Zhengwu Liu,Ngai Wong
Main category: cs.CV
TL;DR: 提出了一种全局到局部的高斯分布策略和能量引导的多分辨率训练框架,显著加速3D高斯泼溅训练,减少高斯基元数量并提升重建性能。
- Motivation: 3D高斯泼溅训练收敛慢,因高斯基元的空间分布和密度化效率不足。
- Method: 分析分裂和克隆操作,提出全局到局部密度化策略和能量引导的多分辨率训练框架,动态修剪高斯基元。
- Result: 在多个数据集上实现2倍以上加速,高斯基元更少且重建性能更优。
- Conclusion: 方法高效,显著提升训练速度和重建质量。
[83] AnimalClue: Recognizing Animals by their Traces
Risa Shinoda,Nakamasa Inoue,Iro Laina,Christian Rupprecht,Hirokatsu Kataoka
Main category: cs.CV
TL;DR: AnimalClue是一个用于从间接证据(如足迹、粪便等)识别物种的大规模数据集,填补了现有数据集的空白。
- Motivation: 间接证据在野生动物监测中很重要,但现有方法主要关注直接视觉特征,缺乏对间接证据的研究。
- Method: 构建了包含159,605个标注框的数据集AnimalClue,涵盖5类间接证据和968个物种,并评估了代表性视觉模型。
- Result: 实验揭示了从动物痕迹中识别物种的关键挑战,数据集和代码已公开。
- Conclusion: AnimalClue为间接证据的物种识别提供了新资源,并指出了未来研究方向。
[84] MIRepNet: A Pipeline and Foundation Model for EEG-Based Motor Imagery Classification
Dingkun Liu,Zhu Chen,Jingwei Luo,Shijie Lian,Dongrui Wu
Main category: cs.CV
TL;DR: MIRepNet是首个针对运动想象(MI)范式的EEG基础模型,结合了高质量的预处理流程和混合预训练策略,显著提升了性能。
- Motivation: 现有EEG基础模型忽视了范式特定的神经生理学差异,限制了泛化能力。MIRepNet旨在解决这一问题,专注于MI范式。
- Method: MIRepNet包括神经生理学启发的预处理流程和混合预训练策略(自监督掩码重建与监督MI分类结合)。
- Result: 在五个公开MI数据集上,MIRepNet表现优于现有模型,且仅需每类少于30次试验即可适应新任务。
- Conclusion: MIRepNet为MI范式提供了高效的基础模型,显著提升了EEG解码性能。
[85] L-MCAT: Unpaired Multimodal Transformer with Contrastive Attention for Label-Efficient Satellite Image Classification
Mitul Goswami,Mrinal Goswami
Main category: cs.CV
TL;DR: L-MCAT是一种基于Transformer的轻量级多模态对比注意力框架,用于标签高效的遥感图像分类,通过两种创新技术实现高性能和低计算成本。
- Motivation: 解决遥感图像分类中标签稀缺和多模态数据对齐的挑战,同时降低计算资源需求。
- Method: 引入Modality-Spectral Adapters(MSA)压缩高维输入,以及Unpaired Multimodal Attention Alignment(U-MAA)自监督机制对齐异构模态。
- Result: 在SEN12MS数据集上达到95.4%的准确率,仅需每类20个标签,计算资源需求显著低于基线模型。
- Conclusion: L-MCAT在标签效率和计算效率上表现出色,适用于实际部署。
[86] Controllable Feature Whitening for Hyperparameter-Free Bias Mitigation
Yooshin Cho,Hanbyel Cho,Janghyeon Lee,HyeongGwon Hong,Jaesung Ahn,Junmo Kim
Main category: cs.CV
TL;DR: 提出了一种名为可控特征白化的框架,通过消除目标与偏差特征之间的线性相关性,显著减轻了深度神经网络中的偏差问题。
- Motivation: 随着人工智能的广泛应用,开发可信赖的人工智能变得至关重要。然而,深度神经网络容易学习数据集中的虚假相关性,影响了模型的可靠性。
- Method: 通过量化目标与偏差特征之间的线性相关性(协方差矩阵),并利用白化模块消除这些相关性。该方法无需正则化项或对抗学习,避免了优化不稳定性。
- Result: 在四个基准数据集(Corrupted CIFAR-10、Biased FFHQ、WaterBirds和Celeb-A)上验证了方法的优越性,显著减轻了偏差问题。
- Conclusion: 提出的方法通过调整加权系数,有效平衡了算法效用与公平性,且无需建模高阶依赖关系。
[87] T SVFND: Towards an Evolving Fake News Detector for Emergencies with Test-time Training on Short Video Platforms
Liyuan Zhang,Zeyun Cheng,Yan Yang,Yong Liu,Jinke Ma
Main category: cs.CV
TL;DR: 提出了一种基于测试时训练(TTT)的假新闻视频检测框架T
- Motivation: 现有假新闻视频检测方法因不同事件间的分布偏移而泛化能力不足,尤其是在紧急新闻场景下性能显著下降。
- Method: 设计了基于掩码语言建模(MLM)的自监督辅助任务,结合多模态(音频和视频)上下文信息预测掩码词,并在测试时训练阶段通过辅助任务适应测试数据分布。
- Result: 在公开基准测试中验证了模型的有效性,特别是在紧急新闻检测方面表现突出。
- Conclusion: T
SVFND框架通过测试时训练显著提升了假新闻视频检测的鲁棒性,尤其在紧急新闻场景下效果显著。
[88] Fine-structure Preserved Real-world Image Super-resolution via Transfer VAE Training
Qiaosi Yi,Shuai Li,Rongyuan Wu,Lingchen Sun,Yuhui Wu,Lei Zhang
Main category: cs.CV
TL;DR: 论文提出了一种Transfer VAE Training (TVT)策略,通过将8倍下采样的VAE转换为4倍下采样,同时适配预训练的UNet,以提升图像超分辨率中细节结构的重建效果。
- Motivation: 现有基于预训练稳定扩散(SD)模型的真实图像超分辨率(Real-ISR)方法在重建图像细节结构(如小字符和纹理)时表现不佳,主要原因是SD模型中VAE的激进分辨率降低(8倍下采样)。
- Method: 提出TVT策略:首先基于原始VAE编码器的输出特征训练一个4倍下采样的解码器,然后固定新解码器训练4倍下采样的编码器。此外,优化网络架构以减少计算成本。
- Result: 实验表明,TVT方法显著改善了细节结构的保留效果,同时计算量低于当前最优的一步扩散模型。
- Conclusion: TVT策略有效解决了SD模型中VAE下采样率过高的问题,提升了图像超分辨率的细节重建能力,同时降低了计算成本。
[89] SWIFT: A General Sensitive Weight Identification Framework for Fast Sensor-Transfer Pansharpening
Zeyu Xia,Chenxi Sun,Tianyu Xin,Yubo Zeng,Haoyu Chen,Liang-Jian Deng
Main category: cs.CV
TL;DR: SWIFT框架通过无监督采样和敏感权重更新,快速适应跨传感器全色锐化任务,显著减少计算成本。
- Motivation: 解决深度学习模型在跨传感器数据上性能下降的问题,避免昂贵的全量微调或复杂架构设计。
- Method: 使用无监督采样策略选择3%的目标域样本,通过梯度分析识别并更新敏感权重。
- Result: 将适应时间从小时级缩短至一分钟,性能优于直接迁移基准,甚至媲美全量微调。
- Conclusion: SWIFT是一种高效、通用的跨传感器适应框架,显著提升全色锐化任务性能。
[90] From Gallery to Wrist: Realistic 3D Bracelet Insertion in Videos
Chenjian Gao,Lihe Ding,Rui Han,Zhanpeng Huang,Zibin Wang,Tianfan Xue
Main category: cs.CV
TL;DR: 提出了一种结合3D渲染和2D扩散模型的混合方法,用于在动态视频中插入3D对象,以实现时间一致性和逼真光照效果。
- Motivation: 解决在动态场景中插入3D对象时,传统方法难以同时实现时间一致性和逼真光照的问题。
- Method: 结合3D高斯泼溅(3DGS)和2D扩散模型,通过分离对象固有属性并优化多帧加权调整,实现逼真光照和时间一致性。
- Result: 提出了一种新颖的混合管道,首次将3D渲染和2D扩散模型结合,显著提升了视频对象插入的真实性和一致性。
- Conclusion: 该方法为视频编辑提供了一种高效且逼真的解决方案,适用于增强现实、虚拟试穿等应用。
[91] PIVOTS: Aligning unseen Structures using Preoperative to Intraoperative Volume-To-Surface Registration for Liver Navigation
Peng Liu,Bianca Güttner,Yutong Su,Chenyang Li,Jinjing Xu,Mingyang Liu,Zhe Min,Andrey Zhylka,Jasper Smit,Karin Olthof,Matteo Fusaglia,Rudi Apolle,Matthias Miederer,Laura Frohneberger,Carina Riediger,Jügen Weitz,Fiona Kolbinger,Stefanie Speidel,Micha Pfeiffer
Main category: cs.CV
TL;DR: PIVOTS是一种用于非刚性配准的神经网络,通过点云输入预测肝脏变形,解决了腹腔镜肝脏手术中的大变形、噪声数据和视野受限问题。
- Motivation: 腹腔镜肝脏手术中,术前信息与术中视图的融合需要准确的变形预测,但大变形、噪声数据和视野受限增加了挑战。
- Method: PIVOTS采用几何特征提取编码器和变形感知交叉注意力解码器,利用合成数据训练,并在合成和真实数据集上验证。
- Result: 方法在噪声、大变形和视野受限下表现出色,优于基线方法。
- Conclusion: PIVOTS为肝脏配准提供了高效解决方案,并公开了代码和数据集以促进公平比较。
[92] Detecting Visual Information Manipulation Attacks in Augmented Reality: A Multimodal Semantic Reasoning Approach
Yanming Xiu,Maria Gorlatova
Main category: cs.CV
TL;DR: 论文提出了一种针对AR中视觉信息操纵(VIM)攻击的分类和检测方法,构建了数据集AR-VIM,并开发了多模态语义推理框架VIM-Sense,检测准确率达88.94%。
- Motivation: AR中的虚拟内容可能导致语义误解或用户错误,需要研究如何检测和防御视觉信息操纵攻击。
- Method: 提出VIM攻击的分类法(字符、短语、模式操纵),构建数据集AR-VIM,开发多模态框架VIM-Sense,结合视觉语言模型和OCR技术。
- Result: VIM-Sense在AR-VIM数据集上检测准确率为88.94%,优于纯视觉和纯文本基线,检测延迟约7秒。
- Conclusion: VIM-Sense能有效检测AR中的视觉信息操纵攻击,为AR安全提供了实用解决方案。
[93] Generative Pre-training for Subjective Tasks: A Diffusion Transformer-Based Framework for Facial Beauty Prediction
Djamel Eddine Boukhari,Ali chemsa
Main category: cs.CV
TL;DR: 论文提出了一种基于生成模型的两阶段框架Diff-FBP,用于面部美感预测(FBP),通过自监督去噪任务预训练Diffusion Transformer,显著提升了性能。
- Motivation: 现有基于深度卷积网络或通用Vision Transformer的方法难以学习与高级美学评估真正对齐的特征表示。
- Method: 两阶段框架:1)在FFHQ数据集上通过自监督去噪预训练Diffusion Transformer;2)冻结预训练编码器,仅微调轻量回归头。
- Result: 在FBP5500基准上取得Pearson相关系数0.932,显著优于现有方法。
- Conclusion: 生成式预训练策略是关键,为主观视觉任务提供了更具语义特征表示。
[94] MagicAnime: A Hierarchically Annotated, Multimodal and Multitasking Dataset with Benchmarks for Cartoon Animation Generation
Shuolin Xu,Bingyuan Wang,Zeyu Cai,Fangteng Fu,Yue Ma,Tongyi Lee,Hongchuan Yu,Zeyu Wang
Main category: cs.CV
TL;DR: MagicAnime数据集填补了卡通动画多模态数据的空白,支持多种视频生成任务,并通过实验验证了其有效性。
- Motivation: 卡通动画生成面临复杂非人类角色、多样动作和细腻情感的挑战,且缺乏公开多模态数据。
- Method: 提出MagicAnime数据集,包含40万视频片段,支持图像到视频生成、全身标注、视频到视频面部动画和音频驱动面部动画。
- Result: 在四个任务上验证了数据集的高保真、细粒度和可控生成能力。
- Conclusion: MagicAnime数据集和基准测试为卡通动画生成提供了重要支持。
[95] ModalFormer: Multimodal Transformer for Low-Light Image Enhancement
Alexandru Brateanu,Raul Balmez,Ciprian Orhei,Codruta Ancuti,Cosmin Ancuti
Main category: cs.CV
TL;DR: ModalFormer是一个多模态框架,利用九种辅助模态提升低光图像增强性能,通过跨模态Transformer和多头自注意力机制实现最佳效果。
- Motivation: 低光图像增强因噪声、细节丢失和对比度差而具有挑战性,现有方法仅依赖RGB图像,忽略了多模态上下文信息。
- Method: 提出ModalFormer框架,包含跨模态Transformer(CM-T)和多个辅助子网络,采用跨模态多头自注意力机制(CM-MSA)融合RGB与多模态特征。
- Result: 在多个基准数据集上实现最佳性能。
- Conclusion: ModalFormer通过充分利用多模态信息,显著提升了低光图像增强的效果。
[96] Solving Scene Understanding for Autonomous Navigation in Unstructured Environments
Naveen Mathews Renji,Kruthika K,Manasa Keshavamurthy,Pooja Kumari,S. Rajarajeswari
Main category: cs.CV
TL;DR: 论文研究了在印度驾驶数据集上进行语义分割,比较了五种深度学习模型的性能,最高MIOU为0.6496。
- Motivation: 自动驾驶车辆需要准确理解场景,语义分割是关键。印度驾驶数据集更具挑战性,研究其性能有助于推动自动驾驶技术。
- Method: 使用UNET、UNET+RESNET50、DeepLabsV3、PSPNet和SegNet五种模型在印度驾驶数据集上进行语义分割,比较其MIOU。
- Result: 最高MIOU为0.6496,模型性能得到比较和分析。
- Conclusion: 论文展示了语义分割在印度驾驶数据集上的应用,为自动驾驶研究提供了新数据和方法参考。
[97] VESPA: Towards un(Human)supervised Open-World Pointcloud Labeling for Autonomous Driving
Levente Tempfli,Esteban Rivera,Markus Lienkamp
Main category: cs.CV
TL;DR: VESPA是一种多模态自动标注方法,结合LiDAR的几何精度和相机图像的语义信息,通过视觉语言模型实现开放词汇标注,显著提升3D点云标注质量。
- Motivation: 解决LiDAR数据稀疏、遮挡和语义粒度不足的问题,提供无需人工标注或高精度地图的高质量3D伪标签。
- Method: 融合LiDAR几何信息和相机语义,利用视觉语言模型进行开放词汇标注,直接在点云域优化检测质量。
- Result: 在Nuscenes数据集上,VESPA在目标发现和多类目标检测中分别达到52.95%和46.54%的AP。
- Conclusion: VESPA展示了在可扩展3D场景理解中的强大性能,为自动驾驶数据标注提供了高效解决方案。
[98] Second Competition on Presentation Attack Detection on ID Card
Juan E. Tapia,Mario Nieto,Juan M. Espin,Alvaro S. Rocamora,Javier Barrachina,Naser Damer,Christoph Busch,Marija Ivanovska,Leon Todorov,Renat Khizbullin,Lazar Lazarevich,Aleksei Grishin,Daniel Schulz,Sebastian Gonzalez,Amir Mohammadi,Ketan Kotwal,Sebastien Marcel,Raghavendra Mudgalgundurao,Kiran Raja,Patrick Schuch,Sushrut Patwardhan,Raghavendra Ramachandra,Pedro Couto Pereira,Joao Ribeiro Pinto,Mariana Xavier,Andrés Valenzuela,Rodrigo Lara,Borut Batagelj,Marko Peterlin,Peter Peer,Ajnas Muhammed,Diogo Nunes,Nuno Gonçalves
Main category: cs.CV
TL;DR: 第二届ID卡演示攻击检测竞赛总结,包含自动评估平台、两个赛道和新数据集,结果显示PAD技术有所提升但仍具挑战性。
- Motivation: 评估和改进ID卡上的演示攻击检测(PAD)技术,通过竞赛推动算法和数据集的进步。
- Method: 启用自动评估平台,设立两个赛道(算法和数据集评估),并共享新ID卡数据集作为基线。
- Result: Track 1中“Dragons”团队表现最佳(AV-Rank 40.48%,EER 11.44%),Track 2中“Incode”团队表现最佳(AV-Rank 14.76%,EER 6.36%)。
- Conclusion: PAD技术在ID卡上有所提升,但图像数量(尤其是真实图像)仍是挑战。
[99] Indian Sign Language Detection for Real-Time Translation using Machine Learning
Rajat Singhal,Jatin Gupta,Akhil Sharma,Anushka Gupta,Navya Sharma
Main category: cs.CV
TL;DR: 该研究利用卷积神经网络(CNN)开发了一个实时印度手语(ISL)检测与翻译系统,旨在解决聋哑社区沟通障碍问题,模型分类准确率达99.95%。
- Motivation: 聋哑社区因缺乏熟练翻译和技术支持而面临沟通障碍,尤其在印度,ISL的技术解决方案相对落后。研究旨在填补这一空白。
- Method: 采用CNN模型,结合MediaPipe进行手部跟踪和动作检测,训练于全面的ISL数据集。
- Result: 模型分类准确率达99.95%,并通过准确性、F1分数、精确率和召回率等指标验证了其可靠性。
- Conclusion: 该系统为印度聋哑社区提供了高效的实时翻译解决方案,显著提升了沟通效率。
[100] Can Foundation Models Predict Fitness for Duty?
Juan E. Tapia,Christoph Busch
Main category: cs.CV
TL;DR: 论文探讨了利用深度学习和基础模型通过近红外虹膜图像预测工作适合性(警觉性),解决了数据收集的挑战。
- Motivation: 传统生物识别设备的功能扩展至警觉性评估,但数据收集(如酒精、药物、睡眠剥夺相关图像)困难,需大量数据训练AI模型。
- Method: 利用自监督模型的基础模型和深度学习技术,通过大量图像训练下游模型。
- Result: 基础模型的泛化能力为预测工作适合性提供了实际机会。
- Conclusion: 深度学习和基础模型在预测工作适合性方面具有潜力,解决了数据不足的问题。
[101] JOLT3D: Joint Learning of Talking Heads and 3DMM Parameters with Application to Lip-Sync
Sungjoon Park,Minsik Park,Haneol Lee,Jaesub Yun,Donggeon Lee
Main category: cs.CV
TL;DR: 本文提出了一种联合学习3D人脸重建和说话头部合成的方法,优化了基于FACS的表情blendshape表示,并改进了唇同步质量。
- Motivation: 现有方法通常通过拟合3DMM参数到2D关键点或依赖预训练模型,导致合成效果不佳。本文旨在通过联合学习提升合成质量和唇同步效果。
- Method: 联合学习3D人脸重建和说话头部合成模型,优化FACS-based blendshape表示,并提出新的唇同步流程,分离下巴轮廓以减少闪烁。
- Result: 方法提升了生成面部的质量,并优化了唇同步效果,减少了嘴部区域的闪烁。
- Conclusion: 联合学习3D重建和合成模型有效提升了说话头部合成的质量,特别是唇同步的表现。
[102] Frequency-Aware Autoregressive Modeling for Efficient High-Resolution Image Synthesis
Zhuokun Chen,Jugang Fan,Zhuowei Yu,Bohan Zhuang,Mingkui Tan
Main category: cs.CV
TL;DR: SparseVAR是一种用于视觉自回归建模的加速框架,通过动态排除低频率令牌减少计算开销,同时保持图像质量。
- Motivation: 高分辨率阶段的计算开销大,低频率令牌对图像质量影响小且与邻近令牌相似。
- Method: 使用轻量级MSE指标识别低频率令牌,并通过锚令牌保持区域保真度。
- Result: 在Infinity-2B中实现2倍加速,图像质量几乎无损。
- Conclusion: SparseVAR有效减少计算成本,提升模型效率。
[103] Priority-Aware Pathological Hierarchy Training for Multiple Instance Learning
Sungrae Hong,Kyungeun Kim,Juhyeon Kim,Sol Lee,Jisu Shin,Chanjae Song,Mun Yong Yi
Main category: cs.CV
TL;DR: 提出了一种解决多实例学习(MIL)在临床任务中优先级问题的新方法,通过垂直和水平层次结构优化预测。
- Motivation: 现有MIL方法未充分考虑病理症状和诊断类别的优先级,导致模型忽视类别重要性。
- Method: 采用垂直和水平层次结构,对齐预测并利用隐式特征重用,优先处理更严重的临床类别。
- Result: 实验表明,该方法有效减少误诊,并在多类场景中优先处理重要症状。
- Conclusion: 新方法通过层次结构和特征重用,显著提升了临床MIL任务的性能。
[104] Automated 3D-GS Registration and Fusion via Skeleton Alignment and Gaussian-Adaptive Features
Shiyang Liu,Dianyi Yang,Yu Gao,Bohan Ren,Yi Yang,Mengyin Fu
Main category: cs.CV
TL;DR: 提出了一种自动化的3D高斯泼溅子图对齐与融合方法,无需人工干预,提高了配准精度和融合质量。
- Motivation: 现有方法多依赖人工干预选择参考子图,且硬阈值过滤会降低渲染质量,因此需要一种自动化且高质量的方法。
- Method: 提取多场景几何骨架,利用椭球感知卷积捕获属性,并引入多因素高斯融合策略。
- Result: 在复杂场景中配准误差降低41.9%,融合后PSNR提升10.11 dB。
- Conclusion: 该方法显著提升了场景对齐与重建的准确性,适用于机器人感知和自主导航。
[105] An Improved YOLOv8 Approach for Small Target Detection of Rice Spikelet Flowering in Field Environments
Beizhang Chen,Jinming Liang,Zheng Xiong,Ming Pan,Xiangbao Meng,Qingshan Lin,Qun Ma,Yingping Zhao
Main category: cs.CV
TL;DR: 该研究提出了一种基于改进YOLOv8的水稻小穗开花识别方法,通过BiFPN和p2检测头提升特征融合和小目标检测能力,实验表明模型性能显著优于基线YOLOv8。
- Motivation: 准确检测水稻开花时间对杂交水稻制种至关重要,但田间环境复杂和小穗特征(如尺寸小、花期短)使得自动化识别具有挑战性。
- Method: 改进YOLOv8模型:1) 用BiFPN替代PANet增强特征融合;2) 添加p2小目标检测头减少特征损失。构建专用数据集支持训练和测试。
- Result: 改进的YOLOv8s-p2模型mAP@0.5达65.9%,精度67.6%,召回率61.5%,F1-score 64.41%,性能显著提升且运行速度69 f/s。
- Conclusion: 改进的YOLOv8s-p2模型兼具高精度和速度,为杂交水稻制种的自动化监测提供了有效解决方案。
[106] Investigating the Effect of Spatial Context on Multi-Task Sea Ice Segmentation
Behzad Vahedi,Rafael Pires de Lima,Sepideh Jalayer,Walter N. Meier,Andrew P. Barrett,Morteza Karimzadeh
Main category: cs.CV
TL;DR: 研究探讨了空间上下文对海冰分割任务的影响,通过多尺度模型和传感器数据融合优化分割性能。
- Motivation: 海冰分割中空间上下文的多尺度捕捉至关重要,但基于观测分辨率和任务特性的最优空间上下文配置尚未充分研究。
- Method: 使用Atrous Spatial Pyramid Pooling和多任务分割模型,结合Sentinel-1 SAR和AMSR2数据,系统分析空间上下文的影响。
- Result: 小感受野适合高分辨率数据,中等感受野对发展阶段分割更优,SAR与AMSR2融合提升所有任务性能。
- Conclusion: 选择适合观测分辨率和目标特性的空间上下文对海冰分割至关重要,研究为地理空间应用中的深度学习模型优化提供了见解。
[107] Beyond Class Tokens: LLM-guided Dominant Property Mining for Few-shot Classification
Wei Zhuo,Runjie Luo,Wufeng Xue,Linlin Shen
Main category: cs.CV
TL;DR: 论文提出了一种新的少样本学习方法(BCT-CLIP),通过对比学习探索主导属性,结合LLM先验知识,提升分类性能。
- Motivation: 解决少样本学习中数据稀缺导致的视觉多样性不足问题,避免仅依赖类别名称嵌入的简单对齐。
- Method: 提出多属性生成器(MPG)、LLM辅助检索和聚类修剪,以及新的对比学习策略。
- Result: 在11个广泛使用的数据集上表现出优越性能。
- Conclusion: 探索主导属性有助于提升少样本分类的判别性表示学习。
[108] GaRe: Relightable 3D Gaussian Splatting for Outdoor Scenes from Unconstrained Photo Collections
Haiyang Bai,Jiaqi Zhu,Songru Jiang,Wei Huang,Tao Lu,Yuanqi Li,Jie Guo,Runze Fu,Yanwen Guo,Lijun Chen
Main category: cs.CV
TL;DR: 提出了一种基于3D高斯泼溅的户外重光照框架,通过固有图像分解精确整合阳光、天空辐射和间接光照,支持多样化阴影操作和动态阴影效果。
- Motivation: 解决现有方法将全局光照压缩为单一潜在向量的局限性,实现更精确的光照分解和阴影模拟。
- Method: 采用残差法提取阳光可见性、区域监督框架和光线追踪技术,实现物理可解释的光照分解和阴影模拟。
- Result: 实验表明,该方法在生成新视角时具有高保真度,并产生更自然、多面的光照和阴影效果。
- Conclusion: 该框架在户外重光照任务中表现出色,优于现有方法。
[109] T2VParser: Adaptive Decomposition Tokens for Partial Alignment in Text to Video Retrieval
Yili Li,Gang Xiong,Gaopeng Gou,Xiangyan Qu,Jiamin Zhuang,Zhen Li,Junzheng Shi
Main category: cs.CV
TL;DR: T2VParser提出了一种多视角语义表示方法,通过自适应分解标记实现文本与视频的精准对齐,解决了现有视频-文本匹配中的部分不对齐问题。
- Motivation: 现有视频-文本数据集中的文本描述仅能反映视频内容的一部分,导致视频-文本匹配存在部分不对齐问题,直接对齐文本与视频表示会产生错误监督。
- Method: 提出T2VParser,通过自适应分解标记(一组可学习的跨模态共享标记)提取多视角语义表示,实现自适应语义对齐。
- Result: 实验表明,T2VParser通过有效的跨模态内容分解实现了精准的部分对齐。
- Conclusion: T2VParser在保留预训练模型知识的同时,实现了文本与视频的精准对齐。
[110] AgroBench: Vision-Language Model Benchmark in Agriculture
Risa Shinoda,Nakamasa Inoue,Hirokatsu Kataoka,Masaki Onishi,Yoshitaka Ushiku
Main category: cs.CV
TL;DR: AgroBench是一个由农学家标注的基准数据集,用于评估视觉语言模型(VLMs)在农业任务中的表现,涵盖7个农业主题和885个类别。
- Motivation: 农业任务的自动化理解(如病害识别)对可持续作物生产至关重要,而VLMs的进步有望通过文本交互扩展农业任务范围。
- Method: 引入AgroBench基准,包含203种作物和682种病害类别,由专家标注,用于全面评估VLM能力。
- Result: 评估显示VLMs在细粒度识别任务(如杂草识别)中表现接近随机,仍有改进空间。
- Conclusion: AgroBench为VLM的未来发展提供了错误分析和改进方向,数据集和代码已公开。
[111] Enhancing Spatial Reasoning through Visual and Textual Thinking
Xun Liang,Xin Guo,Zhongming Jin,Weihang Pan,Penghui Shang,Deng Cai,Binbin Lin,Jieping Ye
Main category: cs.CV
TL;DR: 提出了一种名为SpatialVTS的方法,通过视觉和文本双重思维增强空间推理能力,显著提升了模型在空间理解任务中的表现。
- Motivation: 尽管视觉语言模型(VLMs)发展迅速,但在空间推理任务中仍表现不佳,因此需要一种新方法来提升其空间推理能力。
- Method: SpatialVTS方法分为空间视觉思维和空间文本思维两个阶段:视觉阶段生成与位置相关的特定标记,文本阶段基于视觉线索和对话进行长期推理。同时,对数据集进行人工修正和结构调整以支持训练。
- Result: 在不引入额外信息(如掩码或深度)的情况下,模型在多个空间理解任务中的平均表现显著优于其他模型。
- Conclusion: SpatialVTS方法通过视觉和文本双重思维有效提升了空间推理能力,为视觉问答和机器人技术提供了重要支持。
[112] Low-Cost Machine Vision System for Sorting Green Lentils (Lens Culinaris) Based on Pneumatic Ejection and Deep Learning
Davy Rojas Yana,Edwin Salcedo
Main category: cs.CV
TL;DR: 论文提出了一种基于计算机视觉和气动喷射的动态绿扁豆分类系统,采用YOLOv8模型实现实时多类别分类,准确率达87.2%。
- Motivation: 开发低成本、模块化的硬件平台,结合计算机视觉技术,提高绿扁豆分类的准确性和效率。
- Method: 使用两阶段YOLOv8模型(检测和分类)和气动喷射机制,结合Arduino控制系统实现实时交互。
- Result: 系统在59 mm/s的传送带速度下运行,分类准确率为87.2%,处理速率为8克/分钟。
- Conclusion: 原型展示了机器视觉在谷物分类中的潜力,并为未来改进提供了模块化基础。
[113] T2I-Copilot: A Training-Free Multi-Agent Text-to-Image System for Enhanced Prompt Interpretation and Interactive Generation
Chieh-Yun Chen,Min Shi,Gong Zhang,Humphrey Shi
Main category: cs.CV
TL;DR: T2I-Copilot是一个无需训练的多智能体系统,通过协作自动化提示词优化、模型选择和迭代生成,显著提升生成质量和文本-图像对齐。
- Motivation: 现有文本到图像生成模型对提示词敏感,需要反复优化且缺乏明确反馈,现有技术可控性有限或需额外训练。
- Method: T2I-Copilot包含三个智能体:输入解析器、生成引擎和质量评估器,支持全自动和人工干预模式。
- Result: 在开源模型上,T2I-Copilot的VQA分数接近商业模型,成本仅为FLUX1.1-pro的16.59%,性能提升6.17%。
- Conclusion: T2I-Copilot简化了提示工程,提升了生成质量,适用于开源和商业模型。
[114] Annotation-Free Human Sketch Quality Assessment
Lan Yang,Kaiyue Pang,Honggang Zhang,Yi-Zhe Song
Main category: cs.CV
TL;DR: 本文首次研究草图质量评估,提出几何感知分类层(GACL)作为通用方法,利用特征幅度作为质量指标,无需人工标注。GACL在草图及自然图像质量评估中均有效,并展示了其在实际应用中的潜力。
- Motivation: 解决草图质量评估问题,尤其是如何量化评估手绘草图的质量,而无需依赖人工标注。
- Method: 提出GACL方法,将特征幅度与可识别性学习作为双重任务,通过交叉熵分类损失优化,具有几何解释性。
- Result: 通过大规模人类研究验证GACL指标与人类感知一致,并展示了其在草图质量评估和自然图像质量评估中的应用。
- Conclusion: GACL是一种通用方法,适用于草图及自然图像质量评估,并可作为数据重加权策略应用于其他问题。
[115] FED-PsyAU: Privacy-Preserving Micro-Expression Recognition via Psychological AU Coordination and Dynamic Facial Motion Modeling
Jingting Li,Yu Qian,Lin Zhao,Su-Jing Wang
Main category: cs.CV
TL;DR: 提出FED-PsyAU框架,结合心理学先验知识和联邦学习,解决微表情识别中的样本量小、隐私问题。
- Motivation: 微表情识别(MER)因样本量小、特征细微及隐私问题受限,需高效建模和跨场景隐私保护方案。
- Method: 通过心理学研究协调面部动作单元(AUs),开发DPK-GAT网络结合先验知识,采用联邦学习框架避免数据共享。
- Result: 在常用ME数据库上验证了方法的有效性,提升了识别性能并保护隐私。
- Conclusion: FED-PsyAU框架成功解决了MER的样本和隐私挑战,为实际应用提供了可行方案。
[116] MemoryTalker: Personalized Speech-Driven 3D Facial Animation via Audio-Guided Stylization
Hyung Kyu Kim,Sangmin Lee,Hak Gu Kim
Main category: cs.CV
TL;DR: MemoryTalker提出了一种仅需音频输入即可生成逼真3D面部动画的方法,无需额外先验信息,提升了实用性。
- Motivation: 现有方法需要额外先验信息(如类别标签或3D面部网格),限制了实用性和个性化表现。
- Method: 采用两阶段框架:1.记忆通用动作;2.通过音频驱动的说话风格特征实现个性化面部动画合成。
- Result: 定量、定性评估及用户研究表明,MemoryTalker在个性化面部动画方面优于现有方法。
- Conclusion: MemoryTalker无需额外先验信息即可生成可靠个性化面部动画,提升了实用性。
[117] Learning Phonetic Context-Dependent Viseme for Enhancing Speech-Driven 3D Facial Animation
Hyung Kyu Kim,Hak Gu Kim
Main category: cs.CV
TL;DR: 提出了一种基于语音上下文感知的损失函数,用于改善语音驱动的3D面部动画的连续性和自然性。
- Motivation: 传统方法通过逐帧对齐最小化重建损失,但忽略了面部运动的连续性,导致动画抖动和不自然。
- Method: 提出了一种新的语音上下文感知损失函数,通过引入音素协同发音权重,动态调整面部运动的重要性。
- Result: 实验表明,该方法在定量指标和视觉质量上均优于传统重建损失。
- Conclusion: 强调了在语音驱动的3D面部动画中显式建模语音上下文依赖音素的重要性。
[118] LSFDNet: A Single-Stage Fusion and Detection Network for Ships Using SWIR and LWIR
Yanyin Guo,Runxuan An,Junwei Li,Zhiyuan Zhang
Main category: cs.CV
TL;DR: 提出了一种名为LSFDNet的单阶段图像融合检测算法,结合短波红外(SWIR)和长波红外(LWIR)的优势,通过多级交叉融合模块(MLCF)和对象增强损失函数(OE)提升检测性能。
- Motivation: 传统船舶检测方法依赖单模态图像,在复杂场景(如光照变化或浓雾)中效果受限,因此探索多模态融合的优势。
- Method: 提出LSFDNet算法,结合MLCF模块和OE损失函数,利用检测任务的位置先验和多模态特征融合。
- Result: 在两个数据集上验证了算法的优越性,并建立了NSLSR数据集填补领域空白。
- Conclusion: LSFDNet在多模态融合和检测任务中表现出色,为复杂场景下的船舶检测提供了有效解决方案。
[119] AV-Deepfake1M++: A Large-Scale Audio-Visual Deepfake Benchmark with Real-World Perturbations
Zhixi Cai,Kartik Kuckreja,Shreya Ghosh,Akanksha Chuchra,Muhammad Haris Khan,Usman Tariq,Tom Gedeon,Abhinav Dhall
Main category: cs.CV
TL;DR: 论文介绍了AV-Deepfake1M++数据集,扩展了AV-Deepfake1M,包含200万视频片段,用于应对日益逼真的视频伪造问题。
- Motivation: 应对文本转语音和面部-声音重演模型带来的视频伪造问题,需要多样化生成方法和常见扰动的数据集。
- Method: 提出AV-Deepfake1M++数据集,描述数据生成策略,并用先进方法进行基准测试。
- Result: 数据集包含200万视频片段,支持多样化操纵策略和视听扰动,并举办了2025年1M-Deepfakes检测挑战赛。
- Conclusion: AV-Deepfake1M++将推动Deepfake领域研究,相关挑战赛和数据集已公开。
[120] M-Net: MRI Brain Tumor Sequential Segmentation Network via Mesh-Cast
Jiacheng Lu,Hui Ding,Shiyu Zhang,Guoping Huo
Main category: cs.CV
TL;DR: M-Net提出了一种用于MRI肿瘤分割的灵活框架,利用相邻MRI切片的空间相关性,通过Mesh-Cast机制和TPS训练策略提升分割连续性和准确性。
- Motivation: MRI肿瘤分割中,3D数据的复杂性导致计算需求高,而相邻切片的空间相关性未被充分利用。
- Method: M-Net引入Mesh-Cast机制整合序列模型,设计TPS训练策略,分阶段学习通用模式和切片特征。
- Result: 在BraTS2019和BraTS2023数据集上,M-Net在所有关键指标上优于现有方法。
- Conclusion: M-Net通过时空建模技术,成为MRI肿瘤分割的稳健解决方案。
[121] Harnessing Diffusion-Yielded Score Priors for Image Restoration
Xinqi Lin,Fanghua Yu,Jinfan Hu,Zhiyuan You,Wu Shi,Jimmy S. Ren,Jinjin Gu,Chao Dong
Main category: cs.CV
TL;DR: HYPIR是一种新型图像修复方法,结合预训练扩散模型和对抗训练,解决了传统方法在修复质量、保真度和速度之间的平衡问题。
- Motivation: 传统图像修复方法(如MSE、GAN和扩散模型)难以平衡修复质量、保真度和速度,HYPIR旨在解决这些问题。
- Method: HYPIR通过预训练扩散模型初始化修复模型,再用对抗训练微调,无需扩散损失或迭代采样。
- Result: HYPIR在数值稳定性、收敛速度和修复质量上优于现有方法,支持文本引导和纹理调整。
- Conclusion: HYPIR实现了高效、高质量的图像修复,超越了现有方法。
[122] Enhanced Deep Learning DeepFake Detection Integrating Handcrafted Features
Alejandro Hinke-Navarro,Mario Nieto-Hidalgo,Juan M. Espin,Juan E. Tapia
Main category: cs.CV
TL;DR: 提出了一种结合手工频域特征和RGB输入的深度学习检测框架,用于检测深度伪造和人脸交换技术。
- Motivation: 深度伪造和人脸交换技术的快速发展对数字安全(如身份验证)构成威胁,传统检测方法难以应对复杂的面部操作。
- Method: 结合手工频域特征(如SRM、DCT、ELA、SVD、DFT)和RGB输入,利用频域和空间域中的操作痕迹增强分类器性能。
- Result: 该方法通过频域和空间域特征提供了更丰富、更具区分性的信息。
- Conclusion: 提出的混合方法能更有效地检测复杂的面部操作,提升数字安全性。
[123] Lightweight Remote Sensing Scene Classification on Edge Devices via Knowledge Distillation and Early-exit
Yang Zhao,Shusheng Li,Xueshang Feng
Main category: cs.CV
TL;DR: 提出了一种轻量级遥感场景分类框架,结合蒸馏全局滤波网络和提前退出机制,显著提升边缘设备上的性能。
- Motivation: 解决现有遥感场景分类模型在边缘设备上难以平衡准确性、延迟和能耗的问题。
- Method: 采用频域蒸馏技术压缩模型,并设计动态提前退出机制优化推理效率。
- Result: 在三个边缘设备和四个数据集上测试,平均推理速度提升1.3倍,能效提高40%以上,同时保持高分类准确率。
- Conclusion: 该框架为资源受限的边缘设备提供了一种高效的遥感场景分类解决方案。
[124] DAMS:Dual-Branch Adaptive Multiscale Spatiotemporal Framework for Video Anomaly Detection
Dezhi An,Wenqiang Liu,Kefan Wang,Zening Chen,Jun Lu,Shengcai Zhang
Main category: cs.CV
TL;DR: DAMS框架通过双路径架构(AMTPN+CBAM和CLIP驱动路径)实现视频异常检测,结合多尺度时空特征和高阶语义指导,在UCF-Crime和XD-Violence基准测试中表现优异。
- Motivation: 视频异常检测面临多尺度时间依赖、视觉-语义异质性和标记数据稀缺等挑战,需高效建模方法。
- Method: 提出DAMS框架,包括AMTPN(多粒度时间特征重建)与CBAM(双注意力映射)的主路径,以及CLIP驱动的并行路径(跨模态语义对齐)。
- Result: 在UCF-Crime和XD-Violence基准测试中验证了框架的有效性。
- Conclusion: DAMS通过双路径互补和信息融合,构建了全面的异常事件表征与识别能力。
[125] TransPrune: Token Transition Pruning for Efficient Large Vision-Language Model
Ao Li,Yuxiang Duan,Jinghui Zhang,Congbo Ma,Yutong Xie,Gustavo Carneiro,Mohammad Yaqub,Hu Wang
Main category: cs.CV
TL;DR: TransPrune是一种无需训练的高效视觉语言模型(LVLM)令牌剪枝方法,通过令牌转移变化(TTV)和指令引导注意力(IGA)评估令牌重要性,显著降低计算成本。
- Motivation: 大型视觉语言模型(LVLM)因视觉令牌数量庞大导致计算成本高,现有基于注意力的方法存在位置偏差等限制,需探索新视角。
- Method: 提出TransPrune方法,结合令牌转移变化(TTV)和指令引导注意力(IGA)评估令牌重要性,逐步剪枝。
- Result: 在八个基准测试中,TransPrune性能接近原始LVLM(如LLaVA-v1.5和LLaVA-Next),同时减少超过一半的推理计算量。
- Conclusion: TTV可作为独立标准,性能媲美基于注意力的方法,TransPrune为高效令牌剪枝提供了新思路。
[126] Self-Supervised Continuous Colormap Recovery from a 2D Scalar Field Visualization without a Legend
Hongxu Liu,Xinyu Chen,Haoyang Zheng,Manyi Li,Zhenfan Liu,Fumeng Yang,Yunhai Wang,Changhe Tu,Qiong Zeng
Main category: cs.CV
TL;DR: 提出一种从2D标量场可视化中恢复连续色彩映射的新方法,通过解耦和重建策略同时预测色彩映射和底层数据。
- Motivation: 在缺乏色彩图例的情况下,从2D标量场可视化中恢复连续色彩映射具有挑战性。
- Method: 采用解耦模块分离色彩映射和数据,通过可微分色彩映射模块重建可视化,引入重建损失和颜色顺序损失优化。
- Result: 在合成数据集和真实数据集上定量和定性评估,展示了在色彩映射调整和转移中的应用。
- Conclusion: 该方法能有效恢复色彩映射,并适用于多种可视化场景。
[127] A Multimodal Architecture for Endpoint Position Prediction in Team-based Multiplayer Games
Jonas Peche,Aliaksei Tsishurou,Alexander Zap,Guenter Wallner
Main category: cs.CV
TL;DR: 提出了一种多模态架构,用于预测动态时间范围内的玩家位置,结合U-Net和多头注意力机制,有效利用异构输入数据。
- Motivation: 理解和预测玩家在多人游戏中的移动对实现玩家模拟机器人导航、预判控制、策略推荐和实时行为分析等用例至关重要。
- Method: 采用基于U-Net的架构生成端点位置概率热图,结合多模态特征编码器和多头注意力机制处理异构数据。
- Result: 该技术为依赖未来玩家位置的下游任务(如预测性机器人行为或异常检测)奠定了基础。
- Conclusion: 提出的多模态架构能高效利用游戏状态数据,为玩家位置预测及相关应用提供了有效解决方案。
[128] Lightweight Transformer-Driven Segmentation of Hotspots and Snail Trails in Solar PV Thermal Imagery
Deepak Joshi,Mayukha Pal
Main category: cs.CV
TL;DR: 提出了一种基于SegFormer的轻量级语义分割模型,用于光伏模块热红外图像中的缺陷检测,性能优于其他基线模型。
- Motivation: 光伏模块中的热点和蜗牛纹等缺陷会影响能源效率和系统可靠性,需准确检测。
- Method: 使用277张无人机拍摄的热红外图像数据集,预处理包括图像调整、CLAHE增强、去噪和归一化;开发基于SegFormer的轻量级模型,定制Transformer编码器和简化解码器,并在标注图像上微调。
- Result: SegFormer模型在准确性和效率上优于U-Net、DeepLabV3等基线模型,尤其对小而不规则缺陷的分割表现突出。
- Conclusion: 该模型轻量设计适合实时部署和无人机系统集成,可用于大规模太阳能农场的自动检测。
[129] Automatic camera orientation estimation for a partially calibrated camera above a plane with a line at known planar distance
Gergely Dinya,Anna Gelencsér-Horváth
Main category: cs.CV
TL;DR: 通过单一直线参考和已知平面距离,估计部分校准相机的滚转和俯仰角度。
- Motivation: 在完全校准不切实际的情况下,提供一种轻量级方法估计相机姿态。
- Method: 利用已知相机内参和固定高度,通过单一直线参考和逆投影几何计算角度。
- Result: 成功估计相机的滚转和俯仰角度,适用于多相机系统。
- Conclusion: 该方法为受限环境中的相机姿态估计提供了实用解决方案。
[130] AIComposer: Any Style and Content Image Composition via Feature Integration
Haowen Li,Zhenfeng Fan,Zhang Wen,Zhengzhou Zhu,Yunjin Li
Main category: cs.CV
TL;DR: 提出了一种无需文本提示的跨域图像合成方法,通过反向反转和前向去噪步骤实现高效合成,并利用多层感知机整合CLIP特征,显著提升性能。
- Motivation: 跨域图像合成因扩散模型的随机性和输入图像风格差异而存在挑战,且现有方法对文本提示依赖严重,限制了实际应用。
- Method: 采用反向反转和前向去噪步骤,结合多层感知机整合CLIP特征,使用局部交叉注意力策略操纵扩散过程。
- Result: 在定性和定量评估中优于现有技术,LPIPS分数提升30.5%,CSD指标提升18.1%。
- Conclusion: 该方法为跨域图像合成提供了高效、鲁棒的解决方案,并推动了未来研究和应用。
[131] Style-Aware Blending and Prototype-Based Cross-Contrast Consistency for Semi-Supervised Medical Image Segmentation
Chaowei Chen,Xiang Zhang,Honglie Guo,Shunfang Wang
Main category: cs.CV
TL;DR: 提出了一种基于风格感知混合和原型交叉对比的一致性学习框架,解决半监督医学图像分割中数据流分离和监督信息利用不足的问题。
- Motivation: 现有弱-强一致性学习方法主要关注扰动方案设计,忽视了框架本身的潜在问题和限制,如数据流分离和强-弱一致性探索不足。
- Method: 设计了风格引导的分布混合模块和原型交叉对比策略,以打破数据流分离并充分利用监督信息。
- Result: 实验表明,该框架在多种半监督医学分割任务中表现优异。
- Conclusion: 提出的方法有效解决了现有框架的不足,提升了半监督医学图像分割的性能。
[132] Multi-Masked Querying Network for Robust Emotion Recognition from Incomplete Multi-Modal Physiological Signals
Geng-Xin Xu,Xiang Zuo,Ye Li
Main category: cs.CV
TL;DR: 提出了一种多掩码查询网络(MMQ-Net),通过整合多种查询机制解决生理数据中情绪识别的多模态信号不完整和运动干扰问题。
- Motivation: 生理数据情绪识别对心理健康评估至关重要,但面临多模态信号不完整和运动干扰的挑战。
- Method: MMQ-Net结合三种查询机制:模态查询重建缺失数据,类别查询聚焦情绪特征,干扰查询分离噪声。
- Result: 实验表明MMQ-Net在数据不完整情况下优于现有方法。
- Conclusion: MMQ-Net通过多查询机制有效提升了情绪识别的性能。
[133] Implicit Counterfactual Learning for Audio-Visual Segmentation
Mingfeng Zha,Tianyu Li,Guoqing Wang,Peng Wang,Yangyang Wu,Yang Yang,Heng Tao Shen
Main category: cs.CV
TL;DR: 提出了一种隐式反事实框架(ICF)和多粒度隐式文本(MIT)方法,用于解决音频-视觉分割(AVS)中的模态表示差异和不平衡问题,并通过对比学习提升性能。
- Motivation: 现有AVS方法主要关注交互效率,而忽视了模态表示差异和不平衡问题,导致在复杂场景中表现不佳。
- Method: 提出ICF框架和MIT方法,通过多粒度文本建立模态共享空间,并引入语义反事实(SC)和对比学习(CDCL)来减少偏差和对齐表示。
- Result: 在三个公开数据集上的实验表明,该方法达到了最先进的性能。
- Conclusion: ICF和MIT方法有效解决了AVS中的模态差异问题,提升了分割性能。
[134] Regularizing Subspace Redundancy of Low-Rank Adaptation
Yue Zhu,Haiwen Diao,Shang Gao,Jiazuo Yu,Jiawen Zhu,Yunzhi Zhuge,Shuai Hao,Xu Jia,Lu Zhang,Ying Zhang,Huchuan Lu
Main category: cs.CV
TL;DR: ReSoRA通过显式建模和自适应正则化低秩适应的子空间冗余,提升了参数高效迁移学习的性能。
- Motivation: 现有低秩适应方法在训练中投影矩阵不受限制,导致高表示冗余和特征适应效果下降。
- Method: ReSoRA将低秩子矩阵分解为多个等效子空间,并系统地对不同投影的特征分布应用去冗余约束。
- Result: 实验表明ReSoRA在多种骨干网络和数据集上提升了现有PETL方法的性能。
- Conclusion: ReSoRA可作为训练监督无缝集成到现有方法中,无需额外推理成本。
[135] Learning to See Inside Opaque Liquid Containers using Speckle Vibrometry
Matan Kichler,Shai Bagon,Mark Sheinin
Main category: cs.CV
TL;DR: 该论文提出了一种通过检测不透明容器表面微小振动来推断隐藏液体水平的新方法,扩展了计算机视觉的能力。
- Motivation: 传统视觉系统只能提取物体可见表面的信息,无法判断不透明容器内液体的水平。本文旨在解决这一问题。
- Method: 提出了一种基于散斑的振动传感系统,用于同时捕获二维点网格上的振动,并开发了一种基于Transformer的模型来分析振动并分类容器类型和液体水平。
- Result: 该方法能够从多种日常容器中准确推断液体水平,且对振动源具有不变性,并能泛化到未见过的容器实例。
- Conclusion: 该方法为远程、非接触式检测液体水平提供了一种创新解决方案。
[136] KASportsFormer: Kinematic Anatomy Enhanced Transformer for 3D Human Pose Estimation on Short Sports Scene Video
Zhuoer Yin,Calvin Yeung,Tomohiro Suzuki,Ryota Tanaka,Keisuke Fujii
Main category: cs.CV
TL;DR: KASportsFormer是一种基于Transformer的3D人体姿态估计框架,针对复杂运动场景(如体育比赛)设计,通过引入骨骼提取和肢体融合模块提升性能。
- Motivation: 现有方法在复杂体育场景中表现不佳,主要受运动模糊、遮挡和领域偏移的限制,且难以捕捉瞬时动作。
- Method: 提出KASportsFormer框架,包含BoneExt和LimbFus模块,提取并融合运动学解剖特征。
- Result: 在SportsPose和WorldPose数据集上分别达到58.0mm和34.3mm的MPJPE误差,性能领先。
- Conclusion: KASportsFormer通过运动学特征增强,显著提升了体育场景中的3D姿态估计能力。
[137] ATR-UMMIM: A Benchmark Dataset for UAV-Based Multimodal Image Registration under Complex Imaging Conditions
Kangcheng Bin,Chen Chen,Ting Hu,Jiahao Qi,Ping Zhong
Main category: cs.CV
TL;DR: 论文提出了首个针对无人机多模态图像配准的基准数据集ATR-UMMIM,填补了该领域公开数据的空白。
- Motivation: 由于无人机多模态图像在分辨率、视场和传感特性上的显著差异,准确的配准是融合的前提,但缺乏公开的基准数据集限制了相关方法的发展与评估。
- Method: ATR-UMMIM数据集包含7,969组可见光、红外及精确配准的可见光图像,覆盖多样场景和条件,并通过半自动标注流程提供像素级真实数据。
- Result: 数据集提供了高质量的配准基准和丰富的对象级标注,支持下游任务。
- Conclusion: ATR-UMMIM将成为无人机多模态配准、融合和感知研究的基础性基准。
[138] Learning Only with Images: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback
Yang Chen,Yufan Shen,Wenxuan Huang,Shen Zhou,Qunshu Lin,Xinyu Cai,Zhi Yu,Botian Shi,Yu Qiao
Main category: cs.CV
TL;DR: 论文提出了一种名为RRVF的新框架,通过仅使用原始图像训练MLLMs,减少对图像-文本监督的依赖,提升视觉推理能力。
- Motivation: 当前MLLMs在深度视觉推理中的瓶颈是对精心设计的图像-文本监督的依赖,限制了其性能提升。
- Method: RRVF框架基于“验证不对称性”原则,通过推理、渲染和视觉反馈的闭环迭代过程,结合强化学习优化。
- Result: 在图像到代码生成任务中,RRVF显著优于现有开源MLLMs和监督微调基线。
- Conclusion: 纯视觉反馈驱动的系统为更鲁棒和通用的推理模型提供了一条可行路径,无需显式监督。
[139] RingMo-Agent: A Unified Remote Sensing Foundation Model for Multi-Platform and Multi-Modal Reasoning
Huiyang Hu,Peijin Wang,Yingchao Feng,Kaiwen Wei,Wenxin Yin,Wenhui Diao,Mengyu Wang,Hanbo Bi,Kaiyue Kang,Tong Ling,Kun Fu,Xian Sun
Main category: cs.CV
TL;DR: RingMo-Agent是一个处理多模态和多平台遥感数据的模型,通过用户文本指令执行感知和推理任务。
- Motivation: 现有遥感视觉语言研究依赖同质数据源且局限于传统视觉任务,无法统一处理多样化遥感数据。
- Method: RingMo-Agent基于大规模数据集RS-VL3M,采用模态自适应表示学习和任务统一建模。
- Result: 实验表明,RingMo-Agent在视觉理解和复杂分析任务中表现优异,且具有跨平台和模态的强泛化能力。
- Conclusion: RingMo-Agent为遥感数据提供了一种统一且高效的解决方案。
[140] Investigation of Accuracy and Bias in Face Recognition Trained with Synthetic Data
Pavel Korshunov,Ketan Kotwal,Christophe Ecabert,Vidit Vidit,Amir Mohammadi,Sebastien Marcel
Main category: cs.CV
TL;DR: 合成数据在训练人脸识别模型时展现出潜力,但能否同时实现高准确性和公平性尚存疑问。本文通过生成平衡数据集FairFaceGen,评估了合成数据对性能和偏见的影 响,发现SD35生成的平衡数据集在减少偏见方面表现较好,但合成数据在泛化性上仍落后于真实数据。
- Motivation: 探讨合成数据是否能在人脸识别系统中同时实现高准确性和公平性。
- Method: 生成平衡数据集FairFaceGen,结合两种文本到图像生成器(Flux.1-dev和SD35)及多种身份增强方法(如Arc2Face和IP-Adapters),并与真实数据集进行公平比较。
- Result: 合成数据在IJB-B/C基准测试中泛化性不如真实数据,但SD35生成的平衡数据集在减少偏见方面表现较好。
- Conclusion: 合成数据在构建更公平的人脸识别系统方面具有潜力,但需注意增强方法的数量和质量对准确性和公平性的影响。
[141] An Efficient Machine Learning Framework for Forest Height Estimation from Multi-Polarimetric Multi-Baseline SAR data
Francesca Razzano,Wenyu Yang,Sergio Vitale,Giampaolo Ferraioli,Silvia Liberata Ullo,Gilda Schirinzi
Main category: cs.CV
TL;DR: FGump是一种基于梯度提升的森林高度估计框架,结合多通道SAR和LiDAR数据,在精度和计算效率之间取得平衡。
- Motivation: 准确的森林高度估计对气候变化监测和碳循环评估至关重要,传统方法依赖大数据和复杂架构,FGump旨在解决这一问题。
- Method: FGump利用多通道SAR数据和LiDAR地面真值,通过梯度提升方法实现森林高度估计,避免了复杂预处理。
- Result: FGump在分类和回归任务中均优于现有方法,提供更精确的连续估计,且训练和推理时间显著降低。
- Conclusion: FGump为森林高度估计提供了一种高效且准确的解决方案,优于传统AI和经典方法。
[142] FantasyID: A dataset for detecting digital manipulations of ID-documents
Pavel Korshunov,Amir Mohammadi,Vidit Vidit,Christophe Ecabert,Sébastien Marcel
Main category: cs.CV
TL;DR: 论文提出了一个名为FantasyID的新公开数据集,用于检测伪造身份证件,模拟真实KYC场景,挑战现有伪造检测算法。
- Motivation: 由于图像生成技术的进步,恶意行为者可以轻易伪造图像,这对KYC应用构成威胁,需要开发更强大的伪造检测系统。
- Method: 创建FantasyID数据集,包含多样化的身份证设计、语言和真实人脸,模拟真实KYC场景,并生成数字伪造攻击样本。
- Result: 现有伪造检测算法(如TruFor、MMFusion等)在FantasyID数据集上表现不佳,误报率为10%时,漏报率接近50%。
- Conclusion: FantasyID数据集复杂度高,适合作为伪造检测算法的评估基准。
[143] SCANet: Split Coordinate Attention Network for Building Footprint Extraction
Chunshi Wang,Bin Zhao,Shuxue Ding
Main category: cs.CV
TL;DR: 论文提出了一种新型的Split Coordinate Attention (SCA)模块,用于提升建筑物足迹提取的效率和精度,并在公开数据集上取得了最佳性能。
- Motivation: 建筑物足迹提取在遥感图像分析中具有重要意义,但现有方法仍面临挑战。
- Method: 引入SCA模块,通过双空间范围池化核捕获远程空间交互,并分别对特征组进行拆分操作,提升语义特征提取效率。
- Result: SCANet在WHU和Massachusetts数据集上表现最优,IoU分别达到91.61%和75.49%。
- Conclusion: SCA模块显著提升了建筑物足迹提取的性能,为相关领域提供了有效工具。
[144] Rethinking Few Shot CLIP Benchmarks: A Critical Analysis in the Inductive Setting
Alexey Kravets,Da Chen,Vinay P. Namboodiri
Main category: cs.CV
TL;DR: 论文指出现有CLIP少样本分类评估存在问题,提出基于遗忘技术的真实归纳基准,并改进方法,在5880次实验中表现最佳。
- Motivation: 现有CLIP少样本分类方法在标准数据集上评估,未体现真实归纳能力,因数据集可能已被CLIP模型见过。
- Method: 提出基于遗忘技术的管道,生成真实归纳基准,并改进少样本分类方法。
- Result: 新基准下,13种基线方法性能平均下降55%,改进方法在5880次实验中表现最优。
- Conclusion: 揭示了CLIP少样本分类评估问题,提出遗忘技术解决方案,改进方法并建立新基准。
[145] METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models
Yuchen Liu,Yaoming Wang,Bowen Shi,Xiaopeng Zhang,Wenrui Dai,Chenglin Li,Hongkai Xiong,Qi Tian
Main category: cs.CV
TL;DR: METEOR提出了一种渐进式剪枝框架,用于多编码器视觉语言模型,通过多阶段剪枝策略减少冗余视觉标记,显著降低计算开销。
- Motivation: 解决单编码器架构在多模态任务中的泛化限制,以及多编码器融合方法的高计算开销问题。
- Method: 采用多阶段剪枝策略:编码阶段通过排名引导的协作标记分配策略剪枝冗余标记;融合阶段减少跨编码器冗余;解码阶段基于文本提示动态调整剪枝比例。
- Result: 在11个基准测试中验证了有效性,相比EAGLE减少了76%的视觉标记,性能仅下降0.3%。
- Conclusion: METEOR首次实现了高效的多编码器视觉语言模型,显著降低了计算开销,同时保持了性能。
[146] LAM: Surfel Splatting SLAM for Geometrically Accurate Tracking and Mapping
Ruoyu Fan,Yuhui Wen,Jiajia Dai,Tao Zhang,Long Zeng,Yong-jin Liu
Main category: cs.CV
TL;DR: 提出了一种名为
- Motivation: 现有3DGS-based SLAM方法依赖3D高斯椭球体,效率较低,而
LAM通过2D高斯surfel提升场景表示效率。 - Method: 采用2D高斯surfel作为基本单元,提出自适应表面渲染策略优化实时映射,并直接从2D surfel splatting推导相机位姿Jacobians。
- Result: 在合成和真实数据集上验证,
LAM达到最先进性能。 - Conclusion:
LAM通过高效几何表示和优化策略,显著提升SLAM的精度和效率。
[147] Compositional Video Synthesis by Temporal Object-Centric Learning
Adil Kaan Akan,Yucel Yemez
Main category: cs.CV
TL;DR: 提出了一种基于时间一致性的对象中心表示的视频合成框架,结合扩散模型实现高质量、像素级的视频生成与编辑。
- Motivation: 现有方法要么缺乏生成能力,要么忽略对象级结构,无法满足视频合成的需求。
- Method: 通过学习姿态不变的对象中心槽,并将其与预训练扩散模型结合,实现视频合成与编辑。
- Result: 在视频生成质量和时间一致性上优于现有方法,支持对象插入、删除等编辑操作。
- Conclusion: 该方法在交互式视频生成和动态场景理解方面具有潜力。
[148] Ensemble Foreground Management for Unsupervised Object Discovery
Ziling Wu,Armaghan Moemeni,Praminda Caleb-Solly
Main category: cs.CV
TL;DR: 论文提出UnionCut和UnionSeg方法,解决无监督对象发现中的前景区分和对象数量不确定性问题,提升了现有方法的性能。
- Motivation: 无监督对象发现(UOD)面临两个主要挑战:1)区分前景与背景,2)确定未发现对象的数量。现有方法依赖启发式前景先验和固定迭代次数,效果不稳定。
- Method: 提出UnionCut(基于最小割和集成方法的前景先验)和UnionSeg(高效蒸馏模型),帮助UOD算法识别前景并动态停止发现。
- Result: 实验表明,结合UnionCut或UnionSeg后,现有UOD方法在单对象发现、显著性检测和自监督实例分割任务中性能显著提升。
- Conclusion: UnionCut和UnionSeg为UOD提供了更鲁棒的前景先验和动态停止机制,显著提升了任务性能。
[149] Not Only Grey Matter: OmniBrain for Robust Multimodal Classification of Alzheimer's Disease
Ahmed Sharshar,Yasser Ashraf,Tameem Bakr,Salma Hassan,Hosam Elgendy,Mohammad Yaqub,Mohsen Guizani
Main category: cs.CV
TL;DR: OmniBrain是一个多模态框架,整合脑部MRI、放射组学、基因表达和临床数据,通过交叉注意力和模态丢弃技术,显著提升阿尔茨海默病诊断的准确性和可解释性。
- Motivation: 阿尔茨海默病影响全球5500万人,现有诊断方法无法同时满足高准确性、跨数据集泛化、缺失模态鲁棒性和可解释性,限制了临床可靠性。
- Method: OmniBrain采用多模态框架,结合脑部MRI、放射组学、基因表达和临床数据,使用交叉注意力和模态丢弃技术。
- Result: 在ANMerge数据集上达到92.2%的准确率,在ADNI数据集上达到70.4%的准确率,优于单模态和其他多模态方法。
- Conclusion: OmniBrain提供了一个鲁棒、可解释且实用的阿尔茨海默病诊断解决方案。
[150] DriveAgent-R1: Advancing VLM-based Autonomous Driving with Hybrid Thinking and Active Perception
Weicheng Zheng,Xiaofei Mao,Nanfei Ye,Pengxiang Li,Kun Zhan,Xianpeng Lang,Hang Zhao
Main category: cs.CV
TL;DR: DriveAgent-R1通过混合思维框架和主动感知机制提升自动驾驶决策能力,实验证明其性能优于现有模型。
- Motivation: 现有视觉语言模型在复杂环境中决策短视且被动,限制了可靠性。
- Method: 提出混合思维框架和主动感知机制,采用三阶段渐进强化学习策略训练。
- Result: DriveAgent-R1性能优于领先的多模态模型,决策基于主动感知的视觉证据。
- Conclusion: DriveAgent-R1为更安全、智能的自动驾驶系统铺平了道路。
[151] Endoscopic Depth Estimation Based on Deep Learning: A Survey
Ke Niu,Zeyun Liu,Xue Feng,Heng Li,Kaize Shi
Main category: cs.CV
TL;DR: 本文综述了内窥镜深度估计领域的最新深度学习技术,从数据、方法和应用三个角度系统梳理了现有研究,并分析了挑战、评估指标和数据集,同时展望了未来研究方向。
- Motivation: 内窥镜深度估计对提升微创手术的安全性和精确性至关重要,但现有综述对深度学习技术的全面总结有限,本文旨在填补这一空白。
- Method: 从数据、方法和应用三个角度系统梳理文献,包括单目和立体方法,分析监督策略和网络架构,并总结公开数据集和评估指标。
- Result: 综述了内窥镜深度估计的最新进展,分析了其在机器人辅助手术中的应用,并指出领域适应、实时实现和模型泛化等未来方向。
- Conclusion: 本文为研究者提供了内窥镜深度估计领域的全面参考,并指明了未来研究的潜在方向。
[152] The Importance of Facial Features in Vision-based Sign Language Recognition: Eyes, Mouth or Full Face?
Dinh Nam Pham,Eleftherios Avramidis
Main category: cs.CV
TL;DR: 本文研究了非手动面部特征在自动手语识别中的重要性,发现嘴部是最关键的特征,显著提升了识别准确率。
- Motivation: 非手动面部特征在手语交流中至关重要,但在自动手语识别(ASLR)中的研究不足,现有方法多依赖手工特征提取且未深入比较不同面部区域的作用。
- Method: 使用两种深度学习模型(CNN和Transformer)在孤立手语数据集上系统评估眼睛、嘴部和全脸等不同面部区域的贡献。
- Result: 定量和定性分析表明,嘴部是最重要的非手动面部特征,显著提高了识别准确率。
- Conclusion: 研究强调了在ASLR中纳入面部特征的必要性,尤其是嘴部特征。
[153] : Advancing Img2LaTeX Conversion via Visual Reasoning with Attention-Guided Refinement
Zhecheng Li,Guoxian Song,Yiwei Wang,Zhen Xiong,Junsong Yuan,Yujun Cai
Main category: cs.CV
TL;DR: 论文提出
- Motivation: 现有视觉语言模型在Img2LaTeX任务中表现不佳,尤其是在细粒度视觉元素处理上。
- Method: 结合注意力定位和迭代优化的视觉推理框架,实现自我修正和逐步优化。
- Result:
在六个评估指标上显著优于基线方法,推理轮次增加带来性能提升。 - Conclusion:
框架有效提升了Img2LaTeX任务的性能,并通过实验验证了其核心组件的协同作用。
[154] Event-Based De-Snowing for Autonomous Driving
Manasi Muglikar,Nico Messikommer,Marco Cannici,Davide Scaramuzza
Main category: cs.CV
TL;DR: 提出了一种基于事件相机的去雪方法,利用雪花的时空特征,通过注意力模块恢复背景信息,性能优于现有方法。
- Motivation: 传统去雪方法依赖空间信息或高帧率视频,易产生伪影且受相机参数影响,事件相机因其低延迟特性成为理想解决方案。
- Method: 利用事件数据中雪花的条纹特征,设计注意力模块识别遮挡点并恢复背景强度,基于新数据集DSEC-Snow进行验证。
- Result: PSNR提升3 dB,深度估计和光流任务性能提高20%,优于现有方法。
- Conclusion: 该方法显著提升了视觉系统在恶劣天气下的可靠性,为全天候应用奠定了基础。
[155] SCORPION: Addressing Scanner-Induced Variability in Histopathology
Jeongun Ryu,Heon Song,Seungeun Lee,Soo Ick Cho,Jiwon Shin,Kyunghyun Paeng,Sérgio Pereira
Main category: cs.CV
TL;DR: 论文提出了SCORPION数据集和SimCons框架,用于评估和改进模型在不同扫描仪下的性能一致性。
- Motivation: 解决计算病理学中模型因扫描仪差异导致的性能不一致问题,这对实际应用至关重要。
- Method: 引入SCORPION数据集(480个组织样本,每个样本用5台扫描仪扫描),并提出SimCons框架,结合增强技术和一致性损失。
- Result: SimCons提高了模型在不同扫描仪下的一致性,同时不影响任务性能。
- Conclusion: SCORPION和SimCons为研究社区提供了评估和改进模型一致性的重要资源。
[156] HAMLET-FFD: Hierarchical Adaptive Multi-modal Learning Embeddings Transformation for Face Forgery Detection
Jialei Cui,Jianwei Du,Yanzhe Li,Lei Gao,Hui Jiang,Chenfu Bao
Main category: cs.CV
TL;DR: HAMLET-FFD 是一个基于认知启发的多模态学习框架,通过双向跨模态推理解决人脸伪造检测中的跨域泛化问题。
- Motivation: 人脸伪造技术的快速发展对检测方法的跨域泛化能力提出了挑战,传统方法难以学习域不变表示。
- Method: HAMLET-FFD 结合视觉和文本模态,通过知识精炼循环和双向融合机制,逐步对齐视觉观察与语义先验。
- Result: 实验表明 HAMLET-FFD 在多个基准测试中对未见过的伪造技术具有优越的泛化能力。
- Conclusion: HAMLET-FFD 作为一种外部插件,保留了 CLIP 的原始能力,同时显著提升了伪造检测的泛化性能。
[157] RIS-LAD: A Benchmark and Model for Referring Low-Altitude Drone Image Segmentation
Kai Ye,YingShi Luan,Zhudi Chen,Guangyue Meng,Pingyang Dai,Liujuan Cao
Main category: cs.CV
TL;DR: 论文提出了首个针对低空无人机(LAD)场景的精细RIS基准数据集RIS-LAD,并设计了语义感知自适应推理网络(SAARN)来解决该场景中的新挑战。
- Motivation: 低空无人机场景中的RIS研究不足,现有数据集和方法无法应对其独特特性(如多样视角和高物体密度)。
- Method: 提出SAARN网络,通过类别主导的语言增强(CDLE)和自适应推理融合模块(ARFM)动态处理语义信息。
- Result: RIS-LAD数据集对现有RIS算法提出了显著挑战,SAARN在该数据集上表现优异。
- Conclusion: RIS-LAD填补了低空无人机场景的RIS研究空白,SAARN为解决新挑战提供了有效方案。
[158] Exploring text-to-image generation for historical document image retrieval
Melissa Cote,Alexandra Branzan Albu
Main category: cs.CV
TL;DR: 论文提出T2I-QBE方法,利用生成式AI将文本描述转化为查询图像,以弥补基于属性的文档图像检索(ABDIR)和基于示例的查询(QBE)之间的差距。
- Motivation: 解决QBE需要实际查询样本的限制,通过生成式AI实现更灵活的文档图像检索。
- Method: 使用Leonardo.Ai作为文本到图像生成器,结合ABDIR属性描述生成查询图像,再通过QBE范式进行检索。
- Result: 在HisIR19数据集上的实验验证了T2I-QBE的可行性,表明其适用于历史文档图像检索。
- Conclusion: T2I-QBE是首次尝试将文本到图像生成技术应用于文档图像检索,为DIR领域提供了新思路。
[159] ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts
Yuying Ge,Yixiao Ge,Chen Li,Teng Wang,Junfu Pu,Yizhuo Li,Lu Qiu,Jin Ma,Lisheng Duan,Xinyu Zuo,Jinwen Luo,Weibo Gu,Zexuan Li,Xiaojing Zhang,Yangyu Tao,Han Hu,Di Wang,Ying Shan
Main category: cs.CV
TL;DR: ARC-Hunyuan-Video是一个多模态模型,用于结构化理解短视频内容,支持多种任务,如视频摘要、问答和推理,并在实际应用中显著提升了用户参与度。
- Motivation: 当前多模态模型缺乏对短视频的深入理解能力,而短视频在移动互联网中占据主导地位,需要更高效的视频理解和推荐技术。
- Method: 模型通过端到端处理视觉、音频和文本信号,采用预训练、指令微调、强化学习等综合训练方法,参数规模为7B。
- Result: 在ShortVid-Bench基准测试中表现优异,推理速度快(10秒处理1分钟视频),实际部署提升了用户参与度和满意度。
- Conclusion: ARC-Hunyuan-Video在短视频理解任务中表现出色,支持零样本或少样本微调,适用于多样化下游应用。
[160] Mask-Free Audio-driven Talking Face Generation for Enhanced Visual Quality and Identity Preservation
Dogucan Yaman,Fevziye Irem Eyiokur,Leonard Bärmann,Hazım Kemal Ekenel,Alexander Waibel
Main category: cs.CV
TL;DR: 论文提出了一种无需掩码的音频驱动说话人脸生成方法,解决了现有掩码方法的信息丢失和身份细节保留问题。
- Motivation: 现有基于掩码的方法存在信息丢失、身份参考图像不一致以及负面影响的缺陷。
- Method: 采用两步地标方法将输入图像转换为闭口状态,再通过唇部适应模型生成与音频同步的唇部动作。
- Result: 在LRS2和HDTF数据集上的实验验证了方法的有效性。
- Conclusion: 提出的无掩码方法在保持身份细节和视觉质量方面优于现有方法。
[161] GTAD: Global Temporal Aggregation Denoising Learning for 3D Semantic Occupancy Prediction
Tianhao Li,Yang Li,Mengtian Li,Yisheng Deng,Weifeng Ge
Main category: cs.CV
TL;DR: 提出了一种名为GTAD的全局时间聚合去噪网络,用于高效利用历史观测中的全局时间信息,提升动态环境感知能力。
- Motivation: 现有方法未能充分利用时间信息,主要依赖相邻帧的局部时间交互,无法有效利用全局序列信息。
- Method: 通过全局时间信息聚合框架,结合局部时间特征和全局时间特征,实现更全面的3D场景理解。
- Result: 在nuScenes和Occ3D-nuScenes基准测试中表现出优越性能。
- Conclusion: GTAD方法能更一致且全面地理解环境,为动态环境感知提供了新范式。
[162] Adapting Vehicle Detectors for Aerial Imagery to Unseen Domains with Weak Supervision
Xiao Fang,Minhyek Jeon,Zheyang Qin,Stanislav Panev,Celso de Melo,Shuowen Hu,Shayok Chakraborty,Fernando De la Torre
Main category: cs.CV
TL;DR: 本文提出了一种利用生成式AI合成高质量航空图像及其标签的新方法,通过数据增强改进检测器训练,显著提升了跨区域车辆检测性能。
- Motivation: 解决现有模型在不同地理区域泛化能力不足的问题,因环境条件、城市布局等因素导致的域偏移影响模型性能。
- Method: 开发了一个多阶段、多模态知识转移框架,利用微调的潜在扩散模型(LDMs)缩小源域和目标域之间的分布差距。
- Result: 在多个航空图像域上的实验显示,AP50指标比现有方法提升了4-50%。
- Conclusion: 该方法有效缓解了域偏移问题,并引入了两个新标注的数据集以支持进一步研究。
[163] LargeMvC-Net: Anchor-based Deep Unfolding Network for Large-scale Multi-view Clustering
Shide Du,Chunming Wu,Zihan Fang,Wendi Zhao,Yilin Wu,Changwei Wang,Shiping Wang
Main category: cs.CV
TL;DR: LargeMvC-Net是一种新型深度网络架构,通过分解锚点聚类过程为三个模块,提升了大规模多视图聚类的效果和可扩展性。
- Motivation: 现有锚点聚类方法在结构设计上缺乏优化原则,忽视了核心需求,导致效果不佳。
- Method: 提出LargeMvC-Net,将锚点聚类过程分解为RepresentModule、NoiseModule和AnchorModule三个模块,并通过无监督重建损失对齐视图。
- Result: 在多个大规模多视图基准测试中,LargeMvC-Net在效果和可扩展性上均优于现有方法。
- Conclusion: LargeMvC-Net通过优化驱动的模块化设计,显著提升了锚点多视图聚类的性能。
[164] JWB-DH-V1: Benchmark for Joint Whole-Body Talking Avatar and Speech Generation Version 1
Xinhan Di,Kristin Qi,Pengqian Yu
Main category: cs.CV
TL;DR: 论文介绍了JWB-DH-V1数据集和评估协议,用于评估全身可动画化虚拟形象的联合音频-视频生成,揭示了当前方法在全身一致性上的不足。
- Motivation: 当前扩散基视频生成方法在多模态一致性(全身动作与自然语音联合生成)和评估框架上存在不足,缺乏全面的视觉与音频质量评估。
- Method: 引入JWB-DH-V1数据集(包含10,000个独特身份的200万视频样本)和评估协议,用于分析区域特定性能。
- Result: 评估显示,现有方法在面部/手部与全身性能上存在显著差异,指出了未来研究的关键方向。
- Conclusion: JWB-DH-V1为多模态一致性研究提供了数据和工具,揭示了全身生成的挑战与改进空间。
[165] Security Tensors as a Cross-Modal Bridge: Extending Text-Aligned Safety to Vision in LVLM
Shen Li,Liuyi Yao,Wujia Niu,Lan Zhang,Yaliang Li
Main category: cs.CV
TL;DR: 论文提出了一种名为“安全张量”的方法,通过可训练的输入向量将文本安全机制扩展到视觉模态,从而提升大型视觉语言模型(LVLM)的安全性。
- Motivation: 现有的文本安全机制无法直接应用于视觉模态,导致LVLM容易受到有害图像输入的影响。
- Method: 引入安全张量,通过文本或视觉模态在推理时应用可训练的输入向量,无需修改模型参数。使用包含恶意、对比良性及一般良性样本的数据集优化张量。
- Result: 实验表明,安全张量显著提升了LVLM拒绝有害视觉输入的能力,同时保持良性任务的性能。
- Conclusion: 安全张量成功将文本安全机制扩展到视觉模态,激活语言模块的“安全层”,从而有效提升模型安全性。
[166] Improving Adversarial Robustness Through Adaptive Learning-Driven Multi-Teacher Knowledge Distillation
Hayat Ullah,Syed Muhammad Talha Zaidi,Arslan Munir
Main category: cs.CV
TL;DR: 提出了一种基于多教师对抗鲁棒性蒸馏和自适应学习策略的方法,以提升CNN模型在对抗攻击下的鲁棒性。
- Motivation: 尽管对抗训练在提升模型鲁棒性方面取得进展,但模型准确性与鲁棒性之间仍存在差距。本文旨在通过多教师知识蒸馏和自适应学习策略解决这一问题。
- Method: 训练多个对抗训练的CNN模型作为教师模型,通过多教师知识蒸馏指导学生在干净数据上的学习,并设计自适应学习策略动态分配教师权重。
- Result: 在MNIST-Digits和Fashion-MNIST数据集上的实验表明,该方法有效提升了模型对抗攻击的鲁棒性。
- Conclusion: 多教师对抗蒸馏和自适应学习策略显著增强了CNN模型的对抗鲁棒性,且无需对抗数据训练学生模型。
[167] Learning Transferable Facial Emotion Representations from Large-Scale Semantically Rich Captions
Licai Sun,Xingxun Jiang,Haoyu Chen,Yante Li,Zheng Lian,Biu Liu,Yuan Zong,Wenming Zheng,Jukka M. Leppänen,Guoying Zhao
Main category: cs.CV
TL;DR: 论文提出EmoCap100K数据集和EmoCapCLIP框架,利用自然语言描述学习面部情绪表示,解决了传统固定标签的局限性。
- Motivation: 传统面部情绪识别系统使用固定标签或抽象维度,限制了情绪的丰富性和泛化能力。自然语言提供了更灵活的表达方式,但缺乏大规模数据集和有效框架。
- Method: 引入EmoCap100K数据集(10万样本),并提出EmoCapCLIP框架,结合全局-局部对比学习和跨模态引导正样本挖掘模块。
- Result: 在20多个基准测试中表现优异,验证了从大规模语义丰富描述中学习情绪表示的有效性。
- Conclusion: 自然语言描述为面部情绪识别提供了更丰富的监督信号,EmoCapCLIP展示了其潜力。
[168] Deep Learning for Skeleton Based Human Motion Rehabilitation Assessment: A Benchmark
Ali Ismail-Fawaz,Maxime Devanne,Stefano Berretti,Jonathan Weber,Germain Forestier
Main category: cs.CV
TL;DR: 该论文提出了一个统一的康复数据集Rehab-Pile,并设计了一个深度学习基准测试框架,以推动自动化康复评估的研究。
- Motivation: 康复运动评估缺乏标准化基准和可重复方法,限制了研究的进展和可比性。
- Method: 通过整合现有数据集为Rehab-Pile,提出基准测试框架,并对多种深度学习架构进行分类和回归任务的广泛测试。
- Result: 发布了数据集、源代码和结果,支持透明性和可重复性。
- Conclusion: 为自动化康复评估研究奠定基础,促进可靠、可访问和个性化康复解决方案的发展。
[169] GPT-IMAGE-EDIT-1.5M: A Million-Scale, GPT-Generated Image Dataset
Yuhan Wang,Siwei Yang,Bingchen Zhao,Letian Zhang,Qing Liu,Yuyin Zhou,Cihang Xie
Main category: cs.CV
TL;DR: 论文介绍了GPT-IMAGE-EDIT-1.5M,一个公开的大规模图像编辑数据集,通过优化现有数据集和微调开源模型,显著提升了指令引导图像编辑的性能。
- Motivation: 解决大型多模态模型(如GPT-4o)的封闭性对开源研究的限制,推动指令引导图像编辑的开放研究。
- Method: 利用GPT-4o统一和优化三个流行图像编辑数据集,生成高质量的三元组(指令、源图像、编辑图像),并通过微调开源模型验证数据集效果。
- Result: 微调后的FluxKontext模型在多个基准测试中表现优异,显著超越现有开源方法,并接近专有模型性能。
- Conclusion: GPT-IMAGE-EDIT-1.5M的发布有望推动指令引导图像编辑领域的开放研究。
[170] Reconstructing 4D Spatial Intelligence: A Survey
Yukang Cao,Jiahao Lu,Zhisheng Huang,Zhuowei Shen,Chengfeng Zhao,Fangzhou Hong,Zhaoxi Chen,Xin Li,Wenping Wang,Yuan Liu,Ziwei Liu
Main category: cs.CV
TL;DR: 该论文提出了一种新的视角,将4D空间智能的重建方法分为五个渐进层次,并总结了每层的关键挑战和未来方向。
- Motivation: 4D空间智能重建是计算机视觉中的重要任务,但现有研究缺乏对层次结构的全面分析。
- Method: 将现有方法分为五个层次:低层3D属性重建、3D场景组件重建、4D动态场景重建、交互建模及物理约束整合。
- Result: 提出了一个层次化的分类框架,并总结了每层的挑战和未来发展方向。
- Conclusion: 该研究为4D空间智能的进一步发展提供了系统化的视角和方向。
cs.CL
[171] MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks
Sara Papi,Maike Züfle,Marco Gaido,Beatrice Savoldi,Danni Liu,Ioannis Douros,Luisa Bentivogli,Jan Niehues
Main category: cs.CL
TL;DR: MCIF是一个多语言、多模态的基准测试,用于评估大语言模型在多语言和多模态环境下的指令跟随能力。
- Motivation: 现有基准测试在多语言、多模态和长上下文评估方面存在不足,阻碍了对模型性能的全面评估。
- Method: 引入MCIF基准测试,基于科学讲座,涵盖语音、视觉和文本三种模态及四种语言,支持短和长上下文评估。
- Result: MCIF填补了现有基准的空白,支持跨语言、多模态和任务复杂性的全面评估。
- Conclusion: MCIF的发布旨在促进多模态大语言模型的开放研究和进展。
[172] Text2Vis: A Challenging and Diverse Benchmark for Generating Multimodal Visualizations from Text
Mizanur Rahman,Md Tahmid Rahman Laskar,Shafiq Joty,Enamul Hoque
Main category: cs.CL
TL;DR: Text2Vis是一个评估文本到可视化模型的基准,涵盖20多种图表类型和多样化的数据科学查询,包含1985个样本,并提出了一个跨模态的强化学习框架以提高性能。
- Motivation: 自动化数据可视化在简化数据解释和提升决策效率方面至关重要,但缺乏全面基准限制了大型语言模型(LLMs)能力的严格评估。
- Method: 提出了Text2Vis基准,包含数据表、自然语言查询、可视化代码等样本,并开发了一个跨模态的actor-critic框架,联合优化文本答案和可视化代码。
- Result: 基准测试了11个开源和闭源模型,揭示了显著性能差距;提出的框架将GPT-4o的通过率从26%提升至42%。
- Conclusion: Text2Vis为文本到可视化任务提供了首个全面基准,并通过自动化评估框架和强化学习框架推动了该领域的进步。
[173] Investigating Structural Pruning and Recovery Techniques for Compressing Multimodal Large Language Models: An Empirical Study
Yiran Huang,Lukas Thede,Massimiliano Mancini,Wenjia Xu,Zeynep Akata
Main category: cs.CL
TL;DR: 该论文提出了一种通过结构剪枝和高效恢复训练直接压缩多模态大语言模型(MLLMs)的方法,解决了现有参数减少技术灵活性不足和计算成本高的问题。
- Motivation: MLLMs的计算和内存需求高,限制了实际部署。现有参数减少技术灵活性差且计算量大,需要更高效的压缩方法。
- Method: 研究了两种结构剪枝范式(层间和宽度剪枝),结合监督微调和知识蒸馏进行恢复训练,并评估了在少量数据下恢复训练的可行性。
- Result: 宽度剪枝在低资源场景下表现更好;仅微调多模态投影器即可在小压缩级别(<20%)下恢复性能;结合监督微调和隐藏状态蒸馏效果最佳;仅需5%原始数据即可恢复95%性能。
- Conclusion: 该方法为压缩MLLMs提供了实用指导,无需大量计算资源或数据即可高效压缩。
eess.SP
[174] Multipath Interference Suppression in Indirect Time-of-Flight Imaging via a Novel Compressed Sensing Framework
Yansong Du,Yutong Deng,Yuting Zhou,Feiyu Jiao,Bangyao Wang,Zhancong Xu,Zhaoxiang Jiang,Xun Guan
Main category: eess.SP
TL;DR: 提出一种新型压缩感知方法,提升间接飞行时间(iToF)系统的深度重建精度和多目标分离能力。
- Motivation: 传统方法依赖硬件修改、复杂调制或繁琐的数据驱动重建,而新方法仅需单一调制频率,并通过多相位偏移和窄占空比连续波构建感知矩阵。
- Method: 构建感知矩阵时考虑镜头畸变引起的像素级距离变化,并利用K-Means聚类优化稀疏恢复过程。
- Result: 实验表明,该方法在重建精度和鲁棒性上优于传统方法,且无需硬件改动。
- Conclusion: 该方法为iToF系统提供了一种高效且稳定的深度重建解决方案。
physics.ao-ph
[175] A Machine Learning Framework for Predicting Microphysical Properties of Ice Crystals from Cloud Particle Imagery
Joseph Ko,Jerry Harrington,Kara Sulia,Vanessa Przybylo,Marcus van Lier-Walqui,Kara Lamb
Main category: physics.ao-ph
TL;DR: 提出了一种基于机器学习的框架,从二维图像预测冰晶的三维微物理特性,包括密度、表面积和子弹数量,并通过立体视图进一步提高了预测精度。
- Motivation: 冰晶的微物理特性对云的辐射特性和分布有重要影响,进而影响地球气候,但直接测量这些特性具有挑战性。
- Method: 使用3D建模软件生成合成冰晶,并利用机器学习模型从二维图像预测三维特性,同时评估立体视图对预测的改进效果。
- Result: 单视图模型对密度和表面积的预测R²值分别达到0.99和0.98,子弹数量的平衡准确率和F1分数为0.91;立体视图模型进一步降低了误差。
- Conclusion: 该框架为从原位图像估计冰晶微物理特性提供了新方法,有助于改进微物理参数化模型。
cs.CR
[176] ConSeg: Contextual Backdoor Attack Against Semantic Segmentation
Bilal Hussain Abbasi,Zirui Gong,Yanjun Zhang,Shang Gao,Antonio Robles-Kelly,Leo Zhang
Main category: cs.CR
TL;DR: 提出了一种名为ConSeg的简单有效的后门攻击方法,利用语义分割模型的上下文信息提升攻击效果。
- Motivation: 探索后门攻击在语义分割领域的应用,发现目标类与受害者类共现时更容易实现误分割。
- Method: 通过模仿目标类的上下文信息并在受害者区域重建,建立目标类与受害者类的上下文关系。
- Result: 实验显示ConSeg在攻击成功率上比现有方法提高了15.55%,且能抵抗先进的后门防御。
- Conclusion: ConSeg是一种高效的后门攻击方法,利用上下文信息显著提升了攻击效果。
cs.HC
[177] RISEE: A Highly Interactive Naturalistic Driving Trajectories Dataset with Human Subjective Risk Perception and Eye-tracking Information
Xinzheng Wu,Junyi Chen,Peiyi Wang,Shunxiang Chen,Yong Shen
Main category: cs.HC
TL;DR: 论文构建了RISEE数据集,结合无人机和仿真数据,收集人类主观评价和眼动数据,以解决现有数据集缺乏人类因素和安全关键场景的问题。
- Motivation: 现有自动驾驶数据集主要关注车辆状态和轨迹,缺乏人类相关信息和安全关键场景,仿真数据真实性低。
- Method: 结合无人机和仿真方法,录制高速公路匝道合并区域视频,重建交互场景生成FPV视频,收集参与者主观评价和眼动数据。
- Result: 获得3567份有效主观风险评分和2045段合格眼动数据,覆盖179个场景和101名参与者。
- Conclusion: RISEE数据集填补了人类因素和安全关键场景的空白,为自动驾驶决策和规划提供了更全面的数据支持。
[178] ChartGen: Scaling Chart Understanding Via Code-Guided Synthetic Chart Generation
Jovana Kondic,Pengyuan Li,Dhiraj Joshi,Zexue He,Shafiq Abedin,Jennifer Sun,Ben Wiesel,Eli Schwartz,Ahmed Nassar,Bo Wu,Assaf Arbelle,Aude Oliva,Dan Gutfreund,Leonid Karlinsky,Rogerio Feris
Main category: cs.HC
TL;DR: 论文提出ChartGen,一种自动化生成图表代码对的管道,用于评估模型从图表图像重建代码的能力。
- Motivation: 现有多模态基准主要关注图表问答或总结,缺乏对图表图像到代码重建任务的关注。
- Method: 使用视觉语言模型(VLM)和代码导向的大型语言模型(LLM)迭代生成图表代码对,构建包含27种图表类型、11种绘图库的数据集。
- Result: 生成了222.5K个图表代码对,并评估了6个开放权重VLM,显示仍有改进空间。
- Conclusion: ChartGen为图表理解和视觉条件代码生成提供了新基准和数据集。
cs.NE
[179] AR-LIF: Adaptive reset leaky-integrate and fire neuron for spiking neural networks
Zeyu Huang,Wei Meng,Quan Liu,Kun Chen,Li Ma
Main category: cs.NE
TL;DR: 本文设计了一种自适应重置神经元,通过关联输入、输出和重置,结合阈值调整策略,在保持低能耗优势的同时,提升了性能。
- Motivation: 现有硬重置方法导致信息丢失,软重置方法对神经元处理过于统一,因此需要一种更灵活的自适应重置方法。
- Method: 设计自适应重置神经元,建立输入、输出和重置的关联,并集成阈值调整策略。
- Result: 在多种数据集上表现出色,同时保持低能耗优势。
- Conclusion: 自适应重置神经元有效解决了信息丢失和统一处理的问题,提升了性能。
q-bio.QM
[180] Review of Deep Learning Applications to Structural Proteomics Enabled by Cryogenic Electron Microscopy and Tomography
Brady K. Zhou,Jason J. Hu,Jane K. J. Lee,Z. Hong Zhou,Demetri Terzopoulos
Main category: q-bio.QM
TL;DR: AI在冷冻电镜(cryoEM)和冷冻电子断层扫描(cryoET)中的应用显著提升了结构解析的效率和精度,解决了传统方法中的噪声、取向偏差和缺失楔形问题。
- Motivation: 冷冻电镜技术的快速发展带来了大量高分辨率结构数据,但仍面临噪声、取向偏差和缺失楔形等挑战,需要AI技术提升效率和可扩展性。
- Method: 通过深度学习工具(如Topaz、crYOLO、CryoSegNet)实现自动化颗粒挑选,利用spIsoNet、cryoPROS解决取向偏差,使用Topaz-Denoise降噪,并通过IsoNet和TomoNet优化cryoET数据。最终通过ModelAngelo、DeepTracer等工具自动化构建原子模型。
- Result: AI方法实现了近原子级分辨率的重建,解决了传统方法难以处理的严重取向偏差数据,并成功应用于多种生物系统。
- Conclusion: AI技术的持续发展将进一步推动结构生物学的自动化和可及性,深化对生物大分子结构和功能的理解。
cs.LG
[181] Salsa as a Nonverbal Embodied Language -- The CoMPAS3D Dataset and Benchmarks
Bermet Burkanova,Payam Jome Yazdian,Chuxuan Zhang,Trinity Evans,Paige Tuttösí,Angelica Lim
Main category: cs.LG
TL;DR: 论文介绍了CoMPAS3D数据集,用于研究人机交互舞蹈,包含多样化的萨尔萨舞动作捕捉数据,并提出了SalsaAgent模型。
- Motivation: 研究如何通过触觉信号实现人机舞蹈互动,填补AI在肢体动作和协调性方面的不足。
- Method: 构建了CoMPAS3D数据集,包含18名舞者的3小时舞蹈数据,并标注了动作类型、组合、错误和风格。提出SalsaAgent模型处理生成任务。
- Result: 数据集和模型为交互式、表达性人机舞蹈提供了测试平台,支持多种基准任务。
- Conclusion: CoMPAS3D和SalsaAgent为社交互动AI和创意动作生成研究提供了重要资源。
[182] GNSP: Gradient Null Space Projection for Preserving Cross-Modal Alignment in VLMs Continual Learning
Tiantian Peng,Yuyang Liu,Shuo Yang,Qiuhe Hong,YongHong Tian
Main category: cs.LG
TL;DR: 提出GNSP方法,通过梯度零空间投影解决CLIP在持续学习中的灾难性遗忘问题,保持其零样本能力。
- Motivation: CLIP在持续学习中出现灾难性遗忘和嵌入对齐退化,影响零样本能力。
- Method: 使用GNSP将任务梯度投影到先前知识的零空间,结合知识蒸馏和模态对齐损失。
- Result: 在MTIL基准测试中取得SOTA性能,保持CLIP的模态间隙和跨模态检索能力。
- Conclusion: GNSP有效维持CLIP的视觉-语言空间鲁棒性,适用于持续学习。
[183] CLoRA: Parameter-Efficient Continual Learning with Low-Rank Adaptation
Shishir Muralidhara,Didier Stricker,René Schuster
Main category: cs.LG
TL;DR: CLoRA利用低秩适应(LoRA)方法,解决了持续学习中计算资源受限的问题,显著减少了训练所需的硬件资源。
- Motivation: 现实场景中,持续学习常受限于计算资源,而现有方法需要重新训练整个模型,计算成本高昂。
- Method: CLoRA采用参数高效的低秩适应方法,仅利用少量参数跨任务学习。
- Result: CLoRA性能与基线方法相当或更优,同时显著降低硬件需求。
- Conclusion: CLoRA适合资源受限环境,为持续学习提供了高效解决方案。
[184] WEEP: A Differentiable Nonconvex Sparse Regularizer via Weakly-Convex Envelope
Takanobu Furuhashi,Hidekata Hontani,Tatsuya Yokota
Main category: cs.LG
TL;DR: WEEP是一种新型可微稀疏正则化器,解决了非可微性与梯度优化器之间的冲突,在信号和图像去噪任务中表现优异。
- Motivation: 稀疏正则化在信号处理中很重要,但最强的稀疏诱导惩罚通常不可微,与梯度优化器冲突。
- Method: 引入WEEP(弱凸包络分段惩罚),一种完全可微的稀疏正则化器,基于弱凸包络框架。
- Result: WEEP在信号和图像去噪任务中表现优于L1范数和其他非凸稀疏正则化器。
- Conclusion: WEEP解决了统计性能与计算可行性之间的冲突,具有强稀疏性和完全可微性。
[185] Model-Agnostic Gender Bias Control for Text-to-Image Generation via Sparse Autoencoder
Chao Wu,Zhenyi Wang,Kangxian Xie,Naresh Kumar Devulapally,Vishnu Suresh Lokhande,Mingchen Gao
Main category: cs.LG
TL;DR: SAE Debias是一个轻量级、模型无关的框架,用于减少文本到图像(T2I)扩散模型中的性别偏见。它通过稀疏自编码器识别并抑制性别相关方向,无需重新训练或修改模型架构。
- Motivation: T2I扩散模型常表现出性别偏见,例如职业与性别的刻板关联。现有方法依赖CLIP过滤或提示工程,但效果有限且需要模型特定调整。
- Method: 利用预训练的k-稀疏自编码器在稀疏潜在空间中识别性别相关方向,并在推理时抑制这些方向,以生成更性别平衡的图像。
- Result: 在多个T2I模型(如Stable Diffusion系列)上验证,SAE Debias显著减少性别偏见,同时保持生成质量。
- Conclusion: SAE Debias是首个利用稀疏自编码器干预T2I模型中性别偏见的工作,为构建公平的生成AI提供了可解释且模型无关的工具。
[186] Rep-MTL: Unleashing the Power of Representation-level Task Saliency for Multi-Task Learning
Zedong Wang,Siyuan Li,Dan Xu
Main category: cs.LG
TL;DR: Rep-MTL提出了一种利用表示层任务显著性来量化任务间交互的方法,通过熵惩罚和样本间跨任务对齐,旨在减少负迁移并促进互补信息共享。
- Motivation: 现有多任务优化方法主要关注通过优化器中心策略解决任务冲突,但忽视了共享表示空间中的互补信息潜力。
- Method: Rep-MTL通过表示层任务显著性量化任务交互,利用熵惩罚和样本间对齐来平衡任务学习和信息共享。
- Result: 在四个多任务基准测试中,Rep-MTL表现出色,即使搭配基本权重策略也能实现高效性能提升。
- Conclusion: Rep-MTL通过表示层操作有效平衡了任务学习和跨任务共享,为多任务学习提供了新思路。
cs.AI
[187] MAIA: A Collaborative Medical AI Platform for Integrated Healthcare Innovation
Simone Bendazzoli,Sanna Persson,Mehdi Astaraki,Sebastian Pettersson,Vitali Grozman,Rodrigo Moreno
Main category: cs.AI
TL;DR: MAIA是一个开源平台,旨在促进临床、研究和AI开发者的跨学科合作,加速AI研究向临床应用的转化。
- Motivation: 解决AI技术创新与医疗实践之间的差距,促进协作和互操作性。
- Method: 基于Kubernetes构建,提供模块化、可扩展的环境,集成数据管理、模型开发、部署和临床反馈工具。
- Result: 已在学术和临床环境中部署,支持医学影像AI的实际用例。
- Conclusion: MAIA通过促进协作和透明度,加速AI研究向临床解决方案的转化。
[188] A Multi-Agent System for Information Extraction from the Chemical Literature
Yufan Chen,Ching Ting Leung,Bowen Yu,Jianwei Sun,Yong Huang,Linyan Li,Hao Chen,Hanyu Gao
Main category: cs.AI
TL;DR: 开发了一种基于多模态大语言模型(MLLM)的多智能体系统,用于自动提取化学信息,显著提升了复杂化学反应图形的识别性能。
- Motivation: 高质量化学数据库是AI驱动化学研究的基础,但目前从文献中自动提取化学信息受限于多模态和风格多样性。
- Method: 利用MLLM的强大推理能力,将提取任务分解为子任务,并通过协调多个专业智能体解决这些子任务。
- Result: 在复杂化学反应图形的基准数据集上,F1分数达到80.8%,显著优于之前的35.6%。
- Conclusion: 该系统是实现化学信息自动化提取的关键一步,将有力推动AI驱动的化学研究。
[189] Complementarity-driven Representation Learning for Multi-modal Knowledge Graph Completion
Lijian Li
Main category: cs.AI
TL;DR: 论文提出MoCME框架,通过互补性模态知识融合和熵引导负采样,解决多模态知识图谱补全中的模态不平衡问题,并在实验中表现优异。
- Motivation: 多模态知识图谱(MMKGC)中存在模态分布不平衡问题,现有方法未能充分利用多模态数据的互补性。
- Method: 提出MoCME框架,包含互补性引导的模态知识融合模块(CMKF)和熵引导负采样机制(EGNS),以增强实体表示和训练效果。
- Result: 在五个基准数据集上的实验表明,MoCME性能优于现有方法。
- Conclusion: MoCME通过有效利用多模态互补性和动态负采样,显著提升了多模态知识图谱补全的性能。
cs.DC
[190] A Fast Parallel Median Filtering Algorithm Using Hierarchical Tiling
Louis Sugy
Main category: cs.DC
TL;DR: 本文提出了一种新颖的中值滤波算法,通过分层分块减少冗余计算,实现了高效的性能。
- Motivation: 中值滤波在图像处理中广泛应用,但传统方法计算成本高,难以扩展。
- Method: 利用排序问题的可分性,提出两种变体:基于寄存器的数据无关选择网络和基于随机存取内存的数据感知版本。
- Result: 算法在CUDA实现中比现有技术快5倍,成为8、16和32位数据类型的最快中值滤波器。
- Conclusion: 新算法显著提升了中值滤波的计算效率,适用于多种数据类型和核尺寸。
cs.GR
[191] Taking Language Embedded 3D Gaussian Splatting into the Wild
Yuze Wang,Yue Qi
Main category: cs.GR
TL;DR: 该论文提出了一种基于语言嵌入3D高斯溅射(3DGS)的新框架,用于从无约束照片集合中进行开放词汇场景理解,并引入了新的基准数据集PT-OVS进行定量评估。
- Motivation: 当前利用大规模互联网照片集合进行3D重建的技术已能实现地标和历史遗址的虚拟探索,但对建筑风格和结构知识的沉浸式理解仍局限于静态图文浏览。
- Method: 通过多视角渲染、多外观CLIP特征提取、语言特征不确定性映射,以及提出瞬态不确定性感知自编码器和多外观语言场3DGS表示,优化语言特征的压缩、学习和融合。
- Result: 实验结果表明,该方法在开放词汇分割任务上优于现有方法,支持交互式漫游查询、建筑风格识别和3D场景编辑等应用。
- Conclusion: 该研究为无约束照片集合的沉浸式建筑结构理解提供了有效解决方案,扩展了3D重建技术的应用场景。
[192] ChoreoMuse: Robust Music-to-Dance Video Generation with Style Transfer and Beat-Adherent Motion
Xuanchen Wang,Heng Wang,Weidong Cai
Main category: cs.GR
TL;DR: ChoreoMuse是一个基于扩散模型的框架,通过SMPL格式参数生成高质量、风格可控的舞蹈视频,适应多种音乐风格和舞者特征。
- Motivation: 解决现有方法在生成高质量舞蹈视频时无法同时适应音乐节奏和用户定义风格的问题。
- Method: 使用SMPL参数作为音乐与视频生成的中间媒介,结合MotionTune音乐编码器捕捉音频运动线索。
- Result: 实验表明ChoreoMuse在视频质量、节奏对齐、舞蹈多样性和风格一致性上表现优异。
- Conclusion: ChoreoMuse为广泛创意应用提供了高效解决方案。
[193] Neural Shell Texture Splatting: More Details and Fewer Primitives
Xin Zhang,Anpei Chen,Jincheng Xiong,Pinxuan Dai,Yujun Shen,Weiwei Xu
Main category: cs.GR
TL;DR: 论文提出了一种神经壳纹理方法,通过解耦几何与外观,显著减少了高斯泼溅技术所需的基元数量,同时保持了高保真度和效率。
- Motivation: 高斯泼溅技术在合成新视角时表现出色,但需要大量基元,这源于几何与外观的耦合问题。
- Method: 引入神经壳纹理作为全局表示,用高斯基元同时表示几何和纹理采样,高效地将纹理特征泼溅到图像空间。
- Result: 实验表明,该方法实现了高参数效率、精细纹理重建和易于提取纹理网格,且基元数量大幅减少。
- Conclusion: 解耦几何与外观是提升高斯泼溅技术效率的关键,神经壳纹理为此提供了有效解决方案。
eess.IV
[194] Multi-Attention Stacked Ensemble for Lung Cancer Detection in CT Scans
Uzzal Saha,Surya Prakash
Main category: eess.IV
TL;DR: 提出了一种基于多级注意力堆叠集成深度神经网络的肺结节二分类方法,显著提升了分类性能。
- Motivation: 解决CT图像中肺结节二分类(良性vs恶性)的挑战,提供自动化辅助工具以支持肺癌筛查。
- Method: 采用三种预训练网络(EfficientNet V2 S、MobileViT XXS、DenseNet201)结合自定义分类头,引入两阶段注意力机制和轻量级元学习器,使用动态焦点损失和MixUp增强。
- Result: 在LIDC-IDRI数据集上表现优异,准确率98.09%,AUC 0.9961,错误率降低35%,敏感性和特异性均超过98%。
- Conclusion: 该方法为肺癌筛查提供了一种鲁棒的自动化辅助工具,显著优于现有方法。
[195] A Metabolic-Imaging Integrated Model for Prognostic Prediction in Colorectal Liver Metastases
Qinlong Li,Pu Sun,Guanlin Zhu,Tianjiao Liang,Honggang QI
Main category: eess.IV
TL;DR: 该研究开发了一种基于术前临床参数和影像特征的机器学习模型,用于预测结直肠肝转移患者的术后复发风险,3个月复发预测模型表现最佳(AUC 0.723),并避免了数据泄漏问题。
- Motivation: 传统临床模型在预测结直肠肝转移患者预后时准确性不足,需要更可靠的预测工具。
- Method: 使用术前基线临床参数和CT影像的放射组学特征,开发并验证机器学习模型,预测术后3、6和12个月的复发风险。
- Result: 3个月复发预测模型在交叉验证中AUC为0.723,决策曲线分析显示其临床实用性优于“全治疗”或“不治疗”策略。
- Conclusion: 研究成功开发了具有临床实用性的早期复发预测模型,并强调了数据泄漏风险及解决方案,提升了模型的可靠性和转化价值。
[196] SpecBPP: A Self-Supervised Learning Approach for Hyperspectral Representation and Soil Organic Carbon Estimation
Daniel La'ah Ayuba,Jean-Yves Guillemaut,Belen Marti-Cardona,Oscar Mendez Maldonado
Main category: eess.IV
TL;DR: 提出了一种名为SpecBPP的自监督学习框架,通过预测光谱带顺序来学习高光谱图像的表示,并在土壤有机碳估计任务中取得最优结果。
- Motivation: 高光谱图像(HSI)的光谱带顺序结构为自监督学习提供了独特机会,但尚未充分探索。
- Method: 提出SpecBPP框架,通过恢复打乱的光谱段顺序来学习全局光谱理解,并采用基于课程的学习策略逐步增加任务难度。
- Result: 在EnMAP卫星数据的土壤有机碳估计任务中,SpecBPP表现优于其他自监督学习方法,R²达0.9456,RMSE为1.1053%,RPD为4.19。
- Conclusion: 光谱顺序预测是高光谱理解的有效前置任务,为遥感及其他领域的科学表示学习开辟了新途径。
[197] Hybrid Deep Learning and Handcrafted Feature Fusion for Mammographic Breast Cancer Classification
Maximilian Tschuchnig,Michael Gadermayr,Khalifa Djemal
Main category: eess.IV
TL;DR: 提出了一种结合ResNet-50、手工特征和Transformer嵌入的混合框架,用于乳腺X光片的乳腺癌分类,性能优于单一方法。
- Motivation: 乳腺X光片中良性与恶性组织的细微差异使得自动分类具有挑战性,需要更有效的特征融合方法。
- Method: 使用ResNet-50作为基础模型,结合手工特征和DINOv2的Transformer嵌入,在CBIS-DDSM数据集上进行实验。
- Result: 混合方法AUC达79.6%,召回率80.5%,F1分数67.4%,优于单一特征方法。
- Conclusion: 手工特征与深度特征的融合在性能和效率上均优于纯Transformer嵌入,适合临床决策支持。
[198] Taming Domain Shift in Multi-source CT-Scan Classification via Input-Space Standardization
Chia-Ming Lee,Bo-Cheng Qiu,Ting-Yao Chen,Ming-Han Sun,Fang-Ying Lin,Jung-Tse Tsai,I-An Tsai,Yu-Fan Lin,Chih-Chung Hsu
Main category: eess.IV
TL;DR: 该论文研究了多源CT扫描分类中的域偏移问题,提出了一种结合SSFL++和KDS的预处理方法,通过输入空间标准化提升跨源泛化能力。
- Motivation: 多源CT扫描分类因域偏移问题导致跨源泛化能力下降,现有预处理方法的机制尚不明确。
- Method: 采用SSFL++和KDS预处理方法,通过空间和时间标准化减少源间差异,将不同输入映射到一致的目标空间。
- Result: 实验验证表明该方法在不同架构中均能提升性能,并在竞赛中获得第一名。
- Conclusion: 输入空间标准化是解决多机构医学影像域偏移问题的有效且实用的方法。
[199] SkinDualGen: Prompt-Driven Diffusion for Simultaneous Image-Mask Generation in Skin Lesions
Zhaobin Xu
Main category: eess.IV
TL;DR: 提出一种基于Stable Diffusion-2.0的新方法,生成高质量合成皮肤病变图像和分割掩码,解决医学图像数据稀缺和类别不平衡问题,显著提升分类和分割模型的性能。
- Motivation: 医学图像分析对早期疾病诊断至关重要,但数据稀缺和类别不平衡限制了深度学习模型的性能。
- Method: 利用预训练的Stable Diffusion-2.0模型,通过领域特定的LoRA微调和多目标损失函数联合优化,生成临床相关的图像和分割掩码。
- Result: 生成的图像质量接近真实图像,混合数据集显著提升了分类和分割模型的性能,准确率和F1分数提高了8%至15%。
- Conclusion: 该方法为医学影像数据挑战提供了可扩展的解决方案,提高了罕见疾病诊断的准确性和可靠性。
[200] Onboard Hyperspectral Super-Resolution with Deep Pushbroom Neural Network
Davide Piccinini,Diego Valsesia,Enrico Magli
Main category: eess.IV
TL;DR: 提出了一种轻量级神经网络DPSR,用于实时提升卫星高光谱图像的空间分辨率,满足星载实时处理需求。
- Motivation: 高光谱图像空间分辨率低,需预处理提升分辨率以增强检测能力;同时星载实时处理需求日益增长。
- Method: 设计DPSR神经网络,通过逐行处理和因果记忆机制匹配推扫式传感器采集方式,降低计算复杂度和内存需求。
- Result: 实验表明DPSR在低功耗硬件上实现实时超分辨率,性能优于或媲美更复杂的现有方法。
- Conclusion: DPSR是一种高效轻量的星载实时超分辨率解决方案。
cs.RO
[201] Digital and Robotic Twinning for Validation of Proximity Operations and Formation Flying
Aviad Golan,Gregory Zin,Zahra Ahmed,Emily Bates,Toby Bell,Pol Francesch Huc,Samuel Y. W. Low,Juergen Bosse,Simone D'Amico
Main category: cs.RO
TL;DR: 本文提出了一种统一的数字和机器人孪生框架,用于验证多模态GNC系统,通过实验验证了其在RPO任务中的性能。
- Motivation: 由于空间环境的复杂性,验证GNC系统的安全性和性能具有挑战性,需要一种能够连接仿真和实际行为的V&V方法。
- Method: 开发了一个端到端的数字和机器人孪生框架,包括三个测试平台(GRAND、TRON和OS),用于验证RF和视觉导航技术。
- Result: 实验结果表明,数字和机器人孪生体之间具有一致性,验证了该框架在GNC系统评估中的可靠性。
- Conclusion: 该混合孪生框架为GNC系统的现实评估和验证提供了一种可靠的方法。
[202] Humanoid Occupancy: Enabling A Generalized Multimodal Occupancy Perception System on Humanoid Robots
Wei Cui,Haoyu Wang,Wenkang Qin,Yijie Guo,Gang Han,Wen Zhao,Jiahang Cao,Zhang Zhang,Jiaru Zhong,Jingkai Sun,Pihai Sun,Shuai Shi,Botuo Jiang,Jiahao Ma,Jiaxu Wang,Hao Cheng,Zhichao Liu,Yang Wang,Zheng Zhu,Guan Huang,Jian Tang,Qiang Zhang
Main category: cs.RO
TL;DR: Humanoid Occupancy是一个多模态占用感知系统,结合硬件、软件和数据采集,为仿人机器人提供全面的环境理解。
- Motivation: 仿人机器人需要丰富的语义和3D几何信息以支持任务规划和导航,占用表示法被广泛认可为适合的感知范式。
- Method: 系统采用多模态融合技术生成网格占用输出,解决运动干扰和遮挡问题,并开发了首个全景占用数据集。
- Result: Humanoid Occupancy为仿人机器人提供了有效的环境感知,并建立了标准化视觉模块的技术基础。
- Conclusion: 该系统为仿人机器人在复杂现实场景中的广泛应用铺平了道路。
[203] Methods for the Segmentation of Reticular Structures Using 3D LiDAR Data: A Comparative Evaluation
Francisco J. Soler Mora,Adrián Peidró Vidal,Marc Fabregat-Jaén,Luis Payá Castelló,Óscar Reinoso García
Main category: cs.RO
TL;DR: 论文提出两种方法(分析算法和深度学习模型)用于桁架结构中可导航表面的分割,比较了它们的性能与计算效率。
- Motivation: 桁架结构的检查和维护成本高且危险,现有研究多关注故障检测或机器人设计,而自主导航研究较少。
- Method: 采用分析算法(基于平面块的特征分解)和深度学习模型(PointNet、PointNet++、MinkUNet34C、PointTransformerV3)进行可导航表面分割。
- Result: 分析算法调参简单且性能接近深度学习模型;深度学习模型(如PointTransformerV3)在分割精度上更优(mIoU约97%)。
- Conclusion: 两种方法均能提升桁架环境中的自主导航能力,研究结果为未来基础设施自主检查与维护提供了实用指导。
[204] LanternNet: A Novel Hub-and-Spoke System to Seek and Suppress Spotted Lanternfly Populations
Vinil Polepalli
Main category: cs.RO
TL;DR: LanternNet是一种新型自主机器人系统,用于检测和抑制斑点灯笼蝇(SLF),通过AI和机器人技术显著减少SLF种群并改善树木健康。
- Motivation: 斑点灯笼蝇对农业和生态系统构成严重威胁,现有控制方法效率低且环境危害大,需要更有效的解决方案。
- Method: LanternNet采用中心-辐条系统,中心使用YOLOv8模型识别SLF,三个机器人辐条分别负责灭虫、环境监测和导航。
- Result: 实地测试显示SLF种群显著减少(p < 0.01),树木健康指标改善,且成本效益优于传统方法。
- Conclusion: LanternNet展示了机器人技术与AI在入侵物种管理中的潜力,具有广泛生态应用前景。
cs.CY
[205] Rainbow Noise: Stress-Testing Multimodal Harmful-Meme Detectors on LGBTQ Content
Ran Tong,Songtao Wei,Jiaqi Liu,Lanruo Wang
Main category: cs.CY
TL;DR: 论文构建了首个针对LGBTQ+仇恨表情包的鲁棒性基准测试,测试了两种先进检测器,并提出了一种轻量级文本去噪适配器(TDA)以提升检测器的鲁棒性。
- Motivation: 仇恨表情包通过修改文本或图像逃避检测,现有模型对此类攻击的鲁棒性不足。
- Method: 结合四种文本攻击和三种图像干扰,在PrideMM数据集上测试MemeCLIP和MemeBLIP2检测器,并引入TDA增强鲁棒性。
- Result: MemeCLIP表现更稳定,MemeBLIP2对文本攻击敏感,但TDA使其成为最鲁棒的模型。
- Conclusion: 轻量级模块(如TDA)可显著提升多模态安全模型的防御能力。
Powered by Deepseek & arXiv Daily AI Enhanced