Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Fourier-Based GAN Fingerprint Detection using ResNet50
Sai Teja Erukude,Viswa Chaitanya Marella,Suhasnadh Reddy Veluru
Main category: cs.CV
TL;DR: 使用频域分析和深度学习检测StyleGAN生成的图像,通过二维离散傅里叶变换和ResNet50网络实现92.8%的准确率。
- Motivation: GAN生成的逼真图像对图像取证和工业系统的内容真实性构成严重挑战,需要可靠的方法来区分真实和合成图像。
- Method: 应用二维离散傅里叶变换将图像转换到频域,然后使用ResNet50神经网络在频域图像上进行训练,以检测周期性伪影。
- Result: 频域模型达到92.8%的准确率和0.95的AUC,显著优于在原始空间域图像上训练的等效模型。
- Conclusion: GAN生成的图像具有独特的频域特征,结合信号处理和深度学习的方法在数字取证和工业AI系统可信度方面具有重要潜力。
[2] Transformed Multi-view 3D Shape Features with Contrastive Learning
Márcus Vinícius Lobo Costa,Sherlon Almeida da Silva,Bárbara Caroline Benato,Leo Sampaio Ferraz Ribeiro,Moacir Antonelli Ponti
Main category: cs.CV
TL;DR: 本文研究将Vision Transformers与对比学习目标结合用于3D形状特征表示学习,在ModelNet10上达到90.6%准确率,克服了CNN在捕捉形状关系方面的局限。
- Motivation: 计算机视觉方法在从2D图像识别3D物体时面临挑战,需要大量标注数据且CNN可能忽略关键的形状关系。
- Method: 采用Vision Transformers架构与现代对比学习目标相结合,包括对比监督和自监督学习目标,用于多视角3D分析。
- Result: 在ModelNet10数据集上,监督对比损失达到约90.6%的准确率,成功统一了对比学习和3D形状理解流程。
- Conclusion: ViT捕捉全局形状语义与对比学习优化局部判别特征的结合,有效克服了标注数据需求和CNN的局限性,为3D表示学习提供了实证有效的解决方案。
[3] FutrTrack: A Camera-LiDAR Fusion Transformer for 3D Multiple Object Tracking
Martha Teiko Teye,Ori Maoz,Matthias Rottmann
Main category: cs.CV
TL;DR: FutrTrack是一个模块化的相机-LiDAR多目标跟踪框架,通过引入基于transformer的平滑器和融合驱动的跟踪器,在现有3D检测器基础上构建,在nuScenes和KITTI数据集上表现出色。
- Motivation: 受基于查询的跟踪框架启发,旨在利用多模态传感器特征提升transformer跟踪方法的性能,相比之前的单传感器方法有显著改进。
- Method: 采用多模态两阶段transformer精炼和跟踪流程,融合相机和LiDAR的BEV特征,无需显式运动模型;使用时间平滑器在移动窗口内精炼边界框序列。
- Result: 在nuScenes测试集上达到74.7的aMOTA,在3D MOT基准测试中表现强劲,减少了身份切换同时保持竞争性精度。
- Conclusion: 该方法为改进基于transformer的跟踪器提供了高效框架,即使数据有限且无需预训练,也能与其他基于神经网络的方法竞争。
[4] Improving Predictive Confidence in Medical Imaging via Online Label Smoothing
Kushan Choudhury,Shubhrodeep Roy,Ankur Chanda,Shubhajit Biswas,Somenath Kuiry
Main category: cs.CV
TL;DR: 在线标签平滑(OLS)通过动态调整软标签来改善医学图像分类模型的准确性和校准性,相比传统方法在RadImageNet数据集上取得了更好的性能。
- Motivation: 深度学习模型在医学图像分类中常产生过度自信的预测,传统标签平滑方法未能考虑类别间关系,限制了模型在关键医疗环境中的可靠性。
- Method: 使用在线标签平滑(OLS)方法,在训练过程中根据模型自身的预测模式动态调整软标签,并在RadImageNet数据集上使用ResNet-50、MobileNetV2和VGG-19三种架构进行评估。
- Result: OLS在Top-1和Top-5分类准确率上持续优于标准训练方法,包括硬标签、传统标签平滑和无教师知识蒸馏,同时产生了更紧凑和分离良好的特征嵌入。
- Conclusion: OLS不仅增强了预测性能,还改善了校准性,为医学影像领域开发可信赖的AI系统提供了实用有效的解决方案。
[5] A Unified Detection Pipeline for Robust Object Detection in Fisheye-Based Traffic Surveillance
Neema Jakisa Owor,Joshua Kofi Asamoah,Tanner Wambui Muturi,Anneliese Jakisa Owor,Blessing Agyei Kyem,Andrews Danyo,Yaw Adu-Gyamfi,Armstrong Aboah
Main category: cs.CV
TL;DR: 提出了一种针对鱼眼相机交通监控的检测框架,通过预处理和后处理管道以及模型集成策略,解决了鱼眼图像径向失真和非均匀分辨率带来的检测挑战。
- Motivation: 鱼眼相机在广域交通监控中具有优势,但其强径向失真和边界区域物体外观严重退化给标准目标检测器带来巨大挑战。
- Method: 采用简单有效的预处理和后处理管道,结合多个先进检测模型的集成策略,提升鱼眼图像中检测的一致性。
- Result: 在2025 AI City Challenge Track 4中获得F1分数0.6366,在62个团队中排名第8。
- Conclusion: 该框架有效解决了鱼眼图像固有的检测问题,在严重失真条件下实现了鲁棒检测。
[6] Extreme Views: 3DGS Filter for Novel View Synthesis from Out-of-Distribution Camera Poses
Damian Bowness,Charalambos Poullis
Main category: cs.CV
TL;DR: 提出一种实时渲染感知过滤方法,通过中间梯度计算敏感度分数,解决3D高斯泼溅模型在训练数据分布外视角下的视觉噪声问题。
- Motivation: 3D高斯泼溅模型在训练数据分布外的视角下会产生严重视觉噪声,这是由于缺乏训练数据导致密度、颜色和几何预测的不确定性。
- Method: 利用中间梯度导出的敏感度分数,专门针对由各向异性方向引起的不稳定性进行过滤,而非各向同性方差。
- Result: 实验表明该方法相比现有基于NeRF的方法(如BayesRays)显著提高了视觉质量、真实感和一致性,且能实时集成到现有3DGS渲染流程中。
- Conclusion: 该方法直接解决生成不确定性的核心问题,使3D重建系统在用户自由导航到原始训练视角外时仍能保持高视觉保真度。
[7] BrainPuzzle: Hybrid Physics and Data-Driven Reconstruction for Transcranial Ultrasound Tomography
Shengyu Chen,Shihang Feng,Yi Luo,Xiaowei Jia,Youzuo Lin
Main category: cs.CV
TL;DR: BrainPuzzle是一个混合两阶段框架,结合物理建模与机器学习,用于实现定量经颅超声脑成像,通过重建准确的脑组织声速图来解决传统方法的局限性。
- Motivation: 传统物理全波形反演受颅骨引起的信号衰减、模式转换和相位畸变限制,而纯数据驱动方法在低信噪比和稀疏孔径条件下会产生定量偏差的声速图。需要结合物理建模和机器学习来克服这些挑战。
- Method: 第一阶段应用逆时偏移(时间反转声学)处理多角度采集数据,生成保留结构细节的迁移片段;第二阶段使用基于Transformer的超分辨率编码器-解码器与图注意力单元融合这些片段为连贯准确的声速图像。
- Result: 在两个合成数据集上的实验表明,BrainPuzzle实现了优越的声速重建精度和图像完整性。
- Conclusion: BrainPuzzle展示了推进定量超声脑成像的潜力,通过混合算法补偿缺失孔径,提高可行性和耦合效果。
[8] Exposing Blindspots: Cultural Bias Evaluation in Generative Image Models
Huichan Seo,Sieun Choi,Minki Hong,Yi Zhou,Junseo Kim,Lukman Ismaila,Naome Etori,Mehul Agarwal,Zhixuan Liu,Jihie Kim,Jean Oh
Main category: cs.CV
TL;DR: 该研究评估了生成式图像模型在文化和时代方面的偏见,发现模型倾向于默认生成全球北方、现代风格的图像,迭代编辑会侵蚀文化保真度,且编辑模型只应用表面线索而非上下文感知的变化。
- Motivation: 先前工作主要关注文本到图像系统的文化偏见,而图像到图像编辑器的文化偏见研究不足,需要建立统一评估框架来诊断生成式图像模型中的文化偏见。
- Method: 使用统一评估框架,在六个国家进行测试,采用8类别/36子类别模式和时代感知提示,结合自动指标、文化感知检索增强VQA和本地评审专家的人类判断。
- Result: 研究发现:1)国家无关提示下模型默认生成全球北方现代风格图像;2)迭代编辑会降低文化保真度;3)编辑模型仅应用表面线索,对全球南方目标保留源身份。
- Conclusion: 当前系统的文化敏感编辑不可靠,通过发布标准化数据、提示和评估协议,为诊断和跟踪生成式图像模型的文化偏见提供了可复现的基准。
[9] Filter-Based Reconstruction of Images from Events
Bernd Pfrommer
Main category: cs.CV
TL;DR: 提出FIBAR方法,一种基于滤波器的异步重建方法,用于从移动事件相机的事件数据重建强度图像。该方法使用时间数字IIR滤波器集成事件信号,并通过新颖的算法检测陈旧像素进行降噪。
- Motivation: 现有的基于神经网络的强度图像重建方法通常部署在GPU上,计算复杂度高。本文旨在开发一种更简单、可在CPU上高效运行的异步重建方法。
- Method: 1. 使用时间数字IIR滤波器集成事件信号强度变化;2. 通过新颖算法检测和调节最近更新像素窗口来识别陈旧像素;3. 对陈旧像素应用高斯滤波降噪;4. 支持任意时间的异步图像读取。
- Result: FIBAR在现代笔记本电脑CPU上运行速度约为42-140百万事件/秒。与神经网络方法(FireNet)相比,重建图像噪声更大且存在重影问题,但仍足以完成某些任务如基准标记检测。
- Conclusion: FIBAR提供了一种简单高效的异步图像重建方法,虽然重建质量不如神经网络方法,但在计算效率和实时性方面具有优势,适用于特定应用场景。
[10] Data-Adaptive Transformed Bilateral Tensor Low-Rank Representation for Clustering
Hui Chen,Xinjie Wang,Xianchao Xiu,Wanquan Liu
Main category: cs.CV
TL;DR: 提出了一种新的变换双边张量低秩表示模型(TBTLRR),通过自适应学习酉变换来捕获全局相关性,利用双边结构挖掘局部相关性,并整合ℓ₁/₂范数和Frobenius范数正则化来处理复杂噪声。
- Motivation: 现有张量低秩表示方法依赖固定变换,对噪声鲁棒性差,需要更有效的方法来捕获全局和局部相关性,并处理现实场景中的复杂噪声。
- Method: 提出TBTLRR模型,引入数据自适应的张量核范数,学习任意酉变换;利用张量数据的双边结构挖掘局部相关性;整合ℓ₁/₂范数和Frobenius范数正则化;基于ADMM开发高效优化算法。
- Result: 大量实验验证了该方法在聚类任务上优于现有最先进方法,代码将在GitHub上公开。
- Conclusion: TBTLRR通过自适应变换和双边结构有效提升了张量低秩表示的性能,在图像聚类中表现出优越性。
[11] Endoshare: A Source Available Solution to De-Identify and Manage Surgical Videos
Lorenzo Arboit,Dennis N. Schneider,Britty Baby,Vinkle Srivastav,Pietro Mascagni,Nicolas Padoy
Main category: cs.CV
TL;DR: Endoshare是一个开源的跨平台应用程序,用于在内窥镜微创手术中合并、标准化和去识别化视频数据,解决视频格式异构性和隐私问题。
- Motivation: 视频评估和外科数据科学可以推进外科培训、研究和质量改进,但由于记录格式异构和视频共享相关的隐私问题,广泛应用受到限制。
- Method: 采用软件开发生命周期,通过迭代的用户中心反馈开发。分析阶段基于十个可用性启发式进行内部调查,测试阶段结合技术接受模型评估可用性和采用度,并在不同硬件配置上进行基准测试。
- Result: 初步测试显示高可用性评分(4.68/5和4.03/5),改进后外科医生报告高感知有用性(5.07/7)、易用性(5.15/7)、启发式可用性(4.38/5)和强烈推荐(9.20/10)。处理时间受处理模式、视频时长和机器计算能力影响。
- Conclusion: Endoshare提供了一个透明、用户友好的标准化隐私保护外科视频管理流程。需要合规认证和更广泛的互操作性验证来确立其作为专有系统的可部署替代方案。
[12] Attentive Convolution: Unifying the Expressivity of Self-Attention with Convolutional Efficiency
Hao Yu,Haoyu Chen,Yan Jiang,Wei Peng,Zhaodong Sun,Samuel Kaski,Guoying Zhao
Main category: cs.CV
TL;DR: 本文提出了注意力卷积(ATConv),通过将自注意力机制的两个关键特性——自适应路由和侧向抑制——融入卷积操作,解决了传统卷积与自注意力之间的性能差距。
- Motivation: 自注意力机制虽然表达能力强大,但存在二次复杂度问题;卷积具有线性复杂度但性能不如自注意力。本文旨在重新审视CNN设计,找出自注意力优于卷积的根本原因。
- Method: 提出了注意力卷积(ATConv),将自注意力的两个关键原则——自适应路由(动态调节位置信息流)和侧向抑制(抑制冗余、锐化表示)——整合到卷积操作中。
- Result: 仅使用3×3核的ATConv在基础视觉任务中持续优于各种自注意力机制。基于ATConv的AttNet在ImageNet-1K上达到84.4%的Top-1准确率(仅27M参数)。在扩散模型中,用ATConv替换所有自注意力可将ImageNet FID降低0.15。
- Conclusion: ATConv成功地将自注意力的核心优势融入卷积框架,在保持线性复杂度的同时实现了超越自注意力的性能,为现代视觉主干网络提供了新的设计方向。
[13] StableSketcher: Enhancing Diffusion Model for Pixel-based Sketch Generation via Visual Question Answering Feedback
Jiho Park,Sieun Choi,Jaeyoon Seo,Jihie Kim
Main category: cs.CV
TL;DR: 提出了StableSketcher框架,通过优化VAE解码器和集成基于视觉问答的奖励函数,显著提升了扩散模型生成手绘草图的文本对齐度和语义一致性。
- Motivation: 现有扩散模型在生成像素级手绘草图(抽象表达的代表)方面仍面临挑战,需要提升生成草图的质量和与文本提示的对齐度。
- Method: 1. 微调变分自编码器以优化潜在解码,更好捕捉草图特征;2. 集成基于视觉问答的新奖励函数,通过强化学习改进文本-图像对齐和语义一致性。
- Result: 实验表明StableSketcher相比Stable Diffusion基线,在风格保真度和提示对齐方面表现更好,生成了更高质量的草图。
- Conclusion: 该框架有效解决了草图生成中的挑战,并发布了首个包含实例级草图、标题和问答对的SketchDUO数据集,弥补了现有数据集的局限性。
[14] BIOCAP: Exploiting Synthetic Captions Beyond Labels in Biological Foundation Models
Ziheng Zhang,Xinyue Ma,Arpita Chowdhury,Elizabeth G. Campolongo,Matthew J. Thompson,Net Zhang,Samuel Stevens,Hilmar Lapp,Tanya Berger-Wolf,Yu Su,Wei-Lun Chao,Jianyang Gu
Main category: cs.CV
TL;DR: 该研究探索使用描述性标题作为生物多模态基础模型的额外监督来源,通过多模态大语言模型生成合成标题来弥补生物学领域缺乏大规模实例特定标题的问题,并训练了BIOCAP模型。
- Motivation: 生物学领域相比其他科学领域缺乏大规模、忠实且实例特定的自然语言监督数据,限制了多模态基础模型的发展。描述性标题可以作为图像和标签之外的补充监督来源。
- Method: 使用多模态大语言模型生成合成标题,结合维基百科的视觉信息和针对特定分类单元定制的格式示例来减少幻觉,获得准确的实例描述性标题。基于这些标题训练BIOCAP模型。
- Result: BIOCAP模型能够捕获丰富的语义信息,在物种分类和文本-图像检索任务中表现出强大的性能。
- Conclusion: 描述性标题在连接生物图像与多模态基础模型方面具有超出标签的价值,为生物多模态学习提供了有效的监督信号。
[15] Physics-Guided Fusion for Robust 3D Tracking of Fast Moving Small Objects
Prithvi Raj Singh,Raju Gottumukkala,Anthony S. Maida,Alan B. Barhorst,Vijaya Gopu
Main category: cs.CV
TL;DR: 提出了一种结合深度学习和物理模型的系统,用于检测和跟踪快速移动的小物体,在自定义壁球数据集上相比卡尔曼滤波器方法减少了70%的平均位移误差。
- Motivation: 计算机视觉在通用物体检测和跟踪方面已有显著进展,但快速移动的小物体检测问题仍未得到充分探索,现有方法存在局限性。
- Method: 结合深度学习检测和基于物理学的跟踪算法,集成运动学方程处理异常值和漏检,并包含异常检测和校正模块。
- Result: 在自定义壁球数据集上评估,系统超越基于卡尔曼滤波器的跟踪器,平均位移误差减少高达70%。
- Conclusion: 该系统在自主平台的机器人感知方面有重要应用,证明了将物理模型与深度学习方法结合用于实时3D检测和跟踪挑战性小物体的有效性。
[16] Inverse Image-Based Rendering for Light Field Generation from Single Images
Hyunjun Jung,Hae-Gon Jeon
Main category: cs.CV
TL;DR: 提出了一种从单张图像生成光场的逆图像渲染方法,通过神经网络重建光线流,实现新颖视角合成。
- Motivation: 传统光场获取需要计算成本或专用设备,限制了其应用范围。本文旨在从单张图像生成光场,扩大其适用性。
- Method: 设计神经渲染管道,通过交叉注意力计算源光线之间的关系,预测目标光线颜色,并迭代更新生成内容。
- Result: 在多个挑战性数据集上表现良好,无需重新训练或微调,优于相关最先进的新视角合成方法。
- Conclusion: 逆图像渲染方法能够有效从单张图像生成光场,为场景表示和真实感渲染提供了新途径。
[17] Revisiting Logit Distributions for Reliable Out-of-Distribution Detection
Jiachen Liang,Ruibing Hou,Minyang Hu,Hong Chang,Shiguang Shan,Xilin Chen
Main category: cs.CV
TL;DR: 提出LogitGap方法,通过利用最大logit与其余logits之间的关系来增强ID和OOD样本的可分性,在OOD检测中实现最先进性能。
- Motivation: 现有后处理方法未能充分利用模型logits空间中的丰富信息,需要更有效地利用logits关系来提升OOD检测性能。
- Method: 提出LogitGap方法,显式利用最大logit与剩余logits的关系,并通过无训练策略自动识别最有信息的logits子集进行评分。
- Result: 在视觉语言和纯视觉模型上的广泛实验表明,LogitGap在各种OOD检测场景和基准测试中始终达到最先进性能。
- Conclusion: LogitGap通过有效利用logits空间关系,为OOD检测提供了一种高效且性能优越的后处理方法。
[18] PartNeXt: A Next-Generation Dataset for Fine-Grained and Hierarchical 3D Part Understanding
Penghao Wang,Yiyang He,Xin Lv,Yukai Zhou,Lan Xu,Jingyi Yu,Jiayuan Gu
Main category: cs.CV
TL;DR: PartNeXt是一个包含23,000多个高质量纹理3D模型的新数据集,提供细粒度层次化部件标注,用于改进3D部件理解和3D-LLM的部件问答任务。
- Motivation: 现有数据集如PartNet依赖无纹理几何和专家标注,限制了可扩展性和实用性,需要新一代数据集来解决这些问题。
- Method: 创建包含50个类别、23,000多个纹理3D模型的数据集,提供细粒度层次化部件标注,并用于部件分割和3D部件问答任务的基准测试。
- Result: 在类无关部件分割任务中,现有方法在细粒度和叶级部件上表现不佳;在3D部件问答任务中,3D-LLM在开放词汇部件定位方面存在显著差距;使用PartNeXt训练的Point-SAM相比PartNet有显著提升。
- Conclusion: PartNeXt通过可扩展标注、纹理感知标签和多任务评估,为结构化3D理解研究开辟了新途径。
[19] Monocular Visual 8D Pose Estimation for Articulated Bicycles and Cyclists
Eduardo R. Corral-Soto,Yang Liu,Yuan Ren,Bai Dongfeng,Liu Bingbing
Main category: cs.CV
TL;DR: 提出了一种从单张RGB图像进行类别级8D姿态估计的方法,用于估计铰接式自行车和骑行者的姿态,包括自行车的3D平移、旋转以及车把和踏板的旋转角度。
- Motivation: 在自动驾驶中,骑行者属于安全关键类别的弱势道路使用者,准确估计他们的姿态对于骑行者的穿越意图分类、行为预测和碰撞避免至关重要。传统的6D姿态估计方法无法处理自行车铰接部件(如车把、踏板)的变化,这些变化会影响3D边界框和实际行驶方向。
- Method: 提出的模型联合估计铰接式自行车的8D姿态和3D关键点,使用合成和真实图像数据的混合进行训练,以在真实图像上实现泛化。8D姿态包括3D平移、3D旋转以及车把和踏板相对于自行车车架的旋转角度。
- Result: 该方法在8D姿态参数的估计精度上表现出有希望的结果,与使用刚性规范对象模板进行匹配的最先进类别级6D姿态估计器相比,取得了有竞争力的分数。
- Conclusion: 通过估计车把和踏板的旋转角度,该方法能够估计更细粒度的自行车姿态状态和行驶方向,为自动驾驶系统中的骑行者行为理解和安全决策提供了更准确的信息。
[20] TOMCAT: Test-time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning
Xudong Yan,Songhe Feng
Main category: cs.CV
TL;DR: 提出TOMCAT方法,通过积累文本和视觉模态的无监督数据知识来更新多模态原型,解决组合零样本学习中的分布偏移问题
- Motivation: 现有方法在测试时面临标签空间分布偏移问题,这是由于包含了从属性和对象重新组合的未见组合导致的性能下降
- Method: 使用自适应更新权重控制原型调整程度,引入动态优先级队列存储高置信度图像获取视觉知识,通过多模态协同表示学习对齐文本和视觉原型
- Result: 在四个基准数据集上,在封闭世界和开放世界设置下都达到了最先进的性能
- Conclusion: 该方法能有效适应测试时的分布偏移,在组合零样本学习任务中表现出色
[21] IB-GAN: Disentangled Representation Learning with Information Bottleneck Generative Adversarial Networks
Insu Jeon,Wonkwang Lee,Myeongjang Pyeon,Gunhee Kim
Main category: cs.CV
TL;DR: 提出IB-GAN,一种基于GAN的无监督解耦表示学习模型,通过信息瓶颈框架优化GAN,在生成器中间层约束输入与输出的互信息,实现可解释的潜在空间解耦。
- Motivation: 利用信息瓶颈框架优化GAN,解决现有方法在解耦表示学习和生成质量方面的局限性,提供更好的潜在空间可解释性。
- Method: 在生成器中引入中间随机层,约束输入与生成输出之间的互信息,形成可学习的潜在分布,与生成器端到端联合训练。
- Result: 在dSprites和Color-dSprites数据集上达到与最先进β-VAE竞争的解耦分数,优于InfoGAN;在CelebA和3D Chairs数据集上,生成样本的视觉质量和多样性在FID得分上优于β-VAE和Info-GAN。
- Conclusion: IB-GAN通过信息瓶颈框架有效实现了GAN的解耦表示学习,在解耦性能和生成质量方面均优于现有方法。
[22] PPMStereo: Pick-and-Play Memory Construction for Consistent Dynamic Stereo Matching
Yun Wang,Junjie Hu,Qiaole Dong,Yongjian Zhang,Yanwei Fu,Tin Lun Lam,Dapeng Wu
Main category: cs.CV
TL;DR: PPMStereo提出了一种基于记忆缓冲区的动态立体匹配方法,通过Pick-and-Play Memory模块实现长程时空一致性建模,在保持计算效率的同时显著提升了深度估计的时间一致性。
- Motivation: 解决立体视频深度估计中的时间一致性问题,传统方法在建模长程时间依赖性和计算效率之间存在根本性权衡,限制了实际应用效果。
- Method: 受人类两阶段决策过程启发,设计了Pick-and-Play Memory模块:'pick'过程选择最相关帧,'play'过程自适应加权选择帧进行时空聚合,维持紧凑而信息丰富的记忆缓冲区。
- Result: 在Sintel数据集上,clean/final版本的TEPE分别达到0.62/1.11,相比BiDAStereo提升了17.3%和9.02%,且计算成本更低。
- Conclusion: PPMStereo通过两阶段协作过程有效实现了时间一致的深度估计,在准确性和时间一致性方面均达到最先进水平,为增强现实等应用提供了可靠解决方案。
[23] Evaluating Video Models as Simulators of Multi-Person Pedestrian Trajectories
Aaron Appelle,Jerome P. Lynch
Main category: cs.CV
TL;DR: 提出了一个评估文本到视频和图像到视频模型作为行人动态隐式模拟器的基准测试协议,发现领先模型已学习到有效的多智能体行为先验,但仍存在合并和消失等失败模式。
- Motivation: 现有基准主要关注单个主体而非多交互人员的场景,多智能体动态在生成视频中的合理性尚未验证,需要评估视频生成模型作为通用世界模拟器的潜力。
- Method: 开发了严格的评估协议:对于I2V使用现有数据集的起始帧与真实视频比较;对于T2V开发了探索不同行人密度和交互的提示套件;关键创新是无需相机参数从像素空间重建2D鸟瞰轨迹的方法。
- Result: 分析显示领先模型已学习到令人惊讶的有效多智能体行为先验,能够生成合理的行人动态。
- Conclusion: 虽然模型在多智能体行为方面表现出色,但合并和消失等失败模式指出了未来改进的方向,验证了视频生成模型作为世界模拟器的潜力。
[24] SPAN: Continuous Modeling of Suspicion Progression for Temporal Intention Localization
Xinyi Hu,Yuran Wang,Yue Li,Wenxuan Liu,Zheng Wang
Main category: cs.CV
TL;DR: 提出了SPAN网络,将可疑意图检测从离散分类转向连续回归,能够捕捉波动演变的可疑意图,显著优于现有方法并提高系统可解释性。
- Motivation: 现有的离散分类方法无法捕捉可疑意图的连续特性,限制了早期干预和可解释性。
- Method: 基于时序点过程理论,定义可疑分数公式建模连续变化;引入可疑系数调制使用多模态信息调整系数;提出概念锚定映射方法将可疑行为与预定义意图概念关联。
- Result: 在HAI数据集上,MSE降低19.8%,平均mAP提高1.78%,在低频情况下mAP增益达2.74%。
- Conclusion: 连续可疑建模方法能够实现更早检测和主动干预,显著增强安全应用中的系统可解释性和实用性。
[25] A Structured Review and Quantitative Profiling of Public Brain MRI Datasets for Foundation Model Development
Minh Sao Khue Luu,Margaret V. Benedichuk,Ekaterina I. Roppert,Roman M. Kenzhin,Bair N. Tuchinov
Main category: cs.CV
TL;DR: 该研究系统分析了54个公开脑MRI数据集,揭示了数据规模、模态组成和预处理方法的不一致性,强调在开发脑MRI基础模型时需要采用预处理感知和领域自适应策略。
- Motivation: 脑MRI基础模型的发展严重依赖于数据的规模、多样性和一致性,但目前缺乏对这些因素的系统评估。
- Method: 在数据集层面分析模态组成、疾病覆盖和规模;在图像层面量化体素间距、方向和强度分布;评估预处理变异性对体素统计和几何的影响;使用3D DenseNet121进行特征空间案例研究。
- Result: 发现健康队列与临床人群之间存在严重不平衡,预处理步骤提高了数据集内一致性但无法消除数据集间差异,标准化预处理后仍存在可测量的残差协变量偏移。
- Conclusion: 公开脑MRI资源存在显著异质性,仅靠数据协调无法消除数据集间偏差,需要预处理感知和领域自适应策略来开发可泛化的脑MRI基础模型。
[26] RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling
Bingjie Gao,Qianli Ma,Xiaoxue Wu,Shuai Yang,Guanzhou Lan,Haonan Zhao,Jiaxuan Chen,Qingyang Liu,Yu Qiao,Xinyuan Chen,Yaohui Wang,Li Niu
Main category: cs.CV
TL;DR: RAPO++是一个跨阶段的提示优化框架,通过检索增强提示优化、样本特定提示优化和LLM微调,显著提升文本到视频生成质量,无需修改底层生成模型。
- Motivation: 用户提供的提示通常简短、非结构化且与训练数据不匹配,限制了基于扩散的文本到视频模型的生成潜力。
- Method: 三阶段方法:1)RAPO阶段通过检索相关修饰符和重构提示来匹配训练分布;2)SSPO阶段使用多源反馈迭代优化提示;3)利用优化后的提示对微调LLM。
- Result: 在五个最先进的T2V模型和五个基准测试中,RAPO++在语义对齐、组合推理、时间稳定性和物理合理性方面取得了显著提升,大幅优于现有方法。
- Conclusion: RAPO++是一个模型无关、成本高效且可扩展的解决方案,为T2V生成中的提示优化设定了新标准。
[27] FlowCycle: Pursuing Cycle-Consistent Flows for Text-based Editing
Yanghao Wang,Zhen Wang,Long Chen
Main category: cs.CV
TL;DR: FlowCycle提出了一种基于流的无反转图像编辑框架,通过可学习的噪声参数化和循环一致性优化,实现目标感知的中间状态构建,在保持源图像一致性的同时实现忠实修改。
- Motivation: 当前文本到图像编辑方法采用目标无关的中间状态构建方式,主要关注源图像重建而忽略了与特定编辑目标的语义差距,导致在需要大幅修改时编辑能力有限或不一致。
- Method: 提出FlowCycle框架,通过可学习的噪声参数化腐败过程,并通过包含双重一致性约束的循环一致性过程进行优化,迭代地从源编辑到目标并恢复回源,学习生成目标感知的中间状态。
- Result: 广泛的消融实验表明,FlowCycle在编辑质量和一致性方面优于最先进的方法。
- Conclusion: FlowCycle通过目标感知的中间状态构建,解决了现有方法在显著偏离源图像时的编辑限制和不一致问题,实现了更好的编辑效果。
[28] Towards Objective Obstetric Ultrasound Assessment: Contrastive Representation Learning for Fetal Movement Detection
Talha Ilyas,Duong Nhu,Allison Thomas,Arie Levin,Lim Wei Yap,Shu Gong,David Vera Anaya,Yiwen Jiang,Deval Mehta,Ritesh Warty,Vinayak Smith,Maya Reddy,Euan Wallace,Wenlong Cheng,Zongyuan Ge,Faezeh Marzbanrad
Main category: cs.CV
TL;DR: 提出CURL框架,通过自监督对比学习从胎儿超声视频中检测胎儿运动,解决了传统方法主观性和准确度有限的问题。
- Motivation: 传统胎儿运动检测方法(如母体感知和胎心监护)存在主观性强和准确度有限的问题,异常运动模式可能预示胎盘功能障碍或胎儿窘迫等并发症。
- Method: 采用双重对比损失的自监督学习框架,结合空间和时间对比学习来学习稳健的运动表示,并引入任务特定采样策略和概率微调方法。
- Result: 在92名受试者的内部数据集上,CURL达到78.01%的敏感度和81.60%的AUROC,表现出可靠的胎儿运动分析能力。
- Conclusion: 自监督对比学习在胎儿运动分析中具有潜力,为改进产前监测和临床决策铺平了道路。
[29] EditInfinity: Image Editing with Binary-Quantized Generative Models
Jiahuan Wang,Yuxin Chen,Jun Yu,Guangming Lu,Wenjie Pei
Main category: cs.CV
TL;DR: EditInfinity 是一种基于 VQ 量化生成模型的图像编辑方法,通过精确的图像反演和整体平滑策略,在保持源图像保真度的同时实现与文本提示的精确语义对齐。
- Motivation: 现有的基于扩散模型的图像编辑方法在图像反演过程中存在近似误差,限制了编辑性能。VQ 量化生成模型能够获得精确的中间量化表示,为图像反演提供更有效的监督。
- Method: 提出 EditInfinity 方法,采用 Infinity 二元量化生成模型,集成文本提示修正和图像风格保持的高效图像反演机制,并设计整体平滑策略。
- Result: 在 PIE-Bench 基准测试中,在"添加"、"更改"和"删除"编辑操作上,相比最先进的基于扩散模型的基线方法表现出优越性能。
- Conclusion: EditInfinity 通过精确的图像反演和整体平滑策略,实现了高质量的文本驱动图像编辑,在保真度和语义对齐方面优于现有方法。
[30] Why LVLMs Are More Prone to Hallucinations in Longer Responses: The Role of Context
Ge Zheng,Jiaye Qian,Jiajin Tang,Sibei Yang
Main category: cs.CV
TL;DR: 论文提出大型视觉语言模型在生成长篇自由形式回答时会产生更多幻觉,研究发现这并非由长度本身引起,而是由于长篇回答对上下文连贯性和完整性的依赖增加。作者提出了"诱导-检测-抑制"框架来主动管理幻觉问题。
- Motivation: 大型视觉语言模型在长篇回答中表现出更多幻觉问题,传统观点认为是长度导致的错误累积,但作者质疑是否存在更深层的机制驱动这种现象。
- Method: 提出"诱导-检测-抑制"框架:通过精心设计的上下文主动诱导幻觉,利用诱导实例进行早期高风险检测,在实际解码过程中抑制潜在的对象级幻觉。
- Result: 该方法在所有基准测试中都取得了持续显著的改进,证明了框架的有效性。强大的检测能力和改进的幻觉缓解不仅验证了框架,更重要的是重新验证了关于上下文的假设。
- Conclusion: 这项研究不仅追求性能提升,更旨在为深入探索大型视觉语言模型在长篇回答中的幻觉问题提供新的见解,是迈向更深层次研究的第一步。
[31] COS3D: Collaborative Open-Vocabulary 3D Segmentation
Runsong Zhu,Ka-Hei Hui,Zhengzhe Liu,Qianyi Wu,Weiliang Tang,Shi Qiu,Pheng-Ann Heng,Chi-Wing Fu
Main category: cs.CV
TL;DR: COS3D是一个新的协作提示-分割框架,通过实例场和语言场的协作,有效整合语言和分割线索,解决了现有基于高斯泼溅的开放词汇3D分割方法的局限性。
- Motivation: 现有的基于高斯泼溅的方法要么依赖单一的3D语言场导致分割效果不佳,要么依赖预计算的类无关分割导致错误累积。需要一种能有效整合语言和分割线索的方法。
- Method: 提出了协作场的概念,包含实例场和语言场。通过实例到语言的特征映射和两阶段训练策略构建协作场,在推理时采用自适应语言到实例提示优化。
- Result: 在两个广泛使用的基准测试上表现优于现有方法,并在新颖的图像基3D分割、分层分割和机器人应用中显示出高潜力。
- Conclusion: COS3D通过协作场设计有效解决了开放词汇3D分割中的挑战,实现了领先的性能和广泛的应用潜力。
[32] Empower Words: DualGround for Structured Phrase and Sentence-Level Temporal Grounding
Minseok Kang,Minhyeok Lee,Minjung Kim,Donghyeong Kim,Sangyoun Lee
Main category: cs.CV
TL;DR: DualGround是一个双分支架构,通过分离全局和局部语义来改进视频时序定位,在句子级和短语级语义上实现解耦的跨模态交互,在多个基准测试中达到最先进性能。
- Motivation: 现有视频时序定位方法通常将所有文本标记统一处理,忽视了它们不同的语义角色,导致模型过度依赖[EOS]驱动的全局语义而未能有效利用词级信号,限制了细粒度时序对齐能力。
- Method: 提出DualGround双分支架构:将[EOS]标记通过句子级路径处理,将词标记聚类为短语级单元进行局部定位;引入基于标记角色的跨模态交互策略和联合建模框架。
- Result: 在QVHighlights和Charades-STA基准测试中,DualGround在时刻检索和高亮检测任务上均达到了最先进的性能。
- Conclusion: 解耦的语义建模在视频-语言对齐中非常有效,能够同时捕捉粗粒度和局部语义,实现更具表达力和上下文感知的视频定位。
[33] Seeing the Unseen: Mask-Driven Positional Encoding and Strip-Convolution Context Modeling for Cross-View Object Geo-Localization
Shuhan Hu,Yiru Li,Yuanyuan Li,Yingying Zhu
Main category: cs.CV
TL;DR: 提出EDGeo框架,通过掩码位置编码和上下文增强模块改进跨视角物体地理定位,在CVOGL和VIGOR-Building数据集上实现最先进性能
- Motivation: 现有方法依赖基于关键点的位置编码,仅捕获2D坐标而忽略物体形状信息,导致对标注偏移敏感且跨视角匹配能力有限
- Method: 提出掩码位置编码方案利用分割掩码捕获空间坐标和物体轮廓;设计上下文增强模块使用水平和垂直条带卷积核提取长距离上下文特征;整合为EDGeo端到端框架
- Result: 在两个公开数据集上实现最先进性能,在具有挑战性的地面到卫星场景下定位精度提升3.39%
- Conclusion: 为跨视角地理定位研究提供了稳健的位置编码范例和上下文建模框架
[34] Calibrating Multimodal Consensus for Emotion Recognition
Guowei Zhong,Junjie Li,Huaiyu Zhu,Ruohong Huan,Yun Pan
Main category: cs.CV
TL;DR: 提出CMC模型解决多模态情感识别中的语义不一致和文本主导问题,通过伪标签生成和参数无关融合模块实现更好的多模态共识
- Motivation: 现有方法忽视多模态间的语义不一致性,且常被文本模态主导,影响识别准确性
- Method: 使用伪标签生成模块进行自监督单模态预训练,然后通过参数无关融合模块和多模态共识路由器进行多模态微调
- Result: 在CH-SIMS、CH-SIMS v2、CMU-MOSI和CMU-MOSEI四个数据集上达到或超越SOTA性能,在语义不一致场景下表现优异
- Conclusion: CMC模型能有效缓解文本主导问题,引导融合过程达成更可靠的多模态共识
[35] Real-Time Currency Detection and Voice Feedback for Visually Impaired Individuals
Saraf Anzum Shreya,MD. Abu Ismail Siddique,Sharaf Tasnim
Main category: cs.CV
TL;DR: 提出基于YOLOv8 nano的实时货币检测系统,帮助视障人士识别美元、欧元和孟加拉塔卡三种货币的纸币和硬币,准确率达97.73%。
- Motivation: 智能手机已成为日常生活必需品,但视障人士在处理金钱等日常任务时仍需依赖他人。本文旨在开发一个实用的货币检测系统,帮助视障人士独立处理货币。
- Method: 使用YOLOv8 nano模型,配备带有深度卷积层和Squeeze-and-Excitation块的自定义检测头,以增强特征提取和检测精度。模型在包含30类纸币和硬币的数据集上训练。
- Result: 模型实现了97.73%的准确率、95.23%的召回率、95.85%的F1分数和97.21%的mAP50(B)。检测后通过语音反馈帮助视障人士识别货币。
- Conclusion: 该系统为视障人士提供了一个实用高效的货币检测解决方案,能够帮助他们独立处理金钱事务。
[36] GMFVAD: Using Grained Multi-modal Feature to Improve Video Anomaly Detection
Guangyu Dai,Dong Chen,Siliang Tang,Yueting Zhuang
Main category: cs.CV
TL;DR: 提出GMFVAD方法,通过细粒度多模态特征减少视频特征冗余,提升视频异常检测性能
- Motivation: 现有方法在引入文本特征时过于粗糙,忽略了视频片段中的大量冗余信息,需要利用多模态信息的多样性来精炼特征
- Method: 基于视频片段生成细粒度多模态特征,总结主要内容,并引入原始视频字幕的文本特征来增强视觉特征的突出部分
- Result: 在四个主要数据集上达到最先进性能,消融实验验证了GMFVAD的改进确实源于冗余信息的减少
- Conclusion: GMFVAD通过细粒度多模态特征处理有效减少了视频特征冗余,显著提升了视频异常检测性能
[37] Causal Debiasing for Visual Commonsense Reasoning
Jiayi Zou,Gengyun Jia,Bing-Kun Bao
Main category: cs.CV
TL;DR: 该论文分析了视觉常识推理中的数据集偏见问题,提出了VCR-OOD数据集来评估模型泛化能力,并采用后门调整方法消除偏见。
- Motivation: 现有视觉常识推理方法虽然预测准确率高,但忽视了数据集中的偏见问题,缺乏有效的去偏策略。研究发现文本和视觉数据中都存在共现和统计偏见。
- Method: 分析VCR中的因果图和预测捷径,采用后门调整方法消除偏见。基于正确答案集合创建字典来消除预测捷径。
- Result: 实验证明该去偏方法在不同数据集上都有效。
- Conclusion: 提出的去偏方法能够有效解决视觉常识推理中的偏见问题,提高模型的泛化能力。
[38] Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition
Haodong Yang,Zhongling Huang,Shaojie Guo,Zhe Zhang,Gong Cheng,Junwei Han
Main category: cs.CV
TL;DR: 提出了KINN框架,通过物理引导的压缩-聚合-压缩架构解决CV-SAR图像识别中的表示三难问题,在数据稀缺和域偏移场景下实现泛化性、可解释性和效率的平衡。
- Motivation: 解决复杂值合成孔径雷达图像识别中存在的表示三难问题——在数据有限和域偏移场景下,泛化性、可解释性和效率这三个目标难以同时优化。
- Method: 提出知识通知神经网络框架,采用压缩-聚合-压缩架构:第一阶段进行物理引导压缩,通过字典处理器嵌入物理先验;聚合模块丰富表示;最后阶段使用自蒸馏的紧凑分类头进行语义压缩。
- Result: 在五个SAR基准测试上的广泛评估表明,KINN在参数高效识别方面达到最先进水平,在数据稀缺和分布外场景下具有出色的泛化能力和可解释性。
- Conclusion: KINN为SAR图像分析中的表示三难问题提供了有效解决方案,为可信AI在SAR领域的应用开辟了新路径。
[39] DMC : Dual-Modal Counterfactual Contrastive Construction for Egocentric Video Question Answering
Jiayi Zou,Chaofan Chen,Bing-Kun Bao,Changsheng Xu
Main category: cs.CV
TL;DR: 提出了DMC³框架,通过反事实样本构建和对比优化来解决第一人称视频问答中的多事件理解和手物交互识别挑战。
- Motivation: 现有方法忽略了第一人称视角带来的独特挑战,如理解多个事件和识别手物交互。
- Method: DMC³框架包含三个模块:基础模型、反事实样本构建模块(通过事件描述改写和核心交互挖掘生成正负样本)和对比优化模块(使用对比损失优化特征距离)。
- Result: 在EgoTaskQA的正常和间接分割上分别达到52.51%和46.04%,在QAEGO4D上达到13.2%,均达到最先进性能。
- Conclusion: DMC³框架有效解决了第一人称视频问答中的独特挑战,取得了state-of-the-art的性能。
[40] UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning
Liangyu Chen,Hanzhang Zhou,Chenglin Cai,Jianan Zhang,Panrong Tong,Quyu Kong,Xu Zhang,Chen Liu,Yuqi Liu,Wenxuan Wang,Yue Wang,Qin Jin,Steven Hoi
Main category: cs.CV
TL;DR: 本文提出了Instruction-as-Reasoning范式,将指令视为动态分析路径,通过两阶段训练框架(SFT+RL)优化路径选择和组合,在GUI grounding任务上取得了SOTA结果。
- Motivation: 现有工作将指令视为用户意图的静态代理,忽视了指令多样性和质量对grounding性能的影响。研究发现现有数据集有23.3%的指令缺陷,且利用指令多样性可在推理时带来76%的相对性能提升。
- Method: 提出Instruction-as-Reasoning范式,将指令作为动态分析路径;采用两阶段训练框架:先在合成的多样化指令上进行监督微调,然后通过强化学习优化路径选择和组合。
- Result: UI-Ins-7B和UI-Ins-32B模型在五个grounding基准测试中达到SOTA:UI-I2E-Bench 87.3%、ScreenSpot-Pro 57.0%、MMBench-GUI L2 84.9%;在AndroidWorld上达到74.1%的成功率。
- Conclusion: 该方法不仅提升了grounding性能,还展现出新兴推理能力,能够选择性地组合和合成新的指令路径,同时缓解了SFT+RL框架中的策略崩溃问题。
[41] Breakdance Video classification in the age of Generative AI
Sauptik Dhar,Naveen Ramakrishnan,Michelle Munson
Main category: cs.CV
TL;DR: 该研究分析了现代视频基础模型在街舞运动分类任务中的表现,发现视频编码器模型在预测任务上优于最先进的视频语言模型。
- Motivation: 大型视觉语言模型在体育应用中广泛应用,但主要局限于足球、板球、篮球等热门运动,且关注生成任务。本研究旨在探索现代视频基础模型在街舞这一小众但流行的舞蹈运动中的适用性。
- Method: 使用现代视频基础模型(包括编码器和解码器)进行街舞视频分类,对编码器模型选择提供指导,并对微调后的解码器模型进行深入分析。
- Result: 视频编码器模型在预测任务上持续优于最先进的视频语言模型。
- Conclusion: 为街舞视频分类任务提供了模型选择指导,并深入分析了微调解码器模型的工作机制。
[42] A Parameter-Efficient Mixture-of-Experts Framework for Cross-Modal Geo-Localization
LinFeng Li,Jian Zhao,Zepeng Yang,Yuhang Song,Bojun Lin,Tianle Zhang,Yuchen Yuan,Chi Zhang,Xuelong Li
Main category: cs.CV
TL;DR: 提出了一种用于RoboSense 2025 Track 4跨模态无人机导航任务的获胜解决方案,通过领域对齐预处理和混合专家框架解决平台异构性和领域差距问题。
- Motivation: 解决跨模态地理定位任务中的两个主要障碍:严重的平台间异构性(卫星/无人机/地面)以及通用训练描述与平台特定测试查询之间的领域差距。
- Method: 使用领域对齐预处理管道(平台划分、卫星增强、方向词移除)和LLM驱动的标题精炼流程;采用BGE-M3和EVA-CLIP模型,通过渐进式两阶段硬负样本挖掘策略训练三个平台专家,并在推理时融合专家分数。
- Result: 该系统在官方排行榜上名列第一,展示了在异构视角下稳健的跨模态地理定位能力。
- Conclusion: 提出的领域对齐预处理和混合专家框架有效解决了跨平台异构性和领域差距问题,为跨模态地理定位任务提供了强大的解决方案。
[43] HyperET: Efficient Training in Hyperbolic Space for Multi-modal Large Language Models
Zelin Peng,Zhengqin Xu,Qingyang Liu,Xiaokang Yang,Wei Shen
Main category: cs.CV
TL;DR: HyperET是一种高效的多模态大语言模型训练范式,利用双曲空间解决视觉和文本模态之间的粒度差距问题,通过动态调整双曲半径实现任意粒度级别的对齐。
- Motivation: 现有MLLMs需要大量计算资源进行训练,主要原因是广泛使用的视觉编码器(如CLIP、SAM)缺乏与语言在多粒度级别上的对齐。
- Method: 提出HyperET训练范式,在双曲空间中通过动态调整双曲半径来优化视觉表示,使其与文本表示在任意粒度级别对齐。使用可学习矩阵和Möbius乘法操作,采用三种参数化策略:对角缩放矩阵、块对角矩阵和带状矩阵。
- Result: 在多个MLLM基准测试上的综合实验表明,HyperET能够以不到1%的额外参数显著提升现有预训练和微调MLLMs的性能。
- Conclusion: HyperET提供了一种高效且灵活的方法来解决多模态对齐中的粒度差距问题,显著提高了训练效率。
[44] AnyPcc: Compressing Any Point Cloud with a Single Universal Model
Kangli Wang,Qianxi Yi,Yuqi Ye,Shihao Li,Wei Gao
Main category: cs.CV
TL;DR: AnyPcc是一个通用的点云压缩框架,通过通用上下文模型和实例自适应微调策略解决泛化问题和OOD数据处理问题,在15个数据集上达到最先进的压缩性能。
- Motivation: 解决深度学习点云几何压缩中的泛化挑战,主要源于缺乏鲁棒的上下文模型和对OOD数据的低效处理。
- Method: 1. 通用上下文模型:利用空间和通道分组先验捕获鲁棒上下文依赖;2. 实例自适应微调(IAFT):结合显式和隐式压缩范式,为每个实例微调少量网络权重并纳入比特流。
- Result: 在包含15个不同数据集的基准测试中,AnyPcc在点云压缩方面达到了新的最先进水平。
- Conclusion: AnyPcc通过创新的上下文建模和自适应微调策略,有效解决了点云压缩中的泛化问题,为可重复研究提供了代码和数据集。
[45] AccuQuant: Simulating Multiple Denoising Steps for Quantizing Diffusion Models
Seunghoon Lee,Jeongwoo Choi,Byunggwan Son,Jaehyeon Moon,Jeimin Jeon,Bumsub Ham
Main category: cs.CV
TL;DR: AccuQuant是一种新颖的扩散模型后训练量化方法,通过模拟多步去噪过程来最小化量化误差累积,显著提升量化性能。
- Motivation: 扩散模型在采样过程中,量化误差会随着去噪步骤的进行而累积,导致性能下降。现有方法独立处理每一步的误差,无法有效解决累积问题。
- Method: AccuQuant在量化过程中显式模拟多个去噪步骤,考虑多步累积误差,并提出高效实现技术将内存复杂度从O(n)降至O(1)。
- Result: 在多种任务和扩散模型的标准基准测试中,AccuQuant表现出优异的效能和效率。
- Conclusion: AccuQuant通过解决量化误差累积问题,为扩散模型的高效量化提供了有效解决方案。
[46] Positional Encoding Field
Yunpeng Bai,Haoxiang Li,Qixing Huang
Main category: cs.CV
TL;DR: 本文重新审视了扩散变换器(DiTs)中位置编码的作用,发现即使位置编码被扰动,DiTs仍能产生全局一致的输出,表明空间一致性主要由位置编码控制。基于此发现,作者提出了位置编码场(PE-Field),将位置编码从2D平面扩展到结构化3D场,使DiTs能够在3D空间中直接建模几何。
- Motivation: 发现DiTs中补丁标记表现出惊人的独立性:即使位置编码被扰动,模型仍能产生全局一致的输出,这表明空间一致性主要由位置编码控制。这一发现促使作者重新思考如何组织视觉内容。
- Method: 提出了位置编码场(PE-Field),将位置编码从2D平面扩展到结构化3D场。PE-Field包含用于体积推理的深度感知编码和用于细粒度子补丁控制的分层编码。
- Result: PE-Field增强的DiT在单图像新视角合成任务上达到了最先进的性能,并能推广到可控的空间图像编辑。
- Conclusion: 通过将位置编码扩展到3D场,DiTs能够直接在3D空间中建模几何,显著提升了视觉生成任务的性能,特别是在新视角合成和可控图像编辑方面。
[47] Mitigating Cross-modal Representation Bias for Multicultural Image-to-Recipe Retrieval
Qing Wang,Chong-Wah Ngo,Yu Cao,Ee-Peng Lim
Main category: cs.CV
TL;DR: 提出一种因果表示学习方法,通过预测图像中可能被忽视的烹饪元素并显式注入跨模态表示学习来缓解偏见,提高图像到食谱检索的性能。
- Motivation: 现有方法假设食物图像能完全捕捉食谱的文本细节,但实际上图像只反映烹饪结果而非过程,导致表示学习偏向主导视觉元素,难以区分具有细微差异的相似食谱。
- Method: 使用因果方法预测图像中可能被忽视的烹饪元素,并将这些元素显式注入跨模态表示学习,以减轻表示偏见。
- Result: 在标准单语Recipe1M数据集和新构建的多语言多文化数据集上,该方法能够发现细微的食材和烹饪动作,并取得了优异的检索性能。
- Conclusion: 因果表示学习方法能有效缓解图像到食谱检索中的表示偏见,在单语和多语言多文化数据集上都表现出色。
[48] Dynamic Weight Adjustment for Knowledge Distillation: Leveraging Vision Transformer for High-Accuracy Lung Cancer Detection and Real-Time Deployment
Saif Ur Rehman Khan,Muhammad Nabeel Asim,Sebastian Vollmer,Andreas Dengel
Main category: cs.CV
TL;DR: 提出FuzzyDistillViT-MobileNet模型,通过动态模糊逻辑驱动的知识蒸馏处理肺癌分类中的不确定性和复杂性,在LC25000和IQOTH/NCCD数据集上分别达到99.16%和99.54%的准确率。
- Motivation: 传统模型使用静态知识蒸馏固定权重,无法有效处理肺癌图像中不同区域的不确定性变化,需要动态调整蒸馏权重以关注高置信度区域。
- Method: 使用ViT-B32作为教师模型,MobileNet作为学生模型,通过模糊逻辑动态调整蒸馏权重,结合图像融合技术(Gamma校正、直方图均衡化、小波融合)和遗传算法选择最优学生模型。
- Result: 在LC25000组织病理学图像上达到99.16%准确率,在IQOTH/NCCD CT扫描图像上达到99.54%准确率,展示了跨成像域的鲁棒性。
- Conclusion: 动态模糊逻辑知识蒸馏能有效处理医学图像中的不确定性,提高模型泛化能力,在不同成像模态下均表现出优异性能。
[49] Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence
Kun Ouyang,Yuanxin Liu,Linli Yao,Yishuo Cai,Hao Zhou,Jie Zhou,Fandong Meng,Xu Sun
Main category: cs.CV
TL;DR: Conan是一个基于证据的多步视频推理框架,通过识别上下文和证据帧、跨帧线索推理以及自适应决策,在六个多步推理基准测试中平均准确率比基线模型提高10%以上。
- Motivation: 解决多模态大语言模型在视频推理中的挑战:基于强化学习的方法产生未接地或幻觉结论,而帧检索方法在证据定位方面仍不准确。
- Method: 构建Conan-91K大规模自动生成推理轨迹数据集,设计多阶段渐进式冷启动策略和Identification-Reasoning-Action强化学习训练框架,联合增强多步视觉推理。
- Result: 在六个多步推理基准测试中,Conan比基线Qwen2.5-VL-7B-Instruct平均准确率提高超过10%,达到最先进性能,并能有效泛化到长视频理解任务。
- Conclusion: Conan框架在多步视频推理方面表现出色,具有强大的可扩展性和鲁棒性,为证据接地的视频推理提供了有效解决方案。
[50] Reliable and Reproducible Demographic Inference for Fairness in Face Analysis
Alexandre Fournier-Montgieux,Hervé Le Borgne,Adrian Popescu,Bertrand Luvison
Main category: cs.CV
TL;DR: 提出了一种可复现的人口属性推断管道,用于改善人脸分析系统的公平性评估,通过模块化迁移学习方法替代传统端到端训练,在准确性、公平性和鲁棒性方面表现优异。
- Motivation: 人脸分析系统的公平性评估依赖于自动人口属性推断,但现有方法的可靠性存在问题,这会影响公平性审计的有效性。
- Method: 采用模块化迁移学习方法,将预训练的人脸识别编码器与非线性分类头结合,提出新的鲁棒性度量标准(基于身份内一致性)。
- Result: 在多个数据集和训练设置中,该方法在性别和种族推断任务上均优于强基线,尤其在更具挑战性的种族属性上表现突出。
- Conclusion: 这项工作为公平性审计中的人口属性推断提供了可靠基础,将公开数据集元数据、代码库、预训练模型和评估工具包以促进透明度和可复现性。
[51] EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization
Yixiong Yang,Tao Wu,Senmao Li,Shiqi Yang,Yaxing Wang,Joost van de Weijer,Kai Wang
Main category: cs.CV
TL;DR: EchoDistill是一个双向概念蒸馏框架,用于实现一步扩散个性化(1-SDP),通过师生模型的协同训练和双向反馈机制,在保持快速生成的同时有效个性化新概念。
- Motivation: 现有的单步文本到图像扩散模型虽然生成速度快,但在个性化新概念方面能力有限,因为单步模型难以有效捕捉新概念的分布。
- Method: 采用端到端训练,同时训练多步扩散模型(教师)和单步扩散模型(学生),通过双向概念蒸馏机制,包括概念从教师到学生的蒸馏和从学生到教师的反馈,并共享文本编码器确保语义一致性。
- Result: 实验表明该框架在1-SDP设置下显著优于现有个性化方法,不仅提升了学生模型对新概念的个性化能力,还改善了教师模型的生成质量。
- Conclusion: EchoDistill为T2I扩散模型中的快速有效个性化建立了一个新颖范式,通过双向协作机制实现了速度与个性化质量的平衡。
[52] Metis-HOME: Hybrid Optimized Mixture-of-Experts for Multimodal Reasoning
Xiaohan Lan,Fanfan Liu,Haibo Qiu,Siqi Yang,Delian Ruan,Peng Shi,Lin Ma
Main category: cs.CV
TL;DR: 提出了Metis-HOME框架,通过混合专家架构解决多模态推理模型在效率和通用性之间的权衡问题,包含专门用于复杂推理的思考分支和用于快速推理的非思考分支。
- Motivation: 当前多模态推理模型存在两个关键局限:对简单查询也使用计算昂贵的推理导致效率低下,以及专注于专门推理损害了更广泛的通用理解能力。
- Method: 基于Qwen2.5-VL-7B构建混合专家架构,包含思考分支(处理复杂多步推理)和非思考分支(处理通用VQA和OCR等快速推理),通过轻量级可训练路由器动态分配查询。
- Result: 评估显示该方法不仅显著提升了复杂推理能力,还改善了模型的通用能力,逆转了其他推理专用模型中观察到的性能下降趋势。
- Conclusion: 建立了一个构建强大且通用多模态大语言模型的新范式,有效解决了推理与泛化之间的普遍困境。
[53] Fake-in-Facext: Towards Fine-Grained Explainable DeepFake Analysis
Lixiong Qin,Yang Zhang,Mei Wang,Jiani Hu,Weihong Deng,Weiran Xu
Main category: cs.CV
TL;DR: 提出了Fake-in-Facext (FiFa)框架,通过细粒度面部区域概念划分和新的Artifact-Grounding Explanation任务,解决了现有多模态大语言模型在可解释深度伪造分析中缺乏细粒度感知能力的问题。
- Motivation: 当前的多模态大语言模型在可解释深度伪造分析中存在细粒度感知不足的问题:数据标注不可靠且粗粒度,模型无法输出文本伪造解释与视觉伪影证据之间的连接,也不支持任意面部区域的查询输入。
- Method: 首先定义面部图像概念树(FICT)对面部图像进行细粒度区域划分,获得更可靠的数据标注流程FiFa-Annotator。基于此提出新的Artifact-Grounding Explanation任务,生成包含操作伪影分割掩码的文本伪造解释。设计统一的多任务学习架构FiFa-MLLM,同时支持丰富的多模态输入输出。
- Result: FiFa-MLLM在AGE任务上优于强基线模型,在现有XDFA数据集上达到SOTA性能。
- Conclusion: FiFa框架通过细粒度数据标注和统一的多任务架构,显著提升了多模态大语言模型在可解释深度伪造分析中的性能,解决了现有方法的局限性。
[54] Blur2seq: Blind Deblurring and Camera Trajectory Estimation from a Single Camera Motion-blurred Image
Guillermo Carbajal,Andrés Almansa,Pablo Musé
Main category: cs.CV
TL;DR: 提出了一种深度学习框架,能够从单张模糊图像中联合估计潜在清晰图像和相机运动轨迹,在严重模糊情况下优于现有方法。
- Motivation: 相机抖动导致的大范围或旋转运动模糊仍然是图像恢复中的主要挑战,现有端到端去模糊网络在严重或空间变化模糊情况下表现不佳。
- Method: 使用投影运动模糊模型(PMBM),通过可微分模糊创建模块实现。神经网络预测完整的3D旋转轨迹,指导基于模型的端到端恢复网络,并通过后处理的重新模糊损失优化轨迹。
- Result: 在合成和真实数据集上实现了最先进的性能,特别是在严重或空间变化模糊的情况下表现优异。
- Conclusion: 该方法通过联合估计清晰图像和相机运动轨迹,在严重模糊情况下显著优于现有方法,同时提供了可解释性,能够重建生成模糊图像的清晰图像序列。
[55] Deep Learning-Powered Visual SLAM Aimed at Assisting Visually Impaired Navigation
Marziyeh Bamdad,Hans-Peter Hutter,Alireza Darvishy
Main category: cs.CV
TL;DR: SELM-SLAM3是一个深度学习增强的视觉SLAM框架,通过集成SuperPoint和LightGlue实现鲁棒的特征提取和匹配,在低纹理、运动模糊等挑战性条件下显著优于传统SLAM方法。
- Motivation: 传统SLAM技术在低纹理、运动模糊和挑战性光照条件下性能下降,这在视觉障碍者辅助导航等应用中影响定位精度和跟踪稳定性,降低导航可靠性和安全性。
- Method: 提出SELM-SLAM3框架,集成SuperPoint进行特征提取和LightGlue进行特征匹配,使用深度学习技术增强SLAM系统的鲁棒性。
- Result: 在TUM RGB-D、ICL-NUIM和TartanAir数据集上的评估显示,SELM-SLAM3平均比ORB-SLAM3提升87.84%,比最先进的RGB-D SLAM系统提升36.77%,在低纹理场景和快速运动等挑战性条件下表现优异。
- Conclusion: SELM-SLAM3在挑战性条件下表现出增强的性能,为开发视觉障碍者导航辅助工具提供了可靠平台。
[56] From Cheap to Pro: A Learning-based Adaptive Camera Parameter Network for Professional-Style Imaging
Fuchen Li,Yansong Du,Wenbo Cheng,Xiaoxia Zhou,Sen Yin
Main category: cs.CV
TL;DR: ACamera-Net是一个轻量级场景自适应相机参数调整网络,直接从RAW输入预测最佳曝光和白平衡,包含曝光和色彩两个模块,在边缘设备上实时运行,提升图像质量和感知稳定性。
- Motivation: 消费级相机系统在复杂光照条件下(如低光、高动态范围、背光)难以保持稳定的图像质量,导致曝光不足、色偏和色调不一致,影响下游视觉任务性能。
- Method: 提出ACamera-Net框架,包含ACamera-Exposure模块(估计ISO缓解曝光不足和对比度损失)和ACamera-Color模块(预测相关色温和增益因子改善色彩一致性),直接在RAW输入上预测相机参数。
- Result: 在多样化真实世界数据上训练,模型在不同光照条件下泛化良好,实验表明ACamera-Net持续提升图像质量并稳定感知输出,优于传统自动模式和轻量级基线方法。
- Conclusion: ACamera-Net无需额外图像增强模块,即可有效解决复杂光照条件下的图像质量问题,为边缘设备提供实时相机参数优化方案。
[57] From Far and Near: Perceptual Evaluation of Crowd Representations Across Levels of Detail
Xiaohan Sun,Carol O'Sullivan
Main category: cs.CV
TL;DR: 研究用户对不同细节层次和观看距离下人群角色表示的视觉质量感知,比较几何网格、图像替身、NeRF和3D高斯等表示方法的视觉保真度与计算性能权衡。
- Motivation: 探索不同人群角色表示方法在视觉质量和计算性能之间的权衡关系,为设计感知优化的细节层次策略提供指导。
- Method: 使用几何网格、图像替身、NeRF和3D高斯等不同表示方法,在不同细节层次和观看距离下进行定性和定量分析。
- Result: 不同表示方法在视觉保真度和计算性能方面表现出明显的权衡关系,为人群渲染的感知优化提供了具体见解。
- Conclusion: 研究结果为设计感知优化的细节层次策略提供了有价值的指导,有助于在人群渲染中平衡视觉质量和计算效率。
[58] EmbodiedBrain: Expanding Performance Boundaries of Task Planning for Embodied Intelligence
Ding Zou,Feifan Wang,Mengyu Ge,Siyuan Fan,Zongbing Zhang,Wei Chen,Lingfeng Wang,Zhongyou Hu,Wenrui Yan,Zhengwei Gao,Hao Wang,Weizhao Jin,Yu Zhang,Hainan Zhao,Mingliang Zhang,Xianxian Xi,Yaru Zhang,Wenyuan Li,Zhengguang Gao,Yurui Zhu
Main category: cs.CV
TL;DR: 提出了EmbodiedBrain,一个用于具身AI的视觉语言基础模型,通过创新的训练方法和评估系统,在具身任务中实现了最先进的性能。
- Motivation: 解决当前大语言模型和多模态大语言模型在具身任务中的关键局限性,包括模型设计与代理需求之间的差距、实时延迟与性能的权衡,以及离线评估指标的不真实性。
- Method: 采用代理对齐的数据结构,结合大规模监督微调(SFT)和步骤增强组相对策略优化(Step-GRPO),集成生成奖励模型(GRM)加速训练效率。
- Result: 实验结果表明EmbodiedBrain在所有指标上都取得了优越性能,为具身基础模型建立了新的最先进水平。
- Conclusion: EmbodiedBrain通过创新的训练方法和全面的评估系统,为下一代通用具身代理的发展铺平了道路,并开源了所有数据、模型权重和评估方法。
[59] Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence
Jiahao Meng,Xiangtai Li,Haochen Wang,Yue Tan,Tao Zhang,Lingdong Kong,Yunhai Tong,Anran Wang,Zhiyang Teng,Yujing Wang,Zhuochen Wang
Main category: cs.CV
TL;DR: Open-o3 Video是一个非代理框架,将显式时空证据整合到视频推理中,通过精心收集的训练数据和训练策略解决时空跟踪和定位的挑战,在V-STAR基准上实现最先进性能。
- Motivation: 现有视频推理模型仅生成文本推理轨迹,不指示关键证据出现的时间和位置。将证据中心推理能力扩展到视频更具挑战性,需要跨动态场景的联合时间跟踪和空间定位。
- Method: 构建两个高质量数据集STGR-CoT-30k和STGR-RL-36k,采用冷启动强化学习策略,设计多个专门奖励函数联合鼓励答案准确性、时间对齐和空间精度。
- Result: 在V-STAR基准上实现最先进性能,mAM提升14.4%,mLGM提升24.2%。在VideoMME、WorldSense、VideoMMMU和TVGBench等广泛视频理解基准上观察到一致改进。
- Conclusion: Open-o3 Video不仅提高了准确性,其生成的推理轨迹还为测试时扩展提供了有价值的信号,实现了置信度感知验证并提高了答案可靠性。
[60] GenColorBench: A Color Evaluation Benchmark for Text-to-Image Generation Models
Muhammad Atif Butt,Alexandra Gomez-Villa,Tao Wu,Javier Vazquez-Corral,Joost Van De Weijer,Kai Wang
Main category: cs.CV
TL;DR: 提出了GenColorBench,首个专注于文本到图像颜色生成的综合基准测试,包含44K个颜色相关提示,覆盖400多种颜色,通过感知和自动评估揭示模型在颜色生成方面的真实能力。
- Motivation: 现有文本到图像生成模型在细粒度颜色可控性方面表现不佳,无法准确匹配文本提示中指定的颜色。当前基准测试要么忽略颜色评估,要么依赖粗略评估,缺乏对RGB值解释和人类期望对齐等关键能力的系统评估。
- Method: 基于ISCC-NBS和CSS3/X11等颜色系统构建GenColorBench基准,包含数值颜色(其他地方缺失),通过44K个颜色相关提示进行模型评估,采用感知和自动评估方法。
- Result: 对流行文本到图像模型的评估显示性能存在差异,揭示了模型对不同颜色约定的理解程度,并识别了失败模式。
- Conclusion: GenColorBench评估将指导精确颜色生成的改进,基准测试将在接受后公开。
[61] Unsupervised Domain Adaptation via Similarity-based Prototypes for Cross-Modality Segmentation
Ziyu Ye,Chen Ju,Chaofan Ma,Xiaoyun Zhang
Main category: cs.CV
TL;DR: 提出基于相似性原型的跨模态分割框架,通过类别原型学习和相似性约束来减少域间差距,解决无监督域适应问题。
- Motivation: 深度学习模型在视觉任务中表现优异,但在面对未见数据时性能会急剧下降。由于模型对域偏移敏感,无监督域适应旨在减少域间差距并避免对未见域进行昂贵标注。
- Method: 在嵌入空间中学习类别原型,引入相似性约束使原型对每个语义类别具有代表性且不同类别间可分。使用字典存储来自不同图像的原型,防止类别缺失问题并支持原型对比学习。
- Result: 大量实验表明,该方法比其他最先进方法取得了更好的结果。
- Conclusion: 提出的基于相似性原型的框架在跨模态分割任务中表现出色,有效解决了无监督域适应问题。
[62] OnlineSplatter: Pose-Free Online 3D Reconstruction for Free-Moving Objects
Mark He Huang,Lin Geng Foo,Christian Theobalt,Ying Sun,De Wen Soh
Main category: cs.CV
TL;DR: OnlineSplatter是一个在线前馈框架,能够从单目RGB视频中直接生成高质量的对象中心3D高斯模型,无需相机姿态、深度先验或捆绑优化。
- Motivation: 解决自由移动对象从单目视频重建的挑战,特别是在没有可靠姿态或深度线索以及任意对象运动的情况下。
- Method: 使用第一帧作为锚点,通过密集高斯基元场逐步细化对象表示;核心贡献是双键记忆模块,结合潜在外观-几何键和显式方向键,通过空间引导记忆读取和高效稀疏化机制实现鲁棒特征融合。
- Result: 在真实世界数据集上的评估显示,OnlineSplatter显著优于最先进的无姿态重建基线方法,随着观察次数增加性能持续提升,同时保持恒定的内存和运行时间。
- Conclusion: 该框架能够有效处理自由移动对象,提供全面而紧凑的对象覆盖,在保持计算效率的同时实现高质量的重建效果。
[63] SeViCES: Unifying Semantic-Visual Evidence Consensus for Long Video Understanding
Yuan Sheng,Yanbin Hao,Chenxu Li,Shuo Wang,Xiangnan He
Main category: cs.CV
TL;DR: 提出SeViCES框架,通过语义-视觉共识证据选择来解决长视频理解中的计算效率和推理一致性问题
- Motivation: 长视频内容复杂多样且时间分散,现有视频大语言模型处理长序列计算成本高且容易产生不聚焦或不一致的推理结果
- Method: 训练无关且模型无关的框架,包含两个关键组件:SVCFS模块通过时间感知语义分支和聚类引导视觉分支选择帧,ACR模块通过融合证据和约束答案空间解决不一致性
- Result: 在长视频理解基准测试中,SeViCES在准确性和鲁棒性方面持续优于最先进方法
- Conclusion: 共识驱动的证据选择对视频大语言模型至关重要,SeViCES框架有效提升了长视频理解的性能
[64] Deep Learning in Dental Image Analysis: A Systematic Review of Datasets, Methodologies, and Emerging Challenges
Zhenhuan Zhou,Jingbo Zhu,Yuchen Zhang,Xiaohang Guan,Peng Wang,Tao Li
Main category: cs.CV
TL;DR: 这篇论文系统综述了深度学习在牙科图像分析中的应用,涵盖了260项研究,包括49篇关于公开牙科数据集和211篇关于基于DL的算法,总结了当前进展、挑战和未来方向。
- Motivation: 牙科图像分析面临低对比度、金属伪影和投影角度变化等挑战,加上临床医生主观性差异,手动分析耗时且不一致。AI驱动的自动化牙科图像分析为解决这些问题提供了有前景的方案。
- Method: 系统综述了260项研究,重点关注深度学习研究的两个基本方面——数据集和模型。介绍了牙科成像的基本概念,总结了现有数据集的特点和获取方法,并按照不同DIA任务对相关模型和算法进行分类分析。
- Result: 总结了深度学习在牙科图像分析中的应用现状,包括网络架构、优化策略、训练方法和性能分析,并整理了DIA领域常用的训练和评估指标。
- Conclusion: 讨论了现有研究面临的挑战,并概述了潜在的未来研究方向,为该领域研究人员提供了有价值的系统性参考。
[65] Better Tokens for Better 3D: Advancing Vision-Language Modeling in 3D Medical Imaging
Ibrahim Ethem Hamamci,Sezgin Er,Suprosanna Shit,Hadrien Reynaud,Dong Yang,Pengfei Guo,Marc Edgar,Daguang Xu,Bernhard Kainz,Bjoern Menze
Main category: cs.CV
TL;DR: BTB3D是一种用于3D医学图像的新型因果卷积编码器-解码器架构,通过频率感知的体素标记和三级训练课程,在报告生成和文本到CT合成任务上取得了最先进性能。
- Motivation: 当前方法在处理高分辨率、长序列3D医学图像时存在视觉编码器与临床语言不对齐、切片标记模糊精细解剖结构等问题,限制了诊断性能。
- Method: 提出BTB3D架构,采用因果卷积编码器-解码器,统一2D和3D训练推理,生成紧凑的频率感知体素标记,通过三级训练课程(局部重建、重叠窗口平铺、长上下文解码器精炼)实现从短切片到超过300个切片的泛化。
- Result: 在报告生成任务上,BLEU分数提升,临床F1分数比CT2Rep、CT-CHAT和Merlin提高40%;在文本到CT合成任务上,FID降低75%,FVD减半,生成解剖一致的512512241体积图像。
- Conclusion: 精确的三维标记化而非仅依赖更大的语言骨干网络,对于3D医学图像中的可扩展视觉语言建模至关重要。
[66] UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset
Chen Zhao,En Ci,Yunzhe Xu,Tiehan Fan,Shanyan Guan,Yanhao Ge,Jian Yang,Ying Tai
Main category: cs.CV
TL;DR: 提出了UltraHR-100K数据集和频率感知后训练方法,解决超高分辨率文本到图像生成中的数据集缺失和细节合成问题。
- Motivation: 解决超高分辨率文本到图像生成的两个关键挑战:缺乏大规模高质量数据集和忽视精细细节合成的专门训练策略。
- Method: 1) 构建UltraHR-100K数据集(10万张3K+分辨率图像);2) 提出频率感知后训练方法,包括细节导向时间步采样(DOTS)和软加权频率正则化(SWFR)。
- Result: 在UltraHR-eval4K基准测试中显著提高了超高分辨率图像生成的精细细节质量和整体保真度。
- Conclusion: 该方法通过高质量数据集和专门训练策略有效提升了超高分辨率文本到图像生成的细节质量。
[67] HybridSOMSpikeNet: A Deep Model with Differentiable Soft Self-Organizing Maps and Spiking Dynamics for Waste Classification
Debojyoti Ghosh,Adrijit Goswami
Main category: cs.CV
TL;DR: 提出HybridSOMSpikeNet混合深度学习框架,用于智能高效的垃圾分类,在十类垃圾数据集上达到97.39%的测试准确率,优于现有方法且计算轻量。
- Motivation: 准确的垃圾分类对可持续废物管理至关重要,错误分类会导致垃圾填埋场堆积、回收效率低下和温室气体排放增加。
- Method: 结合卷积特征提取、可微分自组织和脉冲时序处理的混合深度学习框架,使用预训练ResNet-152提取空间特征,然后通过可微分软自组织映射增强聚类可解释性,最后用脉冲神经网络头积累时序激活。
- Result: 在十类垃圾数据集上达到97.39%的测试准确率,优于多个最先进架构,同时保持轻量计算特性适合实际部署。
- Conclusion: 该框架通过实现精确的自动化垃圾分类,支持更高的回收效率,减少可回收物流污染,降低废物处理的生态和运营成本,符合联合国可持续发展目标。
[68] Efficient Multi-bit Quantization Network Training via Weight Bias Correction and Bit-wise Coreset Sampling
Jinhee Kim,Jae Jun An,Kang Eun Jeon,Jong Hwan Ko
Main category: cs.CV
TL;DR: 提出两种技术来减少多比特量化网络的训练开销:权重偏置校正和比特级核心集采样,在保持模型性能的同时将训练时间减少高达7.88倍
- Motivation: 现有多比特量化方法需要为每个支持的比特宽度重复全数据集更新,训练成本随精度数量线性增长,且需要额外微调阶段来支持更多精度选项
- Method: 1. 权重偏置校正:通过中和量化引起的偏置来共享批归一化,无需微调;2. 比特级核心集采样:利用隐式知识转移现象,通过基于梯度的重要性评分选择紧凑信息子集进行训练
- Result: 在CIFAR-10/100、TinyImageNet和ImageNet-1K数据集上,使用ResNet和ViT架构的实验表明,该方法在实现竞争性或更优精度的同时,训练时间减少高达7.88倍
- Conclusion: 该方法显著降低了多比特量化网络的训练开销,同时保持了模型性能,为灵活部署提供了高效解决方案
[69] Diagnosing Visual Reasoning: Challenges, Insights, and a Path Forward
Jing Bi,Guangyu Sun,Ali Vosoughi,Chen Chen,Chenliang Xu
Main category: cs.CV
TL;DR: 本文提出了一种基于代理的架构,结合LLM推理和轻量级视觉模块,通过三阶段评估框架诊断多模态大语言模型的视觉幻觉和文本依赖问题,显著提升了视觉推理性能。
- Motivation: 多模态大语言模型在复杂视觉任务中仍存在视觉幻觉和过度依赖文本先验的问题,需要系统诊断和改进。
- Method: 提出基于代理的架构,结合LLM推理与轻量级视觉模块,实现细粒度分析和推理链的迭代优化。
- Result: 在MMMU上提升10.3分,MathVista上提升6.0分(基于7B基线),性能匹配或超越更大模型。
- Conclusion: 未来视觉推理模型应专注于整合更多专门分析视觉内容的工具,作者将发布框架和评估套件以促进研究。
[70] Mixing Importance with Diversity: Joint Optimization for KV Cache Compression in Large Vision-Language Models
Xuyang Liu,Xiyan Gui,Yuchao Zhang,Linfeng Zhang
Main category: cs.CV
TL;DR: MixKV是一种针对大型视觉语言模型KV缓存压缩的新方法,通过结合重要性和多样性来优化压缩效果,在极端压缩条件下显著提升多模态理解性能。
- Motivation: 现有KV缓存压缩方法主要关注保留高重要性KV对来减少存储,但忽略了多模态KV缓存中出现的模态特定语义冗余模式,导致语义覆盖不足。
- Method: MixKV方法分析注意力头间的语义冗余变化,自适应地平衡多样性和重要性来压缩KV对,而不是仅依赖重要性标准。
- Result: 在极端压缩条件下,MixKV平均提升基线方法5.1%的性能,在GUI接地任务上分别提升SnapKV和AdaKV方法8.0%和9.0%,同时保持相当的推理效率。
- Conclusion: MixKV通过结合重要性和多样性有效解决了多模态KV缓存压缩问题,在多种LVLM和LLM上都取得了显著性能提升,具有良好的部署实用性。
[71] ALICE-LRI: A General Method for Lossless Range Image Generation for Spinning LiDAR Sensors without Calibration Metadata
Samuel Soutullo,Miguel Yermo,David L. Vilariño,Óscar G. Lorenzo,José C. Cabaleiro,Francisco F. Rivera
Main category: cs.CV
TL;DR: ALICE-LRI是一种传感器无关的通用方法,能够从旋转LiDAR点云生成无损距离图像,无需制造商元数据或校准文件,实现零点损失和完全点云重建。
- Motivation: 传统LiDAR投影方法存在几何不一致性,导致不可逆的信息损失,影响高保真应用。需要一种无需传感器特定信息的无损投影方法。
- Method: 通过自动逆向工程推断旋转LiDAR传感器的内在几何参数,包括激光束配置、角度分布和每束激光的校准校正,实现无损投影和完全点云重建。
- Result: 在完整KITTI和DurLAR数据集上的评估显示,ALICE-LRI实现了完美的点保留,所有点云中零点损失,几何精度保持在传感器精度范围内,具有实时性能。
- Conclusion: 该方法从近似到无损LiDAR投影的范式转变,为需要完全几何保留的高精度遥感应用开辟了新可能性。
[72] AutoScape: Geometry-Consistent Long-Horizon Scene Generation
Jiacheng Chen,Ziyu Jiang,Mingfu Liang,Bingbing Zhuang,Jong-Chyi Su,Sparsh Garg,Ying Wu,Manmohan Chandraker
Main category: cs.CV
TL;DR: AutoScape是一个长时域驾驶场景生成框架,通过RGB-D扩散模型生成几何一致的关键帧,并使用视频扩散模型进行插值,生成超过20秒的逼真驾驶视频。
- Motivation: 解决长时域驾驶场景生成中几何一致性的挑战,特别是在生成连续、逼真的驾驶视频时保持长期几何一致性。
- Method: 1) 在共享潜在空间中联合处理图像和深度;2) 显式条件化先前生成关键帧的几何信息;3) 使用warp一致引导的采样过程;4) 通过视频扩散模型插值关键帧生成密集视频帧。
- Result: 生成超过20秒的现实且几何一致的驾驶视频,在长时域FID和FVD指标上分别比现有最优方法提升48.6%和43.0%。
- Conclusion: AutoScape通过几何一致的关键帧生成和视频插值,有效解决了长时域驾驶场景生成的几何一致性问题,显著提升了生成质量。
[73] ACS-SegNet: An Attention-Based CNN-SegFormer Segmentation Network for Tissue Segmentation in Histopathology
Nima Torbati,Anastasia Meshcheryakova,Ramona Woitek,Diana Mechtcheriakova,Amirreza Mahbod
Main category: cs.CV
TL;DR: 提出了一种基于注意力驱动特征融合的CNN和ViT双编码器模型,用于组织病理学图像的语义分割,在两个公开数据集上超越了现有最佳方法。
- Motivation: 自动组织病理学图像分析在计算机辅助诊断中至关重要,深度学习在组织语义分割任务中表现出色,但需要进一步提升性能。
- Method: 使用注意力驱动特征融合的卷积神经网络和视觉变换器双编码器模型,在统一框架中结合两种架构的优势。
- Result: 在GCPS数据集上达到μIoU/μDice 76.79%/86.87%,在PUMA数据集上达到64.93%/76.60%,优于现有最佳方法。
- Conclusion: 提出的双编码器模型通过注意力机制有效融合CNN和ViT特征,显著提升了组织病理学图像语义分割性能。
[74] DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion
Noam Issachar,Guy Yariv,Sagie Benaim,Yossi Adi,Dani Lischinski,Raanan Fattal
Main category: cs.CV
TL;DR: DyPE是一种无需训练的方法,通过动态调整扩散模型的位置编码来匹配生成过程中的频谱特性,使预训练扩散变换器能够生成远超训练分辨率的高质量图像。
- Motivation: 扩散变换器在超高分辨率图像生成时面临自注意力机制二次方计算复杂度的挑战,训练成本极高。
- Method: 利用扩散过程中频谱渐进特性,在每一步扩散过程中动态调整位置编码的频谱,使其与当前生成阶段匹配。
- Result: 能够生成1600万像素的超高分辨率图像,在多个基准测试中表现优异,分辨率越高性能提升越明显。
- Conclusion: DyPE实现了无需额外训练成本的超高分辨率图像生成,在超高分辨率图像生成领域达到最先进水平。
[75] AlphaFlow: Understanding and Improving MeanFlow Models
Huijie Zhang,Aliaksandr Siarohin,Willi Menapace,Michael Vasilkovsky,Sergey Tulyakov,Qing Qu,Ivan Skorokhodov
Main category: cs.CV
TL;DR: α-Flow通过解耦MeanFlow中的冲突目标,采用课程学习策略从轨迹流匹配平滑过渡到MeanFlow,在ImageNet-1K 256x256上取得了新的SOTA结果。
- Motivation: MeanFlow框架在少步生成建模中表现出色,但其成功原因尚未完全理解。研究发现MeanFlow目标自然分解为轨迹流匹配和轨迹一致性两个部分,这两个术语存在强负相关性,导致优化冲突和收敛缓慢。
- Method: 提出α-Flow目标家族,统一了轨迹流匹配、Shortcut Model和MeanFlow。采用课程学习策略,从轨迹流匹配平滑过渡到MeanFlow,从而解耦冲突目标。
- Result: 在ImageNet-1K 256x256上使用标准DiT骨干网络,α-Flow在所有规模和设置下均优于MeanFlow。最大的α-Flow-XL/2+模型取得了新的SOTA结果:1-NFE FID为2.58,2-NFE FID为2.15。
- Conclusion: α-Flow通过解耦MeanFlow中的优化冲突,实现了更好的收敛性能,在少步生成建模中取得了最先进的性能。
[76] CUPID: Pose-Grounded Generative 3D Reconstruction from a Single Image
Binbin Huang,Haobin Duan,Yiqun Zhao,Zibo Zhao,Yi Ma,Shenghua Gao
Main category: cs.CV
TL;DR: Cupid是一种新的基于生成的3D重建方法,能从单张2D图像准确推断相机姿态、3D形状和纹理,通过两阶段流匹配流程实现姿态和形状的联合估计。
- Motivation: 现有方法在从单张图像进行3D重建时,往往难以同时准确估计相机姿态和3D几何形状。Cupid旨在通过统一的生成框架,将3D重建建模为条件采样过程,实现姿态和形状的鲁棒联合估计。
- Method: 采用两阶段流匹配流程:1)粗阶段生成初始3D几何和2D投影用于姿态恢复;2)精炼阶段集成姿态对齐的图像特征以增强结构保真度和外观细节。将输入相机姿态和3D形状表示为共享3D潜在空间中的分布。
- Result: 在广泛实验中,Cupid优于领先的3D重建方法,PSNR增益超过3dB,Chamfer距离减少超过10%,在姿态精度上匹配单目估计器,在视觉保真度上优于基线3D生成模型。
- Conclusion: Cupid通过将3D重建建模为条件采样过程,在统一的生成框架下实现了相机姿态、3D形状和纹理的准确联合估计,为单图像3D重建提供了有效解决方案。
[77] Radar-Camera Fused Multi-Object Tracking: Online Calibration and Common Feature
Lei Cheng,Siyang Cao
Main category: cs.CV
TL;DR: 提出了一种融合雷达和相机数据的多目标跟踪框架,通过在线雷达-相机标定和共同特征利用,简化传感器集成并提高跟踪精度。
- Motivation: 现有研究大多低估雷达能力,仅将其作为辅助角色,而雷达实际上能在世界3D坐标系中提供准确的目标距离/深度信息。本文旨在充分发挥雷达的关键作用。
- Method: 开发雷达-相机融合MOT框架,利用在线雷达-相机标定简化传感器检测结果集成;使用雷达和相机数据的共同特征准确推导检测对象的真实世界位置;采用特征匹配和类别一致性检查超越单纯位置匹配的限制。
- Result: 在受控环境和实际交通场景中的实验证明,该框架能够简化雷达-相机映射过程并提高跟踪精度。
- Conclusion: 这是首个研究雷达-相机共同特征集成及其在在线标定中用于实现MOT的工作,展示了通过充分利用雷达能力来增强多目标跟踪性能的有效性。
[78] ARGenSeg: Image Segmentation with Autoregressive Image Generation Model
Xiaolong Wang,Lixiang Ru,Ziyuan Huang,Kaixiang Ji,Dandan Zheng,Jingdong Chen,Jun Zhou
Main category: cs.CV
TL;DR: 提出ARGenSeg框架,通过自回归图像生成实现图像分割,将多模态理解和像素级感知统一在一个框架中,显著提升推理速度并保持强大理解能力。
- Motivation: 现有方法使用边界点表示或专用分割头,依赖离散表示或语义提示输入任务特定解码器,限制了MLLM捕捉细粒度视觉细节的能力。
- Method: 基于图像生成的分割框架,利用MLLM输出视觉标记,通过通用VQ-VAE解码为图像,采用下一尺度预测策略并行生成视觉标记以减少推理延迟。
- Result: 在多个分割数据集上超越先前最先进方法,推理速度显著提升,同时保持强大的理解能力。
- Conclusion: ARGenSeg成功将图像分割整合到MLLM中,实现了多模态理解和像素级感知的统一,为密集掩码生成提供了有效解决方案。
[79] Video Prediction of Dynamic Physical Simulations With Pixel-Space Spatiotemporal Transformers
Dean L Slack,G Thomas Hudson,Thomas Winterbottom,Noura Al Moubayed
Main category: cs.CV
TL;DR: 该研究提出了一种基于纯Transformer的自回归视频预测模型,通过简单的端到端方法在物理模拟数据集上进行训练,显著提升了物理准确预测的时间范围,并保持了良好的视频质量。
- Motivation: 受自回归大语言模型的性能和可扩展性启发,研究者希望将Transformer架构应用于视觉领域,特别是解决现有视频生成方法在物理模拟时间因果建模方面的不足。
- Method: 采用纯Transformer模型进行自回归视频预测,使用连续像素空间表示,比较不同的时空自注意力布局,无需复杂的训练策略或潜在特征学习组件。
- Result: 与现有的潜在空间方法相比,该方法将物理准确预测的时间范围显著延长了50%,同时在常见视频质量指标上保持相当性能,并能通过探测模型准确估计PDE模拟参数。
- Conclusion: 这项工作为基于注意力的时空视频建模提供了一个简单、参数高效且可解释的平台,展示了纯Transformer在视频预测任务中的潜力。
[80] Small Drafts, Big Verdict: Information-Intensive Visual Reasoning via Speculation
Yuhan Liu,Lianhui Qin,Shengjie Wang
Main category: cs.CV
TL;DR: 提出Speculative Verdict (SV)框架,通过轻量级草稿专家生成多样化定位候选,再由强大裁决模型合成最终答案,在信息密集型视觉问答任务中实现高效准确的推理。
- Motivation: 大型视觉语言模型在信息密集型图像理解方面存在困难,特别是在密集布局中精确定位关键线索和整合分散证据的多跳推理方面。
- Method: 采用训练免费的推测解码框架,结合多个轻量级草稿专家和大型裁决模型。草稿阶段由小型VLMs生成多样化推理路径,裁决阶段由强大VLM合成这些路径产生最终答案,并引入共识专家选择机制提高效率。
- Result: 在InfographicVQA、ChartMuseum、ChartQAPro和HR-Bench 4K等具有挑战性的信息密集和高分辨率视觉问答基准上取得一致性能提升,相比大型专有模型或训练流程,实现了错误校正和成本效率。
- Conclusion: SV框架通过从多个部分准确的推理路径中合成正确见解,在信息密集型视觉理解任务中同时实现了错误校正和成本效率,为复杂多模态推理提供了有效解决方案。
[81] SpectraMorph: Structured Latent Learning for Self-Supervised Hyperspectral Super-Resolution
Ritik Shah,Marco F Duarte
Main category: cs.CV
TL;DR: SpectraMorph:一种物理引导的自监督高光谱-多光谱图像融合框架,通过解混瓶颈实现可解释的高光谱超分辨率,在单波段多光谱图像下仍保持鲁棒性。
- Motivation: 现有深度学习方法依赖不透明的回归器,缺乏可解释性,且在多光谱图像波段很少时容易失效。需要一种既能保持高性能又具有可解释性的融合方法。
- Method: 采用解混瓶颈结构:从低分辨率高光谱图像提取端元特征,用紧凑的多层感知机从多光谱图像预测丰度图,通过线性混合重建光谱,利用多光谱传感器的光谱响应函数进行自监督训练。
- Result: 在合成和真实数据集上,SpectraMorph始终优于最先进的无监督/自监督基线方法,与监督基线方法相比也很有竞争力,训练时间不到一分钟。
- Conclusion: SpectraMorph提供了一种可解释、高效且鲁棒的高光谱超分辨率解决方案,特别适用于多光谱图像波段有限的情况。
[82] Towards General Modality Translation with Contrastive and Predictive Latent Diffusion Bridge
Nimrod Berman,Omkar Joglekar,Eitan Kosman,Dotan Di Castro,Omri Azencot
Main category: cs.CV
TL;DR: 提出了Latent Denoising Diffusion Bridge Model (LDDBM),一个基于潜在变量扩展的通用模态转换框架,能够在共享潜在空间中学习任意模态之间的桥梁,无需对齐维度。
- Motivation: 扩散模型在单模态领域表现出色,但在跨模态转换方面仍面临挑战。现有方法依赖限制性假设,如共享维度、高斯先验和模态特定架构,限制了其通用性和理论基础。
- Method: 在共享潜在空间中操作,引入对比对齐损失确保语义一致性,设计域无关的编码器-解码器架构用于潜在空间噪声预测,提出预测损失指导跨域翻译训练,并探索多种训练策略提高稳定性。
- Result: 在多种模态转换任务上表现优异,包括多视图到3D形状生成、图像超分辨率和多视图场景合成。综合实验验证了框架的有效性。
- Conclusion: LDDBM建立了一个强大的通用模态转换基准,支持任意模态对,为跨模态生成建模提供了新的解决方案。
[83] LayerComposer: Interactive Personalized T2I via Spatially-Aware Layered Canvas
Guocheng Gordon Qian,Ruihang Zhang,Tsai-Shien Chen,Yusuf Dalva,Anujraaj Argo Goyal,Willi Menapace,Ivan Skorokhodov,Meng Dong,Arpit Sahni,Daniil Ostashev,Ju Hu,Sergey Tulyakov,Kuan-Chieh Jackson Wang
Main category: cs.CV
TL;DR: LayerComposer是一个交互式多主体个性化文本到图像生成框架,通过分层画布和锁定机制实现空间组合控制和身份保持。
- Motivation: 现有个性化生成模型缺乏对空间组合的交互控制,且难以扩展到多个主体。
- Method: 引入分层画布表示(每个主体放在独立图层)和锁定机制(保持选定图层高保真度,其余图层灵活适应上下文),结合位置嵌入和互补数据采样策略。
- Result: 在多个主体个性化图像生成中,相比现有最先进方法,LayerComposer实现了更优的空间控制和身份保持。
- Conclusion: LayerComposer通过分层画布和锁定机制,为多主体个性化图像生成提供了有效的交互式空间控制解决方案。
[84] HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives
Yihao Meng,Hao Ouyang,Yue Yu,Qiuyu Wang,Wen Wang,Ka Leong Cheng,Hanlin Wang,Yixuan Li,Cheng Chen,Yanhong Zeng,Yujun Shen,Huamin Qu
Main category: cs.CV
TL;DR: HoloCine是一个文本到视频生成模型,通过整体生成整个场景来解决现有模型在创建连贯多镜头叙事方面的不足,实现了从剪辑合成到自动化电影制作的关键转变。
- Motivation: 解决现有文本到视频模型在生成连贯、多镜头叙事方面的"叙事差距",这些模型擅长生成孤立片段但无法创建连贯的故事情节。
- Method: 采用窗口交叉注意力机制将文本提示定位到特定镜头,同时使用稀疏镜头间自注意力模式(镜头内密集,镜头间稀疏)确保分钟级生成效率。
- Result: 在叙事连贯性方面达到新的最先进水平,并展现出对角色和场景的持久记忆以及对电影技术的直观理解等新兴能力。
- Conclusion: 这项工作标志着从剪辑合成向自动化电影制作的关键转变,使端到端的电影创作成为可实现的未来。
eess.IV
[85] GUSL-Dehaze: A Green U-Shaped Learning Approach to Image Dehazing
Mahtab Movaheddrad,Laurence Palmer,C. -C. Jay Kuo
Main category: eess.IV
TL;DR: 提出GUSL-Dehaze方法,将基于物理的模型与绿色学习框架结合,提供轻量级、透明的图像去雾替代方案,避免深度学习,显著减少参数数量同时保持性能。
- Motivation: 当前基于深度学习的图像去雾方法计算成本高、参数规模大,不适合资源受限设备,需要开发轻量级且透明的替代方案。
- Method: 结合改进的暗通道先验进行初始去雾,然后通过U型架构实现绿色学习流程,使用无监督表示学习和特征工程技术(相关特征测试和最小二乘正态变换),最后通过透明监督学习策略获得去雾图像。
- Result: GUSL-Dehaze显著减少了参数数量,同时确保数学可解释性,并在性能上与最先进的深度学习模型相当。
- Conclusion: 该方法为图像去雾提供了一种轻量级、透明且性能优异的替代方案,特别适合资源受限环境。
stat.AP
[86] AI Pose Analysis and Kinematic Profiling of Range-of-Motion Variations in Resistance Training
Adam Diamant
Main category: stat.AP
TL;DR: 本研究开发了基于AI的姿态估计流程,用于精确量化抗阻训练中的运动学特征。通过分析280个训练视频,发现部分范围运动(pROM)相比全范围运动(fROM)具有更小的运动范围和更短的持续时间,特别是在离心阶段。
- Motivation: 开发AI工具来精确量化抗阻训练中的运动学特征,比较部分范围运动(pROM)和全范围运动(fROM)在运动执行动态方面的差异。
- Method: 使用AI姿态估计流程处理280个训练视频,提取关节角度轨迹,计算运动范围、节奏和向心/离心阶段持续时间等指标,应用随机效应元分析模型分析数据。
- Result: pROM重复动作具有更小的运动范围和更短的持续时间,特别是在离心阶段。参与者个体差异是变异的主要来源,而非特定训练动作因素。新指标%ROM显示部分范围运动在不同训练动作中保持相对一致。
- Conclusion: 部分范围运动与全范围运动不仅在运动范围上不同,在执行动态和一致性方面也存在差异,AI方法在推进抗阻训练研究和改进训练处方方面具有潜力。
cs.IR
[87] Automating Iconclass: LLMs and RAG for Large-Scale Classification of Religious Woodcuts
Drew B. Thomas
Main category: cs.IR
TL;DR: 本文提出了一种结合大语言模型和向量数据库的检索增强生成方法,用于早期现代宗教图像分类,在分类精度上显著优于传统图像和关键词搜索方法。
- Motivation: 传统图像和关键词搜索方法在早期现代宗教图像分类中存在精度不足的问题,需要更有效的跨学科方法来处理大规模视觉档案分析。
- Method: 使用大语言模型生成包含视觉和文本元素的详细图像描述,通过混合向量搜索匹配相关的Iconclass分类代码,采用检索增强生成技术。
- Result: 在五个和四个分类级别上分别达到87%和92%的精度,显著优于传统图像和关键词搜索方法。
- Conclusion: 该方法展示了LLMs和RAG在艺术史和数字人文学科研究中的巨大潜力,为大规模早期现代视觉档案分析提供了强大工具。
[88] Multimedia-Aware Question Answering: A Review of Retrieval and Cross-Modal Reasoning Architectures
Rahul Raja,Arpita Vats
Main category: cs.IR
TL;DR: 这篇综述论文回顾了集成多媒体检索管道的问答系统最新进展,重点关注将视觉、语言和音频模态与用户查询对齐的架构,并分析了检索方法、融合技术和答案生成策略。
- Motivation: 传统问答系统主要依赖结构化文本数据,但多媒体内容的快速增长为检索增强型问答系统带来了新的挑战和机遇。
- Method: 基于检索方法、融合技术和答案生成策略对方法进行分类,分析基准数据集、评估协议和性能权衡。
- Result: 识别了跨模态对齐、延迟-准确性权衡和语义基础等关键挑战。
- Conclusion: 为构建更稳健和上下文感知的利用多媒体数据的问答系统,提出了开放问题和未来研究方向。
cs.LG
[89] FINDER: Feature Inference on Noisy Datasets using Eigenspace Residuals
Trajan Murphy,Akshunna S. Dogra,Hanfeng Gu,Caleb Meredith,Mark Kon,Julio Enrique Castrillion-Candas
Main category: cs.LG
TL;DR: FINDER是一个用于分析噪声数据集的分类框架,通过随机特征和KLE分解来处理低信噪比、小样本等问题,在阿尔茨海默病阶段分类和森林砍伐遥感检测中取得突破性成果。
- Motivation: 噪声数据集(低信噪比、小样本、数据收集错误等)是分类方法的重要研究前沿,需要开发能够处理这些挑战的算法。
- Method: 将经验数据集视为随机场的实现,映射到希尔伯特空间构造随机特征,使用Kosambi-Karhunen-Loève展开分解为可计算不可约分量,通过特征分解实现分类。
- Result: 在阿尔茨海默病阶段分类和森林砍伐遥感检测等数据稀缺的科学领域取得了最先进的突破性成果。
- Conclusion: FINDER通过将随机分析思想融入特征学习和推理阶段,为噪声数据集提供了有效的分类框架,但存在特定的适用条件和局限性。
[90] Why Prototypes Collapse: Diagnosing and Preventing Partial Collapse in Prototypical Self-Supervised Learning
Gabriel Y. Arteaga,Marius Aasan,Rwiddhi Chakraborty,Martine Hjelkrem-Tan,Thalles Silva,Michael Kampffmeyer,Adín Ramírez Rivera
Main category: cs.LG
TL;DR: 提出了一种完全解耦的训练策略来解决原型自监督学习中的原型崩溃问题,通过分离原型和编码器的优化目标来消除原型崩溃。
- Motivation: 原型自监督学习方法普遍存在部分原型崩溃问题,即多个原型收敛到几乎相同的表示,这削弱了提供多样化目标来指导编码器学习丰富表示的核心目的。
- Method: 引入完全解耦的训练策略,将原型和编码器在不同目标下分别学习。具体来说,将原型建模为高斯混合模型,使用在线EM风格过程独立于编码器损失进行更新。
- Result: 这种简单而原则性的解耦消除了原型崩溃,无需显式正则化,产生了持续多样化的原型和更强的下游性能。
- Conclusion: 通过打破原型和编码器的联合优化,解决了原型崩溃的根本原因,提供了一种更有效的原型自监督学习方法。
[91] Synthetic Data for Robust Runway Detection
Estelle Chigot,Dennis G. Wilson,Meriem Ghrib,Fabrice Jimenez,Thomas Oberlin
Main category: cs.LG
TL;DR: 提出了一种基于商业飞行模拟器的图像生成方法,用于跑道检测,通过结合少量真实图像和合成数据来训练目标检测模型,并采用定制化的域适应策略提高模型在夜间等恶劣条件下的鲁棒性。
- Motivation: 在自动驾驶导航等关键应用中,训练深度视觉模型需要大量标注数据,成本高昂且难以覆盖所有可能场景,特别是罕见情况。合成图像生成可以廉价地覆盖各种条件,但需要解决合成到真实的分布偏移问题。
- Method: 使用商业飞行模拟器生成合成图像,结合少量真实标注图像,通过控制图像生成和真实/合成数据集成,训练标准目标检测模型,并采用定制化的域适应策略。
- Result: 标准目标检测模型能够实现准确预测,在未在真实数据中出现的夜间图像等恶劣条件下也表现出良好的鲁棒性。
- Conclusion: 基于飞行模拟器的图像生成方法能够有效补充真实数据,结合域适应策略可以显著提高模型在关键应用中的性能和鲁棒性。
[92] Transferable Black-Box One-Shot Forging of Watermarks via Image Preference Models
Tomáš Souček,Sylvestre-Alvise Rebuffi,Pierre Fernandez,Nikola Jovanović,Hady Elsahar,Valeriu Lacatusu,Tuan Tran,Alexandre Mourachko
Main category: cs.LG
TL;DR: 本文提出了一种针对后处理图像水印的伪造攻击方法,通过训练偏好模型来检测水印,并利用反向传播优化图像来移除和伪造水印,质疑了当前水印技术的安全性。
- Motivation: 随着生成模型和法律压力的增加,数字内容水印技术日益重要。虽然已有许多研究评估水印的抗移除攻击能力,但水印伪造(从真实内容中窃取水印并应用于恶意内容)的研究仍然不足。
- Method: 1. 引入偏好模型来评估图像是否包含水印,该模型使用排序损失在纯程序生成的图像上进行训练,无需真实水印数据。2. 通过反向传播优化输入图像来移除和伪造水印,仅需单张水印图像且无需了解水印模型。
- Result: 在多种后处理图像水印模型上评估了所提方法,证明该方法能够有效伪造水印,对当前水印方法的安全性提出了质疑。
- Conclusion: 当前的水印技术存在安全漏洞,所提出的攻击方法简单实用,仅需单张水印图像即可实现水印伪造,凸显了改进水印安全性的必要性。
[93] MEIcoder: Decoding Visual Stimuli from Neural Activity by Leveraging Most Exciting Inputs
Jan Sobotka,Luca Baroni,Ján Antolík
Main category: cs.LG
TL;DR: MEIcoder是一种生物启发式解码方法,利用神经元特异性最兴奋输入(MEIs)、结构相似性指数损失和对抗训练,在小数据集上实现视觉刺激重建的SOTA性能。
- Motivation: 灵长类或人类神经数据稀缺,深度学习解码技术面临挑战,需要克服数据不足的问题。
- Method: 结合神经元特异性MEIs、结构相似性指数损失和对抗训练的生物启发式解码方法。
- Result: 在V1区单细胞活动重建视觉刺激方面达到SOTA,尤其擅长小数据集,仅需1,000-2,500个神经元和不到1,000个训练样本即可重建高质量自然图像。
- Conclusion: 证明了在早期视觉系统中可靠解码的可行性,为神经科学和神经工程应用提供了实用见解。
[94] Compress to Impress: Efficient LLM Adaptation Using a Single Gradient Step on 100 Samples
Shiva Sreeram,Alaa Maalouf,Pratyusha Sharma,Daniela Rus
Main category: cs.LG
TL;DR: 提出了一种快速且无需微调的LLM适应方法,通过选择性地剪枝特定权重矩阵的高阶成分来提升下游任务准确率,相比之前的LASER方法大幅减少了计算开销。
- Motivation: LASER方法虽然能通过剪枝提升准确率,但其逐层搜索和全数据集前向传播的计算开销使其难以快速部署,需要找到更高效的替代方案。
- Method: 使用奇异值梯度识别关键矩阵,仅检查少量选定矩阵;扩展分解搜索空间,允许矩阵行围绕多个子空间聚类;仅使用100个样本计算梯度和评估准确率。
- Result: 该方法进一步减少过拟合,准确率提升高达24.6个百分点;仅需单次梯度步骤和快速扫描候选层,就能适应新数据集。
- Conclusion: 结合这些发现可以构建快速鲁棒的LLM适应算法,完全无需微调即可将LLM适配到新数据集。
cs.AI
[95] Real Deep Research for AI, Robotics and Beyond
Xueyan Zou,Jianglong Ye,Hao Zhang,Xiaoyu Xiang,Mingyu Ding,Zhaojing Yang,Yong Jae Lee,Zhuowen Tu,Sifei Liu,Xiaolong Wang
Main category: cs.AI
TL;DR: 提出Real Deep Research (RDR)框架,用于系统分析AI和机器人领域的研究趋势,识别新兴趋势和跨领域机会,帮助研究人员跟上快速发展的研究步伐。
- Motivation: AI和机器人领域每年产生超过10,000篇论文,研究人员难以跟上快速发展的趋势,跨学科工作增多,需要探索专业领域之外的知识。
- Method: 构建通用的RDR管道,能够系统分析任何研究领域,识别新兴趋势,发现跨领域机会,并为新研究提供具体起点。
- Result: 将RDR框架应用于AI和机器人领域,特别关注基础模型和机器人技术进步,并扩展到其他科学领域。
- Conclusion: RDR框架为AI及其他领域的研究人员提供了有价值的分析工具,帮助他们在快速发展的研究环境中保持更新。
cs.RO
[96] Kinaema: a recurrent sequence model for memory and pose in motion
Mert Bulent Sariyildiz,Philippe Weinzaepfel,Guillaume Bono,Gianluca Monaci,Christian Wolf
Main category: cs.RO
TL;DR: Kinaema模型通过隐式潜在记忆来整合视觉观察流,能够在大型场景中预测查询图像相对于当前位置的相对位置,无需显式存储观察历史。
- Motivation: 使空间感知机器人能够在连续操作中利用先前观察到的信息来提高效率,实现'找到方向'的能力。
- Method: 使用基于transformer的循环模型维护隐式潜在记忆,通过递归方式压缩传感器读数历史为紧凑表示,不显式存储观察历史。
- Result: 模型能够维持有用的场景表示,导航到实际剧集开始前观察到的目标,计算效率高,优于传统基于观察历史注意力的transformer。
- Conclusion: Kinaema模型在Mem-Nav任务中表现良好,证明了隐式潜在记忆方法在空间感知机器人导航中的有效性和效率优势。
[97] Dino-Diffusion Modular Designs Bridge the Cross-Domain Gap in Autonomous Parking
Zixuan Wu,Hengyuan Zhang,Ting-Hsuan Chen,Yuliang Guo,David Paz,Xinyu Huang,Liu Ren
Main category: cs.RO
TL;DR: 提出Dino-Diffusion Parking (DDP)方法,结合视觉基础模型和扩散规划,实现领域无关的自动驾驶停车系统,在领域偏移下保持高成功率。
- Motivation: 当前端到端方法在领域内表现良好,但在领域偏移(如天气和光照变化)下的鲁棒性仍是关键挑战。
- Method: 集成视觉基础模型与基于扩散的运动规划,在CARLA中训练并在对抗性设置中进行零样本迁移。
- Result: 在所有测试的分布外场景中,停车成功率均超过90%,消融研究证实网络架构和算法设计显著提升了跨域性能。
- Conclusion: 该方法在3D高斯溅射环境中展示了有前景的仿真到真实世界迁移能力。
[98] GSWorld: Closed-Loop Photo-Realistic Simulation Suite for Robotic Manipulation
Guangqi Jiang,Haoran Chang,Ri-Zhao Qiu,Yutong Liang,Mazeyu Ji,Jiyue Zhu,Zhao Dong,Xueyan Zou,Xiaolong Wang
Main category: cs.RO
TL;DR: GSWorld是一个结合3D高斯泼溅和物理引擎的机器人操作模拟器,通过GSDF格式实现逼真渲染,支持多种应用如零样本sim2real策略学习、自动化数据收集和可复现的基准测试。
- Motivation: 开发一个能够"闭环"开发机器人操作策略的模拟器,实现从真实机器人数据学习的策略的可复现评估,以及无需真实机器人的sim2real策略训练。
- Method: 提出GSDF(高斯场景描述文件)格式,将高斯-网格表示与机器人URDF和其他对象结合,构建包含3种机器人形态和40多个物体的数据库,并与物理引擎集成。
- Result: 展示了五个应用:零样本sim2real像素到动作策略学习、自动化高质量DAgger数据收集、真实机器人策略的可复现基准测试、虚拟遥操作模拟数据收集、零样本sim2real视觉强化学习。
- Conclusion: GSWorld提供了一个强大的机器人操作模拟平台,通过逼真渲染和物理模拟支持多种机器人学习应用,实现了从模拟到现实的闭环开发流程。
Powered by Deepseek & arXiv Daily AI Enhanced