Skip to content
每日arXiv - 2025年7月14日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] CuriosAI Submission to the EgoExo4D Proficiency Estimation Challenge 2025

Hayato Tanoue,Hiroki Nishihara,Yuma Suzuki,Takayuki Hori,Hiroki Takushima,Aiswariya Manojkumar,Yuki Shibata,Mitsuru Takeda,Fumika Beppu,Zhao Hengwei,Yuto Kanda,Daichi Yamaga

Main category: cs.CV

TL;DR: CuriosAI团队在CVPR 2025的EgoExo4D Proficiency Estimation Challenge中提交了两项多视角技能评估方法:多任务学习框架和两阶段流程,后者表现更优。

  • Motivation: 解决多视角技能评估问题,提升熟练度估计的准确性。
  • Method: 1. 多任务学习框架(Sapiens-2B)联合预测熟练度和场景标签;2. 两阶段流程(零样本场景识别+VideoMAE分类器)。
  • Result: 多任务学习框架准确率43.6%,两阶段流程准确率47.8%。
  • Conclusion: 两阶段方法通过场景条件建模有效提升了熟练度估计性能。

[2] Self-Consistency in Vision-Language Models for Precision Agriculture: Multi-Response Consensus for Crop Disease Management

Mihir Gupta,Abhay Mangla,Ross Greer,Pratik Desai

Main category: cs.CV

TL;DR: 提出了一种结合提示专家评估和自一致性机制的农业图像处理框架,显著提升了玉米叶病识别的准确性和治疗建议。

  • Motivation: 现有视觉语言模型在农业领域表现不佳,需要更可靠的图像分析方法以支持精准农业。
  • Method: 采用提示专家评估协议和余弦一致性自投票机制,结合领域适应的嵌入技术。
  • Result: 诊断准确率从82.2%提升至87.8%,症状分析从38.9%提升至52.2%,治疗建议从27.8%提升至43.3%。
  • Conclusion: 该方法在资源受限环境中具有实际应用潜力,支持实时农业决策。

[3] Development of a Canada-Wide Morphology Map for the ITU-R P. 1411 Propagation Model

Jennifer P. T. Nguyen

Main category: cs.CV

TL;DR: 本文开发了一个加拿大全国范围内的形态地图,利用机器学习自动分类住宅区、城市低层和高层环境,以提高路径损耗估计的准确性。

  • Motivation: 解决ITU-R P.1411-12传播模型中环境类型描述的定性问题,实现自动化分类。
  • Method: 采用机器学习方法优化分类准确性,生成全国形态地图。
  • Result: 实验优化了分类准确性,地图适用于300 MHz至100 GHz频率范围的短距离传播。
  • Conclusion: 该地图为加拿大提供了更准确的路径损耗估计工具。

[4] Towards Evaluating Robustness of Prompt Adherence in Text to Image Models

Sujith Vemishetty,Advitiya Arora,Anupama Sharma

Main category: cs.CV

TL;DR: 本文提出了一种评估文本到图像模型的新框架,重点关注其对提示的遵循能力,并发现现有模型在生成简单二进制图像时表现不佳。

  • Motivation: 多模态LLM和文本到图像模型的可靠性研究不足,需要建立评估框架以提升其性能。
  • Method: 创建新数据集评估模型鲁棒性,使用GPT-4生成描述作为基准,通过比较生成图像与基准描述的差异进行评估。
  • Result: 模型在生成简单二进制图像时表现不佳,且无法遵循输入数据集的分布。
  • Conclusion: 现有文本到图像模型在遵循提示和生成特定分布图像方面仍有改进空间。

[5] ConsNoTrainLoRA: Data-driven Weight Initialization of Low-rank Adapters using Constraints

Debasmit Das,Hyoungwoo Park,Munawar Hayat,Seokeon Choi,Sungrack Yun,Fatih Porikli

Main category: cs.CV

TL;DR: 论文提出了一种数据驱动的LoRA权重初始化方法CNTLoRA,通过预训练和微调激活的约束条件,无需训练即可初始化权重,显著提升了收敛速度和性能。

  • Motivation: 传统的LoRA权重初始化方法通常随机初始化且固定秩,限制了性能。本文旨在通过数据驱动的初始化方法改进LoRA的收敛和最终表现。
  • Method: 将LoRA初始化视为域偏移问题,利用预训练和微调激活的约束条件,推导出闭式解以初始化权重,并支持可变秩。
  • Result: 在图像生成、分类和理解等任务中,CNTLoRA在定量和定性上均优于标准及数据驱动的初始化方法。
  • Conclusion: CNTLoRA通过数据驱动的初始化显著提升了LoRA的性能和收敛速度,为高效微调提供了优化方案。

[6] A Hybrid Multilayer Extreme Learning Machine for Image Classification with an Application to Quadcopters

Rolando A. Hernandez-Hernandez,Adrian Rubio-Solis

Main category: cs.CV

TL;DR: 提出了一种基于ELM-AE和区间二型模糊逻辑的混合多层极限学习机(HML-ELM),用于无人机图像分类,实验表明其优于其他类似方法。

  • Motivation: 多层极限学习机(ML-ELM)及其变体在自然信号分类中表现良好,但需要进一步改进以提高效率和准确性。
  • Method: HML-ELM采用分层学习框架,包括无监督特征提取(ELM-AE堆叠)和监督分类(SIT2-FELM)。
  • Result: HML-ELM在基准测试和无人机实验中均表现出更高的效率。
  • Conclusion: HML-ELM是一种高效的图像分类方法,适用于无人机应用。

[7] Lightweight Cloud Masking Models for On-Board Inference in Hyperspectral Imaging

Mazen Ali,António Pereira,Fabio Gentile,Aser Cortines,Sam Mugel,Román Orús,Stelios P. Neophytides,Michalis Mavrovouniotis

Main category: cs.CV

TL;DR: 该研究评估了多种机器学习方法(如XGBoost、LightGBM和CNN)在云和云影掩模任务中的表现,发现CNN结合特征缩减在准确性、存储需求和推理速度上表现最佳。

  • Motivation: 云和云影掩模是高光谱卫星成像的关键预处理步骤,需要高效且准确的模型以支持实时处理和卫星AI系统开发。
  • Method: 研究比较了梯度提升方法(XGBoost、LightGBM)和卷积神经网络(CNN),特别关注了CNN结合特征缩减的版本。
  • Result: 所有模型准确率超过93%,其中CNN结合特征缩减在准确性、存储需求和推理速度上表现最优,适合部署。
  • Conclusion: 轻量级AI模型(如CNN)在高光谱图像处理中具有潜力,支持卫星AI系统的实时应用。

[8] The relative importance of being Gaussian

F. Alberto Grünbaum,Tondgi Xu

Main category: cs.CV

TL;DR: 论文探讨了在去噪算法中使用非高斯噪声(如均匀分布或Beta分布)时的性能表现,而非修改算法以适应噪声类型。实验在小型设备上进行,验证了算法的鲁棒性。

  • Motivation: 研究扩散模型在非高斯噪声下的表现,验证算法在非设计条件下的鲁棒性。
  • Method: 使用均匀分布、Beta分布或混合高斯噪声替代原始高斯噪声,保持算法不变,观察性能。
  • Result: 实验表明算法在非高斯噪声下仍能工作,但性能可能受到影响。
  • Conclusion: 算法在非高斯噪声下具有一定鲁棒性,但需进一步研究不同情境下的表现。

[9] An Object-Based Deep Learning Approach for Building Height Estimation from Single SAR Images

Babak Memar,Luigi Russo,Silvia Liberata Ullo,Paolo Gamba

Main category: cs.CV

TL;DR: 本文提出了一种基于深度学习的自动化方法,利用单张高分辨率SAR图像估计建筑物高度,并在多洲数据集上验证了其性能。

  • Motivation: 高分辨率SAR图像在建筑物高度估计中的应用对城市规划等具有重要意义,但现有方法在跨城市和跨大陆泛化能力上存在局限。
  • Method: 采用基于边界框检测和目标回归的深度学习模型,利用多洲数据集进行训练和交叉验证,评估其泛化能力。
  • Result: 模型在欧洲城市表现优异(如慕尼黑的MAE为2.20米),但在亚洲等地区因建筑类型差异泛化能力有所下降。
  • Conclusion: 深度学习在单张SAR图像的建筑物高度估计中具有显著潜力,尤其是在跨城市和跨大陆的泛化学习方面。

[10] RegGS: Unposed Sparse Views Gaussian Splatting with 3DGS Registration

Chong Cheng,Yu Hu,Sicheng Yu,Beizhen Zhao,Zijian Wang,Hao Wang

Main category: cs.CV

TL;DR: RegGS提出了一种基于3D高斯注册的框架,用于重建未定位的稀疏视图,通过熵正则化的Sinkhorn算法和联合注册模块实现高保真对齐。

  • Motivation: 现有3D高斯重建方法在稀疏视图下表现不佳,且前馈高斯方法受限于输入格式,难以整合更多视图。
  • Method: 使用熵正则化的Sinkhorn算法计算MW2距离作为对齐度量,结合光度一致性和深度几何设计联合注册模块。
  • Result: 在RE10K和ACID数据集上,RegGS实现了高保真的局部高斯对齐,精确估计相机姿态并生成高质量新视角合成。
  • Conclusion: RegGS通过全局一致的高斯表示和联合优化,有效解决了稀疏视图重建的挑战。

[11] Temporally Consistent Amodal Completion for 3D Human-Object Interaction Reconstruction

Hyungjun Doh,Dong In Lee,Seunggeun Chi,Pin-Hao Huang,Kwonjoon Lee,Sangpil Kim,Karthik Ramani

Main category: cs.CV

TL;DR: 提出了一种从单目视频重建动态人-物交互的新框架,解决了遮挡和时间不一致性问题。

  • Motivation: 传统3D重建方法通常假设静态物体或动态主体完全可见,在遮挡情况下性能下降。
  • Method: 利用模态补全推断遮挡区域,结合时间上下文增强重建的连贯性,无需预定义模板。
  • Result: 在挑战性单目视频上验证,处理遮挡和时间稳定性优于现有技术。
  • Conclusion: 该框架显著提升了动态场景中复杂细节的恢复能力。

[12] Adaptive Diffusion Denoised Smoothing : Certified Robustness via Randomized Smoothing with Differentially Private Guided Denoising Diffusion

Frederick Shpilevskiy,Saiyue Lyu,Krishnamurthy Dj Dvijotham,Mathias Lécuyer,Pierre-André Noël

Main category: cs.CV

TL;DR: Error

  • Motivation: Error
  • Method: Error
  • Result: Error
  • Conclusion: Error

[13] An Embedded Real-time Object Alert System for Visually Impaired: A Monocular Depth Estimation based Approach through Computer Vision

Jareen Anjom,Rashik Iram Chowdhury,Tarbia Hasan,Md. Ishan Arefin Hossain

Main category: cs.CV

TL;DR: 提出了一种基于深度估计和物体检测的新型系统,帮助视障人士在城市中安全通行。

  • Motivation: 孟加拉国城市中视障人士因道路障碍物频繁受伤,亟需一种能提前警示近距离物体的系统。
  • Method: 利用迁移学习训练深度估计和物体检测模型,并通过量化技术优化模型,使其轻量高效。
  • Result: 实现了轻量化的实时深度估计和物体检测模型,mAP50为0.801。
  • Conclusion: 该系统能有效帮助视障人士避免碰撞,具有实际应用潜力。

[14] HNOSeg-XS: Extremely Small Hartley Neural Operator for Efficient and Resolution-Robust 3D Image Segmentation

Ken C. L. Wong,Hongzhi Wang,Tanveer Syeda-Mahmood

Main category: cs.CV

TL;DR: 论文提出了一种分辨率鲁棒的HNOSeg-XS架构,通过可学习的偏微分方程和Hartley变换解决医学图像分割中CNN和Transformer的局限性,实现了高效、快速且参数少的分割。

  • Motivation: 解决CNN和Transformer在医学图像分割中因计算和内存限制导致的分辨率降低问题,以及由此产生的次优结果。
  • Method: 使用可学习的偏微分方程和Hartley变换在频域中建模图像分割,提出HNOSeg-XS架构。
  • Result: 在多个数据集上测试,HNOSeg-XS表现出色,参数少于34.7k,推理时间<0.24秒,内存占用<1.8 GiB。
  • Conclusion: HNOSeg-XS是一种分辨率鲁棒、高效且参数少的医学图像分割方法,优于CNN和Transformer模型。

[15] SurfDist: Interpretable Three-Dimensional Instance Segmentation Using Curved Surface Patches

Jackson Borchardt,Saul Kato

Main category: cs.CV

TL;DR: SurfDist是一种用于三维体积实例分割的卷积神经网络架构,通过平滑参数化表面表示实例,优于StarDist-3D。

  • Motivation: 解决StarDist-3D在实例参数化维度与体素分辨率耦合的问题,并避免体素化伪影。
  • Method: 修改StarDist-3D架构,使用双三次贝塞尔三角形表示闭合表面。
  • Result: 在生物医学图像数据集上表现优于StarDist-3D,参数化更紧凑。
  • Conclusion: 可解释的实例表面模型可以与实例成员关系一起有效学习。

[16] Car Object Counting and Position Estimation via Extension of the CLIP-EBC Framework

Seoik Jung,Taekyung Song

Main category: cs.CV

TL;DR: CLIP-EBC框架从人群计数扩展到车辆计数,在CARPK数据集上表现优异,并提出基于密度图的K-means加权聚类方法用于定位任务。

  • Motivation: 探索CLIP-EBC框架在车辆计数任务中的适用性,并扩展其功能以支持定位任务。
  • Method: 使用CARPK数据集,采用CLIP-EBC框架进行车辆计数,并提出K-means加权聚类方法从密度图估计物体位置。
  • Result: 模型在车辆计数任务中表现第二优,并验证了K-means加权聚类方法在定位任务中的潜力。
  • Conclusion: CLIP-EBC框架适用于车辆计数,且通过K-means聚类可扩展至定位任务,展现了多功能性。

[17] Transfer Learning and Mixup for Fine-Grained Few-Shot Fungi Classification

Jason Kahei Tam,Murilo Gustineli,Anthony Miyaguchi

Main category: cs.CV

TL;DR: 该论文提出了一种基于视觉Transformer的方法,用于Few-Shot细粒度真菌分类,结合数据增强和文本信息,最终模型优于基线,但在多模态学习方面仍有改进空间。

  • Motivation: 真菌物种的细粒度分类在计算机视觉中具有挑战性,论文旨在解决FungiCLEF 2025竞赛中的Few-Shot分类问题。
  • Method: 使用视觉Transformer模型、数据增强、加权采样和文本信息,并尝试生成式AI进行零样本分类。
  • Result: 最终模型表现优于基线,竞赛排名35/74,生成式AI表现较差。
  • Conclusion: 领域特定预训练和平衡采样策略有效,但需改进元数据选择和多模态学习。

[18] Portable Biomechanics Laboratory: Clinically Accessible Movement Analysis from a Handheld Smartphone

J. D. Peiffer,Kunal Shah,Irina Djuraskovic,Shawana Anarwala,Kayan Abdou,Rujvee Patel,Prakash Jayabalan,Brenton Pennicooke,R. James Cotton

Main category: cs.CV

TL;DR: 论文提出了一种便携式生物力学实验室(PBL),通过智能手机应用和算法测量运动数据,验证了其在临床中的可靠性和敏感性。

  • Motivation: 临床实践中缺乏客观测量运动的方法,限制了生物力学测量的广泛应用。PBL旨在填补这一空白。
  • Method: PBL包括一个安全的云智能手机应用和新型算法,用于拟合生物力学模型。通过大规模临床数据集验证了其测量准确性。
  • Result: PBL的关节角度误差在3度以内,步态指标可靠且敏感,能反映临床差异,如与mJOA评分相关。
  • Conclusion: PBL为临床提供了一种可扩展、低负担的工具,可用于监测运动障碍。

[19] Cross-Resolution SAR Target Detection Using Structural Hierarchy Adaptation and Reliable Adjacency Alignment

Jiang Qin,Bin Zou,Haolin Li,Lamei Zhang

Main category: cs.CV

TL;DR: 提出了一种结合结构先验和证据学习理论的SAR目标检测方法CR-Net,通过结构诱导的分层特征适应和可靠结构邻接对齐,显著提升了跨分辨率检测的性能。

  • Motivation: SAR分辨率提升导致散射特性差异增大,传统目标检测模型泛化能力受限,现有域适应技术存在特征适应盲目和语义传播不可靠的问题。
  • Method: CR-Net结合SHFA模块(结构诱导的分层特征适应)和RSAA模块(可靠结构邻接对齐),实现结构感知的特征适应和可靠的语义对齐。
  • Result: 在不同分辨率数据集上的实验表明,CR-Net显著提升了跨分辨率适应性能,实现了SOTA的检测效果。
  • Conclusion: CR-Net通过保留域内结构和提升判别能力,有效解决了跨分辨率SAR目标检测的挑战。

[20] M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation

Kui Jiang,Shiyu Liu,Junjun Jiang,Xin Yang,Hongxun Yang,Xiaopeng Fan

Main category: cs.CV

TL;DR: M2DAO-Talker提出了一种统一框架,通过多粒度运动解耦和交替优化改进音频驱动的说话头生成,解决了现有方法的渲染伪影问题。

  • Motivation: 现有3D方法在运动建模和内容合成中存在渲染伪影(如运动模糊、时间抖动和局部穿透),限制了生成质量。
  • Method: 提出三步框架:视频预处理、运动表示和渲染重建;采用多粒度运动解耦策略独立建模非刚性和刚性运动,并引入运动一致性约束和交替优化策略。
  • Result: 实验表明,M2DAO-Talker在生成质量和视频真实感上优于TalkingGaussian(PSNR提升2.43 dB,用户评分提升0.64),推理速度达150 FPS。
  • Conclusion: M2DAO-Talker通过改进的运动建模和优化策略,显著提升了说话头生成的性能和真实感。

[21] Cross-Domain Identity Representation for Skull to Face Matching with Benchmark DataSet

Ravi Shankar Prasad,Dinesh Singh

Main category: cs.CV

TL;DR: 本文提出了一种基于卷积Siamese网络的颅骨X射线图像与面部图像匹配框架,用于法医学中的颅面重建。

  • Motivation: 颅面重建在法医学中对犯罪和灾难受害者的身份识别至关重要,但传统方法面临数据稀缺的挑战。
  • Method: 使用卷积Siamese网络,通过最小化相似对的欧氏距离和最大化不相似对的距离,学习跨域身份表示。
  • Result: 在40名志愿者的数据集上实验,取得了令人满意的身份识别结果。
  • Conclusion: 该方法为颅骨与面部图像的跨域匹配提供了有效解决方案。

[22] Interpretability-Aware Pruning for Efficient Medical Image Analysis

Nikita Malik,Pratinav Seth,Neeraj Kumar Singh,Chintan Chitroda,Vinay Kumar Sankarapu

Main category: cs.CV

TL;DR: 提出了一种基于可解释性指导的剪枝框架,减少模型复杂度同时保持预测性能和透明度。

  • Motivation: 深度学习在医学图像分析中取得显著进展,但模型大且不透明限制了其临床应用。
  • Method: 通过选择性保留每层最相关部分,实现有针对性的压缩,保持临床有意义的表示。
  • Result: 在多个医学图像分类基准测试中,该方法实现了高压缩率且精度损失最小。
  • Conclusion: 为医疗场景中轻量级、可解释模型的部署铺平了道路。

[23] CoCo-Bot: Energy-based Composable Concept Bottlenecks for Interpretable Generative Models

Sangwon Kim,In-su Jang,Pyongkun Kim,Kwang-Ju Kim

Main category: cs.CV

TL;DR: CoCo-Bot是一种后处理可组合的概念瓶颈生成模型,通过显式概念传递信息,无需辅助视觉线索,提升了可控性和可解释性。

  • Motivation: 现有生成概念瓶颈模型依赖辅助视觉线索,削弱了可解释性和组合性。
  • Method: 提出CoCo-Bot,利用扩散能量函数引导,支持后处理干预(如概念组合和否定)。
  • Result: 在CelebA-HQ数据集上实验表明,CoCo-Bot在保持视觉质量的同时提升了概念级可控性和可解释性。
  • Conclusion: CoCo-Bot通过消除辅助线索,显著改善了生成模型的可解释性和组合性。

[24] Single-Domain Generalization for Multimodal Cross-Cancer Prognosis via Dirac Rebalancer and Distribution Entanglement

Jia-Xuan Jiang,Jiashuai Liu,Hongtao Wu,Yifeng Wu,Zhong Wang,Qi Bi,Yefeng Zheng

Main category: cs.CV

TL;DR: 本文提出了一种新的任务:跨癌症单域泛化多模态预后,并设计了两个模块(SDIR和CADE)来解决多模态模型在跨癌症场景中泛化性能差的问题。

  • Motivation: 现有多模态方法主要针对单一癌症类型,忽略了跨癌症泛化的挑战,而临床实践中需要模型具备这种鲁棒性。
  • Method: 提出了两个模块:SDIR(通过稀疏化和稳定化增强弱模态信号)和CADE(在潜在空间中融合局部形态学和全局基因表达)。
  • Result: 在四种癌症类型的基准测试中,模型表现出优越的泛化性能。
  • Conclusion: 该研究为跨癌症多模态预后提供了实用且鲁棒的基础。

[25] Towards Imperceptible JPEG Image Hiding: Multi-range Representations-driven Adversarial Stego Generation

Junxue Yang,Xin Liao,Weixuan Tang,Jianhua Yang,Zheng Qin

Main category: cs.CV

TL;DR: 提出了一种多范围表示驱动的对抗性隐写生成框架MRAG,结合卷积和Transformer的优势,通过多粒度信息输入和特征角度-范数解耦损失,提升隐写图像的隐蔽性和恢复能力。

  • Motivation: 现有深度隐写方案因大载荷和单一范围特征提取易被隐写分析器检测,需改进隐蔽性和恢复能力。
  • Method: 结合卷积的局部邻域接收特性和Transformer的全局依赖建模,输入多粒度频率分解图像,设计特征角度-范数解耦损失。
  • Result: MRAG在隐写图像的隐蔽性和恢复能力上达到最优性能。
  • Conclusion: MRAG通过多范围表示和对抗性扰动,显著提升隐写性能,为深度隐写提供新思路。

[26] MM-Gesture: Towards Precise Micro-Gesture Recognition through Multimodal Fusion

Jihao Gu,Fei Wang,Kun Li,Yanyan Wei,Zhiliang Wu,Dan Guo

Main category: cs.CV

TL;DR: MM-Gesture是一个多模态融合框架,用于识别微手势,在IJCAI 2025的MiGA挑战赛中排名第一,准确率达73.213%。

  • Motivation: 解决微手势识别中多模态数据融合的挑战,提升识别性能。
  • Method: 结合关节、肢体、RGB视频、泰勒级数视频、光流视频和深度视频模态,使用PoseConv3D和Video Swin Transformer架构,并采用模态加权集成策略。
  • Result: 在iMiGUE基准测试中达到73.213%的Top-1准确率。
  • Conclusion: MM-Gesture通过多模态融合和优化策略显著提升了微手势识别的性能。

[27] Cycle Context Verification for In-Context Medical Image Segmentation

Shishuai Hu,Zehui Liao,Liangli Zhen,Huazhu Fu,Yong Xia

Main category: cs.CV

TL;DR: 提出Cycle Context Verification (CCV)框架,通过自验证预测提升上下文对齐,优化基于ICL的医学图像分割。

  • Motivation: 解决医学图像分割中ICL性能对上下文对齐的敏感性,以及标注数据稀缺和模型微调不可行的问题。
  • Method: 采用循环流程,首先生成分割掩码,然后交换查询与上下文对角色进行验证,并通过查询特定提示优化对齐。
  • Result: 在七个数据集上验证,CCV优于现有方法,提升了ICL分割的鲁棒性。
  • Conclusion: CCV是通用医学图像分割的有效解决方案,代码已开源。

[28] Understanding Driving Risks using Large Language Models: Toward Elderly Driver Assessment

Yuki Yoshihara,Linjing Jiang,Nihan Karatas,Hitoshi Kanamori,Asuka Harada,Takahiro Tanaka

Main category: cs.CV

TL;DR: 研究探讨了多模态大语言模型(如ChatGPT-4o)在静态行车记录图像中执行类似人类的交通场景解释能力,重点关注交通密度、交叉口可见性和停车标志识别任务。

  • Motivation: 旨在评估大语言模型在驾驶风险评估中的潜力,尤其是针对老年驾驶员的场景理解能力。
  • Method: 采用零样本、少样本和多样本提示策略,以人类标注为基准,评估模型的精确度、召回率和F1分数。
  • Result: 提示设计显著影响性能,多样本提示下交叉口可见性召回率从21.7%提升至57.0%,交通密度一致性从53.5%增至67.6%。停车标志检测精度高(86.3%),但召回率较低(76.7%)。
  • Conclusion: 研究表明,精心设计的提示策略下,大语言模型有望成为驾驶风险评估的支持工具,未来需探索更大数据集和下一代模型架构。

[29] Unsupervised Methods for Video Quality Improvement: A Survey of Restoration and Enhancement Techniques

Alexandra Malyugina,Yini Li,Joanne Lin,Nantheera Anantrasirichai

Main category: cs.CV

TL;DR: 本文综述了视频修复与增强技术,重点探讨无监督方法,包括常见退化类型、传统与深度学习方法、无监督方法分类及未来研究方向。

  • Motivation: 视频修复与增强对提升视觉质量及下游计算机视觉任务性能至关重要,无监督方法因其无需标注数据而备受关注。
  • Method: 综述了传统与深度学习方法,重点分析无监督方法(如域转换、自监督信号设计、盲点或噪声方法)及损失函数分类。
  • Result: 总结了无监督方法的优势与局限性,并讨论了合成数据集在客观评估中的作用。
  • Conclusion: 指出了该领域的关键挑战与未来研究方向,强调了无监督方法的潜力。

[30] From Enhancement to Understanding: Build a Generalized Bridge for Low-light Vision via Semantically Consistent Unsupervised Fine-tuning

Sen Wang,Shao Zeng,Tianjun Gu,Zhizhong Zhang,Ruixin Zhang,Shouhong Ding,Jingyun Zhang,Jun Wang,Xin Tan,Yuan Xie,Lizhuang Ma

Main category: cs.CV

TL;DR: 论文提出了一种名为GEFU的新范式,将低光增强与视觉理解结合,利用生成扩散模型优化图像,并通过SCUF方法提升语义一致性。

  • Motivation: 传统方法将低光增强与视觉理解分开处理,存在泛化性和扩展性不足的问题。
  • Method: 利用预训练的生成扩散模型进行图像优化,提出SCUF方法,包括光照感知图像提示和循环注意力适配器。
  • Result: 在图像质量和GEFU任务(分类、检测、语义分割)中优于现有方法。
  • Conclusion: GEFU范式显著提升了泛化性和扩展性,为低光视觉任务提供了新思路。

[31] Smelly, dense, and spreaded: The Object Detection for Olfactory References (ODOR) dataset

Mathias Zinnen,Prathmesh Madhu,Inger Leemans,Peter Bell,Azhar Hussian,Hang Tran,Ali Hürriyetoğlu,Andreas Maier,Vincent Christlein

Main category: cs.CV

TL;DR: ODOR数据集填补了现有艺术数据集在细粒度类别和空间分布上的不足,提供了38,116个对象级标注,覆盖139个细粒度类别,并通过基线分析和次级研究展示了其挑战性。

  • Motivation: 解决现有艺术数据集在中心偏差和细粒度类别上的局限性,推动艺术品对象检测和视觉文化遗产研究。
  • Method: 提出ODOR数据集,包含4712张图像的38,116个对象级标注,涵盖139个细粒度类别,并进行统计分析和基线模型评估。
  • Result: 数据集展示了密集重叠对象和全画布空间分布等挑战性特性,为艺术品对象检测提供了新基准。
  • Conclusion: ODOR数据集为艺术品对象检测和视觉文化遗产研究提供了新资源,并鼓励探索对象识别与嗅觉感知的交叉研究。

[32] Subject-Consistent and Pose-Diverse Text-to-Image Generation

Zhanxin Gao,Beier Zhu,Liang Yao,Jian Yang,Ying Tai

Main category: cs.CV

TL;DR: CoDi框架通过两阶段策略(Identity Transport和Identity Refinement)实现主题一致且姿势多样的文本到图像生成。

  • Motivation: 现有方法在保持主题一致时牺牲了姿势和布局多样性,限制了视觉表达的丰富性。
  • Method: 采用两阶段策略:早期通过Identity Transport传输身份特征,后期通过Identity Refinement细化细节。
  • Result: 在主题一致性、姿势多样性和提示保真度上表现优异。
  • Conclusion: CoDi在视觉感知和性能上均优于现有方法。

[33] PanMatch: Unleashing the Potential of Large Vision Models for Unified Matching Models

Yongjian Zhang,Longguang Wang,Kunhong Li,Ye Zhang,Yun Wang,Liang Lin,Yulan Guo

Main category: cs.CV

TL;DR: PanMatch是一种通用的基础模型,用于鲁棒的对应匹配,通过统一的2D位移估计框架支持多任务,无需特定任务架构或微调。

  • Motivation: 传统方法依赖任务特定架构和领域微调,PanMatch旨在通过统一框架实现多任务集成,提升泛化能力。
  • Method: 提出基于2D位移估计的统一框架,利用大型视觉模型的特征提取器和跨域数据集(180万样本)预训练。
  • Result: PanMatch在跨任务评估中优于UniMatch和Flow-Anything,并在异常场景(如雨天和卫星图像)中表现出色。
  • Conclusion: PanMatch展示了多任务通用性和零样本能力,为鲁棒对应匹配提供了新方向。

[34] Deep Hashing with Semantic Hash Centers for Image Retrieval

Li Chen,Rui Liu,Yuxiang Zhou,Xudong Ma,Yong Chen,Dell Zhang

Main category: cs.CV

TL;DR: 本文提出了一种基于语义哈希中心(SHC)的深度哈希方法,通过数据依赖的相似性计算和优化算法生成哈希码,显著提升了大规模图像检索性能。

  • Motivation: 现有基于点监督的深度哈希方法依赖数据无关的哈希中心生成算法,忽略了类间语义关系,可能影响检索性能。
  • Method: 提出三阶段框架SHC:1) 使用分类网络计算类间语义相似性;2) 优化算法生成语义哈希中心;3) 训练深度哈希网络生成二进制哈希码。
  • Result: 在多个公开数据集上,SHC在MAP@100、MAP@1000和MAP@ALL指标上分别平均提升7.26%、7.62%和11.71%。
  • Conclusion: SHC通过保留语义结构生成哈希码,显著优于现有方法,适用于大规模图像检索。

[35] Multi-modal Mutual-Guidance Conditional Prompt Learning for Vision-Language Models

Shijun Yang,Xiang Zhang,Wanqing Zhao,Hangzai Luo,Sheng Zhong,Jinye Peng,Jianping Fan

Main category: cs.CV

TL;DR: MuGCP提出了一种多模态条件提示学习框架,通过语义和视觉条件提示增强跨模态对齐,提升模型在新类别上的泛化能力。

  • Motivation: 现有提示学习方法在类嵌入分布建模和跨模态对齐方面存在不足,限制了模型性能。
  • Method: 利用多模态大语言模型生成语义条件提示,引入注意力互导模块生成视觉条件提示,并通过多提示融合机制整合不同提示。
  • Result: 在14个数据集上优于现有方法。
  • Conclusion: MuGCP通过多模态条件提示学习有效提升了模型的泛化能力和跨模态对齐效果。

[36] InstaScene: Towards Complete 3D Instance Decomposition and Reconstruction from Cluttered Scenes

Zesong Yang,Bangbang Yang,Wenqi Dong,Chenxuan Cao,Liyuan Cui,Yuewen Ma,Zhaopeng Cui,Hujun Bao

Main category: cs.CV

TL;DR: InstaScene提出了一种新的3D感知范式,旨在分解复杂场景中的实例并实现完整重建,通过空间对比学习和原位生成技术提升分解精度和完整性。

  • Motivation: 人类能自然识别并补全遮挡物体,但机器人缺乏类似能力,现有技术将场景视为整体,无法从部分观察中识别完整物体。
  • Method: 开发了空间对比学习技术,通过追踪实例在多视角下的栅格化来增强语义监督;引入原位生成技术,利用观察数据和几何线索指导3D生成模型完成实例重建。
  • Result: 在复杂真实和合成场景中,该方法在场景分解和物体补全方面表现出色,分解精度高且重建物体几何和视觉完整。
  • Conclusion: InstaScene通过创新的学习和生成技术,实现了对复杂场景的精确分解和完整重建,为机器人3D感知提供了新思路。

[37] Upsample What Matters: Region-Adaptive Latent Sampling for Accelerated Diffusion Transformers

Wongi Jeong,Kyungryeol Lee,Hoigi Seo,Se Young Chun

Main category: cs.CV

TL;DR: 提出了一种名为RALU的训练免费框架,通过空间维度加速扩散变换器的推理,显著减少计算量并保持图像质量。

  • Motivation: 扩散变换器在图像和视频生成中表现出色,但计算量大阻碍实际部署,现有方法多关注时间维度加速。
  • Method: RALU通过三个阶段实现加速:低分辨率去噪、区域自适应上采样和全分辨率细节细化,结合噪声时间步重调度稳定生成。
  • Result: 在FLUX上实现7.0倍加速,Stable Diffusion 3上3.0倍加速,图像质量几乎无损。
  • Conclusion: RALU在空间维度上高效加速扩散变换器,且与现有时间维度加速方法互补,可进一步降低推理延迟。

[38] RePaintGS: Reference-Guided Gaussian Splatting for Realistic and View-Consistent 3D Scene Inpainting

Ji Hyun Seo,Byounhyun Yoo,Gerard Jounghyun Kim

Main category: cs.CV

TL;DR: 提出了一种基于参考视图的3D场景修复方法,通过调整其他视图的修复相似性,提升几何保真度和外观一致性。

  • Motivation: 现有3D场景修复方法因多视图修复不一致导致结果不自然,需改进以实现更真实和一致的修复效果。
  • Method: 利用参考视图的修复结果,调整其他视图的修复相似性,构建精确几何结构,并通过参考视图引导优化。
  • Result: 实验表明,该方法显著提升了修复场景的几何保真度和外观一致性。
  • Conclusion: 该方法通过参考视图的引导,有效解决了3D场景修复中的不一致性问题,适用于复杂场景。

[39] Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation

Anlin Zheng,Xin Wen,Xuanyang Zhang,Chuofan Ma,Tiancai Wang,Gang Yu,Xiangyu Zhang,Xiaojuan Qi

Main category: cs.CV

TL;DR: 利用预训练视觉基础模型构建图像分词器VFMTok,通过区域自适应量化和语义重建目标提升性能,显著改善图像重建与生成质量。

  • Motivation: 探索基于预训练视觉基础模型的图像分词器,填补该领域的研究空白。
  • Method: 采用冻结视觉基础模型作为编码器,引入区域自适应量化框架和语义重建目标。
  • Result: VFMTok在图像重建和生成质量上显著提升,gFID达2.07,加速模型收敛三倍,无需CFG即可实现高保真类别条件合成。
  • Conclusion: VFMTok通过创新设计在图像生成任务中表现优异,代码将公开以促进社区发展。

[40] Review of Feed-forward 3D Reconstruction: From DUSt3R to VGGT

Wei Zhang,Yihang Wu,Songhua Li,Wenjie Ma,Xin Ma,Qiang Li,Qi Wang

Main category: cs.CV

TL;DR: 该论文综述了深度学习在3D重建中的新兴范式,特别是以DUSt3R为代表的单次前馈模型,对比了传统方法和早期学习方法的优缺点,并探讨了未来挑战。

  • Motivation: 传统3D重建方法(如SfM和MVS)存在流程复杂、计算成本高、鲁棒性差等问题,深度学习提供了一种更高效的前馈解决方案。
  • Method: 论文分析了基于Transformer的对应建模、联合姿态与几何回归机制,以及从双视图到多视图的扩展策略。
  • Result: 深度学习模型(如DUSt3R)能够直接从无约束图像集中联合推断相机姿态和密集几何结构,显著提升了效率和鲁棒性。
  • Conclusion: 该技术具有广泛应用前景,但需解决模型精度、可扩展性及动态场景处理等未来挑战。

[41] A document is worth a structured record: Principled inductive bias design for document recognition

Benjamin Meyer,Lukas Tuggener,Sascha Hänzi,Daniel Schmid,Erdal Ayfer,Benjamin F. Grewe,Ahmed Abdulkadir,Thilo Stadelmann

Main category: cs.CV

TL;DR: 论文提出了一种新的文档识别视角,将其视为从文档到记录的转录任务,并设计了结构特定的归纳偏置方法,成功应用于复杂文档类型。

  • Motivation: 现有文档识别方法忽视了文档类型特定的结构属性,导致对复杂或低频文档类型的识别效果不佳。
  • Method: 提出了一种设计结构特定归纳偏置的方法,并基于Transformer架构实现了端到端文档识别系统。
  • Result: 通过实验验证了该方法在复杂记录结构(如乐谱、形状图和工程图)中的有效性,首次实现了工程图的端到端转录。
  • Conclusion: 该方法为未来文档基础模型的设计提供了统一框架,尤其适用于非标准文档类型的识别。

[42] F3-Net: Foundation Model for Full Abnormality Segmentation of Medical Images with Flexible Input Modality Requirement

Seyedeh Sahar Taheri Otaghsara,Reza Rahmanzadeh

Main category: cs.CV

TL;DR: F3-Net是一种基础模型,旨在解决临床医学图像分割中的多模态输入依赖、泛化能力有限和任务特异性狭窄等问题,通过灵活的合成模态训练和零图像策略,提升实际应用性。

  • Motivation: 解决医学图像分割中多模态输入依赖、泛化能力不足和任务特异性狭窄的挑战。
  • Method: 采用灵活的合成模态训练和零图像策略,无需显式合成网络即可替代缺失模态。
  • Result: 在BraTS 2021、BraTS 2024和ISLES 2022等数据集上表现优异,平均Dice系数分别为0.94、0.82、0.94和0.79。
  • Conclusion: F3-Net是一种多功能、可扩展的解决方案,弥合了深度学习研究与临床实际应用之间的差距。

[43] Dual Dimensions Geometric Representation Learning Based Document Dewarping

Heng Li,Qingcai Chen,Xiangping Wu

Main category: cs.CV

TL;DR: 论文提出了一种名为D2Dewarp的双维度文档去扭曲模型,通过感知水平和垂直方向的变形趋势,结合坐标融合模块提升去扭曲效果,并构建了一个新的大规模训练数据集。

  • Motivation: 现有方法通常仅关注水平维度的文本行,忽略了垂直方向的变形趋势,限制了去扭曲效果。
  • Method: 提出双维度变形感知模型(D2Dewarp),设计基于X和Y坐标的融合模块,结合水平和垂直特征;提出自动细粒度标注方法构建新数据集。
  • Result: 在公开中英文基准测试中,定量和定性结果均优于现有方法。
  • Conclusion: D2Dewarp通过双维度感知和特征融合显著提升了文档去扭曲效果,新数据集将公开以促进研究。

[44] Unified People Tracking with Graph Neural Networks

Martin Engilberge,Ivan Vrkic,Friedrich Wilke Grosche,Julien Pilet,Engin Turetken,Pascal Fua

Main category: cs.CV

TL;DR: 提出了一种完全可微分的多人跟踪模型,通过动态时空图整合空间、上下文和时间信息,无需依赖预计算轨迹片段。模型在公开基准和新数据集上表现优异。

  • Motivation: 解决多人跟踪中依赖预计算轨迹片段的问题,提升遮挡处理能力,并推动研究发展。
  • Method: 构建动态时空图,整合空间、上下文和时间信息,支持场景特定信息编码。
  • Result: 在公开基准和新数据集上达到最先进性能,适应多种条件。
  • Conclusion: 模型和数据集将公开,促进多人跟踪研究。

[45] Occlusion-Guided Feature Purification Learning via Reinforced Knowledge Distillation for Occluded Person Re-Identification

Yufei Zheng,Wenjun Wang,Wenjun Gan,Jiawei Liu

Main category: cs.CV

TL;DR: OGFR通过强化知识蒸馏和遮挡感知特征净化,解决了遮挡行人重识别中的多样遮挡场景和特征污染问题。

  • Motivation: 现有方法难以处理训练中未见的多样遮挡场景,且易受整体图像特征污染的影响。
  • Method: 采用师生蒸馏架构,设计遮挡感知视觉变换器和特征擦除净化模块,通过强化学习识别并替换低质量补丁令牌。
  • Result: OGFR能够有效学习鲁棒特征表示,不受遮挡干扰。
  • Conclusion: OGFR在遮挡行人重识别中表现出色,解决了多样遮挡和特征污染问题。

[46] RadiomicsRetrieval: A Customizable Framework for Medical Image Retrieval Using Radiomics Features

Inye Na,Nejung Rue,Jiwon Chung,Hyunjin Park

Main category: cs.CV

TL;DR: 提出了一种基于3D医学图像的检索框架RadiomicsRetrieval,结合手工放射组学特征与深度学习嵌入,支持灵活查询。

  • Motivation: 现有医学图像检索方法主要针对2D图像且需全标注查询,限制了临床灵活性。
  • Method: 使用可提示分割模型(如SAM)生成肿瘤特异性嵌入,并通过对比学习与放射组学特征对齐,结合解剖位置嵌入(APE)丰富表示。
  • Result: 在肺CT和脑MRI数据集上验证,放射组学特征显著提升检索特异性,APE支持基于位置的搜索。
  • Conclusion: RadiomicsRetrieval框架支持灵活查询,减少标注需求,适用于诊断、治疗规划和大规模医学影像研究。

[47] SAM2RL: Towards Reinforcement Learning Memory Control in Segment Anything Model 2

Alen Adamyan,Tomáš Čížek,Matej Straka,Klara Janouskova,Martin Schmid

Main category: cs.CV

TL;DR: SAM 2在目标分割任务中表现优异,成为视觉目标跟踪的SOTA。通过强化学习优化其内存更新,性能提升显著。

  • Motivation: 现有方法依赖手工规则处理干扰、遮挡和运动,限制了性能。探索强化学习作为替代方案。
  • Method: 将内存控制建模为序列决策问题,使用强化学习优化SAM 2的内存更新。
  • Result: 在过拟合设置下,性能提升超过现有启发式方法的三倍。
  • Conclusion: 强化学习是优化内存控制的有效方法,揭示了内存银行的潜力。

[48] Image Translation with Kernel Prediction Networks for Semantic Segmentation

Cristina Mata,Michael S. Ryoo,Henrik Turbell

Main category: cs.CV

TL;DR: 提出了一种新的图像翻译方法DA-KPN,通过轻量级翻译函数和语义匹配保证,解决了GAN方法在语义分割中的噪声问题。

  • Motivation: 由于真实数据标注困难,语义分割依赖合成数据训练,但现有GAN方法无法保证语义匹配,影响分割性能。
  • Method: DA-KPN通过估计像素级输入变换参数,结合多尺度判别器确保翻译真实性。
  • Result: 在合成到真实数据的语义分割任务中,DA-KPN优于现有GAN方法,并在人脸解析任务中表现相当。
  • Conclusion: DA-KPN通过语义匹配保证和轻量级设计,显著提升了低数据场景下的语义分割性能。

[49] Disentangling Instance and Scene Contexts for 3D Semantic Scene Completion

Enyu Liu,En Yu,Sijia Chen,Wenbing Tao

Main category: cs.CV

TL;DR: DISC提出了一种双流范式,通过分离优化实例和场景类别,利用类查询和专用解码模块提升3D语义场景补全性能。

  • Motivation: 现有方法以体素为基本交互单元,限制了类级信息的利用,影响补全结果的粒度。
  • Method: 采用类查询替代体素查询,设计专用解码模块,优化实例和场景类别的学习。
  • Result: 在SemanticKITTI和SSCBench-KITTI-360基准测试中达到SOTA性能,单帧输入甚至优于多帧方法。
  • Conclusion: DISC通过类级信息流和针对性交互,显著提升了3D语义场景补全的性能。

[50] A Multi-Modal Fusion Framework for Brain Tumor Segmentation Based on 3D Spatial-Language-Vision Integration and Bidirectional Interactive Attention Mechanism

Mingda Zhang,Kaiwen Pan

Main category: cs.CV

TL;DR: 提出了一种多模态融合框架,结合空间-语言-视觉信息,通过双向交互注意力机制提升脑肿瘤分割精度和边界划分。

  • Motivation: 开发一种新方法,整合多模态信息以提升脑肿瘤分割的准确性和边界清晰度。
  • Method: 提出多模态语义融合适配器(MSFA)和双向交互视觉语义注意力(BIVA),结合3D MRI数据和临床文本描述。
  • Result: 在BraTS 2020数据集上表现优异,平均Dice系数为0.8505,95% Hausdorff距离为2.8256mm,优于现有方法。
  • Conclusion: 多模态语义融合与双向交互注意力显著提升脑肿瘤分割性能,为临床知识融入医学图像分析提供了新范式。

[51] BayesTTA: Continual-Temporal Test-Time Adaptation for Vision-Language Models via Gaussian Discriminant Analysis

Shuang Cui,Jinglin Xu,Yi Li,Xiongxin Tang,Jiangmeng Li,Jiahuan Zhou,Fanjiang Xu,Fuchun Sun,Hui Xiong

Main category: cs.CV

TL;DR: 论文提出BayesTTA框架,解决视觉语言模型在时间演化分布偏移下的持续测试时适应问题,通过贝叶斯方法实现预测一致性和动态表示对齐。

  • Motivation: 现有持续测试时适应方法忽视时间连续性,导致长程分布建模受限、熵置信度不可靠及视觉表示与输入不匹配。
  • Method: BayesTTA通过增量估计类条件高斯混合分布、自适应选择协方差结构和校准推理,动态对齐视觉表示。
  • Result: 在四个时间演化数据集和十个标准TTA数据集上,BayesTTA显著优于现有方法。
  • Conclusion: BayesTTA有效解决了时间演化分布偏移下的适应问题,提升了模型性能和稳定性。

[52] Normalized vs Diplomatic Annotation: A Case Study of Automatic Information Extraction from Handwritten Uruguayan Birth Certificates

Natalia Bottaioli,Solène Tarride,Jérémy Anger,Seginus Mowlavi,Marina Gardella,Antoine Tadros,Gabriele Facciolo,Rafael Grompone von Gioi,Christopher Kermorvant,Jean-Michel Morel,Javier Preciozzi

Main category: cs.CV

TL;DR: 评估Document Attention Network(DAN)在乌拉圭西班牙语手写出生证明中提取关键信息的效果,比较两种标注策略。

  • Motivation: 研究如何以最小的训练数据和标注工作量优化DAN,用于手写文档的自动转录。
  • Method: 在包含相同图像但标注方法不同的两个数据集上微调DAN,比较标准化标注和外交标注的效果。
  • Result: 标准化标注适用于可标准化字段(如日期、出生地),外交标注更适用于不可标准化字段(如姓名)。
  • Conclusion: 标注策略应根据字段类型选择,标准化标注和外交标注各有优势。

[53] OnlineBEV: Recurrent Temporal Fusion in Bird's Eye View Representations for Multi-Camera 3D Perception

Junho Koh,Youngwoo Lee,Jungho Kim,Dongyoung Lee,Jun Won Choi

Main category: cs.CV

TL;DR: OnlineBEV提出了一种基于循环结构的时间3D感知方法,通过MBFNet实现特征对齐,显著提升了性能。

  • Motivation: 现有方法在结合多帧BEV特征时性能提升有限,主要由于动态物体运动导致特征变化。
  • Method: 使用循环结构结合BEV特征,MBFNet动态对齐历史与当前特征,并引入时间一致性学习损失。
  • Result: 在nuScenes测试集上达到63.9% NDS,性能优于当前最佳方法SOLOFusion。
  • Conclusion: OnlineBEV通过时间特征对齐和循环结构,实现了相机3D检测任务的领先性能。

[54] DatasetAgent: A Novel Multi-Agent System for Auto-Constructing Datasets from Real-World Images

Haoran Sun,Haoyu Bian,Shaoning Zeng,Yunbo Rao,Xu Xu,Lin Mei,Jianping Gou

Main category: cs.CV

TL;DR: 论文提出了一种名为DatasetAgent的多智能体协作系统,通过协调四个不同智能体和图像优化工具包,自动从真实世界图像构建高质量数据集。

  • Motivation: 传统手动收集和标注图像数据集耗时低效,而AI生成的数据不如真实数据有价值,因此需要一种自动构建真实图像数据集的方法。
  • Method: 使用多模态大语言模型(MLLMs)和图像优化工具包的多智能体协作系统(DatasetAgent),根据用户需求自动构建数据集。
  • Result: 通过扩展现有数据集和从零创建新数据集的实验,验证了DatasetAgent构建的数据集可用于训练多种视觉模型(分类、检测、分割)。
  • Conclusion: DatasetAgent能够高效自动构建高质量真实图像数据集,为视觉任务提供支持。

[55] Generalizable 7T T1-map Synthesis from 1.5T and 3T T1 MRI with an Efficient Transformer Model

Zach Eidex,Mojtaba Safari,Tonghe Wang,Vanessa Wildman,David S. Yu,Hui Mao,Erik Middlebrooks,Aparna Kesewala,Xiaofeng Yang

Main category: cs.CV

TL;DR: 提出了一种基于Transformer的模型(7T-Restormer),用于从常规1.5T或3T T1加权图像合成7T质量的T1图,解决了7T MRI的高成本和稀缺性问题。

  • Motivation: 7T MRI具有更高的分辨率和对比度,但其高昂的成本和稀缺性限制了临床应用。本研究旨在通过深度学习模型合成7T质量的图像,使其更易于普及。
  • Method: 使用141例患者数据(1.5T和3T T1W图像及对应的7T T1图)训练和验证7T-Restormer模型,并与ResViT和ResShift模型进行比较。
  • Result: 7T-Restormer在1.5T和3T输入下均表现出色,PSNR和SSIM优于其他模型,且参数更少。混合训练策略优于单一训练策略。
  • Conclusion: 7T-Restormer能够高效合成7T质量的T1图,为临床工作流程提供了更便捷的高质量MRI解决方案。

[56] ByDeWay: Boost Your multimodal LLM with DEpth prompting in a Training-Free Way

Rajarshi Roy,Devleena Das,Ankesh Banerjee,Arjya Bhattacharjee,Kousik Dasgupta,Subarna Tripathi

Main category: cs.CV

TL;DR: ByDeWay是一个无需训练的多模态大语言模型(MLLM)增强框架,通过分层深度提示(LDP)策略提升空间推理和基础能力。

  • Motivation: 解决MLLMs在空间推理和基础任务中的表现不足,减少幻觉响应。
  • Method: 使用单目深度估计将场景分层(近、中、远),生成区域特定描述,并添加到图像-问题提示中。
  • Result: 在POPE和GQA基准测试中,多个MLLMs表现一致提升。
  • Conclusion: 深度感知提示在零训练设置下有效,方法轻量且模块化。

[57] MoSAiC: Multi-Modal Multi-Label Supervision-Aware Contrastive Learning for Remote Sensing

Debashis Gupta,Aditi Golder,Rongkhun Zhu,Kangning Cui,Wei Tang,Fan Yang,Ovidiu Csillik,Sarra Alaqahtani,V. Paul Pauca

Main category: cs.CV

TL;DR: MoSAiC是一种针对多模态卫星图像的对比学习框架,通过联合优化模态内和模态间的对比学习,提升语义解缠和表示学习能力。

  • Motivation: 地球系统观测(ESO)中多模态卫星图像存在高类间相似性和场景复杂性,现有对比学习框架难以处理多标签对齐和跨模态语义精确性。
  • Method: 提出MoSAiC框架,结合模态内和模态间对比学习,并引入多标签监督对比损失。
  • Result: 在BigEarthNet V2.0和Sent12MS数据集上,MoSAiC在低标签和高类重叠场景下优于全监督和自监督基线。
  • Conclusion: MoSAiC为多模态卫星图像的表示学习提供了更优的解决方案,尤其在复杂场景中表现突出。

[58] An Efficient Approach for Muscle Segmentation and 3D Reconstruction Using Keypoint Tracking in MRI Scan

Mengyuan Liu,Jeongkyu Lee

Main category: cs.CV

TL;DR: 提出了一种基于关键点跟踪的无训练分割方法,用于MRI肌肉分割,性能接近CNN模型,但计算成本更低且更易解释。

  • Motivation: 解决传统CNN方法在肌肉分割中的高计算成本、依赖大数据集和泛化性差的问题。
  • Method: 结合关键点选择和Lucas-Kanade光流,提出无训练分割方法。
  • Result: 平均Dice相似系数为0.6-0.7,与CNN模型相当,但计算需求更低。
  • Conclusion: 该方法为临床和研究应用提供了可扩展、鲁棒且可解释的肌肉分割方案。

[59] L-CLIPScore: a Lightweight Embedding-based Captioning Metric for Evaluating and Training

Li Li,Yingzhe Peng,Xu Yang,Ruoxi Cheng,Haiyang Xu,Ming Yan,Fei Huang

Main category: cs.CV

TL;DR: 提出了一种基于轻量级CLIP(L-CLIP)的新型嵌入式字幕评估指标L-CLIPScore,用于高效评估字幕质量和训练字幕模型。

  • Motivation: 现有字幕评估和训练方法在计算资源和效率上存在不足,需要一种更轻量且高效的解决方案。
  • Method: 通过权重复用和矩阵分解压缩CLIP架构,并设计多模态相似性调节器(SR)损失进行知识蒸馏。
  • Result: L-CLIP在保持多模态对齐能力的同时,显著减少了计算资源和运行时间。
  • Conclusion: L-CLIPScore在评估字幕质量时高效有效,但训练字幕模型时需与n-gram指标混合使用以避免训练失败。

[60] SGPMIL: Sparse Gaussian Process Multiple Instance Learning

Andreas Lolos,Stergios Christodoulidis,Maria Vakalopoulou,Jose Dolz,Aris Moustakas

Main category: cs.CV

TL;DR: SGPMIL是一种基于稀疏高斯过程的概率注意力MIL框架,通过量化实例级注意力的不确定性,提高了预测的可靠性和可解释性。

  • Motivation: 解决传统MIL方法中实例级注意力分数缺乏不确定性量化的问题。
  • Method: 引入稀疏高斯过程(SGP)学习注意力分数的后验分布,并加入特征缩放以优化训练效率和性能。
  • Result: 在多个数字病理数据集上,SGPMIL在袋级和实例级评估中均表现出色,提升了预测质量和效率。
  • Conclusion: SGPMIL不仅保持了袋级性能,还显著改善了不确定性下的实例级预测,具有更高的可靠性和可解释性。

[61] Unreal is all you need: Multimodal ISAC Data Simulation with Only One Engine

Kongwu Huang,Shiyi Mu,Jun Jiang,Yuan Gao,Shugong Xu

Main category: cs.CV

TL;DR: 论文提出Great-X平台,用于多模态数据同步仿真,并构建了Great-MSD数据集和基于CSI的无人机3D定位算法。

  • Motivation: 探索缩放定律在ISAC研究中的潜力,提升多模态数据仿真的效率和同步性。
  • Method: 通过重构Sionna的射线追踪计算,并与Unreal Engine及自动驾驶工具深度集成,实现多模态数据的高效仿真。
  • Result: 构建了Great-MSD数据集,并验证了基于CSI的无人机3D定位算法的可行性和泛化性。
  • Conclusion: Great-X平台和Great-MSD数据集为ISAC研究提供了开源工具和数据支持。

[62] RoundaboutHD: High-Resolution Real-World Urban Environment Benchmark for Multi-Camera Vehicle Tracking

Yuqiang Lin,Sam Lockyer,Mingxuan Sui,Li Gan,Florian Stanek,Markus Zarbock,Wenbin Li,Adrian Evans,Nic Zhang

Main category: cs.CV

TL;DR: 提出了一个名为RoundaboutHD的高分辨率多摄像头车辆跟踪数据集,填补了现有数据集的不足,支持智能城市应用。

  • Motivation: 现有公开数据集在场景复杂性、分辨率和多样性方面存在不足,限制了多摄像头车辆跟踪(MCVT)研究的实际应用。
  • Method: 通过四个非重叠的高分辨率摄像头收集40分钟标注视频,包含512个独特车辆身份,提供丰富的跨摄像头关联数据。
  • Result: 数据集支持车辆检测、单摄像头跟踪、车辆重识别和多摄像头跟踪任务,并提供了基线结果。
  • Conclusion: RoundaboutHD为MCVT研究提供了更接近真实场景的数据集,推动了智能城市应用的发展。

[63] Ensemble of Weak Spectral Total Variation Learners: a PET-CT Case Study

Anna Rosenberg,John Kennedy,Zohar Keidar,Yehoshua Y. Zeevi,Guy Gilboa

Main category: cs.CV

TL;DR: 提出基于谱总变分(STV)特征的弱学习器集成方法,解决计算机视觉中训练数据不足的问题,并在医学影像任务中表现优于深度学习和Radiomics方法。

  • Motivation: 计算机视觉任务中常面临训练数据不足的问题,需要一种有效的方法来提升模型性能。
  • Method: 使用基于STV特征的弱学习器集成方法,STV特征能有效表征多尺度纹理,且特征间相关性低。
  • Result: 在医学影像任务中,STV方法(AUC=0.87)优于深度学习(AUC=0.75)和Radiomics(AUC=0.79)。
  • Conclusion: STV特征集成方法在数据不足的情况下表现优异,尤其是CT图像中的精细STV尺度对PET高摄取具有指示性。

[64] HieraRS: A Hierarchical Segmentation Paradigm for Remote Sensing Enabling Multi-Granularity Interpretation and Cross-Domain Transfer

Tianlong Ai,Tianzhu Liu,Haochen Jiang,Yanfeng Gu

Main category: cs.CV

TL;DR: 论文提出HieraRS方法,解决遥感影像多粒度层次分类问题,支持跨域任务迁移,并引入BHCCM机制和TransLU框架提升性能。

  • Motivation: 现有深度学习方法在遥感影像层次分类中存在局限性,无法生成端到端的多粒度预测,且跨域任务迁移能力不足。
  • Method: 提出HieraRS方法,结合BHCCM机制生成层次预测,并设计TransLU框架支持跨域迁移。
  • Result: HieraRS提升了语义一致性和分类精度,并构建了MM-5B数据集支持研究。
  • Conclusion: HieraRS为遥感影像层次分类和跨域任务提供了灵活且通用的解决方案。

[65] Geo-ORBIT: A Federated Digital Twin Framework for Scene-Adaptive Lane Geometry Detection

Rei Tamaru,Pei Li,Bin Ran

Main category: cs.CV

TL;DR: Geo-ORBIT框架结合实时车道检测、数字孪生同步和联邦元学习,解决了交通数字孪生中的动态几何感知问题,提升了隐私保护和计算效率。

  • Motivation: 现有方法依赖静态地图或昂贵传感器,难以扩展和适应大规模数字孪生需求,同时面临隐私和通信效率挑战。
  • Method: 提出Geo-ORBIT框架,包括轻量级车道检测模型GeoLane、个性化检测的Meta-GeoLane和联邦学习的FedMeta-GeoLane,结合CARLA和SUMO实现高保真数字孪生。
  • Result: FedMeta-GeoLane在多样城市场景中表现优于基线方法,几何误差更低,泛化能力更强,通信开销显著减少。
  • Conclusion: Geo-ORBIT为灵活、上下文感知的基础设施建模奠定了基础,框架已开源。

[66] Compress Any Segment Anything Model (SAM)

Juntong Fan,Zhiwei Hao,Jianqiang Shen,Shang-Ling Jui,Yi Zhang,Jing-Xiao Liao,Feng-Lei Fan

Main category: cs.CV

TL;DR: Birkhoff是一种无数据压缩算法,专为Segment Anything Model(SAM)及其变体设计,具有高效、通用和紧凑的特点。

  • Motivation: 由于SAM及其变体在零样本分割中的优异表现,对其高效压缩成为迫切需求。
  • Method: 提出Hyper-Compression算法和HyperLinear算子,将高维参数向量压缩为低维标量,并加速推理。
  • Result: 在多个数据集上验证,Birkhoff在压缩比、性能和速度上表现优异,例如5.17x压缩比且性能下降小于1%。
  • Conclusion: Birkhoff是一种高效、通用的压缩方法,适用于SAM及其变体,无需微调数据即可实现高性能压缩。

[67] A Hybrid Multi-Well Hopfield-CNN with Feature Extraction and K-Means for MNIST Classification

Ahmed Farooq

Main category: cs.CV

TL;DR: 提出了一种结合CNN和多阱Hopfield网络的混合模型,用于MNIST手写数字分类,测试准确率达99.2%。

  • Motivation: 解决手写数字分类中的类内变异性问题,并提供可解释的基于能量的决策框架。
  • Method: 使用CNN提取特征,k-means聚类生成类特定原型,Hopfield网络通过能量最小化进行分类。
  • Result: 模型在10,000张MNIST测试图像上达到99.2%的准确率。
  • Conclusion: 深度特征提取和充分的原型覆盖对高性能至关重要,模型在模式识别中有广泛应用潜力。

[68] From One to More: Contextual Part Latents for 3D Generation

Shaocong Dong,Lihe Ding,Xiao Chen,Yaokun Li,Yuxin Wang,Yucheng Wang,Qi Wang,Jaehyeok Kim,Chenjian Gao,Zhanpeng Huang,Zibin Wang,Tianfan Xue,Dan Xu

Main category: cs.CV

TL;DR: CoPart提出了一种基于部分感知的扩散框架,通过分解3D对象为上下文部分潜在表示,解决了现有方法在复杂几何、部分独立性和细粒度控制方面的不足。

  • Motivation: 现有3D生成方法在捕捉复杂多部分几何、部分独立性及细粒度控制方面存在局限性,CoPart受人类3D设计工作流启发,旨在解决这些问题。
  • Method: CoPart采用部分感知扩散框架,分解3D对象为部分潜在表示,并开发了互指导策略以微调预训练扩散模型,确保几何一致性和基础模型先验。
  • Result: 实验表明,CoPart在部分级编辑、关节对象生成和场景组合方面表现出色,具有前所未有的可控性。
  • Conclusion: CoPart通过部分分解和关系建模,显著提升了3D生成的灵活性和可控性,为未来研究提供了新方向。

[69] CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

Zhengqing Wang,Yuefan Wu,Jiacheng Chen,Fuyang Zhang,Yasutaka Furukawa

Main category: cs.CV

TL;DR: 提出了一种基于压缩光场令牌(CLiFTs)的神经渲染方法,通过压缩令牌实现高效渲染,并支持动态调整令牌数量以适应不同场景或视角。

  • Motivation: 传统渲染方法在数据压缩和计算效率方面存在不足,CLiFTs旨在通过压缩令牌保留场景的丰富外观和几何信息,同时提供灵活的计算预算适应能力。
  • Method: 使用多视图编码器将图像和相机姿态转换为令牌,通过潜在空间K均值选择代表性射线作为聚类中心,构建CLiFTs。测试时根据目标视角和计算预算动态选择令牌进行渲染。
  • Result: 在RealEstate10K和DL3DV数据集上验证了方法的有效性,实现了显著的数据压缩,同时保持可比的渲染质量,并在整体渲染评分上表现最佳。
  • Conclusion: CLiFTs提供了一种高效、灵活的神经渲染解决方案,能够在数据大小、渲染质量和速度之间实现平衡。

[70] NeuralOS: Towards Simulating Operating Systems via Neural Generative Models

Luke Rivard,Sun Sun,Hongyu Guo,Wenhu Chen,Yuntian Deng

Main category: cs.CV

TL;DR: NeuralOS是一个神经框架,通过直接预测屏幕帧来模拟操作系统的图形用户界面(GUI),结合了RNN和扩散渲染器。

  • Motivation: 旨在为未来人机交互系统创建完全自适应的生成神经界面。
  • Method: 结合RNN跟踪计算机状态和扩散渲染器生成屏幕图像,基于Ubuntu XFCE的大规模数据集训练。
  • Result: 成功渲染真实GUI序列,准确捕捉鼠标交互,可靠预测状态转换(如应用启动)。
  • Conclusion: 尽管精确建模键盘交互仍有挑战,但NeuralOS为未来自适应神经界面迈出了重要一步。

[71] Lumos-1: On Autoregressive Video Generation from a Unified Model Perspective

Hangjie Yuan,Weihua Chen,Jun Cen,Hu Yu,Jingyun Liang,Shuning Chang,Zhihui Lin,Tao Feng,Pengwei Liu,Jiazheng Xing,Hao Luo,Jiasheng Tang,Fan Wang,Yi Yang

Main category: cs.CV

TL;DR: Lumos-1是一种基于LLM架构的自回归视频生成器,通过MM-RoPE和AR-DF技术解决了时空相关性和帧间损失不平衡问题,性能媲美现有模型。

  • Motivation: 现有自回归视频生成器存在架构偏离、依赖外部编码器或高延迟问题,Lumos-1旨在保留LLM架构的同时提升性能。
  • Method: 采用3D RoPE改进为MM-RoPE,结合AR-DF策略解决帧间损失不平衡,并通过高效训练技术预训练模型。
  • Result: 在48块GPU上预训练后,性能与EMU3、COSMOS-Video2World和OpenSoraPlan相当。
  • Conclusion: Lumos-1通过最小化架构修改和高效训练,实现了高性能的自回归视频生成。

cs.HC

[72] A Versatile Dataset of Mouse and Eye Movements on Search Engine Results Pages

Kayhan Latifzadeh,Jacek Gwizdka,Luis A. Leiva

Main category: cs.HC

TL;DR: 论文提出了一个全面的数据集,用于研究用户在搜索引擎结果页(SERP)上的注意力和购买行为,通过眼动仪提供客观的视觉注意力数据,弥补了以往依赖鼠标移动和自我报告数据的不足。

  • Motivation: 解决以往研究中依赖鼠标移动和自我报告数据的局限性,提供更准确的视觉注意力数据。
  • Method: 使用眼动仪收集数据,构建包含2,776个交易查询的数据集,涵盖HTML、截图、眼动和鼠标移动数据等。
  • Result: 提供了一个全面的数据集,并展示了基线实验(分类任务),为未来研究提供可能性。
  • Conclusion: 该数据集为研究用户注意力和行为提供了更客观的基础,并展示了未来研究的潜力。

[73] SSSUMO: Real-Time Semi-Supervised Submovement Decomposition

Evgenii Rudakov,Jonathan Shock,Otto Lappi,Benjamin Ultan Cowley

Main category: cs.HC

TL;DR: SSSUMO是一种半监督深度学习方法,用于子运动分解,在精度和速度上达到最优水平。

  • Motivation: 现有方法在重建精度、计算成本和验证方面存在困难,主要由于难以获取手工标记数据。
  • Method: 采用半监督学习框架,从基于最小抖动原则生成的合成数据中学习,并通过适应未标记的人类运动数据迭代优化。
  • Result: 在合成和多样化人类运动数据集上显著优于现有方法,且在高噪声条件下表现稳健,实时性优异(每输入秒不到一毫秒)。
  • Conclusion: SSSUMO在多个应用领域(如人机交互、康复医学和运动控制研究)表现出色,特别是在传统方法失败的挑战性数据集上。

cs.AI

[74] M2-Reasoning: Empowering MLLMs with Unified General and Spatial Reasoning

Inclusion AI,:,Fudong Wang,Jiajia Liu,Jingdong Chen,Jun Zhou,Kaixiang Ji,Lixiang Ru,Qingpei Guo,Ruobing Zheng,Tianqi Li,Yi Yuan,Yifan Mao,Yuting Xiao,Ziping Ma

Main category: cs.AI

TL;DR: M2-Reasoning-7B模型通过创新的数据管道和动态多任务训练策略,提升了多模态大语言模型在动态空间交互中的推理能力,并在8个基准测试中取得SOTA。

  • Motivation: 现有MLLMs在动态空间交互能力上存在不足,限制了实际应用。
  • Method: 1) 构建高质量数据管道生成294.2K样本;2) 动态多任务训练策略结合任务特定奖励。
  • Result: M2-Reasoning-7B在8个基准测试中达到SOTA,尤其在通用和空间推理领域表现优异。
  • Conclusion: M2-Reasoning-7B通过数据与训练策略的创新,显著提升了动态空间交互能力。

[75] Large Multi-modal Model Cartographic Map Comprehension for Textual Locality Georeferencing

Kalana Wijegunarathna,Kristin Stock,Christopher B. Jones

Main category: cs.AI

TL;DR: 提出了一种利用多模态大模型(LMM)自动地理参考生物样本记录的新方法,通过视觉化空间关系显著提高了精度(平均误差约1公里)。

  • Motivation: 解决自然历史收藏中大量未地理参考的生物样本记录问题,传统方法耗时且未充分利用地图信息。
  • Method: 采用多模态大模型(LMM),结合网格化方法,在零样本设置下实现地理参考。
  • Result: 实验显示该方法优于单模态语言模型和现有工具,平均误差约1公里。
  • Conclusion: 多模态模型能有效理解细粒度地图,提出将其整合到地理参考工作流程中的实用框架。

cs.RO

[76] CL3R: 3D Reconstruction and Contrastive Learning for Enhanced Robotic Manipulation Representations

Wenbo Cui,Chengyang Zhao,Yuhui Chen,Haoran Li,Zhizheng Zhang,Dongbin Zhao,He Wang

Main category: cs.RO

TL;DR: CL3R是一个新颖的3D预训练框架,旨在通过结合空间感知和语义理解来增强机器人操作策略。

  • Motivation: 现有的方法虽然利用了预训练的2D基础模型,但难以捕捉3D空间信息并适应多样化的相机视角,限制了策略在精细机器人操作中的有效性。
  • Method: CL3R采用点云掩码自编码器学习3D表示,并通过对比学习结合预训练的2D基础模型进行语义知识迁移。此外,通过统一坐标系和随机融合多视角点云,减少视角模糊性。
  • Result: 在仿真和真实环境中的实验表明,CL3R在机器人操作的视觉运动策略学习中表现优越。
  • Conclusion: CL3R通过3D表示学习和多视角融合,显著提升了机器人操作的感知能力和泛化性能。

[77] Learning human-to-robot handovers through 3D scene reconstruction

Yuekun Wu,Yik Lung Pang,Andrea Cavallaro,Changjae Oh

Main category: cs.RO

TL;DR: 提出了一种基于稀疏视图高斯泼溅的方法(H2RH-SGS),用于从RGB图像学习机器人交接任务,无需真实机器人训练或数据收集。

  • Motivation: 解决从真实图像数据学习机器人操作策略时的高成本问题,避免仿真与真实环境之间的视觉域差距。
  • Method: 利用稀疏视图高斯泼溅重建人机交接场景,生成包含图像-动作对的机器人演示,并通过模拟相机姿态变化转换为夹爪姿态变化。
  • Result: 在16种家庭物品上训练的策略可直接部署到真实环境中,实验验证了H2RH-SGS的有效性。
  • Conclusion: H2RH-SGS为机器人交接任务提供了一种新的高效表示方法。

cs.GR

[78] FlowDrag: 3D-aware Drag-based Image Editing with Mesh-guided Deformation Vector Flow Fields

Gwanhyeong Koo,Sunjae Yoon,Younghwan Lee,Ji Woo Hong,Chang D. Yoo

Main category: cs.GR

TL;DR: FlowDrag通过结合几何信息改进拖拽编辑,解决现有方法的几何不一致问题,并引入VFD基准数据集进行评估。

  • Motivation: 现有拖拽编辑方法仅关注用户定义的点匹配,忽略整体几何结构,导致编辑不稳定或产生伪影。
  • Method: FlowDrag构建3D网格,利用能量函数指导变形,并将位移投影到2D,结合UNet去噪过程实现精确编辑。
  • Result: FlowDrag在VFD Bench和DragBench上优于现有方法。
  • Conclusion: FlowDrag通过几何信息整合和VFD基准的引入,提升了拖拽编辑的准确性和一致性。

[79] Advancing Multimodal LLMs by Large-Scale 3D Visual Instruction Dataset Generation

Liu He,Xiao Zeng,Yizhi Song,Albert Y. C. Chen,Lu Xia,Shashwat Verma,Sankalp Dayal,Min Sun,Cheng-Hao Kuo,Daniel Aliaga

Main category: cs.GR

TL;DR: 论文提出了一种合成生成管道,用于创建大规模3D视觉指令数据集,以解决多模态大语言模型(MLLMs)在捕捉相机-物体关系上的不足。

  • Motivation: 现有MLLMs在相机-物体关系(如物体方向、相机视角和镜头)上的表现不佳,原因是训练数据缺乏多样性和对应的文本描述。
  • Method: 通过3D资产输入,结合渲染和扩散模型生成逼真图像,并利用大语言模型(LLMs)生成文本提示,创建了Ultimate3D数据集(240K VQAs)。
  • Result: 在相机-物体关系识别任务中,基于该数据集微调的MLLMs比商业模型平均准确率提升33.4%。
  • Conclusion: 提出的框架和数据集将推动MLLMs在广泛领域的应用。

cs.MM

[80] PUMA: Layer-Pruned Language Model for Efficient Unified Multimodal Retrieval with Modality-Adaptive Learning

Yibo Lyu,Rui Shao,Gongwei Chen,Yijie Zhu,Weili Guan,Liqiang Nie

Main category: cs.MM

TL;DR: PUMA提出了一种层剪枝语言模型,通过模态自适应学习提升统一多模态检索的效率,同时减少资源消耗。

  • Motivation: 随着多媒体内容的扩展,统一多模态检索(UMR)的需求增加,但现有大型多模态语言模型(MLLMs)参数庞大,导致训练成本高、推理效率低。
  • Method: 1. 结构上,提出层剪枝自蒸馏(Layer-Pruned Self-Distillation),保留浅层并蒸馏深层特征;2. 学习上,引入模态自适应对比学习损失(MAC-Loss),区分模态内和模态间负样本。
  • Result: 实验表明,该方法显著减少资源使用,同时保持强性能。
  • Conclusion: PUMA通过结构剪枝和学习优化,高效解决了UMR任务中的资源与性能平衡问题。

[81] VideoConviction: A Multimodal Benchmark for Human Conviction and Stock Market Recommendations

Michael Galarnyk,Veer Kejriwal,Agam Shah,Yash Bhardwaj,Nicholas Meyer,Anand Krishnan,Sudheer Chava

Main category: cs.MM

TL;DR: 论文研究了社交媒体上金融影响者(finfluencers)的多模态信号对股票推荐的影响,并提出了VideoConviction数据集,用于评估多模态和文本大模型在金融话语中的表现。

  • Motivation: 理解金融影响者的多模态信号(如语调、表达方式)对股票推荐的影响,超越传统文本分析。
  • Method: 引入VideoConviction数据集(6,000+专家标注),比较多模态大模型(MLLMs)和文本大模型(LLMs)的表现。
  • Result: 多模态输入提升股票代码提取,但模型难以区分投资行为和信念强度;逆策略(反其道而行)年回报率优于S&P 500但风险更高。
  • Conclusion: VideoConviction为多模态金融研究提供了基准,促进模型在完整和分段视频输入上的评估。

[82] Visual Semantic Description Generation with MLLMs for Image-Text Matching

Junyu Chen,Yihua Gao,Mingyong Li

Main category: cs.MM

TL;DR: 提出了一种利用多模态大语言模型(MLLMs)作为视觉语义解析器的新框架,通过生成视觉语义描述(VSD)来弥合图像和文本之间的模态差异,显著提升了图像-文本匹配性能。

  • Motivation: 解决图像和文本模态在表示上的根本差异(连续高维图像特征 vs. 离散结构化文本),实现跨模态对齐。
  • Method: 1. 实例级对齐:通过融合视觉特征与VSD增强图像表示的语义表达能力;2. 原型级对齐:通过VSD聚类确保类别一致性。
  • Result: 在Flickr30K和MSCOCO上表现显著提升,并展示了在新闻和遥感图像-文本匹配任务中的零样本泛化能力。
  • Conclusion: 该框架能无缝集成到现有模型中,为跨模态对齐提供了有效解决方案。

cs.CL

[83] Barriers in Integrating Medical Visual Question Answering into Radiology Workflows: A Scoping Review and Clinicians' Insights

Deepali Mishra,Chaklam Silpasuwanchai,Ashutosh Modi,Madhumita Sushil,Sorayouth Chumnanvej

Main category: cs.CL

TL;DR: 该研究系统回顾了68篇关于医学视觉问答(MedVQA)的文献,并调查了50名临床医生,发现MedVQA在临床工作流中的实用性有限,主要问题包括数据集和模型的不足以及评估指标与临床需求的不匹配。

  • Motivation: 探索MedVQA在临床工作流中的实际应用价值、挑战和差距,以推动其更好地服务于医疗实践。
  • Method: 采用Arksey和O'Malley的范围综述框架,结合文献综述和临床医生调查,分析MedVQA的现状和临床需求。
  • Result: 研究发现60%的问答对缺乏临床相关性,数据集和模型不支持多视图、多分辨率成像或电子健康记录(EHR)集成,且评估指标与临床需求不匹配。临床医生调查显示仅29.8%认为MedVQA高度有用。
  • Conclusion: MedVQA具有潜力,但需解决多模态分析不足、缺乏患者背景和评估方法不匹配等问题,以实现有效的临床整合。

[84] Improving MLLM's Document Image Machine Translation via Synchronously Self-reviewing Its OCR Proficiency

Yupu Liang,Yaping Zhang,Zhiyang Zhang,Zhiyuan Chen,Yang Zhao,Lu Xiang,Chengqing Zong,Yu Zhou

Main category: cs.CL

TL;DR: 论文提出了一种名为同步自审(SSR)的新微调范式,旨在解决多模态大语言模型(MLLMs)在文档图像机器翻译(DIMT)任务中遗忘单语OCR能力的问题。SSR通过让模型在翻译前生成OCR文本,利用其单语OCR能力,同时学习跨语言翻译。实验表明,SSR能有效减轻灾难性遗忘,提升模型在OCR和DIMT任务上的泛化能力。

  • Motivation: 多模态大语言模型(MLLMs)在文档图像任务中表现优异,但在文档图像机器翻译(DIMT)任务中面临跨模态和跨语言的双重挑战。传统的监督微调(SFT)方法会导致模型遗忘其单语OCR能力。
  • Method: 提出同步自审(SSR)微调范式,受“双语认知优势”启发,让模型在翻译前生成OCR文本,从而结合单语OCR能力和跨语言翻译学习。
  • Result: 实验表明,SSR能有效减轻灾难性遗忘,提升模型在OCR和DIMT任务上的泛化能力。
  • Conclusion: SSR是一种有效的微调范式,能够同时保留和提升MLLMs在OCR和DIMT任务中的能力。

cs.LG

[85] Emergent Natural Language with Communication Games for Improving Image Captioning Capabilities without Additional Data

Parag Dutta,Ambedkar Dukkipati

Main category: cs.LG

TL;DR: 提出了一种名为LoGIC的多智能体强化学习方法,通过无监督学习提升图像描述性能,显著优于现有方法。

  • Motivation: 现有标注数据集已被用于训练大型视觉语言模型(VLMs),改进性能面临挑战,因此探索无监督图像描述成为必要。
  • Method: 使用两个智能体('speaker'和'listener')在合作共同奖励设置中训练,采用GRPO算法,并利用预训练的VLMs和LLMs。
  • Result: 无监督微调后BLEU得分达46,优于基准模型的44;轻量级组件在无监督设置中得31,优于现有方法10分。
  • Conclusion: LoGIC方法在无监督图像描述任务中表现优异,为改进性能提供了新思路。

eess.IV

[86] 3D forest semantic segmentation using multispectral LiDAR and 3D deep learning

Narges Takhtkeshha,Lauris Bocaux,Lassi Ruoppa,Fabio Remondino,Gottfried Mandlburger,Antero Kukko,Juha Hyyppä

Main category: eess.IV

TL;DR: 研究探讨了多光谱LiDAR(MS-LiDAR)技术在森林组分分割中的潜力,通过深度学习模型实现了高精度分割。

  • Motivation: 传统森林资源调查耗时耗力,MS-LiDAR技术能同时获取空间和光谱信息,为自动化森林分割提供高效解决方案。
  • Method: 使用HeliALS系统获取高密度多光谱点云数据,采用三种点云深度学习模型(KPConv、Superpoint Transformer、Point Transformer V3)和一种机器学习模型(随机森林)进行森林组分分割。
  • Result: KPConv模型表现最佳,结合三波长光谱特征后,mIoU和mAcc分别提升了33.73%和32.35%。
  • Conclusion: MS-LiDAR技术在自动化森林组分分割中具有显著潜力,能显著提高分割精度。

[87] Cracking Instance Jigsaw Puzzles: An Alternative to Multiple Instance Learning for Whole Slide Image Analysis

Xiwen Chen,Peijie Qiu,Wenhui Zhu,Hao Wang,Huayu Li,Xuanzhao Dong,Xiaotong Sun,Xiaobing Yu,Yalin Wang,Abolfazl Razi,Aristeidis Sotiras

Main category: eess.IV

TL;DR: 论文提出了一种基于实例拼图任务的新方法,替代传统MIL,通过恢复实例顺序来捕捉空间相关性,在WSI分类和生存预测任务中表现优于现有方法。

  • Motivation: 传统MIL依赖置换不变性,限制了其在WSI中实例间语义相关性的挖掘能力。
  • Method: 提出一种Siamese网络方法,通过学习恢复随机打乱的实例顺序(实例拼图任务)来捕捉空间相关性,理论基于最优传输理论。
  • Result: 在WSI分类和生存预测任务中,该方法优于当前最先进的MIL方法。
  • Conclusion: 通过实例拼图任务捕捉空间相关性是一种更有效的WSI分析方法。

[88] Depth-Sequence Transformer (DST) for Segment-Specific ICA Calcification Mapping on Non-Contrast CT

Xiangjian Hou,Ebru Yaman Akcicek,Xin Wang,Kazem Hashemizadeh,Scott Mcnally,Chun Yuan,Xiaodong Ma

Main category: eess.IV

TL;DR: 论文提出了一种名为Depth-Sequence Transformer (DST)的框架,用于全分辨率CT体积的1D轴向并行概率地标定位,解决了颅内颈动脉钙化(ICAC)分段量化问题。

  • Motivation: 现有ICAC总体积指标忽略了斑块位置的关键影响,而传统3D模型因技术限制无法实现分段量化。
  • Method: 将3D问题重新定义为1D轴向并行概率地标定位任务,使用DST框架处理全分辨率CT切片序列,预测6个独立概率分布以定位关键解剖标志。
  • Result: 在100名患者的临床队列中,DST框架的平均绝对误差为0.1切片,96%预测在±1切片容差内,并在公开基准测试中取得最佳结果。
  • Conclusion: DST框架首次实现了自动化分段ICAC分析,为位置特异性生物标志物的研究奠定了基础。

[89] Raptor: Scalable Train-Free Embeddings for 3D Medical Volumes Leveraging Pretrained 2D Foundation Models

Ulzee An,Moonseong Jeong,Simon A. Lee,Aditya Gorla,Yuzhe Yang,Sriram Sankararaman

Main category: eess.IV

TL;DR: Raptor是一种无需训练的方法,通过利用预训练的2D基础模型和随机投影技术,为医学体积数据生成语义丰富的嵌入,显著降低计算复杂度并保持性能。

  • Motivation: 当前在开发体积成像数据(如MRI)的基础模型时,面临高维训练和大规模数据集构建的计算复杂性挑战。
  • Method: Raptor通过冻结的2D基础模型提取医学体积数据的视觉标记,并使用随机投影进行空间压缩,减少计算复杂度。
  • Result: 在十项医学体积任务中,Raptor性能优于现有方法(提升3%-14%),且无需训练。
  • Conclusion: Raptor是一种高效且通用的方法,为医学体积数据的深度学习提供了新基础。