Skip to content
每日arXiv - 2025年7月28日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Quantum-Cognitive Tunnelling Neural Networks for Military-Civilian Vehicle Classification and Sentiment Analysis

Milan Maksimovic,Anna Bohdanets,Immaculate Motsi-Omoijiade,Guido Governatori,Ivan S. Maksymov

Main category: cs.CV

TL;DR: 论文提出了一种基于量子隧穿(QT)的神经网络模型,用于区分军事和民用车辆图像及情感分析,并探讨其在战场场景中的应用。

  • Motivation: 探索量子隧穿概率在神经网络中的应用,以提升对模糊对象和情感的识别能力,特别是在军事场景中。
  • Method: 采用新型QT神经网络模型,评估其在定制CIFAR格式图像和军事专用词汇情感分析中的表现。
  • Result: QT模型在区分军事与民用车辆及情感分析中表现出色,有望提升战场多模态AI应用。
  • Conclusion: QT模型能增强AI在战场场景中的推理能力,特别是在无人机作战中模拟人类思维。

[2] Livatar-1: Real-Time Talking Heads Generation with Tailored Flow Matching

Haiyang Liu,Xiaolin Hong,Xuancheng Yang,Yudi Ruan,Xiang Lian,Michael Lingelbach,Hongwei Yi,Wei Li

Main category: cs.CV

TL;DR: Livatar是一个实时音频驱动的说话头部视频生成框架,解决了现有基线在唇同步精度和长期姿态漂移上的问题。

  • Motivation: 现有基线在唇同步精度和长期姿态漂移方面表现不佳,Livatar旨在解决这些问题。
  • Method: 采用基于流匹配的框架,并结合系统优化。
  • Result: 在HDTF数据集上达到8.50的LipSync Confidence,单A10 GPU上实现141 FPS和0.17秒端到端延迟。
  • Conclusion: Livatar为高保真虚拟形象提供了更广泛的应用可能性。

[3] Features extraction for image identification using computer vision

Venant Niyonkuru,Sylla Sekou,Jimmy Jackson Sinzinkayo

Main category: cs.CV

TL;DR: 研究比较了计算机视觉中的多种特征提取技术,重点分析了Vision Transformers(ViTs)及其优于传统卷积神经网络(CNNs)的性能。

  • Motivation: 探讨不同特征提取技术的优缺点,尤其是ViTs在计算机视觉中的潜力。
  • Method: 分析了ViTs的架构(如patch embedding、positional encoding和多头自注意力机制),并与其他方法(如GANs、SIFT等)进行对比。
  • Result: 实验结果表明ViTs在某些方面优于传统CNNs,但也存在局限性。
  • Conclusion: ViTs在计算机视觉中具有广泛应用前景,但仍需进一步研究以克服其局限性。

[4] Adapt, But Don't Forget: Fine-Tuning and Contrastive Routing for Lane Detection under Distribution Shift

Mohammed Abdul Hafeez Khan,Parth Ganeriwala,Sarah M. Lehman,Siddhartha Bhattacharyya,Amy Alvarez,Natasha Neogi

Main category: cs.CV

TL;DR: 论文提出了一种解决车道检测模型在跨数据集分布偏移时灾难性遗忘问题的方法,通过分支微调和动态路由实现高效参数适应。

  • Motivation: 现有车道检测模型在跨数据集分布偏移时表现不佳,导致灾难性遗忘,需要一种参数高效的适应方法。
  • Method: 先训练基础模型,再为目标分布创建分支并微调部分组件,同时保持源分支固定;使用监督对比学习模型动态路由输入。
  • Result: 框架在显著减少参数量的同时,达到了接近最优的F1分数。
  • Conclusion: 该方法有效解决了跨数据集分布偏移问题,实现了参数高效的车道检测模型适应。

[5] Part Segmentation of Human Meshes via Multi-View Human Parsing

James Dickens,Kamyar Hamad

Main category: cs.CV

TL;DR: 该论文提出了一种方法,通过伪地面真值标注和高效采样策略,实现大规模人体网格的顶点级语义分割。

  • Motivation: 结合点云深度学习和人体解析领域,实现无需纹理信息的人体网格语义分割。
  • Method: 开发伪地面真值标注流程,采用窗口化迭代最远点采样和空间填充曲线序列化,结合PointTransformer进行几何分割。
  • Result: 实验验证了方法的有效性和准确性。
  • Conclusion: 该方法成功实现了人体网格的语义分割,为相关领域提供了新思路。

[6] ShrinkBox: Backdoor Attack on Object Detection to Disrupt Collision Avoidance in Machine Learning-based Advanced Driver Assistance Systems

Muhammad Zaeem Shahzad,Muhammad Abdullah Hanif,Bassem Ouni,Muhammad Shafique

Main category: cs.CV

TL;DR: 论文提出了一种针对ML-ADAS的新型后门攻击ShrinkBox,通过缩小边界框来破坏距离估计,攻击成功率高且隐蔽。

  • Motivation: 现有ML-ADAS依赖低成本摄像头和DNN,但存在安全漏洞,尤其是对象检测器的后门攻击未被充分研究。
  • Method: 提出ShrinkBox攻击,通过轻微缩小边界框来干扰距离估计,实验基于YOLOv9m和KITTI数据集。
  • Result: 攻击成功率达96%,仅需4%的污染比例,且下游距离估计的MAE增加3倍以上。
  • Conclusion: ShrinkBox攻击隐蔽且高效,凸显了ML-ADAS安全性的潜在风险。

[7] VGS-ATD: Robust Distributed Learning for Multi-Label Medical Image Classification Under Heterogeneous and Imbalanced Conditions

Zehui Zhao,Laith Alzubaidi,Haider A. Alwzwazy,Jinglan Zhang,Yuantong Gu

Main category: cs.CV

TL;DR: 论文提出了一种名为VGS-ATD的新型分布式学习框架,解决了传统集中式和去中心化学习在隐私、数据异质性、计算效率和可扩展性方面的不足。

  • Motivation: 传统集中式学习存在隐私风险,而去中心化方法(如联邦学习和群体学习)在数据异质性和计算效率上表现不佳。临床环境的动态复杂性需要可扩展的AI系统。
  • Method: 提出VGS-ATD框架,通过分布式学习解决隐私、数据异质性和计算效率问题,并在30个数据集和80个独立标签上验证其性能。
  • Result: VGS-ATD在准确率(92.7%)上优于集中式学习(84.9%)和群体学习(72.99%),计算成本降低50%,且扩展后准确率仅下降1%。
  • Conclusion: VGS-ATD在隐私保护、效率和可扩展性方面表现优异,适用于动态复杂的临床环境。

[8] Fuzzy Theory in Computer Vision: A Review

Adilet Yerkin,Ayan Igali,Elnara Kadyrgali,Maksat Shagyrov,Malika Ziyada,Muragul Muratbekova,Pakizar Shamoi

Main category: cs.CV

TL;DR: 本文探讨了模糊逻辑在计算机视觉中的应用,强调其在处理图像数据中的不确定性、噪声和不精确性方面的作用,并与深度学习方法结合以提升性能。

  • Motivation: 计算机视觉应用广泛,但传统方法在处理不确定性和噪声时存在局限。模糊逻辑因其能够模拟渐进过渡和类人推理,提供了一种有前景的解决方案。
  • Method: 讨论了模糊聚类、模糊推理系统、类型2模糊集和模糊规则决策等关键技术,并探索了模糊逻辑与深度学习(如CNN)的集成。
  • Result: 模糊方法在对象识别、图像分割和特征提取中提供了更灵活和可解释的解决方案,并在医疗影像、自主系统和工业检测等领域有广泛应用。
  • Conclusion: 模糊逻辑与深度学习的结合是未来趋势,尤其是在复杂视觉任务和可解释AI方面具有潜力。

[9] Eyes Will Shut: A Vision-Based Next GPS Location Prediction Model by Reinforcement Learning from Visual Map Feed Back

Ruixing Zhang,Yang Zhang,Tongyu Zhu,Leilei Sun,Weifeng Lv

Main category: cs.CV

TL;DR: 论文提出了一种基于视觉语言模型(VLM)的下一代位置预测方法,通过模拟人类推理方式,结合地图和轨迹图像,实现了更准确的预测。

  • Motivation: 现有位置预测模型缺乏人类基于地图的推理能力,而视觉语言模型的发展为模拟这种推理提供了可能。
  • Method: 提出VGLS方法评估VLM的推理能力,并进一步开发VLMLocPredictor,分两阶段:监督微调任务和基于视觉地图反馈的强化学习。
  • Result: 在四个城市数据集上实验表明,该方法达到SOTA性能,并具有优越的跨城市泛化能力。
  • Conclusion: 通过结合视觉推理和强化学习,该方法显著提升了位置预测的准确性和泛化能力。

[10] Gen-AI Police Sketches with Stable Diffusion

Nicholas Fidalgo,Aaron Contreras,Katherine Harvey,Johnny Ni

Main category: cs.CV

TL;DR: 研究了多模态AI驱动的嫌疑人素描自动化方法,比较了三种模型,发现基础模型(Model 1)在结构相似性和信噪比上表现最佳。

  • Motivation: 探索如何利用多模态AI技术提升嫌疑人素描的自动化水平和质量。
  • Method: 开发并评估了三种模型:基础Stable Diffusion模型、结合CLIP的模型,以及引入LoRA微调CLIP的新方法。
  • Result: Model 1在SSIM(0.72)和PSNR(25 dB)上表现最优,而Model 3在感知相似性上有所改进。
  • Conclusion: 基础模型(Model 1)在素描生成中表现最稳健,尽管方法简单,但效果最佳。

[11] Advancing Vision-based Human Action Recognition: Exploring Vision-Language CLIP Model for Generalisation in Domain-Independent Tasks

Sanyam Jain,Marsha Mariya Kappan,Vijeta Sharma

Main category: cs.CV

TL;DR: 论文探讨了CLIP模型在UCF-101数据集上的动作识别表现,通过三种掩码策略分析其局限性,并提出通过类特定噪声增强模型性能的方法。

  • Motivation: 传统模型(如CNN和RNN)在复杂动作识别中泛化能力不足,而基于视觉-语言的CLIP模型有望提升性能,但其在实际应用中的表现仍需验证。
  • Method: 在UCF-101数据集上评估CLIP模型,采用三种掩码策略(百分比/形状掩码、特征特定掩码和隔离掩码),并提出通过类特定噪声增强模型。
  • Result: CLIP在视觉线索被遮挡时表现不一致且易误分类,加入类特定噪声后分类准确率和模型信心提升,同时减少偏差。
  • Conclusion: CLIP在临床应用中仍面临挑战,未来需改进以提升跨领域医疗场景的泛化能力。

[12] HeartUnloadNet: A Weakly-Supervised Cycle-Consistent Graph Network for Predicting Unloaded Cardiac Geometry from Diastolic States

Siyu Mu,Wei Xuan Chan,Choon Hwai Yap

Main category: cs.CV

TL;DR: HeartUnloadNet是一种深度学习框架,用于直接从舒张末期网格预测心脏的无负载几何形状,结合生物物理先验,显著提高了计算效率和准确性。

  • Motivation: 无负载心脏几何形状是心脏生物力学建模的关键参考,但传统方法计算成本高且复杂。
  • Method: 采用图注意力架构和循环一致性策略,结合生理参数,实现双向预测和部分自监督学习。
  • Result: 在20,700个有限元模拟上测试,精度达亚毫米级,计算速度快10^5倍,且仅需少量训练样本。
  • Conclusion: HeartUnloadNet为传统逆有限元求解器提供了高效、准确的替代方案,支持实时临床应用。

[13] Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting

Xingyu Miao,Haoran Duan,Quanhao Qian,Jiuniu Wang,Yang Long,Ling Shao,Deli Zhao,Ran Xu,Gongjie Zhang

Main category: cs.CV

TL;DR: 提出了一种将单视图图像转换为多模态3D表示的自动化流水线,解决了3D数据稀缺问题,并生成了两个数据集。

  • Motivation: 3D数据稀缺且获取成本高,而2D图像资源丰富,需要一种方法将2D图像转换为3D表示以满足空间智能的需求。
  • Method: 通过集成深度估计、相机校准和尺度校准,将单视图图像转换为点云、相机姿态、深度图和伪RGBD等多模态3D表示。
  • Result: 生成了COCO-3D和Objects365-v2-3D两个数据集,实验表明生成的数据可提升多种3D任务的性能。
  • Conclusion: 该流水线为开发具备空间感知能力的AI系统提供了高效解决方案,降低了数据收集成本。

[14] SaLF: Sparse Local Fields for Multi-Sensor Rendering in Real-Time

Yun Chen,Matthew Haines,Jingkang Wang,Krzysztof Baron-Lis,Sivabalan Manivasagam,Ze Yang,Raquel Urtasun

Main category: cs.CV

TL;DR: SaLF是一种新型体积表示方法,支持光栅化和光线追踪,适用于多传感器模拟,具有快速训练和渲染能力。

  • Motivation: 解决现有NeRF和3DGS方法在训练速度、渲染效率及多传感器支持上的局限性。
  • Method: 提出Sparse Local Fields (SaLF),使用稀疏3D体素基元表示体积,每个体素为局部隐式场。
  • Result: SaLF训练时间短(<30分钟),渲染速度快(相机50+ FPS,LiDAR 600+ FPS),支持非针孔相机和旋转LiDAR。
  • Conclusion: SaLF在保持真实感的同时提高了效率和功能,适用于更广泛的自动驾驶传感器模拟。

[15] KuiSCIMA v2.0: Improved Baselines, Calibration, and Cross-Notation Generalization for Historical Chinese Music Notations in Jiang Kui's Baishidaoren Gequ

Tristan Repolusk,Eduardo Veas

Main category: cs.CV

TL;DR: 该论文针对历史中国乐谱(如俗字谱和律吕谱)的光学音乐识别(OMR)问题,提出了一种改进的字符识别模型,显著降低了错误率,并扩展了数据集。

  • Motivation: 解决历史中国乐谱识别中数据不平衡和训练数据不足的挑战,推动文化遗产的数字化和可访问性。
  • Method: 开发了针对稀缺不平衡数据的字符识别模型,采用温度缩放技术校准模型,并使用留一版本交叉验证确保鲁棒性。
  • Result: 将俗字谱的字符错误率从10.4%降至7.1%,律吕谱的错误率低至0.9%,优于人工转录。
  • Conclusion: 该研究提升了历史中国音乐的数字化水平,扩展了OMR在非主流音乐传统中的应用。

[16] SAR-TEXT: A Large-Scale SAR Image-Text Dataset Built with SAR-Narrator and Progressive Transfer Learning

Xinjun Cheng,Yiguo He,Junjie Zhu,Chunping Qiu,Jun Wang,Qiangjuan Huang,Ke Yang

Main category: cs.CV

TL;DR: 本文介绍了SAR-Text数据集和SAR-Narrator框架,用于提升SAR图像的语义理解能力,并在多个视觉语言任务中验证了其有效性。

  • Motivation: SAR图像在遥感中至关重要,但缺乏大规模高质量的图像-文本数据集,限制了其语义理解能力。
  • Method: 构建SAR-Text数据集(13万对图像-文本),设计SAR-Narrator框架通过多阶段迁移学习生成文本描述。
  • Result: 在检索、描述和问答任务中,SAR-RS-CLIP、SAR-RS-CoCa和SAR-GPT模型表现显著优于基线,提升了多项指标。
  • Conclusion: SAR-Text和SAR-Narrator为SAR图像的语义理解提供了有效工具,并展示了在多个任务中的潜力。

[17] Learning Efficient and Generalizable Human Representation with Human Gaussian Model

Yifan Liu,Shengjun Zhang,Chensheng Dai,Yang Chen,Hao Liu,Chen Li,Yueqi Duan

Main category: cs.CV

TL;DR: 提出了一种基于双图层结构(Human Gaussian Graph)的方法,通过关联高斯分布与SMPL网格顶点,实现可动画的人体建模。

  • Motivation: 传统方法需要逐实例优化,而现有前馈方法未能充分捕捉不同时间点高斯分布之间的关系。
  • Method: 构建双图层结构(高斯层和网格顶点层),提出节点内操作(聚合高斯)和节点间操作(传递信息)。
  • Result: 在新视角合成和新姿势动画任务中表现出高效性和泛化能力。
  • Conclusion: Human Gaussian Graph方法有效解决了现有方法在建模可动画人体时的局限性。

[18] Diffusion-FS: Multimodal Free-Space Prediction via Diffusion for Autonomous Driving

Keshav Gupta,Tejas S. Stanley,Pranjal Paul,Arun K. Singh,K. Madhava Krishna

Main category: cs.CV

TL;DR: 论文提出了一种基于单目摄像头的自监督方法,用于预测可驾驶自由空间走廊,通过扩散模型和轮廓点去噪实现结构化预测。

  • Motivation: 现有方法依赖BEV表示,难以获取;而单目摄像头输入缺乏对应的自由空间走廊数据。
  • Method: 利用未来自车轨迹和前置摄像头图像生成自监督样本,采用ContourDiff扩散模型基于轮廓点去噪。
  • Result: 在nuScenes和CARLA数据集上验证了方法的有效性,能准确预测多模态可导航走廊。
  • Conclusion: 提出的方法无需BEV表示,通过自监督和扩散模型实现了高效且可解释的自由空间预测。

[19] Tell Me What You See: An Iterative Deep Learning Framework for Image Captioning

Hitesh Kumar Gupta

Main category: cs.CV

TL;DR: 论文通过迭代开发从简单CNN-LSTM到高级注意力模型的图像描述系统,验证了注意力机制的重要性,最终模型Nexus在MS COCO 2017数据集上取得BLEU-4 31.4分。

  • Motivation: 探索图像描述任务中视觉和语言结合的核心架构原则,验证注意力机制的必要性。
  • Method: 从CNN-LSTM逐步迭代到带动态注意力机制的EfficientNetV2B3模型,共开发五个模型。
  • Result: Nexus模型在MS COCO 2017上BLEU-4达31.4,超越多个基准。
  • Conclusion: 注意力机制对性能提升至关重要,研究为视觉语言任务提供了清晰的架构设计蓝图。

[20] Deepfake Detection Via Facial Feature Extraction and Modeling

Benjamin Carter,Nathan Dilla,Micheal Callahan,Atuhaire Ambala

Main category: cs.CV

TL;DR: 论文提出了一种仅使用面部特征点进行深度伪造检测的方法,通过识别面部运动中的细微不一致性,而非直接处理图像数据,取得了良好的效果。

  • Motivation: 随着深度伪造技术的发展,区分真实与伪造媒体变得更具挑战性,需要新的检测方法。现有方法多依赖直接图像处理,本文探索了一种基于面部特征点的替代方案。
  • Method: 通过提取面部特征点,识别面部运动中的不一致性,并在三种神经网络模型(RNN、ANN、CNN)上进行测试。
  • Result: 实验结果显示,RNN和ANN模型的准确率分别为96%和93%,CNN模型为78%,表明该方法具有实际应用潜力。
  • Conclusion: 研究挑战了直接图像处理的必要性,提出了一种更高效的面部特征提取方法,适用于多种神经网络模型。

[21] Flow Stochastic Segmentation Networks

Fabio De Sousa Ribeiro,Omar Todd,Charles Jones,Avinash Kori,Raghav Mehta,Ben Glocker

Main category: cs.CV

TL;DR: Flow-SSN是一种生成式分割模型,通过离散时间和连续时间流变体解决传统方法的低秩参数化限制,能高效估计高秩像素协方差,并在医学影像基准测试中取得最佳效果。

  • Motivation: 解决传统分割模型在低秩参数化上的局限性,提升分割任务的效率和表达能力。
  • Method: 提出Flow-SSN模型家族,包括离散时间自回归和连续时间流变体,通过分配更多模型容量学习基础分布,形成强表达先验。
  • Result: 在医学影像基准测试中达到最优性能,且采样效率高于标准扩散模型。
  • Conclusion: Flow-SSN通过高效的高秩协方差估计和强表达先验,成为分割任务中的先进方法。

[22] PTCMIL: Multiple Instance Learning via Prompt Token Clustering for Whole Slide Image Analysis

Beidi Zhao,SangMook Kim,Hao Chen,Chen Zhou,Zu-hua Gao,Gang Wang,Xiaoxiao Li

Main category: cs.CV

TL;DR: PTCMIL是一种基于提示令牌聚类的新型ViT方法,用于解决WSI分析中MIL方法的局限性,通过动态聚类和任务对齐提升性能。

  • Motivation: 现有MIL方法在处理WSI的复杂性和异质性时表现不足,ViT和聚类方法计算成本高且无法捕捉任务和切片特异性。
  • Method: PTCMIL在ViT中引入可学习的提示令牌,将聚类和预测任务端到端统一,动态对齐聚类与下游任务,并通过投影聚类和原型池化高效捕获任务相关模式。
  • Result: 在八个数据集上的实验显示,PTCMIL在分类和生存分析任务中优于现有方法,并通过消融研究验证了其鲁棒性和可解释性。
  • Conclusion: PTCMIL通过动态聚类和任务对齐显著提升了WSI分析的性能,同时保持了高效性和可解释性。

[23] Phoneme-Level Visual Speech Recognition via Point-Visual Fusion and Language Model Reconstruction

Matthew Kit Khinn Teng,Haibo Zhang,Takeshi Saitoh

Main category: cs.CV

TL;DR: 论文提出了一种基于音素的两阶段视觉自动语音识别(V-ASR)框架,结合视觉和面部特征,并通过LLM模型重构单词,显著降低了错误率。

  • Motivation: 解决现有V-ASR方法因视觉音素(viseme)模糊性和数据需求大而导致的错误率高的问题。
  • Method: 采用两阶段框架:第一阶段通过V-ASR预测音素并提取面部特征;第二阶段使用NLLB模型将音素重构为单词。
  • Result: 在LRS2和LRS3数据集上分别实现了17.4%和21.0%的词错误率(WER)。
  • Conclusion: 提出的PV-ASR方法通过音素预测和LLM重构,显著提升了视觉语音识别的性能。

[24] Transferable and Undefendable Point Cloud Attacks via Medial Axis Transform

Keke Tang,Yuze Gao,Weilong Peng,Xiaofei Wang,Meie Fang,Peican Zhu

Main category: cs.CV

TL;DR: MAT-Adv是一种新的对抗攻击框架,通过扰动点云的中轴变换(MAT)表示,提升对抗样本的迁移性和不可防御性。

  • Motivation: 现有对抗攻击方法在白盒设置下效果有限,迁移性和对抗防御能力不足,需改进。
  • Method: 使用自编码器将点云投影为MAT表示,扰动这些表示以引入结构级对抗特征,并采用dropout策略优化扰动。
  • Result: MAT-Adv在迁移性和不可防御性上显著优于现有方法。
  • Conclusion: MAT-Adv通过扰动MAT表示,有效提升了对抗攻击的迁移性和不可防御性。

[25] Perspective from a Higher Dimension: Can 3D Geometric Priors Help Visual Floorplan Localization?

Bolei Chen,Jiaxu Kang,Haonan Yang,Ping Zhong,Jianxin Wang

Main category: cs.CV

TL;DR: 论文提出了一种通过引入3D几何先验来解决2D平面图定位问题的方法,利用多视角约束和自监督对比学习,显著提升了定位精度。

  • Motivation: 由于平面图是建筑物结构的简化表示,视觉感知与平面图之间的模态和几何差异导致现有方法在频繁视觉变化和遮挡情况下定位误差较大。
  • Method: 通过多视角约束建模几何感知的视角不变性,并结合场景表面重建与RGB帧的关联,增强跨模态几何-颜色对应关系,采用自监督对比学习建模3D先验。
  • Result: 实验表明,该方法显著优于现有技术,大幅提升了平面图定位的准确性,且未增加计算负担。
  • Conclusion: 通过引入3D几何先验,成功解决了模态差异问题,提升了定位性能,数据与代码将在匿名评审后公开。

[26] Synthetic-to-Real Camouflaged Object Detection

Zhihao Luo,Luojun Lin,Zheng Lin

Main category: cs.CV

TL;DR: 论文提出了一种名为S2R-COD的新任务,通过合成数据与少量未标注真实数据结合,提升模型在真实场景中的性能。提出的CSRDA框架利用伪标签和一致性正则化,缩小域间差距。

  • Motivation: 由于数据收集和标注成本高,伪装目标检测(COD)的数据集较少,特别是某些特定类别。合成数据可以缓解数据不足问题,但直接使用合成数据训练会导致性能下降。
  • Method: 提出CSRDA框架,基于师生模型,通过伪标签和一致性正则化将类别信息从标注的源域传播到未标注的目标域,并利用循环学习框架缩小域内差距。
  • Result: 实验证明CSRDA框架有效缓解了COD中数据不足和手工标注的问题。
  • Conclusion: CSRDA框架通过合成数据与真实数据的结合,显著提升了模型在真实场景中的性能。

[27] HQ-SMem: Video Segmentation and Tracking Using Memory Efficient Object Embedding With Selective Update and Self-Supervised Distillation Feedback

Elham Soltani Kazemi,Imad Eddine Toubal,Gani Rahmon,Jaired Collins,K. Palaniappan

Main category: cs.CV

TL;DR: HQ-SMem通过结合SAM-HQ和智能内存机制,提升了视频对象分割的精度和效率,解决了现有模型的多个局限性。

  • Motivation: 现有视频对象分割模型在精确掩码划分、变形对象处理、长视频序列等方面表现不足,需要改进。
  • Method: 结合SAM-HQ优化掩码边界,动态智能内存机制优化存储,动态更新外观模型处理复杂变化。
  • Result: 在多个数据集上表现优异,尤其在长视频和复杂场景中表现突出。
  • Conclusion: HQ-SMem显著提升了视频对象分割的性能,适用于复杂场景和长视频处理。

[28] Gaussian Set Surface Reconstruction through Per-Gaussian Optimization

Zhentao Huang,Di Wu,Zhenbang He,Minglun Gong

Main category: cs.CV

TL;DR: GSSR方法通过均匀分布高斯并优化几何对齐,显著提升了3D高斯溅射的几何精度,同时保持了高质量的渲染性能。

  • Motivation: 现有3D高斯溅射方法(如3DGS和PGSR)在几何重建上存在不足,高斯分布不均匀且偏离潜在表面,影响了重建和场景编辑。
  • Method: 提出GSSR方法,通过单视角和多视角一致性优化高斯分布,引入不透明度正则化损失和周期性高斯重新初始化。
  • Result: 实验证明GSSR显著提升了高斯放置的几何精度,支持直观场景编辑和高效生成新3D环境。
  • Conclusion: GSSR在几何重建和渲染性能上均表现出色,为高斯溅射方法提供了改进方向。

[29] WiSE-OD: Benchmarking Robustness in Infrared Object Detection

Heitor R. Medeiros,Atif Belal,Masih Aminbeidokhti,Eric Granger,Marco Pedersoli

Main category: cs.CV

TL;DR: 论文提出WiSE-OD方法,通过权重空间集成提升红外图像目标检测的鲁棒性,并引入两个跨模态OOD基准数据集。

  • Motivation: 解决红外图像目标检测中因RGB预训练权重与红外模态差异导致的分布偏移鲁棒性问题。
  • Method: 提出WiSE-OD方法,包括两种变体:WiSE-ODZS和WiSE-ODLP,通过集成RGB零样本和红外微调权重提升鲁棒性。
  • Result: WiSE-OD在不增加训练或推理成本的情况下,显著提升了跨模态和损坏鲁棒性。
  • Conclusion: WiSE-OD为红外目标检测提供了一种高效且鲁棒的解决方案。

[30] MGHFT: Multi-Granularity Hierarchical Fusion Transformer for Cross-Modal Sticker Emotion Recognition

Jian Chen,Yuxuan Hu,Haifeng Lu,Wei Wang,Min Yang,Chengming Li,Xiping Hu

Main category: cs.CV

TL;DR: 提出了一种多粒度层次融合变换器(MGHFT),结合多模态大语言模型,通过多视图描述和层次融合策略提升贴纸情感理解能力,显著优于现有方法。

  • Motivation: 贴纸情感理解依赖多视图信息(如背景知识和风格线索),现有预训练视觉模型难以充分捕捉这些信息。
  • Method: 使用多模态大语言模型生成多视图文本描述,设计层次融合策略将文本信息注入视觉理解,并引入文本引导的注意力机制整合多模态特征。
  • Result: 在公开数据集上显著优于现有方法,F1和准确率分别提升5.4%和4.0%。
  • Conclusion: MGHFT通过多视图文本引导和层次融合,实现了更精细的贴纸情感识别,为多模态情感理解提供了新思路。

[31] PDT: Point Distribution Transformation with Diffusion Models

Jionghao Wang,Cheng Lin,Yuan Liu,Rui Xu,Zhiyang Dou,Xiao-Xiao Long,Hao-Xiang Guo,Taku Komura,Wenping Wang,Xin Li

Main category: cs.CV

TL;DR: PDT是一种基于扩散模型的新框架,用于将无序点云分布转换为语义上有意义的目标分布。

  • Motivation: 解决从非结构化点云中提取有意义结构信息并将其转换为语义分布的问题。
  • Method: 利用扩散模型的新架构和学习策略,通过去噪过程关联源分布和目标分布。
  • Result: 成功将输入点云转换为多种结构化输出,如表面关键点、内部稀疏关节和连续特征线。
  • Conclusion: PDT能够捕捉几何和语义特征,为需要结构化点分布的3D几何处理任务提供了强大工具。

[32] Structure Matters: Revisiting Boundary Refinement in Video Object Segmentation

Guanyi Qin,Ziyue Wang,Daiyun Shen,Haofeng Liu,Hantao Zhou,Junde Wu,Runze Hu,Yueming Jin

Main category: cs.CV

TL;DR: 论文提出了一种名为OASIS的半监督视频对象分割方法,通过边界修正和结构优化模块提升分割精度,同时引入证据学习处理遮挡问题,在多个基准测试中表现优异且速度快。

  • Motivation: 现有基于记忆的方法在处理遮挡和对象交互时表现不佳,且难以满足实时处理需求。
  • Method: 提出轻量级结构优化模块,融合Canny滤波器捕获的边缘先验和存储的对象特征,生成对象级结构图并优化边界特征;引入证据学习处理遮挡区域。
  • Result: 在DAVIS-17和YouTubeVOS 2019验证集上分别达到F值91.6和G值86.6,推理速度为48 FPS。
  • Conclusion: OASIS方法在分割精度和速度上均优于现有方法,适用于实时应用。

[33] PerioDet: Large-Scale Panoramic Radiograph Benchmark for Clinical-Oriented Apical Periodontitis Detection

Xiaocheng Fang,Jieyi Cai,Huanyu Liu,Chengju Zhou,Minhua Lu,Bingzhi Chen

Main category: cs.CV

TL;DR: 该论文发布了首个大规模全景X光片基准数据集“PerioXrays”,并提出了一种结合背景去噪注意力(BDA)和IoU动态校准(IDC)机制的临床导向检测方法PerioDet,显著提升了根尖周炎的自动化诊断效果。

  • Motivation: 根尖周炎是一种常见的口腔疾病,但目前缺乏高质量标注数据集限制了计算机辅助诊断(CAD)的发展。
  • Method: 提出PerioDet方法,结合BDA和IDC机制,解决背景噪声和小目标检测问题。
  • Result: 在PerioXrays数据集上的实验表明,PerioDet显著优于其他方法,并通过人机协作实验验证了其临床适用性。
  • Conclusion: PerioXrays数据集和PerioDet方法为根尖周炎的自动化诊断提供了重要工具,具有临床辅助价值。

[34] YOLO for Knowledge Extraction from Vehicle Images: A Baseline Study

Saraa Al-Saddik,Manna Elizabeth Philip,Ali Haidar

Main category: cs.CV

TL;DR: 该研究评估了三种深度学习模型(YOLO-v11、YOLO-World和YOLO-Classification)在真实世界车辆图像数据集上的表现,发现多视角推理(MVI)能显著提升模型性能。

  • Motivation: 准确识别车辆属性(如品牌、颜色和形状)对执法和情报应用至关重要。
  • Method: 使用三种YOLO变体模型,结合多视角推理(MVI)方法,在包含10万张以上图像的数据集上进行训练和测试。
  • Result: 最佳模型在品牌、形状、颜色和颜色二分类任务上的准确率分别为93.70%、82.86%、85.19%和94.86%。
  • Conclusion: MVI是处理复杂真实数据的关键,YOLO检测模型在品牌和形状提取上优于纯分类模型,且小模型在效率上更具优势。

[35] Underwater Waste Detection Using Deep Learning A Performance Comparison of YOLOv7 to 10 and Faster RCNN

UMMPK Nawarathne,HMNS Kumari,HMLS Kumari

Main category: cs.CV

TL;DR: 研究比较了五种目标识别算法(YOLOv7至YOLOv10和Faster R-CNN)在水下垃圾检测中的表现,发现YOLOv8表现最佳,mAP达80.9%。

  • Motivation: 水下污染是重大环境问题,准确检测垃圾对管理和缓解策略至关重要。
  • Method: 训练和测试五种算法在大数据集上的表现,涵盖15类不同条件。
  • Result: YOLOv8表现最优,得益于其改进的无锚机制和自监督学习。
  • Conclusion: YOLOv8是水下污染检测的有效工具,提升检测能力和可扩展性。

[36] AEDR: Training-Free AI-Generated Image Attribution via Autoencoder Double-Reconstruction

Chao Wang,Kejiang Chen,Zijin Yang,Yaofei Wang,Weiming Zhang

Main category: cs.CV

TL;DR: AEDR是一种无需训练的新型溯源方法,通过双重建和图像同质性校准,显著提高了生成模型图像的溯源准确性和计算效率。

  • Motivation: 随着图像生成技术的快速发展,恶意使用生成模型创建逼真图像的安全问题日益突出,亟需高效的溯源方法。
  • Method: 提出AEDR方法,利用连续自编码器进行双重建,并通过重建损失比和图像同质性校准作为溯源信号。
  • Result: 在八种顶级潜在扩散模型上的实验表明,AEDR比现有方法溯源准确性提高25.5%,计算时间仅需1%。
  • Conclusion: AEDR为生成模型图像溯源提供了一种高效、准确的解决方案,具有实际应用潜力。

[37] UPP: Unified Point-Level Prompting for Robust Point Cloud Analysis

Zixiang Ai,Zhenyu Cui,Yuxin Peng,Jiahuan Zhou

Main category: cs.CV

TL;DR: 提出了一种统一的点级提示方法,通过预测修正向量提示和辅助点提示,提升噪声和不完整点云的分析性能。

  • Motivation: 现有方法在点云增强与下游任务之间存在隔离,且去噪和补全任务目标冲突,限制了性能。
  • Method: 引入修正提示器和补全提示器,结合形状感知模块,统一处理点云去噪和补全。
  • Result: 在四个数据集上验证了方法的优越性和鲁棒性。
  • Conclusion: 该方法在噪声和不完整点云分析中表现优异,代码已开源。

[38] GPSMamba: A Global Phase and Spectral Prompt-guided Mamba for Infrared Image Super-Resolution

Yongsong Huang,Tomo Miyazaki,Xiaofeng Liu,Shinichiro Omachi

Main category: cs.CV

TL;DR: GPSMamba结合自适应语义-频率状态空间模块和热谱注意力与相位一致性损失,解决了红外图像超分辨率中因果建模的局限性,实现了最先进的性能。

  • Motivation: 红外图像超分辨率(IRSR)面临低对比度和稀疏纹理的挑战,需要强大的长程建模能力以保持全局一致性。
  • Method: 提出GPSMamba框架,结合ASF-SSM模块和热谱注意力与相位一致性损失,通过非因果监督指导重建。
  • Result: GPSMamba在实验中表现出色,达到最先进的性能。
  • Conclusion: GPSMamba为红外图像恢复提供了一种有效的新范式。

[39] Enhancing Reward Models for High-quality Image Generation: Beyond Text-Image Alignment

Ying Ba,Tianyu Zhang,Yalong Bai,Wenyi Mo,Tao Liang,Bing Su,Ji-Rong Wen

Main category: cs.CV

TL;DR: 该论文提出了一种新的图像评估方法ICT和HP分数,解决了现有评估框架在细节和美学评分上的不足,显著提高了评分准确性。

  • Motivation: 现有图像生成系统的评估框架未能跟上其发展,导致对细节丰富和高美学价值的图像评分不准确。
  • Method: 设计了ICT分数评估文本-图像对齐度,并训练了HP分数模型以提升图像美学和细节质量。
  • Result: 实验表明,新评估模型比现有方法评分准确性提高10%以上,并能优化文本到图像模型。
  • Conclusion: 该研究为图像生成技术向更高阶人类美学偏好发展提供了理论和实证支持。

[40] MedIQA: A Scalable Foundation Model for Prompt-Driven Medical Image Quality Assessment

Siyi Xun,Yue Sun,Jingkun Chen,Zitong Yu,Tong Tong,Xiaohong Liu,Mingxiang Wu,Tao Tan

Main category: cs.CV

TL;DR: MedIQA是一个用于医学图像质量评估的综合基础模型,旨在处理不同维度、模态和解剖区域的图像,显著优于现有方法。

  • Motivation: 医学成像技术的快速发展需要精确且自动化的图像质量评估(IQA),但现有方法难以适应多样化的模态和临床场景。
  • Method: 开发了一个大规模多模态数据集,并提出了MedIQA模型,结合了显著切片评估模块和自动提示策略。
  • Result: 实验表明,MedIQA在多个下游任务中显著优于基线方法。
  • Conclusion: MedIQA为医学IQA提供了一个可扩展的框架,推动了诊断工作流程和临床决策的进步。

[41] A Survey of Multimodal Hallucination Evaluation and Detection

Zhiyuan Chen,Yuecong Min,Jie Zhang,Bei Yan,Jiahao Wang,Xiaozhen Wang,Shiguang Shan

Main category: cs.CV

TL;DR: 该论文综述了多模态大语言模型(MLLMs)中的幻觉问题,提出了基于忠实性和事实性的幻觉分类,并总结了现有评估基准和检测方法,指出了未来研究方向。

  • Motivation: 多模态大语言模型在整合视觉和文本信息时存在幻觉问题,即生成内容与输入或常识不符,需要系统评估和检测方法。
  • Method: 提出幻觉分类法,综述现有评估基准(包括构建过程、目标和指标)和检测方法,分析其局限性。
  • Result: 总结了当前幻觉评估和检测的现状,指出了基准和方法的关键不足。
  • Conclusion: 未来研究应改进幻觉评估基准和检测方法,以提升多模态模型的可靠性。

[42] A New One-Shot Federated Learning Framework for Medical Imaging Classification with Feature-Guided Rectified Flow and Knowledge Distillation

Yufei Ma,Hanwen Zhang,Qiya Yang,Guibo Luo,Yuesheng Zhu

Main category: cs.CV

TL;DR: 提出了一种改进的单次联邦学习框架,结合特征引导修正流模型和双层知识蒸馏方法,解决了医疗领域中的训练效率低、隐私泄露和非独立同分布数据问题。

  • Motivation: 解决现有生成模型在单次联邦学习中训练效率低、隐私泄露及非独立同分布数据下的收敛问题。
  • Method: 开发了特征引导修正流模型(FG-RF)和双层知识蒸馏(DLKD)聚合方法,前者加速生成建模并保护隐私,后者处理非独立同分布数据。
  • Result: 在三个非独立同分布医疗影像数据集上,新框架比多轮联邦学习方法性能提升21.73%,平均超过基线FedISCA 21.75%。
  • Conclusion: 新框架显著提高了训练效率和隐私保护能力,适用于医疗影像领域的单次联邦学习。

[43] Probing Multimodal Fusion in the Brain: The Dominance of Audiovisual Streams in Naturalistic Encoding

Hamid Abdollahi,Amir Hossein Mansouri Majoumerd,Amir Hossein Bagheri Baboukani,Amir Abolfazl Suratgar,Mohammad Bagher Menhaj

Main category: cs.CV

TL;DR: 论文研究了多模态刺激下大脑活动的预测,发现模型复杂度与泛化能力之间存在权衡,线性模型在分布外数据上表现更优。

  • Motivation: 探索计算神经科学中多模态刺激下大脑活动的预测,并验证模型在全新情境下的泛化能力。
  • Method: 使用先进的视觉(X-CLIP)和听觉(Whisper)特征提取器构建大脑编码模型,并在分布内和分布外数据上进行评估。
  • Result: 高容量注意力模型在分布内数据上表现优异,但线性模型在分布外数据上更稳健,性能提升18%。语言特征未提高预测准确性。
  • Conclusion: 严格的分布外测试对构建稳健的神经AI模型至关重要,模型架构、刺激特性和感官层级共同影响多模态世界的神经编码。

Binxu Li,Yuhui Zhang,Xiaohan Wang,Weixin Liang,Ludwig Schmidt,Serena Yeung-Levy

Main category: cs.CV

TL;DR: 论文提出GR-CLIP方法,解决了对比视觉语言模型(如CLIP)在混合模态搜索中的模态间隙问题,显著提升了性能。

  • Motivation: 混合模态搜索(跨图像、文本和多模态文档检索)是重要但未充分探索的实际应用,现有模型存在模态间隙问题。
  • Method: 提出GR-CLIP,一种轻量级后校准方法,消除CLIP嵌入空间中的模态间隙。
  • Result: 在MixBench基准测试中,GR-CLIP将NDCG@10提升26个百分点,优于生成嵌入模型且计算量减少75倍。
  • Conclusion: GR-CLIP有效解决了模态间隙问题,显著提升了混合模态搜索性能。

[45] ScenePainter: Semantically Consistent Perpetual 3D Scene Generation with Concept Relation Alignment

Chong Xia,Shengjun Zhang,Fangfu Liu,Chang Liu,Khodchaphun Hirunyaratsameewong,Yueqi Duan

Main category: cs.CV

TL;DR: ScenePainter提出了一种解决3D场景生成中语义漂移问题的新框架,通过层次化图结构(SceneConceptGraph)实现语义一致的视图生成。

  • Motivation: 现有方法在生成长序列3D视图时存在语义漂移问题,导致视图序列不一致。
  • Method: 引入SceneConceptGraph层次化图结构,动态优化场景概念关系,指导外推模块生成一致的新视图。
  • Result: 实验表明,ScenePainter能有效避免语义漂移,生成更一致且沉浸的3D视图序列。
  • Conclusion: ScenePainter通过场景概念图提升了3D场景生成的语义一致性和多样性。

[46] Revisiting DETR for Small Object Detection via Noise-Resilient Query Optimization

Xiaocheng Fang,Jieyi Cai,Huanyu Liu,Wenxiu Cai,Yishu Liu,Bingzhi Chen

Main category: cs.CV

TL;DR: 提出了一种新的噪声弹性查询优化(NRQO)范式,结合噪声容忍特征金字塔网络(NT-FPN)和成对相似性区域提议网络(PS-RPN),显著提升了小物体检测性能。

  • Motivation: Transformer-based检测器在小物体检测中仍面临特征金字塔网络的噪声敏感性和标签分配策略中查询质量下降的问题。
  • Method: NRQO结合NT-FPN(通过保留空间和语义信息完整性减少噪声)和PS-RPN(通过位置和形状相似性提升高质量正查询生成)。
  • Result: 在多个基准测试中,NRQO表现优于现有最先进方法。
  • Conclusion: NRQO通过噪声容忍和高质量查询生成,有效解决了小物体检测中的关键挑战。

[47] Negation-Aware Test-Time Adaptation for Vision-Language Models

Haochen Han,Alex Jinpeng Wang,Fangming Liu

Main category: cs.CV

TL;DR: 本文研究了视觉语言模型(VLMs)中较少被触及的否定理解问题,提出了一种低资源消耗的否定感知测试时适应方法(NEAT),以解决现有方法依赖大量数据和计算资源的问题。

  • Motivation: 许多实际应用需要模型明确识别虚假或不存在的内容,但现有VLMs在否定理解上存在明显不足,且传统方法依赖大量数据和计算资源。
  • Method: 提出NEAT方法,通过调整推理过程中与分布相关的参数,减少肯定与否定分布之间的概念偏移。
  • Result: 在多种否定理解任务上的实验验证了NEAT的有效性。
  • Conclusion: NEAT为低资源环境下的否定理解提供了一种高效解决方案。

[48] Cross-Subject Mind Decoding from Inaccurate Representations

Yangyang Xu,Bangzhen Liu,Wenqi Shao,Yong Du,Shengfeng He,Tingting Zhu

Main category: cs.CV

TL;DR: 提出了一种双向自动编码器交织框架,用于解决跨被试fMRI信号解码中的误差累积问题,结合语义和视觉优化模块,显著提升重建质量。

  • Motivation: 现有方法在跨被试映射时因认知差异和误差累积导致重建质量下降,需改进。
  • Method: 提出双向自动编码器交织框架,结合主题偏置调制模块、语义细化模块和视觉一致性模块,并与ControlNet和Stable Diffusion集成。
  • Result: 在基准数据集上定性和定量评估均优于现有方法,且对新被试适应性强。
  • Conclusion: 该框架有效解决了跨被试fMRI解码的误差问题,提升了重建质量和适应性。

[49] SP-Mamba: Spatial-Perception State Space Model for Unsupervised Medical Anomaly Detection

Rui Pan,Ruiying Lu

Main category: cs.CV

TL;DR: SP-Mamba是一种基于空间感知的Mamba框架,用于无监督医学异常检测,通过窗口滑动原型学习和Circular-Hilbert扫描技术,利用医学图像的结构规律性,显著提升了检测性能。

  • Motivation: 医学影像具有高度一致的结构模式,但现有CNN和Transformer方法在长程依赖和计算效率上存在局限,Mamba模型因其长程建模能力和线性计算效率成为有潜力的替代方案。
  • Method: 提出SP-Mamba框架,结合窗口滑动原型学习和Circular-Hilbert扫描技术,利用空间信息和结构特征进行异常检测,并优化异常图的对比特性。
  • Result: 在三个医学异常检测基准测试中,SP-Mamba表现出最先进的性能,验证了其有效性和鲁棒性。
  • Conclusion: SP-Mamba通过结合Mamba模型的优势,显著提升了医学异常检测的准确性和效率,为未来研究提供了新方向。

[50] Multi-Task Dense Prediction Fine-Tuning with Mixture of Fine-Grained Experts

Yangyang Xu,Xi Ye,Duo Su

Main category: cs.CV

TL;DR: 提出了一种细粒度混合专家(FGMoE)架构,通过三项创新和微调方法,解决了多任务学习中共享表示与任务特定专业化之间的平衡问题。

  • Motivation: 多任务学习在密集预测中表现良好,但仍面临共享表示与任务特定专业化之间的平衡挑战。
  • Method: 提出FGMoE架构,包括三项创新:1)任务内专家分解隐藏维度;2)共享专家减少冗余;3)全局专家促进任务间知识转移。同时采用微调方法提高参数效率。
  • Result: FGMoE在参数更少的情况下,显著优于现有MoE多任务模型,在NYUD-v2和PASCAL-Context数据集上表现优异。
  • Conclusion: FGMoE通过细粒度分解和知识共享,有效提升了多任务学习的性能与效率。

[51] MedSymmFlow: Bridging Generative Modeling and Classification in Medical Imaging through Symmetrical Flow Matching

Francisco Caetano,Lemar Abdi,Christiaan Viviers,Amaan Valiuddin,Fons van der Sommen

Main category: cs.CV

TL;DR: MedSymmFlow是一种基于对称流匹配的生成-判别混合模型,用于医学图像分类、生成和不确定性量化,在高分辨率输入下表现优异。

  • Motivation: 在临床高风险环境中,需要准确的预测和可靠的不确定性估计,而传统判别模型无法自然提供不确定性量化。
  • Method: 采用对称流匹配的生成-判别混合模型,结合潜在空间表示和语义掩码条件机制,通过生成采样过程估计不确定性。
  • Result: 在四个MedMNIST数据集上,MedSymmFlow的分类准确率和AUC与基线相当或更优,同时提供可靠的不确定性估计。
  • Conclusion: MedSymmFlow在医学图像分类和不确定性量化方面表现优异,适用于临床高风险场景。

[52] LISA: A Layer-wise Integration and Suppression Approach for Hallucination Mitigation in Multimodal Large Language Models

Zhihui Guo,Xin Man,Hui Xu,Jie Shao

Main category: cs.CV

TL;DR: LISA是一种层次集成与抑制方法,通过分层调制和多层融合减少多模态大语言模型中的物体幻觉问题。

  • Motivation: 多模态大语言模型在视觉语言任务中表现优异,但容易产生物体幻觉(描述图像中不存在的物体)。
  • Method: LISA通过浅层视觉定位、中层语义编码和深层抑制虚假信号的功能层次结构,结合区域特定频谱调制和基于锚的路由融合,提升生成一致性。
  • Result: 实验表明,LISA在CHAIR_I基准上减少幻觉达53.6%,POPE F1提升4.5%,且具有强泛化能力。
  • Conclusion: LISA是一种即插即用的方法,能有效减少物体幻觉并提升模型性能。

[53] Cross Spatial Temporal Fusion Attention for Remote Sensing Object Detection via Image Feature Matching

Abu Sadat Mohammad Salehin Amit,Xiaoli Zhang,Md Masum Billa Shagar,Zhaojun Liu,Xiongfei Li,Fanlong Meng

Main category: cs.CV

TL;DR: 提出了一种跨时空融合(CSTF)机制,通过整合多模态图像中的尺度不变关键点,改进特征匹配,并在HRSC2016和DOTA数据集上达到最优性能。

  • Motivation: 由于多模态图像间存在显著的几何和辐射差异,现有方法难以有效捕捉跨模态相似性。
  • Method: 结合尺度不变关键点检测,利用SoftMax和FCN层将相似性匹配重新定义为分类任务,并通过多区域信息创建对应图。
  • Result: 在HRSC2016和DOTA数据集上分别达到90.99%和90.86%的平均mAP,推理速度为12.5 FPS。
  • Conclusion: CSTF机制显著提升了跨模态特征匹配能力,并直接增强了遥感应用(如目标检测)的性能。

[54] PatchTraj: Dynamic Patch Representation Learning for Time-Frequency Trajectory Prediction

Yanghong Liu,Xingping Dong,Ming Li,Weixing Zhang,Yidong Lou

Main category: cs.CV

TL;DR: PatchTraj是一个动态基于补丁的轨迹预测框架,通过统一时域和频域表示,解决了现有方法在建模人类运动动态和长距离时空依赖方面的不足。

  • Motivation: 现有基于点和网格的方法在建模人类运动动态时存在局限性,无法平衡局部运动细节与长距离时空依赖,且时间表示缺乏与频域的交互。
  • Method: 提出PatchTraj框架,将轨迹分解为原始时间序列和频率分量,采用动态补丁分区进行多尺度分割,通过自适应嵌入层和层次特征聚合建模细粒度和长距离依赖,并通过跨模态注意力融合时域和频域信息。
  • Result: 在ETH-UCY、SDD、NBA和JRDB数据集上的实验表明,PatchTraj实现了最先进的性能和高效率。
  • Conclusion: PatchTraj通过统一时域和频域表示,显著提升了轨迹预测的准确性和效率。

[55] Preserving Topological and Geometric Embeddings for Point Cloud Recovery

Kaiyue Zhou,Zelong Tan,Hongxiao Wang,Ya-li Li,Shengjin Wang

Main category: cs.CV

TL;DR: 论文提出了一种名为TopGeoFormer的端到端架构,通过结合拓扑和几何属性,改进了点云的采样和恢复过程。

  • Motivation: 现有方法难以有效利用点云的拓扑和几何属性,导致采样和恢复效果不佳。
  • Method: 1. 使用连续映射提取拓扑嵌入;2. 提出InterTwining Attention融合拓扑和几何嵌入;3. 引入几何损失和拓扑约束损失优化嵌入。
  • Result: 实验表明,该方法在定量和定性上均显著优于现有方法。
  • Conclusion: TopGeoFormer通过结合拓扑和几何特征,显著提升了点云采样和恢复的性能。

[56] MixA-Q: Revisiting Activation Sparsity for Vision Transformers from a Mixed-Precision Quantization Perspective

Weitian Wang,Rai Shubham,Cecilia De La Parra,Akash Kumar

Main category: cs.CV

TL;DR: MixA-Q是一种混合精度激活量化框架,利用窗口内激活稀疏性提升视觉Transformer的推理效率,支持无损加速或轻微性能损失下的显著加速。

  • Motivation: 通过利用窗口内激活稀疏性,优化量化视觉Transformer的性能与效率权衡。
  • Method: 提出Two-Branch Swin Block,分离高低精度激活处理,兼容QAT和PTQ方法。
  • Result: 在COCO数据集上,PTQ配置下实现1.35倍无损加速;QAT下实现1.25倍无损加速或1.53倍加速(仅1% mAP下降)。
  • Conclusion: MixA-Q通过稀疏感知量化适配,显著减少量化误差,提升低精度模型性能。

[57] Balancing Conservatism and Aggressiveness: Prototype-Affinity Hybrid Network for Few-Shot Segmentation

Tianyu Zou,Shengwu Xiong,Ruilin Yao,Yi Rong

Main category: cs.CV

TL;DR: PAHNet结合原型学习和亲和力学习,通过平衡保守和激进的预测,提升少样本分割性能。

  • Motivation: 现有少样本分割方法中,原型学习预测保守,亲和力学习预测激进,需平衡两者以提高性能。
  • Method: 提出PAHNet,包含原型引导特征增强模块和注意力分数校准模块,结合两种学习方法的优势。
  • Result: 在PASCAL-5^i和COCO-20^i数据集上,PAHNet在1-shot和5-shot设置中表现优于现有方法。
  • Conclusion: PAHNet通过平衡保守与激进信息,有效提升了少样本分割的准确性。

[58] DASH: 4D Hash Encoding with Self-Supervised Decomposition for Real-Time Dynamic Scene Rendering

Jie Chen,Zhangchi Hu,Peixi Wu,Huyue Zhu,Hebei Li,Xiaoyan Sun

Main category: cs.CV

TL;DR: DASH是一个实时动态场景渲染框架,结合4D哈希编码和自监督分解,解决了现有方法中的特征重叠和渲染质量差问题。

  • Motivation: 动态场景重建在3D视觉中是一个长期挑战,现有方法因低秩假设导致特征重叠和渲染质量差,而直接应用4D哈希编码又会导致哈希冲突和冗余。
  • Method: DASH采用自监督分解机制分离动态和静态成分,引入多分辨率4D哈希编码器表示动态元素,并使用时空气滑正则化策略减少不稳定变形。
  • Result: 实验表明,DASH在真实数据集上实现了最先进的动态渲染性能,视觉质量提升,实时速度达264 FPS。
  • Conclusion: DASH通过创新方法解决了动态场景重建中的关键问题,实现了高质量的实时渲染。

[59] Patch Pruning Strategy Based on Robust Statistical Measures of Attention Weight Diversity in Vision Transformers

Yuki Igaue,Hiroaki Aizawa

Main category: cs.CV

TL;DR: 提出一种基于多头自注意力权重方差的补丁剪枝策略,以提高视觉Transformer的计算效率,同时保持分类准确性。

  • Motivation: 多头自注意力在视觉Transformer中性能优越,但计算复杂度高,补丁剪枝是解决这一问题的有效方法。
  • Method: 通过评估多头自注意力权重的方差来确定补丁重要性,并引入重叠补丁嵌入以提升性能。
  • Result: 在保持分类准确性的同时提高了计算吞吐量,且使用稳健统计量(如中位数绝对偏差)也能取得良好效果。
  • Conclusion: 该方法在训练和推理中均适用,为视觉Transformer的高效计算提供了新思路。

[60] Continual Learning-Based Unified Model for Unpaired Image Restoration Tasks

Kotha Kartheek,Lingamaneni Gnanesh Chowdary,Snehasis Mukherjee

Main category: cs.CV

TL;DR: 提出了一种基于持续学习的统一图像修复框架,适用于多种天气条件下的图像恢复,通过选择性核融合层、弹性权重巩固和循环对比损失实现高效修复。

  • Motivation: 现有方法通常针对单一天气条件,而自动驾驶等应用需要统一模型处理多种天气条件下的图像修复。
  • Method: 采用选择性核融合层动态结合全局和局部特征,弹性权重巩固防止任务间遗忘,循环对比损失增强特征区分度。
  • Result: 在去雾、去雪和去雨任务中,PSNR、SSIM和感知质量显著优于现有方法。
  • Conclusion: 提出的统一框架在多天气图像修复中表现出色,减少了对配对训练数据的依赖。

[61] VisHall3D: Monocular Semantic Scene Completion from Reconstructing the Visible Regions to Hallucinating the Invisible Regions

Haoang Lu,Yuanqi Su,Xiaoning Zhang,Longjun Gao,Yu Xue,Le Wang

Main category: cs.CV

TL;DR: VisHall3D是一个两阶段框架,用于单目语义场景补全,通过分解任务为可见区域重建和不可见区域推断,解决了现有方法中的特征纠缠和几何不一致问题。

  • Motivation: 解决现有单目语义场景补全方法中特征纠缠和几何不一致的问题。
  • Method: VisHall3D分为两阶段:1) 使用VisFrontierNet重建可见区域;2) 使用OcclusionMAE推断不可见区域。
  • Result: 在SemanticKITTI和SSCBench-KITTI-360基准测试中表现优异,显著优于现有方法。
  • Conclusion: VisHall3D为自动驾驶等应用提供了更准确可靠的场景理解方法。

[62] Querying Autonomous Vehicle Point Clouds: Enhanced by 3D Object Counting with CounterNet

Xiaoyu Zhang,Zhifeng Bao,Hai Dong,Ziwei Wang,Jiajun Liu

Main category: cs.CV

TL;DR: 论文提出CounterNet,一种基于热图的网络,用于提高大规模点云数据中物体计数的准确性,从而优化查询结果。

  • Motivation: 自动驾驶车辆生成大量点云数据,但现有检测模型在3D点云中计数不准确,导致查询结果误差较大。
  • Method: 提出CounterNet,通过检测物体中心而非精确定位来提高计数准确性,并采用特征图分区和动态模型选择策略。
  • Result: 在三个真实数据集上,CounterNet将计数准确性提高了5%至20%,显著改善了查询结果。
  • Conclusion: CounterNet有效解决了点云数据中物体计数不准确的问题,为自动驾驶数据分析提供了更可靠的查询基础。

[63] PRE-MAP: Personalized Reinforced Eye-tracking Multimodal LLM for High-Resolution Multi-Attribute Point Prediction

Hanbing Wu,Ping Jiang,Anyang Su,Chenxu Zhao,Tianyu Fu,Minghui Wu,Beiping Tan,Huiying Li

Main category: cs.CV

TL;DR: 论文提出SPA-ADV数据集和PRE-MAP模型,通过强化学习优化眼动追踪,解决现有模型忽略主观认知多样性及多模态大语言模型(MLLMs)在点预测任务中的局限性。

  • Motivation: 现有视觉注意力模型和数据集忽视主观认知多样性对注视行为的影响,且传统显著性预测模型无法捕捉个性化注意力模式。MLLMs在多任务点预测中也存在格式和空间精度问题。
  • Method: 提出SPA-ADV数据集(4500+参与者,486视频)和PRE-MAP模型,结合强化学习优化眼动追踪,并引入C-GRPO策略确保MLLMs预测点的格式正确和空间准确。
  • Result: 在SPA-ADV及其他基准测试中验证了方法的有效性。
  • Conclusion: SPA-ADV和PRE-MAP为个性化视觉注意力建模提供了新工具,解决了现有技术的局限性。

[64] Event-Driven Storytelling with Multiple Lifelike Humans in a 3D Scene

Donggeun Lim,Jinseok Bae,Inwoo Hwang,Seungmin Lee,Hwanhee Lee,Young Min Kim

Main category: cs.CV

TL;DR: 提出一个框架,利用大语言模型生成多人类动态场景的上下文运动,通过事件序列和空间引导实现高扩展性。

  • Motivation: 解决多人类动态场景中上下文运动的生成问题,需要全面推理人类与人类、人类与场景的动态关系。
  • Method: 1. 使用大语言模型解析文本输入;2. 将任务分解为子问题;3. 事件生成器将动态场景分解为小事件序列;4. 空间引导采样生成角色运动。
  • Result: 框架能有效捕捉场景上下文,具有高扩展性,并通过基准测试和用户研究验证。
  • Conclusion: 该框架首次在大规模和多样性上解决了多人类动态场景生成问题,提供了基准和开源代码。

[65] CoopTrack: Exploring End-to-End Learning for Efficient Cooperative Sequential Perception

Jiaru Zhong,Jiahao Wang,Jiahui Xu,Xiaofan Li,Zaiqing Nie,Haibao Yu

Main category: cs.CV

TL;DR: CoopTrack是一个端到端的实例级协作跟踪框架,通过稀疏实例级特征传输提升感知能力,并在V2X-Seq数据集上取得最佳性能。

  • Motivation: 解决单车辆自动驾驶系统的局限性,探索协作顺序感知任务(如协作3D多目标跟踪)。
  • Method: 提出CoopTrack框架,包含可学习的实例关联、多维特征提取和跨代理关联与聚合。
  • Result: 在V2X-Seq数据集上达到39.0% mAP和32.8% AMOTA,性能最优。
  • Conclusion: CoopTrack通过高效特征传输和关联机制,显著提升了协作感知能力。

[66] BridgeNet: A Unified Multimodal Framework for Bridging 2D and 3D Industrial Anomaly Detection

An Xiang,Zixuan Huang,Xitong Gao,Kejiang Ye,Cheng-zhong Xu

Main category: cs.CV

TL;DR: 提出了一种统一的多模态异常检测框架,解决了2D信息不足以识别3D深度异常的问题,通过分离深度和外观信息,并生成丰富的异常样本,提升了性能。

  • Motivation: 由于2D信息无法充分表示3D深度异常,且多模态信息之间存在差异,工业数据中异常样本稀缺,需要一种新的方法来统一处理多模态异常检测。
  • Method: 从3D点云数据中提取可见深度信息,并用2D RGB图像表示外观;提出多尺度高斯异常生成器和统一纹理异常生成器;所有模块共享RGB和深度数据的参数。
  • Result: 在MVTec-3D AD和Eyecandies数据集上优于现有方法。
  • Conclusion: 提出的框架有效统一了2D和3D异常检测,通过生成异常样本和共享参数,显著提升了性能。

[67] OVFact: Measuring and Improving Open-Vocabulary Factuality for Long Caption Models

Monika Wysoczańska,Shyamal Buch,Anurag Arnab,Cordelia Schmid

Main category: cs.CV

TL;DR: OV-Fact是一种无需人工标注的方法,通过开放词汇视觉定位和工具验证来评估长描述的事实性,提升与人类判断的一致性,并支持基于事实性的数据过滤。

  • Motivation: 大型视觉语言模型(VLMs)在生成长且事实性强的描述时表现不佳,而传统评估方法不适用于长描述或无人工标注的场景。
  • Method: 利用开放词汇视觉定位和工具验证,设计了一种无需参考的评估方法OV-Fact,同时衡量描述性和事实精确性。
  • Result: 在减少2.5-5倍数据量的情况下,OV-Fact过滤的数据集训练模型在长描述任务中显著提升事实精确性而不损失描述性。
  • Conclusion: OV-Fact为长描述的事实性评估和数据过滤提供了有效解决方案,适用于无人工标注的场景。

[68] SimMLM: A Simple Framework for Multi-modal Learning with Missing Modality

Sijie Li,Chen Chen,Jungong Han

Main category: cs.CV

TL;DR: SimMLM是一个简单而强大的多模态学习框架,适用于模态缺失场景,通过动态混合模态专家(DMoME)和MoFe排序损失实现高准确性和鲁棒性。

  • Motivation: 现有方法依赖复杂网络架构或数据填补技术,SimMLM旨在提供通用且高效的解决方案,适应不同模态缺失情况。
  • Method: 采用动态混合模态专家(DMoME)架构和MoFe排序损失,动态调整模态贡献,确保任务准确性随模态增加而提升或保持稳定。
  • Result: 在BraTS 2018、UPMC Food-101和avMNIST任务中,SimMLM表现优于竞争方法,具有更高的准确性、可解释性和鲁棒性。
  • Conclusion: SimMLM为多模态学习提供了一种通用、高效的解决方案,尤其在模态缺失场景下表现优异。

[69] Video Self-Distillation for Single-Image Encoders: A Step Toward Physically Plausible Perception

Marcel Simon,Tae-Ho Kim,Seul-Ki Yeom

Main category: cs.CV

TL;DR: 论文提出了一种通过视频自蒸馏训练的单图像编码器,利用时间线索提升视觉特征学习,无需光流或跟踪。

  • Motivation: 现有自监督学习方法主要基于静态图像,忽略了视频中的时间线索,限制了特征的时空感知能力。
  • Method: 通过训练单图像编码器预测下一帧的表征,注入3D时空先验,无需复杂的光流或跟踪技术。
  • Result: 在ADE20K数据集上,mIoU从35.0提升至36.4,同时保持与图像管道的兼容性。
  • Conclusion: 视频自蒸馏是一种轻量级方法,可增强几何感知能力,为物理AI和世界模型提供支持。

[70] RemoteReasoner: Towards Unifying Geospatial Reasoning Workflow

Liang Yao,Fan Liu,Hongbo Lu,Chuanyi Zhang,Rui Min,Shengxiang Xu,Shimin Di,Pai Peng

Main category: cs.CV

TL;DR: 论文提出了一种名为RemoteReasoner的遥感推理工作流,通过多模态大语言模型和强化学习实现自主推理,支持多粒度输出。

  • Motivation: 现有遥感方法依赖监督微调,限制了推理的自主性,无法满足复杂查询的需求。
  • Method: 结合多模态大语言模型(MLLM)和强化学习(RL),设计任务适应策略以生成多粒度输出。
  • Result: RemoteReasoner在多粒度推理任务中表现优异,支持区域级和像素级任务,并实现轮廓提取等新能力。
  • Conclusion: RemoteReasoner为遥感推理提供了灵活且强大的解决方案,扩展了现有方法的局限性。

[71] PINO: Person-Interaction Noise Optimization for Long-Duration and Customizable Motion Generation of Arbitrary-Sized Groups

Sakuya Ota,Qing Yu,Kent Fujiwara,Satoshi Ikehata,Ikuro Sato

Main category: cs.CV

TL;DR: PINO是一种无需训练的框架,通过分解复杂群体交互为成对交互,利用预训练的双人交互扩散模型生成逼真的群体交互,并引入物理惩罚避免重叠或穿透。

  • Motivation: 现有方法依赖单一共享提示,限制了群体交互的精细控制和逼真性。
  • Method: PINO将群体交互分解为语义相关的成对交互,利用预训练的双人交互扩散模型逐步生成,并通过物理惩罚优化噪声。
  • Result: PINO生成逼真、物理一致且可定制的多人交互,适用于动画、游戏和机器人应用。
  • Conclusion: PINO提供了一种无需训练的高效方法,显著提升了群体交互的逼真性和可控性。

[72] ABCD: Automatic Blood Cell Detection via Attention-Guided Improved YOLOX

Ahmed Endris Hasen,Yang Shangming,Chiagoziem C. Ukwuoma,Biniyam Gashaw,Abel Zenebe Yutra

Main category: cs.CV

TL;DR: 提出了一种基于改进YOLOX的自动血细胞检测方法(ABCD),通过引入CBAM和ASFF模块优化特征提取与融合,并使用CIOU损失函数加速收敛,在BCCD数据集上表现优于现有方法。

  • Motivation: 手动血细胞检测耗时、低效且易出错,深度学习目标检测可提供高效解决方案。
  • Method: 改进YOLOX,引入CBAM增强特征提取,ASFF优化特征融合,CIOU损失函数加速收敛。
  • Result: 在BCCD数据集上,mAP@0.5达95.49%,mAP@0.5-0.9达86.89%,检测速度提升2.9%。
  • Conclusion: ABCD方法高效且适用于实时应用,显著提升了血细胞检测的准确性和速度。

[73] Multistream Network for LiDAR and Camera-based 3D Object Detection in Outdoor Scenes

Muhammad Ibrahim,Naveed Akhtar,Haitian Wang,Saeed Anwar,Ajmal Mian

Main category: cs.CV

TL;DR: 提出了一种多流检测网络(MuStD),通过融合LiDAR和RGB数据提升户外3D物体检测精度,并在KITTI基准测试中取得领先结果。

  • Motivation: 解决户外3D物体检测中LiDAR和RGB数据融合的挑战,提升检测精度。
  • Method: 采用三流结构:LiDAR-PillarNet提取稀疏2D支柱特征,LiDAR-Height Compression计算鸟瞰图特征,3D Multimodal流通过UV映射和极坐标索引融合RGB与LiDAR特征。
  • Result: 在KITTI基准测试中达到新最优或极具竞争力的结果,同时保持高效性。
  • Conclusion: MuStD网络通过多模态特征融合有效提升了户外3D物体检测性能。

[74] SIDE: Sparse Information Disentanglement for Explainable Artificial Intelligence

Viktar Dubovik,Łukasz Struski,Jacek Tabor,Dawid Rymarczyk

Main category: cs.CV

TL;DR: SIDE是一种新方法,通过稀疏训练和剪枝方案提高原型部分的解释性,减少解释规模90%以上,同时保持准确性。

  • Motivation: 深度学习模型在高风险领域缺乏透明度,现有原型方法解释复杂或仅限于细粒度任务。
  • Method: SIDE采用稀疏训练和剪枝方案,结合sigmoid激活函数,使每个类仅关联少量相关原型。
  • Result: 实验表明,SIDE在保持准确性的同时,将解释规模减少90%以上。
  • Conclusion: SIDE显著提升了原型解释的可理解性,适用于大规模数据集。

[75] EffiComm: Bandwidth Efficient Multi Agent Communication

Melih Yazgan,Allen Xavier Arasan,J. Marius Zöllner

Main category: cs.CV

TL;DR: EffiComm是一个端到端框架,通过选择性传输和自适应网格减少技术,显著降低数据传输量,同时保持高精度的3D物体检测。

  • Motivation: 解决车辆间通信中传输原始点云或完整特征图导致的高延迟和可扩展性问题。
  • Method: 采用两阶段减少管道:选择性传输(ST)和自适应网格减少(AGR),结合软门控混合专家(MoE)注意力层进行特征融合。
  • Result: 在OPV2V基准测试中,EffiComm达到0.84 mAP@0.7,每帧仅传输约1.5 MB数据。
  • Conclusion: EffiComm展示了自适应学习通信在可扩展的V2X感知中的价值。

[76] SemGes: Semantics-aware Co-Speech Gesture Generation using Semantic Coherence and Relevance Learning

Lanmiao Liu,Esam Ghaleb,Aslı Özyürek,Zerrin Yumak

Main category: cs.CV

TL;DR: 提出了一种新颖的语义接地方法,用于生成与语音语义一致的虚拟化身手势,通过两阶段模型提升手势的逼真度和连贯性。

  • Motivation: 现有手势生成研究主要关注节奏性手势,忽略了手势的语义上下文,导致生成的语义手势不够连贯。
  • Method: 采用两阶段方法:首先通过向量量化变分自编码器学习运动先验,然后结合语音、文本语义和说话者身份生成手势,并通过语义连贯性和相关性模块确保一致性。
  • Result: 实验结果表明,该方法在语义手势的逼真度和连贯性上优于现有方法,并在客观和主观指标上表现优异。
  • Conclusion: 该方法有效提升了语义手势的生成质量,为虚拟化身的手势生成提供了新思路。

[77] EA-ViT: Efficient Adaptation for Elastic Vision Transformer

Chen Zhu,Wangbo Zhao,Huiwen Zhang,Samir Khaki,Yuhao Zhou,Weidong Tang,Shuo Wang,Zhihang Yuan,Yuzhang Shang,Xiaojiang Peng,Kai Wang,Dawei Yang

Main category: cs.CV

TL;DR: 提出了一种高效的ViT适配框架EA-ViT,通过单次适配生成多个不同大小的模型,以适应不同资源限制的平台。

  • Motivation: 解决部署ViT时需多次训练不同规模模型的问题,以减少时间和能源消耗。
  • Method: 采用嵌套弹性架构和课程式训练策略,结合轻量级路由器选择子模型。
  • Result: 在多个基准测试中验证了EA-ViT的有效性和多功能性。
  • Conclusion: EA-ViT提供了一种高效且灵活的ViT适配方案。

[78] LOTUS: A Leaderboard for Detailed Image Captioning from Quality to Societal Bias and User Preferences

Yusuke Hirota,Boyi Li,Ryo Hachiuma,Yueh-Hua Wu,Boris Ivanovic,Yuta Nakashima,Marco Pavone,Yejin Choi,Yu-Chiang Frank Wang,Chao-Han Huck Yang

Main category: cs.CV

TL;DR: LOTUS是一个用于评估详细图像描述的排行榜,填补了现有评估方法的不足,包括标准化标准、偏见意识和用户偏好。

  • Motivation: 现有图像描述评估缺乏标准化、偏见意识和用户偏好考虑,LOTUS旨在解决这些问题。
  • Method: LOTUS通过多维度评估(如描述质量、风险和偏见)并结合用户偏好,对大型视觉语言模型进行综合分析。
  • Result: 分析显示,没有单一模型在所有标准上表现优异,且描述细节与偏见风险存在相关性。用户偏好影响最佳模型选择。
  • Conclusion: LOTUS为详细图像描述评估提供了全面框架,强调用户偏好和偏见意识的重要性。

[79] BEV-LLM: Leveraging Multimodal BEV Maps for Scene Captioning in Autonomous Driving

Felix Brandstaetter,Erik Schuetz,Katharina Winter,Fabian Flohr

Main category: cs.CV

TL;DR: BEV-LLM是一种轻量级3D场景描述模型,结合LiDAR和多视角图像,通过绝对位置编码提升描述性能,在nuCaption数据集上表现优异,并发布两个新数据集。

  • Motivation: 提升自动驾驶决策系统的可解释性和透明度,增强安全性与人机交互。
  • Method: 利用BEVFusion结合3D LiDAR点云和多视角图像,引入绝对位置编码,采用1B参数的基础模型。
  • Result: 在nuCaption数据集上BLEU分数超越现有技术5%,并发布nuView和GroundView两个新数据集。
  • Conclusion: BEV-LLM在场景描述任务中表现优异,新数据集填补了现有基准的不足。

[80] CXR-CML: Improved zero-shot classification of long-tailed multi-label diseases in Chest X-Rays

Rajesh Madhipati,Sheethal Bhat,Lukas Buess,Andreas Maier

Main category: cs.CV

TL;DR: 论文提出了一种针对胸部X光片(CXR)中长尾分布问题的改进方法,通过类加权机制和GMM聚类提升零样本分类性能。

  • Motivation: 解决自监督深度学习模型在CXR数据中因类不平衡导致的长尾类别分类不准确的问题。
  • Method: 采用类加权机制,结合GMM聚类和Student t分布优化潜在空间分布,并使用度量损失改进嵌入。
  • Result: 在MIMIC-CXR-JPG数据集的40个类别中,零样本AUC得分平均提升7%。
  • Conclusion: 该方法显著提高了长尾类别的识别准确性,为CXR诊断提供了更可靠的模型。

[81] Modality Agnostic Efficient Long Range Encoder

Toufiq Parag,Ahmed Elgammal

Main category: cs.CV

TL;DR: 提出MAELRE模型,通过结合token合并和注意力近似,解决单设备长上下文处理的效率与准确性平衡问题。

  • Motivation: 现有长上下文处理方法在单设备上效率低且模态特定,需一种通用高效方案。
  • Method: MAELRE结合token合并与注意力近似,动态调整计算方式以优化效率。
  • Result: 在多种模态任务中,MAELRE在保持高准确性的同时显著降低计算成本。
  • Conclusion: MAELRE为长上下文处理提供了一种高效且通用的解决方案。

[82] DEFNet: Multitasks-based Deep Evidential Fusion Network for Blind Image Quality Assessment

Yiwei Lou,Yuanpeng He,Rongchao Zhang,Yongzhi Cao,Hanpin Wang,Yu Huang

Main category: cs.CV

TL;DR: 提出了一种基于多任务的深度证据融合网络(DEFNet),通过结合场景和失真类型分类任务,提升盲图像质量评估(BIQA)的性能。

  • Motivation: 现有BIQA方法因集成不足和缺乏灵活的不确定性估计导致性能不佳。
  • Method: 设计了一种新颖的可信信息融合策略,结合局部-全局信息,并利用证据学习技术进行不确定性估计。
  • Result: 在合成和真实失真数据集上的实验证明了DEFNet的有效性和鲁棒性。
  • Conclusion: DEFNet具有强大的泛化能力和对未知场景的适应性。

[83] CircuitProbe: Dissecting Spatiotemporal Visual Semantics with Circuit Tracing

Yiming Zhang,Chengzhang Yu,Zhuokai Zhao,Kun Wang,Qiankun Li,Zihan Chen,Yang Liu,Zenghui Ding,Yining Sun

Main category: cs.CV

TL;DR: 论文提出了一种基于电路的框架,研究大型视觉语言模型(LVLMs)中时空视觉语义的表征和处理机制,发现视觉语义高度集中于特定对象标记,且中后层对时空语义有专门功能定位。

  • Motivation: 当前对LVLMs中时空理解的内在推理机制研究不足,需要系统化分析其内部工作原理。
  • Method: 设计了三个电路框架:视觉审计电路、语义追踪电路和注意力流电路,用于分析LVLMs中的时空语义处理。
  • Result: 发现视觉语义集中在特定对象标记,移除这些标记会导致模型性能下降92.6%;中后层对时空语义有专门功能定位。
  • Conclusion: 研究为LVLMs的时空语义分析提供了机制性见解,有助于设计更鲁棒和可解释的模型。

[84] GS-Occ3D: Scaling Vision-only Occupancy Reconstruction for Autonomous Driving with Gaussian Splatting

Baijun Ye,Minghui Qin,Saining Zhang,Moonjun Gong,Shaoting Zhu,Zebang Shen,Luan Zhang,Lu Zhang,Hao Zhao,Hang Zhao

Main category: cs.CV

TL;DR: GS-Occ3D是一个基于视觉的可扩展框架,用于直接重建占用率,解决了现有方法依赖LiDAR标注的限制,并通过Octree-based Gaussian Surfel优化显式占用表示。

  • Motivation: 现有方法依赖LiDAR标注,限制了可扩展性,无法利用大量众包数据进行自动标注。
  • Method: GS-Occ3D使用Octree-based Gaussian Surfel优化显式占用表示,并将场景分解为静态背景、地面和动态对象,分别建模。
  • Result: 在Waymo数据集上实现最先进的几何重建效果,并在Occ3D-Waymo和Occ3D-nuScenes上展示了卓越的下游任务表现和零样本泛化能力。
  • Conclusion: GS-Occ3D展示了基于视觉的大规模占用重建作为自动驾驶感知新范式的潜力。

[85] Fast Learning of Non-Cooperative Spacecraft 3D Models through Primitive Initialization

Pol Francesch Huc,Emily Bates,Simone D'Amico

Main category: cs.CV

TL;DR: 论文提出了一种基于CNN的3D高斯泼溅(3DGS)初始化方法,解决了传统方法需要精确姿态和高计算成本的问题。

  • Motivation: 解决NeRF和3DGS在空间应用中因需要精确姿态和高计算成本而受限的问题。
  • Method: 使用CNN从单目图像生成粗糙3D模型和姿态估计,用于初始化3DGS,减少训练迭代和输入图像需求。
  • Result: 即使姿态估计不精确,也能学习高保真3D表示,训练成本和输入需求降低至少一个数量级。
  • Conclusion: 该方法为空间应用中的新视角合成技术提供了可行性。

[86] Back to the Features: DINO as a Foundation for Video World Models

Federico Baldassarre,Marc Szafraniec,Basile Terver,Vasil Khalidov,Francisco Massa,Yann LeCun,Patrick Labatut,Maximilian Seitzer,Piotr Bojanowski

Main category: cs.CV

TL;DR: DINO-world是一个通用的视频世界模型,通过预测DINOv2潜在空间中的未来帧,学习多样场景的时间动态,并在视频预测任务中表现优异。

  • Motivation: 利用预训练的图像编码器和大规模未筛选视频数据,构建一个能够理解多样场景动态的通用视频世界模型。
  • Method: 结合预训练的DINOv2图像编码器,训练未来帧预测器,并在观察-动作轨迹上进行微调。
  • Result: 在视频预测任务(如分割和深度预测)中表现优于先前模型,并展示了对直观物理的强理解能力。
  • Conclusion: DINO-world可作为动作条件世界模型用于规划,通过在潜在空间中模拟候选轨迹。

[87] Efficient Lines Detection for Robot Soccer

João G. Melo,João P. Mafaldo,Edna Barros

Main category: cs.CV

TL;DR: 提出了一种基于ELSED算法和PSO优化的轻量级足球场线检测方法,适用于实时低功耗机器人平台。

  • Motivation: 在机器人足球中,自定位依赖于视觉特征的准确检测,如球场线和边界,因此需要高效且轻量的方法。
  • Method: 扩展ELSED算法,结合RGB颜色转换分类线,并使用PSO优化阈值校准。
  • Result: 方法在精度上与先进深度学习模型相当,但处理速度更快。
  • Conclusion: 该方法适合实时应用,尤其适用于低功耗机器人平台。

[88] DINO-SLAM: DINO-informed RGB-D SLAM for Neural Implicit and Explicit Representations

Ziren Gong,Xiaohan Li,Fabio Tosi,Youmin Zhang,Stefano Mattoccia,Jun Wu,Matteo Poggi

Main category: cs.CV

TL;DR: DINO-SLAM通过增强DINO特征(EDINO)提升神经隐式(NeRF)和显式(3DGS)SLAM系统的场景表示能力,性能优于现有方法。

  • Motivation: 通过更全面的场景表示提升SLAM系统中神经隐式和显式表示的性能。
  • Method: 提出Scene Structure Encoder (SSE)将DINO特征增强为EDINO,并基于此设计NeRF和3DGS SLAM的两种范式。
  • Result: 在Replica、ScanNet和TUM数据集上表现优于现有方法。
  • Conclusion: DINO-SLAM通过EDINO特征显著提升了SLAM系统的性能。

[89] MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents

Xuehui Wang,Zhenyu Wu,JingJing Xie,Zichen Ding,Bowen Yang,Zehao Li,Zhaoyang Liu,Qingyun Li,Xuan Dong,Zhe Chen,Weiyun Wang,Xiangyu Zhao,Jixuan Chen,Haodong Duan,Tianbao Xie,Chenyu Yang,Shiqian Su,Yue Yu,Yuan Huang,Yiqian Liu,Xiao Zhang,Yanting Zhang,Xiangyu Yue,Weijie Su,Xizhou Zhu,Wei Shen,Jifeng Dai,Wenhai Wang

Main category: cs.CV

TL;DR: MMBench-GUI是一个跨平台GUI自动化代理评估基准,包含四个层级,并提出EQA指标衡量效率。研究发现视觉定位和任务规划是关键,但现有模型效率低下。

  • Motivation: 为评估GUI自动化代理在不同平台上的表现,并解决现有研究中效率和质量评估不足的问题。
  • Method: 提出MMBench-GUI基准,包含四个评估层级(GUI内容理解、元素定位、任务自动化、任务协作),并引入EQA指标。
  • Result: 发现视觉定位对任务成功至关重要,任务规划和跨平台泛化能力是关键,但现有模型效率低下。
  • Conclusion: 高效GUI自动化需结合精确定位、任务规划和早期停止策略,基准代码和数据将开源。

[90] HairCUP: Hair Compositional Universal Prior for 3D Gaussian Avatars

Byungjun Kim,Shunsuke Saito,Giljoo Nam,Tomas Simon,Jason Saragih,Hanbyul Joo,Junxuan Li

Main category: cs.CV

TL;DR: 提出了一种显式分离面部和头发成分的3D头部虚拟形象通用先验模型,解决了现有方法难以灵活控制的问题。

  • Motivation: 现有方法将面部和头发视为不可分割的整体,难以自然分离其表示,限制了灵活性和可控性。
  • Method: 通过合成无发数据,分别学习面部和头发的潜在空间,利用组合性作为归纳偏置。
  • Result: 模型支持面部和发型灵活交换,并能通过少量单目捕捉微调生成高保真虚拟形象。
  • Conclusion: 该方法为灵活且高表达的3D虚拟形象生成提供了实用解决方案。

cs.LG

[91] Diffusion Models for Solving Inverse Problems via Posterior Sampling with Piecewise Guidance

Saeed Mohseni-Sehdeh,Walid Saad,Kei Sakaguchi,Tao Yu

Main category: cs.LG

TL;DR: 提出了一种基于扩散模型的分段引导框架,用于解决逆问题,平衡计算效率与引导精度,适用于多种任务且无需重新训练。

  • Motivation: 扩散模型在高维分布采样中表现出色,但现有方法在解决逆问题时缺乏通用性和效率。
  • Method: 采用分段引导机制,根据扩散时间步长定义引导项,区分高噪声和低噪声阶段的不同近似方法。
  • Result: 在图像修复任务中,推理时间显著减少(25%至24%),且PSNR和SSIM损失可忽略。
  • Conclusion: 该框架在计算效率和准确性之间取得了良好平衡,适用于多种逆问题且具有通用性。

[92] Concept Probing: Where to Find Human-Defined Concepts (Extended Version)

Manuel de Sousa Ribeiro,Afonso Leote,João Leite

Main category: cs.LG

TL;DR: 提出了一种自动确定神经网络中最佳探测层的方法,基于表示的信息量和规律性。

  • Motivation: 概念探测的性能高度依赖于所探测的内部表示层,因此需要自动识别最佳探测层。
  • Method: 基于表示的信息量和规律性,自动选择适合探测特定概念的神经网络层。
  • Result: 通过多种神经网络模型和数据集的实证分析验证了方法的有效性。
  • Conclusion: 该方法能够有效识别适合探测特定概念的网络层,提升概念探测的性能。

[93] WACA-UNet: Weakness-Aware Channel Attention for Static IR Drop Prediction in Integrated Circuit Design

Youngmin Seo,Yunhyeong Kwon,Younghun Park,HwiRyong Kim,Seungho Eum,Jinha Kim,Taigon Song,Juho Kim,Unsang Park

Main category: cs.LG

TL;DR: 论文提出了一种基于注意力机制的Weakness-Aware Channel Attention (WACA)方法,用于高效预测VLSI设计中的IR drop问题,显著提升了预测精度。

  • Motivation: 传统基于仿真的方法计算成本高且难以扩展,而现有学习方法未考虑输入通道的重要性差异。
  • Method: 将IR drop估计重新定义为像素级回归任务,提出WACA机制,通过两阶段门控策略增强弱特征通道并抑制过强通道,结合ConvNeXtV2-based attention U-Net实现自适应特征表示。
  • Result: 在ICCAD-2023基准测试中,平均绝对误差降低61.1%,F1分数提升71.0%,优于竞赛冠军方法。
  • Conclusion: 通道异质性是VLSI物理布局分析的关键归纳偏置,WACA机制有效提升了预测性能。

cs.GR

[94] Generating real-time detailed ground visualisations from sparse aerial point clouds

Aidan Murray,Eddie Waite,Caleb Ross,Scarlet Mitchell,Alexander Bradley,Joanna Jamrozy,Kenny Mitchell

Main category: cs.GR

TL;DR: 提出一种自动放大真实世界扫描数据并实时渲染的方法,用于高质量3D内容生成。

  • Motivation: 传统方法依赖大量艺术家手工建模,成本高且难以准确还原真实世界景观。
  • Method: 定义一种自动放大扫描数据并实时渲染的过程,支持近距离高质量3D探索。
  • Result: 生成适用于训练、模拟、游戏和可视化的高质量3D内容。
  • Conclusion: 该方法降低了成本并提高了真实世界景观的还原度。

cs.RO

[95] Perpetua: Multi-Hypothesis Persistence Modeling for Semi-Static Environments

Miguel Saavedra-Ruiz,Samer B. Nashed,Charlie Gauthier,Liam Paull

Main category: cs.RO

TL;DR: Perpetua是一种用于建模半静态特征动态的方法,能够结合先验知识、跟踪多个假设并适应变化,以预测未来特征状态。

  • Motivation: 复杂动态环境中,机器人系统需要处理环境变化,而现有方法无法有效预测动态特征的未来状态。
  • Method: 通过混合“持久性”和“出现”滤波器,在贝叶斯框架中建模特征消失或重现的概率。
  • Result: 实验表明,Perpetua在准确性和适应性上优于类似方法,且对缺失观测具有鲁棒性。
  • Conclusion: Perpetua提供了一种高效、可扩展且通用的方法,适用于动态环境中的特征状态预测。

cs.CL

[96] Mining Contextualized Visual Associations from Images for Creativity Understanding

Ananya Sahu,Amith Ananthram,Kathleen McKeown

Main category: cs.CL

TL;DR: 论文提出了一种从无标签数据集中挖掘图像关联的方法,用于生成高质量创意标题,并在MSCOCO数据集上验证了其效果。

  • Motivation: 现有视觉语言模型依赖简短、字面的网络数据,缺乏对创意输出的理解。
  • Method: 提出一种方法,从图像中挖掘上下文关联,生成不同抽象程度的创意标题。
  • Result: 生成了包含170万创意标题的新数据集,并在零样本检索任务中表现优异。
  • Conclusion: 该方法能有效提升创意领域的视觉语言模型性能,并公开了数据集和模型。

cs.SD

[97] Face2VoiceSync: Lightweight Face-Voice Consistency for Text-Driven Talking Face Generation

Fang Kang,Yin Cao,Haoyu Chen

Main category: cs.SD

TL;DR: 论文提出Face2VoiceSync框架,解决语音驱动面部动画生成中的固定语音限制问题,实现从图像和文本生成面部动画和对应语音。

  • Motivation: 现有语音驱动面部动画生成方法依赖固定语音,限制了应用(如面部与语音不匹配)。因此,研究扩展到更具挑战性的任务:从图像和文本生成面部动画和对应语音。
  • Method: 提出Face2VoiceSync框架,包括语音-面部对齐、多样性控制、高效训练(轻量VAE连接视觉与音频预训练模型)和新评估指标。
  • Result: 在单块40GB GPU上实现视觉和音频的SOTA性能。
  • Conclusion: Face2VoiceSync在解决语音与面部匹配问题上表现出色,同时支持多样性和高效训练。

cs.AI

[98] Fine-Grained Traffic Inference from Road to Lane via Spatio-Temporal Graph Node Generation

Shuhao Li,Weidong Yang,Yue Cui,Xiaoxing Liu,Lingkai Meng,Lipeng Ma,Fan Zhang

Main category: cs.AI

TL;DR: 论文提出了一种名为FRTI的任务,旨在通过有限的道路数据生成更详细的车道级交通信息,并设计了一个两阶段框架RoadDiff来解决该任务。

  • Motivation: 由于传感器类型和数量的限制以及跟踪算法的准确性问题,获取车道级交通数据成为数据驱动模型的关键瓶颈。
  • Method: 设计了RoadDiff框架,包括Road-Lane Correlation Autoencoder-Decoder和Lane Diffusion Module,充分利用道路数据的时空依赖性和分布关系。
  • Result: 在六个不同道路条件的数据集上验证了RoadDiff模型的有效性。
  • Conclusion: FRTI任务和RoadDiff框架为精确交通管理提供了更高效和经济的解决方案。

[99] OS-MAP: How Far Can Computer-Using Agents Go in Breadth and Depth?

Xuetian Chen,Yinghao Chen,Xinfeng Yuan,Zhuo Peng,Lu Chen,Yuekeng Li,Zhoujia Zhang,Yingqian Huang,Leyan Huang,Jiaqing Liang,Tianbao Xie,Zhiyong Wu,Qiushi Sun,Biqing Qi,Bowen Zhou

Main category: cs.AI

TL;DR: OS-MAP是一个用于日常计算机自动化任务的基准测试,通过五级自动化分类和需求层次结构评估代理能力,揭示当前代理在高层次任务中的不足。

  • Motivation: 现有基准未能考虑任务异质性和代理能力的实际用户需求对齐,阻碍了针对性能力开发和研究成果的实际部署。
  • Method: 提出OS-MAP基准,包含416个任务,通过五级自动化分类和需求层次结构评估代理能力。
  • Result: 实验表明,即使最先进的代理在涉及感知、推理和协调的高层次任务中表现不佳。
  • Conclusion: OS-MAP为计算机代理的研究和部署提供了结构化评估框架,揭示了当前技术的局限性。

[100] PhysDrive: A Multimodal Remote Physiological Measurement Dataset for In-vehicle Driver Monitoring

Jiyao Wang,Xiao Yang,Qingyong Hu,Jiankai Tang,Can Liu,Dengbo He,Yuntao Wang,Yingcong Chen,Kaishun Wu

Main category: cs.AI

TL;DR: PhysDrive是一个大规模多模态数据集,用于无接触车内生理监测,涵盖多种驾驶条件和生理信号,旨在推动驾驶员监测研究。

  • Motivation: 现有数据集在规模、多样性和真实驾驶条件覆盖上不足,限制了远程生理监测在真实驾驶场景中的应用。
  • Method: PhysDrive收集了48名驾驶员的多模态数据(RGB、近红外相机、毫米波雷达)和六种同步生理信号(ECG、BVP等),覆盖多种驾驶条件。
  • Result: 数据集为信号处理和深度学习方法提供了全面基准,并开源了代码。
  • Conclusion: PhysDrive将成为多模态驾驶员监测和智能座舱系统研究的基础资源。

cs.CG

[101] Relaxed Total Generalized Variation Regularized Piecewise Smooth Mumford-Shah Model for Triangulated Surface Segmentation

Huayan Zhang,Shanqiang Wang,Xiaochao Wang

Main category: cs.CG

TL;DR: 提出了一种基于松弛总广义变分正则化(rTGV)的分段平滑Mumford-Shah模型,用于网格分割,优于传统方法。

  • Motivation: 传统Mumford-Shah模型追求最短边界,但无法处理不规则结构。新方法通过rTGV正则化捕捉高阶不连续性,提升分割效果。
  • Method: 将网格特征函数分解为分段常数函数与平滑函数的和,利用rTGV正则化,采用交替最小化和ADMM求解。
  • Result: 在Princeton分割基准测试中表现优异,边界更优且计算高效。
  • Conclusion: 新方法在分割不规则结构网格时更具鲁棒性和效率,优于现有技术。

cs.HC

[102] How good are humans at detecting AI-generated images? Learnings from an experiment

Thomas Roca,Anthony Cintron Roman,Jehú Torres Vega,Marcelo Duarte,Pengce Wang,Kevin White,Amit Misra,Juan Lavista Ferres

Main category: cs.HC

TL;DR: 人类区分真实与AI生成图像的能力有限,成功率仅62%,尤其在自然和城市景观中表现较差,需透明工具应对AI生成内容的风险。

  • Motivation: 研究人类能否有效区分真实与AI生成图像,以应对AI生成内容可能带来的虚假信息风险。
  • Method: 通过在线游戏收集数据,参与者随机观看真实与AI生成图像并判断其真实性,分析约287,000次图像评估。
  • Result: 总体成功率仅62%,人类肖像识别最准确,自然和城市景观识别困难。
  • Conclusion: 人类区分AI生成图像的能力有限,需开发透明工具(如水印和检测工具)以减少虚假信息风险。

eess.IV

[103] XAI-Guided Analysis of Residual Networks for Interpretable Pneumonia Detection in Paediatric Chest X-rays

Rayyan Ridwan

Main category: eess.IV

TL;DR: 提出了一种基于ResNets的可解释深度学习模型,用于儿童肺炎的自动诊断,结合BayesGrad-CAM增强解释性,并展示了高准确性和临床意义。

  • Motivation: 肺炎是儿童死亡的主要原因之一,亟需快速准确的诊断工具。
  • Method: 使用ResNet-50模型,结合BayesGrad-CAM量化视觉解释的不确定性,提供决策过程的空间定位。
  • Result: 模型在分类准确率(95.94%)、AUC-ROC(98.91%)和Cohen's Kappa(0.913)上表现优异,并提供临床意义的视觉解释。
  • Conclusion: 高性能和可解释性对临床AI部署至关重要,且可实现。

[104] Learned Single-Pixel Fluorescence Microscopy

Serban C. Tudosie,Valerio Gandolfi,Shivaprasad Varakkoth,Andrea Farina,Cosimo D'Andrea,Simon Arridge

Main category: eess.IV

TL;DR: 论文提出了一种基于自监督学习的自动编码器方法,用于优化荧光显微镜中的单像素成像技术,显著提升了重建速度、图像质量并支持多光谱重建。

  • Motivation: 单像素成像在荧光显微镜中需要快速采集和重建,但传统方法依赖总变差最小化,存在效率和质量问题。利用数据学习测量向量和重建过程可以优化性能。
  • Method: 通过自监督训练自动编码器,学习编码器(测量矩阵)和解码器,并在实际获取的多光谱和强度数据上进行测试。学习到的编码器成为物理设备的一部分。
  • Result: 该方法将重建时间缩短了两个数量级,实现了更优的图像质量,并支持多光谱重建。
  • Conclusion: 学习型单像素荧光显微镜有望推动诊断和生物研究,以低成本实现多光谱成像。

[105] RealDeal: Enhancing Realism and Details in Brain Image Generation via Image-to-Image Diffusion Models

Shen Zhu,Yinzhu Jin,Tyler Spears,Ifrah Zawar,P. Thomas Fletcher

Main category: eess.IV

TL;DR: 提出了一种图像到图像的扩散模型,用于增强生成脑部图像的细节和真实感,包括锐利边缘、精细纹理、细微解剖特征和成像噪声。

  • Motivation: 现有潜在扩散模型生成的脑部MRI图像过于平滑,缺乏真实图像中的精细解剖结构和扫描噪声,因此需要改进。
  • Method: 采用图像到图像的扩散模型,对潜在扩散模型生成的图像进行细化,提升其质量。使用FID和LPIPS等指标评估图像真实感,并引入新指标衡量噪声分布、锐度和纹理。
  • Result: 模型显著提升了生成图像的细节和真实感,新指标验证了图像在噪声分布、锐度和纹理方面的改进。
  • Conclusion: 该方法有效解决了潜在扩散模型生成图像过于平滑的问题,显著提升了脑部MRI图像的真实感和细节表现。

[106] Dealing with Segmentation Errors in Needle Reconstruction for MRI-Guided Brachytherapy

Vangelis Kostoulas,Arthur Guijt,Ellen M. Kerkhof,Bradley R. Pieters,Peter A. N. Bosman,Tanja Alderliesten

Main category: eess.IV

TL;DR: 提出一种改进的后处理技术,用于处理自动针重建中的分割错误,提高重建精度。

  • Motivation: 手动标注针在患者图像中耗时且具有挑战性,现有后处理技术无法应对所有分割错误。
  • Method: 改进现有后处理技术,以处理分割错误并提高重建精度。
  • Result: 在261针测试集上,最佳改进技术的中位针尖和针底定位误差分别为1.07mm和0.43mm,中位轴误差为0.75mm,无假阳性和假阴性针。
  • Conclusion: 提出的改进后处理技术能有效管理分割错误,显著提高针重建精度。

[107] Dual Path Learning -- learning from noise and context for medical image denoising

Jitindra Fartiyal,Pedro Freire,Yasmeen Whayeb,James S. Wolffsohn,Sergei K. Turitsyn,Sergei G. Sokolov

Main category: eess.IV

TL;DR: 提出了一种双路径学习(DPL)模型,通过结合噪声和上下文信息来去噪医学图像,并在多种模态和噪声类型中表现出鲁棒性。

  • Motivation: 医学图像中的噪声会降低图像质量,影响诊断准确性。现有方法通常仅针对单一模态或噪声类型,缺乏通用性。
  • Method: 提出DPL模型,整合噪声特征和图像上下文信息,通过双路径学习生成最终去噪结果。
  • Result: DPL在多种模态和噪声类型中表现优异,PSNR比基线UNet提高3.35%。
  • Conclusion: DPL是一种通用且鲁棒的医学图像去噪方法,适用于多种场景。

[108] A Self-training Framework for Semi-supervised Pulmonary Vessel Segmentation and Its Application in COPD

Shuiqing Zhao,Meihuan Wang,Jiaxuan Xu,Jie Feng,Wei Qian,Rongchang Chen,Zhenyu Liang,Shouliang Qi,Yanan Wu

Main category: eess.IV

TL;DR: 提出了一种半监督学习方法(Semi2)用于肺部血管分割,显著提高了精度,并应用于COPD分析。

  • Motivation: 准确分割和量化COPD患者的肺部血管(尤其是小血管)对疾病分析至关重要。
  • Method: 采用教师-学生模型的自训练框架,通过交互式标注高质量数据,训练教师模型生成伪标签,再训练学生模型,迭代优化。
  • Result: 在125名COPD患者的非增强CT扫描上,Semi2方法将血管分割精度提高了2.3%,达到90.3%。
  • Conclusion: 该方法不仅提升了血管分割性能,还可用于COPD分析,代码已开源。

[109] Learned Image Compression with Hierarchical Progressive Context Modeling

Yuqi Li,Haotian Zhang,Li Li,Dong Liu

Main category: eess.IV

TL;DR: 提出了一种新的分层渐进上下文模型(HPCM),用于更高效地获取上下文信息,提升图像压缩性能。

  • Motivation: 现有方法在利用长距离依赖和不同编码步骤中的多样化上下文信息方面效率不足。
  • Method: 采用分层编码计划和渐进上下文融合机制,逐步建模多尺度潜在变量的上下文依赖。
  • Result: 实验结果表明,HPCM在率失真性能上达到最优,并在压缩性能和计算复杂度之间取得更好平衡。
  • Conclusion: HPCM通过分层和渐进机制,显著提升了上下文建模的效率和性能。

[110] Reconstruct or Generate: Exploring the Spectrum of Generative Modeling for Cardiac MRI

Niklas Bubeck,Yundi Zhang,Suprosanna Shit,Daniel Rueckert,Jiazhen Pan

Main category: eess.IV

TL;DR: 论文分析了生成模型在医学影像中的两种任务:重建和生成,并比较了潜在扩散模型和自回归模型的表现。

  • Motivation: 研究生成模型在医学影像中重建和生成任务的不同目标及表现差异。
  • Method: 引入“生成模型动物园”,系统分析潜在扩散模型和自回归模型在心脏医学影像任务中的表现,包括图像修复和无条件生成。
  • Result: 扩散模型在无条件生成中表现更优,但随掩码比例增加易产生幻觉;自回归模型在掩码比例变化时表现稳定,但保真度较低。
  • Conclusion: 不同生成模型在医学影像任务中各有优劣,需根据具体需求选择合适模型。

[111] Joint Holistic and Lesion Controllable Mammogram Synthesis via Gated Conditional Diffusion Model

Xin Li,Kaixiang Yang,Qiang Li,Zhiwei Wang

Main category: eess.IV

TL;DR: 提出了一种新型的生成模型GCDM,用于联合合成完整的乳腺X光图像和局部病变,解决了现有方法在病变特征和周围组织关系上的不足。

  • Motivation: 乳腺X光检查数据不足和病变特征多样性缺乏限制了深度学习模型的开发,现有生成方法未能充分关注病变特征及其与周围组织的关系。
  • Method: 基于潜在去噪扩散框架,结合软掩模嵌入和门控条件分支,动态选择和融合病变的放射组学和几何特性。
  • Result: GCDM能够精确控制小病变区域,同时提升合成图像的逼真度和多样性。
  • Conclusion: GCDM在乳腺X光图像合成中表现出色,有望成为临床应用的实用工具。

[112] Unstable Prompts, Unreliable Segmentations: A Challenge for Longitudinal Lesion Analysis

Niels Rocholl,Ewoud Smit,Mathias Prokop,Alessa Hering

Main category: eess.IV

TL;DR: ULS23模型在纵向病灶分析中表现不佳,主要因扫描配准错误和病灶对应问题导致分割质量下降。

  • Motivation: 研究ULS23模型在纵向CT扫描中的病灶分割性能,揭示单时间点模型在时间序列数据中的局限性。
  • Method: 使用公开临床数据集评估ULS23模型的分割和跟踪能力,并通过人为位移实验验证模型对病灶中心假设的依赖性。
  • Result: 模型性能高度依赖病灶中心假设,位移后分割准确性显著下降。
  • Conclusion: 纵向病灶分析需要端到端的集成模型,而非单时间点模型的级联。

[113] NerT-CA: Efficient Dynamic Reconstruction from Sparse-view X-ray Coronary Angiography

Kirsten W. H. Maas,Danny Ruijters,Nicola Pezzotti,Anna Vilanova

Main category: eess.IV

TL;DR: NerT-CA提出了一种结合神经和张量表示的方法,用于从稀疏视角X射线冠状动脉造影中加速4D重建,显著提高了训练速度和重建精度。

  • Motivation: 从X射线冠状动脉造影中重建3D和4D冠状动脉图像具有临床价值,但现有方法依赖耗时的手动分割或易出错的自动分割,限制了实用性。
  • Method: NerT-CA采用神经和张量表示的混合方法,将场景分解为低秩静态重建的张量场和动态稀疏重建的神经场。
  • Result: 该方法在训练时间和重建精度上均优于现有工作,仅需三个视角即可获得合理重建。
  • Conclusion: NerT-CA为稀疏视角冠状动脉造影的4D重建提供了一种高效且准确的解决方案。

[114] RealisVSR: Detail-enhanced Diffusion for Real-World 4K Video Super-Resolution

Weisong Zhao,Jingkai Zhou,Xiangyu Zhu,Weihua Chen,Xiao-Yu Zhang,Zhen Lei,Fan Wang

Main category: eess.IV

TL;DR: RealisVSR提出了一种基于扩散模型的高频细节增强视频超分辨率方法,解决了GAN方法的过平滑问题,并针对VSR领域的三个关键挑战提出了创新解决方案。

  • Motivation: 当前视频超分辨率(VSR)领域存在三个主要问题:1)基础模型对时间动态建模不一致;2)复杂真实退化下高频细节恢复不足;3)对细节增强和4K超分辨率评估不足。
  • Method: RealisVSR采用三项核心技术:1)一致性保持的ControlNet架构(CPC);2)结合小波分解和HOG特征约束的高频修正扩散损失(HR-Loss);3)首个公开的4K VSR基准数据集RealisVideo-4K。
  • Result: 在多个VSR基准测试(如REDS、SPMCS等)中表现优异,尤其在超高分辨率场景下显著优于现有方法,且仅需5-25%的训练数据量。
  • Conclusion: RealisVSR通过创新架构和损失函数,显著提升了视频超分辨率的细节恢复能力,并填补了4K评估的空白。

[115] Extreme Cardiac MRI Analysis under Respiratory Motion: Results of the CMRxMotion Challenge

Kang Wang,Chen Qin,Zhang Shi,Haoran Wang,Xiwen Zhang,Chen Chen,Cheng Ouyang,Chengliang Dai,Yuanhan Mo,Chenchen Dai,Xutong Kuang,Ruizhe Li,Xin Chen,Xiuzheng Yue,Song Tian,Alejandro Mora-Rubio,Kumaradevan Punithakumar,Shizhan Gong,Qi Dou,Sina Amirrajab,Yasmina Al Khalil,Cian M. Scannell,Lexiaozi Fan,Huili Yang,Xiaowu Sun,Rob van der Geest,Tewodros Weldebirhan Arega,Fabrice Meriaudeau,Caner Özer,Amin Ranem,John Kalkhof,İlkay Öksüz,Anirban Mukhopadhyay,Abdul Qayyum,Moona Mazher,Steven A Niederer,Carles Garcia-Cabrera,Eric Arazo,Michal K. Grzeszczyk,Szymon Płotka,Wanqin Ma,Xiaomeng Li,Rongjun Ge,Yongqing Kou,Xinrong Chen,He Wang,Chengyan Wang,Wenjia Bai,Shuo Wang

Main category: eess.IV

TL;DR: 论文探讨了深度学习在心脏磁共振(CMR)分析中的性能受图像质量影响的问题,并组织了MICCAI CMRxMotion挑战赛,发布了包含运动伪影的数据集,评估了22种算法在图像质量分类和心肌分割任务中的表现。

  • Motivation: 临床中CMR图像常因呼吸运动产生伪影,但深度学习模型对此类伪影的鲁棒性研究不足。
  • Method: 组织了挑战赛,发布了包含320个CMR序列的数据集,评估了22种算法在图像质量分类和心肌分割任务中的表现。
  • Result: 挑战赛展示了多种算法的性能,并分析了运动伪影对五种临床相关生物标志物的影响。
  • Conclusion: 研究为CMR图像质量评估和分割提供了公开数据集和基准,推动了深度学习在临床中的应用。

[116] Enhancing Diabetic Retinopathy Classification Accuracy through Dual Attention Mechanism in Deep Learning

Abdul Hannan,Zahid Mahmood,Rizwan Qureshi,Hazrat Ali

Main category: eess.IV

TL;DR: 提出了一种结合全局注意力块(GAB)和类别注意力块(CAB)的深度学习方法,有效解决了糖尿病视网膜病变(DR)分类中的数据不平衡问题。

  • Motivation: 数据分布不平衡是DR分类中深度学习模型泛化的瓶颈,需要一种有效的方法来克服这一问题。
  • Method: 采用基于注意力机制的深度学习模型,结合三种预训练网络(MobileNetV3-small、EfficientNet-b0和DenseNet-169)作为主干架构。
  • Result: 在APTOS和EYEPACS数据集上,DenseNet-169表现最佳(83.20%和75.43%准确率),MobileNetV3-small参数最少(1.6M和0.9M)。
  • Conclusion: 该方法在DR分类中表现优异,与现有工作竞争力相当。

[117] SAM2-Aug: Prior knowledge-based Augmentation for Target Volume Auto-Segmentation in Adaptive Radiation Therapy Using Segment Anything Model 2

Guoping Xu,Yan Dai,Hengrui Zhao,Ying Zhang,Jie Deng,Weiguo Lu,You Zhang

Main category: eess.IV

TL;DR: SAM2-Aug通过结合先验知识和增强提示多样性,显著提高了肿瘤分割的准确性和泛化能力。

  • Motivation: 肿瘤分割对自适应放射治疗至关重要,但现有方法耗时且依赖用户操作。SAM2在提示分割方面有潜力,但在肿瘤分割上表现不足。
  • Method: 提出两种策略:1)使用先验MR图像和标注作为上下文输入;2)通过随机边界框扩展和掩模腐蚀/膨胀增强提示鲁棒性。模型在多个数据集上测试。
  • Result: SAM2-Aug在所有数据集上表现优于其他模型,Dice分数分别为0.86(肝脏)、0.89(腹部)和0.90(大脑),边界敏感指标也有提升。
  • Conclusion: 结合先验图像和增强提示多样性显著提升了分割性能,SAM2-Aug为自适应放射治疗提供了高效解决方案。

quant-ph

[118] PGKET: A Photonic Gaussian Kernel Enhanced Transformer

Ren-Xin Zhao

Main category: quant-ph

TL;DR: PGKET提出了一种基于光子高斯核自注意力机制的高效Transformer,用于处理长序列,并在多分类任务中表现优异。

  • Motivation: 自注意力机制在处理长序列时效率低下,需要一种更高效的方法。
  • Method: 使用光子高斯核自注意力机制(PGKSAM),通过光子干涉和叠加并行处理输入。
  • Result: PGKET在MedMNIST v2和CIFAR-10上优于现有Transformer模型。
  • Conclusion: PGKET有望提升复杂任务性能并加速光子计算与机器学习的融合。