Skip to content
每日arXiv - 2025年8月22日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Heatmap Regression without Soft-Argmax for Facial Landmark Detection

Chiao-An Yang,Raymond A. Yeh

Main category: cs.CV

TL;DR: 本文重新审视了面部关键点检测中广泛使用的Soft-argmax方法,提出了一种基于结构化预测框架的替代训练目标,在三个基准数据集上实现了最先进性能,训练收敛速度快2.2倍。

  • Motivation: 热图回归方法在面部关键点检测中广泛使用,但argmax操作不可微分,传统使用Soft-argmax近似。作者质疑这种长期选择,认为这不是实现强性能的唯一方式。
  • Method: 提出基于经典结构化预测框架的替代训练目标,避免了Soft-argmax的使用,实现了端到端可微分训练。
  • Result: 在WFLW、COFW和300W三个面部关键点基准数据集上达到最先进性能,训练收敛速度快2.2倍,同时保持更好/有竞争力的准确率。
  • Conclusion: Soft-argmax不是实现面部关键点检测高性能的唯一方法,结构化预测框架提供了有效的替代方案,具有更快的训练速度和竞争性的精度。

[2] Fast Graph Neural Network for Image Classification

Mustafa Mohammadi Gharasuie,Luis Rueda

Main category: cs.CV

TL;DR: 这篇论文提出了一种新的图像分类方法,通过将图卷积神经网络(GCNs)与Voronoi图相结合,以图形形式表示图像并利用Delaunay三角剖分优化表示,在多个标准数据集上实现了预处理效率和分类准确性的显著提升。

  • Motivation: 传统卷积神经网络(CNNs)在处理复杂数据结构时有限,而图卷积神经网络(GCNs)能更有效地模型关联性数据。研究者尝试通过结合GCNs与Voronoi图来改善图像分类性能。
  • Method: 将图像表示为图形(像素或区域作为顶点),然后使用对应的Delaunay三角剖分来精炼图形表示,最后集成GCNs进行分类。
  • Result: 在多个标准数据集上实现了预处理效率和分类准确性的显著提升,超越了现有最优方法,尤其在复杂场景和细粒度分类任务中表现优异。通过交叉验证确认了方法的有效性。
  • Conclusion: 这项研究不仅为图像分类提供了新视角,还扩展了基于图形的学习范式在计算机视觉和非结构化数据分析中的应用潜力。

[3] You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

Hakjin Lee,Junghoon Seo,Jaehoon Sim

Main category: cs.CV

TL;DR: YOPO是一个单阶段的RGB-only框架,将目标检测和9自由度姿态估计统一起来,无需额外数据,在多个基准测试中达到新SOTA

  • Motivation: 现有方法依赖伪深度、CAD模型或多阶段级联,需要更简单的RGB-only解决方案来直接从类别级别学习9自由度姿态估计
  • Method: 基于transformer检测器,增加轻量级姿态头、边界框条件平移模块和6D感知匈牙利匹配成本,端到端训练仅使用RGB图像和类别级姿态标签
  • Result: 在REAL275数据集上达到79.6% IoU50和54.1%的10°10cm指标,超越现有RGB-only方法,接近RGB-D系统性能
  • Conclusion: YOPO证明了单阶段RGB-only方法能够有效统一目标检测和9自由度姿态估计,简化了系统设计同时保持高性能

[4] Paired-Sampling Contrastive Framework for Joint Physical-Digital Face Attack Detection

Andrei Balykin,Anvar Ganiev,Denis Kondranin,Kirill Polevoda,Nikolai Liudkevich,Artem Petrov

Main category: cs.CV

TL;DR: 提出了一种统一的训练框架Paired-Sampling Contrastive Framework,能够同时检测物理呈现攻击和数字伪造攻击,在Face Anti-Spoofing Challenge基准测试中取得2.10%的平均分类错误率,模型轻量且训练快速。

  • Motivation: 传统人脸识别系统使用独立模型分别处理物理呈现攻击和数字伪造攻击,这增加了系统复杂性、推理延迟,并且无法应对组合攻击向量。需要一种统一的解决方案来同时处理这两种攻击类型。
  • Method: 提出了Paired-Sampling Contrastive Framework,利用自动匹配的真实和攻击自拍对来学习模态无关的活体检测线索,通过对比学习框架实现统一训练。
  • Result: 在第6届Face Anti-Spoofing Challenge统一物理-数字攻击检测基准测试中,实现了2.10%的平均分类错误率(ACER),优于现有解决方案。模型计算量为4.46 GFLOPs,训练时间少于1小时。
  • Conclusion: 该方法提供了一个轻量级、高效且统一的解决方案,能够同时应对物理和数字攻击,具有实际部署的可行性,代码和预训练模型已开源。

[5] TAIGen: Training-Free Adversarial Image Generation via Diffusion Models

Susim Roy,Anubhooti Jain,Mayank Vatsa,Richa Singh

Main category: cs.CV

TL;DR: TAIGen是一种无需训练的黑盒对抗图像生成方法,仅需3-20步采样即可从无条件扩散模型生成高质量对抗样本,攻击成功率高且速度快10倍

  • Motivation: 现有生成模型的对抗攻击往往产生低质量图像且计算资源需求大,扩散模型虽然能生成高质量图像但通常需要数百步采样步骤
  • Method: 通过在混合步骤区间注入扰动,结合选择性RGB通道策略(对红色通道使用注意力图,对绿色和蓝色通道使用GradCAM引导的扰动),在保持图像结构的同时最大化目标模型的误分类
  • Result: 在ImageNet数据集上,TAIGen对ResNet、MNASNet和ShuffleNet的攻击成功率分别达到70.6%、80.8%和97.8%,PSNR超过30dB,生成速度比现有扩散攻击快10倍
  • Conclusion: TAIGen是最具影响力的攻击方法,防御机制对其生成的图像净化效果最差,实现了最低的鲁棒准确率

[6] Reversible Unfolding Network for Concealed Visual Perception with Generative Refinement

Chunming He,Fengyang Xiao,Rihan Zhang,Chengyu Fang,Deng-Ping Fan,Sina Farsiu

Main category: cs.CV

TL;DR: RUN++是一个可逆展开网络,通过生成式细化解决隐蔽视觉感知问题,在mask和RGB域同时应用可逆建模,并使用扩散模型处理不确定性。

  • Motivation: 现有CVP方法主要局限于mask域的可逆策略,未能充分利用RGB域的潜力,且在处理不确定性方面存在局限。
  • Method: 将CVP任务建模为数学优化问题,展开为多阶段深度网络。包含三个模块:CORE模块在mask域进行可逆建模识别核心目标区域;CARE模块在RGB域扩展可逆建模实现前景-背景分离;FINE模块使用Bernoulli扩散模型仅细化不确定区域。
  • Result: 提出的方法能够有效减少假阳性和假阴性,在真实世界退化条件下保持鲁棒性,计算成本较低。
  • Conclusion: RUN++通过可逆展开网络和生成式细化的协同作用,为构建鲁棒的CVP系统提供了新范式,可扩展到双层优化框架。

[7] GasTwinFormer: A Hybrid Vision Transformer for Livestock Methane Emission Segmentation and Dietary Classification in Optical Gas Imaging

Toqi Tahamid Sarker,Mohamed Embaby,Taminul Islam,Amer AbuGhazaleh,Khaled R Ahmed

Main category: cs.CV

TL;DR: GasTwinFormer是一种混合视觉变换器,用于实时监测牲畜甲烷排放,通过创新的Mix Twin编码器实现甲烷分割和饮食分类,在效率和准确性方面表现优异。

  • Motivation: 牲畜甲烷排放占人为甲烷排放的32%,需要自动化监测来支持气候减缓策略。传统方法无法同时实现实时甲烷分割和饮食分类。
  • Method: 提出混合视觉变换器GasTwinFormer,采用新颖的Mix Twin编码器交替使用空间缩减全局注意力和局部分组注意力机制,配备轻量级LR-ASPP解码器进行多尺度特征聚合。
  • Result: 在首个牛肉牛甲烷排放数据集上达到74.47% mIoU和83.63% mF1的分割性能,仅3.348M参数和3.428G FLOPs,推理速度114.9 FPS,饮食分类准确率100%。
  • Conclusion: GasTwinFormer通过有效利用饮食-排放相关性,为实时牲畜排放监测提供了实用解决方案,消融研究验证了各架构组件的有效性。

[8] CurveFlow: Curvature-Guided Flow Matching for Image Generation

Yan Luo,Drake Du,Hao Huang,Yi Fang,Mengyu Wang

Main category: cs.CV

TL;DR: CurveFlow是一种新颖的流匹配框架,通过引入曲率正则化来学习平滑的非线性轨迹,显著提升了文本到图像生成的语义一致性和图像质量。

  • Motivation: 现有整流流模型基于数据和噪声分布之间的线性轨迹,这种线性性强制零曲率,可能迫使图像生成过程穿过数据流形的低概率区域,影响生成图像与文本描述的语义对齐。
  • Method: 提出CurveFlow框架,直接在流路径中融入曲率指导,采用鲁棒的曲率正则化技术惩罚轨迹内在动态的突变,学习平滑的非线性轨迹。
  • Result: 在MS COCO 2014和2017数据集上的实验表明,CurveFlow在文本到图像生成任务中达到最先进性能,在BLEU、METEOR、ROUGE和CLAIR等语义一致性指标上显著优于标准整流流变体和其他非线性基线。
  • Conclusion: 曲率感知建模显著增强了模型忠实遵循复杂指令的能力,同时保持高质量的图像生成效果,证明了非线性轨迹在提升语义对齐方面的重要性。

[9] HiRQA: Hierarchical Ranking and Quality Alignment for Opinion-Unaware Image Quality Assessment

Vaishnav Ramesh,Haining Wang,Md Jahidul Islam

Main category: cs.CV

TL;DR: HiRQA是一个自监督的无参考图像质量评估框架,通过分层排序和对齐学习实现质量感知嵌入,无需参考图像或主观标签,在合成和真实失真上都表现出优异的泛化性能。

  • Motivation: 现有的无参考图像质量评估方法存在数据集偏差和依赖主观标签的问题,限制了其泛化能力。需要开发不依赖原始参考图像或辅助模态的自监督方法。
  • Method: 提出HiRQA框架,结合排序学习和对比学习:1)高阶排序损失监督质量预测的关系排序;2)嵌入距离损失确保特征距离与感知差异一致;3)基于结构化文本提示的对比对齐损失增强表示学习。
  • Result: 仅在合成失真上训练的HiRQA能有效泛化到真实退化(如镜头光晕、雾霾、运动模糊、低光条件)。轻量版HiRQA-S推理时间仅3.5ms/图像,在合成和真实基准测试中达到SOTA性能。
  • Conclusion: HiRQA通过自监督的层次化排序和对齐学习,实现了优异的图像质量评估性能,具有很强的泛化能力和实时部署可行性,为无参考IQA提供了有效的解决方案。

[10] Reliable Multi-view 3D Reconstruction for `Just-in-time' Edge Environments

Md. Nurul Absur,Abhinav Kumar,Swastik Brahma,Saptarshi Debroy

Main category: cs.CV

TL;DR: 提出基于投资组合理论的边缘资源管理策略,用于在时空相关中断情况下保证多视角3D重建的可靠性

  • Motivation: 实时3D重建应用在边缘环境中面临时空相关中断风险,传统方法难以保证重建质量
  • Method: 采用投资组合理论优化相机选择策略,使用遗传算法快速求解优化问题
  • Result: 在公开和定制3D数据集上验证,相比传统基线策略能更好保证重建可靠性
  • Conclusion: 该投资组合理论方法能有效应对边缘环境中的时空相关中断,确保3D重建质量

[11] XDR-LVLM: An Explainable Vision-Language Large Model for Diabetic Retinopathy Diagnosis

Masato Ito,Kaito Tanaka,Keisuke Matsuda,Aya Nakayama

Main category: cs.CV

TL;DR: XDR-LVLM是一个基于视觉语言大模型的可解释性糖尿病视网膜病变诊断框架,通过自然语言解释实现高精度诊断和病理特征识别

  • Motivation: 深度学习模型在糖尿病视网膜病变检测中表现出色,但其黑盒特性缺乏透明度和可解释性,阻碍了临床采用。需要开发既能提供准确诊断又能生成解释性报告的系统。
  • Method: 提出XDR-LVLM框架,整合专用医学视觉编码器和LVLM核心,采用多任务提示工程和多阶段微调技术,深入理解眼底图像病理特征并生成全面诊断报告。
  • Result: 在DDR数据集上达到84.55%的平衡准确率和79.92%的F1分数,概念检测达到77.95% BACC和66.88% F1,人类评估确认生成解释具有高流畅性、准确性和临床实用性。
  • Conclusion: XDR-LVLM能够通过提供稳健且可解释的见解,弥合自动化诊断与临床需求之间的差距,展示了在医疗AI可解释性方面的重要进展。

[12] MeSS: City Mesh-Guided Outdoor Scene Generation with Cross-View Consistent Diffusion

Xuyang Chen,Zhijun Zhai,Kaixuan Zhou,Zengmao Wang,Jianan He,Dong Wang,Yanfeng Zhang,mingwei Sun,Rüdiger Westermann,Konrad Schindler,Liqiu Meng

Main category: cs.CV

TL;DR: MeSS方法利用城市网格模型作为几何先验,通过改进的图像扩散模型生成高质量、风格一致的室外3D场景,解决了现有方法在几何对齐和跨视图一致性方面的不足。

  • Motivation: 城市网格模型缺乏真实纹理限制了其在虚拟城市导航和自动驾驶中的应用,现有扩散模型在3D场景生成中难以保证几何对齐和跨视图一致性。
  • Method: 采用三阶段流程:1)使用级联外绘ControlNet生成几何一致的稀疏视图;2)通过AGInpaint组件传播更密集的中间视图;3)使用GCAlign模块全局消除视觉不一致性。同时基于网格表面初始化3D高斯溅射场景重建。
  • Result: 该方法在几何对齐和生成质量方面优于现有方法,生成的场景可通过重照明和风格迁移技术以不同风格渲染。
  • Conclusion: MeSS成功解决了城市网格模型的纹理生成问题,为虚拟城市导航和自动驾驶提供了高质量的3D场景合成方案。

[13] SurgWound-Bench: A Benchmark for Surgical Wound Diagnosis

Jiahao Xu,Changchang Yin,Odysseas Chatzipanagiotou,Diamantis Tsilimigras,Kevin Clear,Bingsheng Yao,Dakuo Wang,Timothy Pawlik,Ping Zhang

Main category: cs.CV

TL;DR: 提出了首个开源手术伤口数据集SurgWound和基准测试,包含697张多类型手术伤口图像和8个临床属性标注,并开发了三阶段学习框架WoundQwen用于手术伤口诊断和报告生成。

  • Motivation: 手术部位感染(SSI)是常见且昂贵的医疗相关感染,当前缺乏公开的手术伤口数据集和开源筛查工具,且数据隐私和专家标注成本限制了深度学习在该领域的发展。
  • Method: 1) 创建SurgWound数据集,包含697张手术伤口图像和8个精细临床属性标注;2) 建立包含视觉问答(VQA)和报告生成任务的基准测试;3) 提出三阶段学习框架WoundQwen:第一阶段用5个MLLM预测特定伤口特征,第二阶段用2个MLLM进行感染风险评估,第三阶段整合前两阶段结果生成全面报告。
  • Result: 开发了首个开源手术伤口数据集和基准测试,提出了能够分析详细伤口特征并提供个性化护理指导的三阶段诊断框架。
  • Conclusion: 该研究为手术伤口筛查提供了重要的数据集和基准,提出的三阶段框架能够实现个性化伤口护理、及时干预和改善患者预后,推动了手术伤口智能诊断的发展。

[14] Adversarial Agent Behavior Learning in Autonomous Driving Using Deep Reinforcement Learning

Arjun Srinivasan,Anubhav Paras,Aniket Bera

Main category: cs.CV

TL;DR: 提出基于学习的方法来推导规则智能体的对抗行为以制造故障场景,在自动驾驶等安全关键应用中测试对抗智能体对各类规则智能体的效果。

  • Motivation: 在自动驾驶等安全关键应用中,现有强化学习方法使用规则智能体训练最优行为,但需要确保规则智能体建模正确。当前使用多种行为建模策略和IDM模型,但缺乏对对抗行为的系统性研究。
  • Method: 采用基于学习的方法来推导规则智能体的对抗行为,通过训练对抗智能体来制造导致主智能体失败的场景。
  • Result: 评估对抗智能体对抗所有规则智能体的效果,结果显示累积奖励显著下降,证明该方法能有效制造故障场景。
  • Conclusion: 该方法能够有效识别和利用规则智能体的弱点,为安全关键系统的鲁棒性测试提供了有效工具,有助于改进自动驾驶等系统的安全性。

[15] DyMorph-B2I: Dynamic and Morphology-Guided Binary-to-Instance Segmentation for Renal Pathology

Leiyue Zhao,Yuechen Yang,Yanfan Zhu,Haichun Yang,Yuankai Huo,Paul D. Simonson,Kenji Ikemura,Mert R. Sabuncu,Yihe Yang,Ruining Deng

Main category: cs.CV

TL;DR: DyMorph-B2I是一个针对肾脏病理学的动态形态学引导的二元到实例分割管道,通过整合分水岭、骨架化和形态学操作,解决了传统方法在处理肾脏组织复杂形态时的局限性。

  • Motivation: 现有的肾脏病理学数据集和自动化方法主要提供二元(语义)分割掩码,限制了后续形态学定量分析的精度。传统后处理技术在处理肾脏组织多样形态和复杂连接性时效果有限。
  • Method: 开发了一个统一框架,整合分水岭、骨架化和形态学操作,并采用自适应几何细化和可定制超参数调优,针对不同功能单元类别进行参数优化。
  • Result: 实验结果表明,该方法优于单个传统方法和简单组合方法,能够有效分离粘连和异质结构,实现更优越的实例分割效果。
  • Conclusion: DyMorph-B2I管道能够为肾脏病理学工作流程提供更准确的形态学分析,该工具已公开可用。

[16] STAGNet: A Spatio-Temporal Graph and LSTM Framework for Accident Anticipation

Vipooshan Vipulananthan,Kumudu Mohottala,Kavindu Chinthana,Nimsara Paramulla,Charith D Chitraranjan

Main category: cs.CV

TL;DR: 提出STAGNet模型,通过改进时空特征提取和循环网络聚合,提升基于行车记录视频的事故预测性能,在多个数据集上取得更好的平均精度和平均碰撞时间。

  • Motivation: 现有ADAS系统依赖多种传感器成本较高,而仅使用行车记录仪视频进行事故预测更具成本效益和易部署性,但技术挑战更大。
  • Method: 采用改进的时空特征提取方法,通过循环神经网络聚合特征,在图神经网络基础上提升事故预测能力。
  • Result: 在三个公开数据集上的实验表明,STAGNet模型相比现有方法获得了更高的平均精度和平均碰撞时间值,在数据集内交叉验证和跨数据集测试中均表现优异。
  • Conclusion: STAGNet模型通过更好的时空特征处理和聚合机制,为基于单一视频输入的事故预测提供了更有效的解决方案,具有更好的泛化性能。

[17] Collaborative Multi-Modal Coding for High-Quality 3D Generation

Ziang Cao,Zhaoxi Chen,Liang Pan,Ziwei Liu

Main category: cs.CV

TL;DR: TriMM是首个前馈式3D原生生成模型,通过多模态协作编码和triplane潜在扩散模型,有效整合RGB、RGBD和点云等多模态数据,在少量训练数据下实现高质量的3D资产生成。

  • Motivation: 现有3D生成模型大多局限于单一模态或3D结构,无法充分利用多模态数据的互补优势。多模态数据(如RGB图像包含丰富纹理,点云定义精细几何)的整合能显著提升3D建模质量。
  • Method: 1) 提出协作多模态编码,整合模态特定特征同时保持各自表征优势;2) 引入辅助2D和3D监督提升多模态编码鲁棒性;3) 基于嵌入的多模态代码,使用triplane潜在扩散模型生成高质量3D资产。
  • Result: 在多个知名数据集上的实验表明,TriMM通过有效利用多模态数据,在使用少量训练数据的情况下实现了与大规模数据集训练模型相竞争的性能。在RGB-D数据集上的额外实验验证了整合其他多模态数据集的可行性。
  • Conclusion: TriMM成功证明了多模态数据整合在3D生成中的价值,为利用多样化多模态数据集进行3D内容创作提供了有效解决方案,在纹理和几何细节方面都实现了显著提升。

[18] Center-Oriented Prototype Contrastive Clustering

Shihao Dong,Xiaotong Zhou,Yuhui Zheng,Huiying Xu,Xinzhong Zhu

Main category: cs.CV

TL;DR: 提出了一种面向中心的原型对比聚类框架,通过软原型对比模块和双重一致性学习模块解决类间冲突问题,提高了聚类性能

  • Motivation: 现有对比学习方法在聚类任务中存在类间冲突问题,硬原型计算与真实聚类中心存在偏差,需要更有效的原型计算方法
  • Method: 包含软原型对比模块(使用样本属于聚类中心的概率作为权重计算类别原型)和双重一致性学习模块(对齐同一样本的不同变换和不同样本的邻域)
  • Result: 在五个数据集上的广泛实验表明,该方法相比最先进方法具有有效性
  • Conclusion: 该方法通过软原型计算和双重一致性学习有效解决了类间冲突和原型漂移问题,为原型计算提供了可靠保证

[19] AeroDuo: Aerial Duo for UAV-based Vision and Language Navigation

Ruipu Wu,Yige Zhang,Jinyu Chen,Linjiang Huang,Shifeng Zhang,Xu Zhou,Liang Wang,Si Liu

Main category: cs.CV

TL;DR: 提出了双高度无人机协作视觉语言导航任务(DuAl-VLN),通过高低空无人机协作解决长轨迹复杂机动性问题,构建了HaL-13k数据集并开发了AeroDuo框架。

  • Motivation: 传统无人机视觉语言导航面临长轨迹和复杂机动性挑战,需要人类干预或过于详细的指令。利用无人机高机动性提供多粒度视角,同时保持可管理的运动空间进行学习。
  • Method: 提出双高度无人机协作VLN任务:高空无人机负责环境推理,低空无人机负责精确导航。构建HaL-13k数据集(13,838条协作轨迹),开发AeroDuo框架,高空无人机使用多模态大语言模型(Pilot-LLM)进行目标推理,低空无人机使用轻量级多阶段策略进行导航和目标定位,仅交换坐标信息确保效率。
  • Result: 构建了包含13,838条协作轨迹的HaL-13k数据集,包含未见地图和未见对象验证集,系统评估模型在新环境和陌生目标上的泛化能力。
  • Conclusion: 双无人机协作方法有效利用了各自优势,高空无人机提供环境推理,低空无人机执行精确导航,通过最小信息交换实现高效协作,为解决复杂无人机导航问题提供了新思路。

[20] Pretrained Diffusion Models Are Inherently Skipped-Step Samplers

Wenju Xu

Main category: cs.CV

TL;DR: 本文提出了一种跳过步采样机制,通过马尔可夫方式实现扩散模型的加速采样,证明这是预训练扩散模型的内在属性,无需依赖非马尔可夫过程。

  • Motivation: 现有扩散模型需要顺序生成过程,采样步骤多效率低。虽然DDIM等方法尝试减少采样步骤,但缺乏对原始扩散过程是否能在保持马尔可夫性的情况下实现相同效率的理解。
  • Method: 提出跳过步采样机制,在迭代生成过程中绕过多个中间去噪步骤,而不是传统的逐步细化。该方法与标准扩散模型具有相同的训练目标,可整合DDIM进一步优化。
  • Result: 在OpenAI ADM、Stable Diffusion和Open Sora等流行预训练扩散模型上的实验表明,该方法能以显著减少的采样步骤实现高质量生成。
  • Conclusion: 跳过步采样是扩散模型的内在属性,通过马尔可夫方式即可实现高效采样,无需依赖非马尔可夫过程,为扩散模型的实际应用提供了更高效的解决方案。

[21] Comp-X: On Defining an Interactive Learned Image Compression Paradigm With Expert-driven LLM Agent

Yixin Gao,Xin Li,Xiaohan Pan,Runsen Feng,Bingchen Li,Yunpeng Qi,Yiting Lu,Zhengxue Cheng,Zhibo Chen,Jörn Ostermann

Main category: cs.CV

TL;DR: Comp-X是首个基于大语言模型智能交互的图像压缩范式,通过统一多模式编码框架、交互式编码代理和专用评测基准,实现了智能化的图像压缩交互

  • Motivation: 传统图像编解码器编码模式有限且依赖工程师手动选择,对非专业用户不友好,需要更智能的交互式压缩方案
  • Method: 提出三创新:多功能编码框架统一不同需求模式;交互式编码代理使用增强上下文学习方法;建立首个专用评测基准IIC-bench
  • Result: 实验证明Comp-X能高效理解编码需求,具备优秀文本交互能力,在单一框架下保持可比压缩性能
  • Conclusion: 该方法为图像压缩领域的人工通用智能提供了有前景的发展方向

[22] Normal and Abnormal Pathology Knowledge-Augmented Vision-Language Model for Anomaly Detection in Pathology Images

Jinsol Song,Jiamu Wang,Anh Tien Nguyen,Keunho Byeon,Sangjeong Ahn,Sung Hak Lee,Jin Tae Kwak

Main category: cs.CV

TL;DR: Ano-NAViLa是一个基于预训练视觉语言模型的病理图像异常检测方法,通过整合正常和异常病理知识,在计算受限的病理场景中实现了最先进的异常检测和定位性能。

  • Motivation: 计算病理学中的异常检测面临数据稀缺、计算约束、组织结构多样性和缺乏可解释性等挑战,现有工业异常检测方法在病理领域存在局限性。
  • Method: 基于预训练视觉语言模型构建,加入轻量级可训练MLP,整合正常和异常病理知识,通过图像-文本关联提供可解释性。
  • Result: 在两个不同器官的淋巴结数据集上评估,Ano-NAViLa在异常检测和定位方面达到了最先进的性能,优于竞争模型。
  • Conclusion: Ano-NAViLa通过知识增强的视觉语言模型有效解决了病理图像异常检测的挑战,提供了准确、鲁棒且可解释的解决方案。

[23] RATopo: Improving Lane Topology Reasoning via Redundancy Assignment

Han Li,Shaofei Huang,Longfei Xu,Yulu Gao,Beipeng Mu,Si Liu

Main category: cs.CV

TL;DR: RATopo提出了一种冗余分配策略,通过交换Transformer解码器中的交叉注意力和自注意力层,实现一对多分配,提升车道拓扑推理性能。

  • Motivation: 现有车道拓扑推理方法采用先检测后推理的范式,基于一对一分配结果进行监督,导致监督范围有限和性能次优。
  • Method: 重新构建Transformer解码器结构,交换交叉注意力和自注意力层顺序,保留冗余车道预测;实例化多个并行交叉注意力块以增强检测多样性。
  • Result: 在OpenLane-V2数据集上的实验表明,RATopo策略具有模型无关性,能无缝集成到现有拓扑推理框架中,持续提升车道-车道和车道-交通拓扑性能。
  • Conclusion: RATopo通过冗余分配策略实现了数量丰富和几何多样化的拓扑监督,有效解决了现有方法监督范围有限的问题,显著提升了车道拓扑推理性能。

[24] DesignCLIP: Multimodal Learning with CLIP for Design Patent Understanding

Zhu Wang,Homaira Huda Shomee,Sathya N. Ravi,Sourav Medya

Main category: cs.CV

TL;DR: DesignCLIP利用CLIP模型构建统一框架,通过类别感知分类和对比学习,结合生成详细图像描述和多视图学习,显著提升了设计专利分类和检索性能。

  • Motivation: 传统设计专利分析依赖图像数据,但专利草图往往缺乏完整的视觉上下文和语义信息,导致在先技术搜索中存在评估模糊性。
  • Method: 基于CLIP模型开发DesignCLIP框架,采用类别感知分类和对比学习策略,利用生成的详细图像描述和多视图图像学习来处理专利数据的独特特征。
  • Result: DesignCLIP在所有专利领域任务中持续超越基线和最先进模型,在多模态专利检索方面展现出增强设计创造力和创新潜力的能力。
  • Conclusion: 多模态方法在推进专利分析方面具有巨大潜力,DesignCLIP为设计专利应用提供了更可靠和准确的AI驱动分析解决方案。

[25] TPA: Temporal Prompt Alignment for Fetal Congenital Heart Defect Classification

Darya Taratynova,Alya Almsouti,Beknur Kalmakhanbet,Numan Saeed,Mohammad Yaqub

Main category: cs.CV

TL;DR: TPA是一种结合时序建模、提示感知对比学习和不确定性量化的超声视频胎儿先天性心脏病分类框架,在CHD检测和心脏功能评估中达到最先进性能。

  • Motivation: 超声视频中的先天性心脏病检测受图像噪声和探头位置变异性的影响,现有机器学习方法往往忽略时序信息、仅限于二元分类且缺乏预测校准。
  • Method: 提出时序提示对齐(TPA)方法,利用基础图像-文本模型和提示感知对比学习,通过图像编码器提取视频帧特征,可训练时序提取器聚合特征捕获心脏运动,并通过边界铰链对比损失将视频表示与类别特定文本提示对齐。引入条件变分自编码器风格调制(CVAESM)模块学习潜在风格向量来调节嵌入并量化分类不确定性。
  • Result: 在CHD检测私有数据集和EchoNet-Dynamic公共数据集上,TPA在CHD诊断中达到85.40%的宏F1分数,同时将预期校准误差降低5.38%,自适应ECE降低6.8%。在EchoNet-Dynamic的三分类任务中,宏F1提升4.73%。
  • Conclusion: TPA框架通过整合时序建模、提示感知对比学习和不确定性量化,为胎儿先天性心脏病超声视频分类提供了有效的解决方案,显著提升了分类性能和临床可靠性。

[26] BasketLiDAR: The First LiDAR-Camera Multimodal Dataset for Professional Basketball MOT

Ryunosuke Hayashi,Kohei Torimi,Rokuto Nagata,Kazuma Ikeda,Ozora Sako,Taichi Nakamura,Masaki Tani,Yoshimitsu Aoki,Kentaro Yoshioka

Main category: cs.CV

TL;DR: 本文提出了BasketLiDAR数据集和MOT框架,结合LiDAR点云和多视角相机数据,在篮球场景中实现了实时3D球员追踪,解决了传统相机方法的遮挡问题和计算成本高的挑战。

  • Motivation: 传统基于多相机的体育追踪系统受限于2D视频数据和复杂3D重建处理,难以实现实时分析。篮球场景中球员快速移动、频繁遮挡,使得多目标追踪(MOT)极具挑战性。
  • Method: 构建了首个结合LiDAR点云和同步多视角相机数据的篮球MOT数据集BasketLiDAR,包含4,445帧和3,105个球员ID。提出了基于LiDAR的实时追踪管道和LiDAR-相机融合的多模态追踪管道。
  • Result: 实验结果表明,该方法实现了实时运行(传统相机方法难以实现),并在遮挡条件下仍能保持优异的追踪性能,同时降低了计算成本。
  • Conclusion: BasketLiDAR数据集和提出的MOT框架为体育分析领域提供了有效的解决方案,通过LiDAR的高精度3D空间信息解决了篮球场景中的复杂追踪问题,推动了实时3D运动分析的发展。

[27] First RAG, Second SEG: A Training-Free Paradigm for Camouflaged Object Detection

Wutao Liu,YiDan Wang,Pan Gao

Main category: cs.CV

TL;DR: RAG-SEG是一种无需训练的两阶段伪装目标检测方法,首先通过检索增强生成粗掩模作为提示,然后使用SAM进行精细分割,在个人笔记本上实现高效检测。

  • Motivation: 现有伪装目标检测方法需要大量训练和计算资源,而基础模型如SAM需要高质量提示且未经微调时效果不佳,手动生成提示成本高效率低。
  • Method: 将COD任务解耦为两个阶段:RAG阶段通过无监督聚类构建检索数据库生成粗掩模作为提示,SEG阶段使用SAM2进行精细分割。整个流程无需训练。
  • Result: 在基准COD数据集上的实验表明,RAG-SEG性能与或超越最先进方法,所有实验均在个人笔记本上完成,证明了计算效率和实用性。
  • Conclusion: RAG-SEG提供了一种无需训练的高效伪装目标检测范式,通过检索增强生成和SAM分割的结合,在保持竞争力的同时显著降低了计算需求。

[28] VideoEraser: Concept Erasure in Text-to-Video Diffusion Models

Naen Xu,Jinghuai Zhang,Changjiang Li,Zhi Chen,Chunyi Zhou,Qingming Li,Tianyu Du,Shouling Ji

Main category: cs.CV

TL;DR: VideoEraser是一个无需训练的即插即用框架,通过两阶段方法防止文本到视频扩散模型生成不良内容,在多个擦除任务中平均减少46%的不良内容生成。

  • Motivation: 文本到视频扩散模型的快速发展引发了隐私、版权和安全担忧,这些模型可能被滥用来生成有害或误导性内容,需要一种方法来防止生成不良概念。
  • Method: 采用两阶段过程:选择性提示嵌入调整(SPEA)和抗干扰噪声引导(ARNG),作为即插即用模块与现有T2V扩散模型无缝集成。
  • Result: 在对象擦除、艺术风格擦除、名人擦除和显式内容擦除四个任务中,VideoEraser在效能、完整性、保真度、鲁棒性和泛化性方面均优于现有方法。
  • Conclusion: VideoEraser在抑制T2V生成中的不良内容方面达到了最先进的性能,为控制扩散模型输出提供了有效的解决方案。

[29] Predicting Road Crossing Behaviour using Pose Detection and Sequence Modelling

Subhasis Dasgupta,Preetam Saha,Agniva Roy,Jaydip Sen

Main category: cs.CV

TL;DR: 该研究开发了一个端到端的深度学习框架,通过姿态检测和序列建模来预测行人过马路意图,比较了GRU、LSTM和1D CNN三种序列模型的效果。

  • Motivation: 随着自动驾驶技术的发展,车辆需要能够从远处预测行人是否有过马路意图,以提高道路安全性。
  • Method: 使用深度学习模型进行姿态检测,然后集成三种序列建模技术(GRU、LSTM、1D CNN)进行时序预测,构建端到端的深度学习框架。
  • Result: 研究发现GRU在预测意图方面优于LSTM,而1D CNN在速度方面表现最佳。
  • Conclusion: 该研究成功开发了一个有效的行人过马路意图预测框架,为自动驾驶系统提供了重要的安全保障技术。

[30] RCDINO: Enhancing Radar-Camera 3D Object Detection with DINOv2 Semantic Features

Olga Matykina,Dmitry Yudin

Main category: cs.CV

TL;DR: RCDINO是一个基于transformer的多模态3D目标检测模型,通过融合DINOv2预训练基础模型的语义丰富表示来增强视觉骨干特征,在nuScenes数据集上实现了雷达-相机模型的最先进性能。

  • Motivation: 三维目标检测对自动驾驶和机器人技术至关重要,需要有效融合相机和雷达的多模态数据。现有方法在视觉特征表示方面仍有改进空间,需要更丰富的语义信息来提升检测性能。
  • Method: 提出RCDINO模型,采用基于transformer的多模态架构,将预训练的DINOv2基础模型的语义丰富表示与视觉骨干特征进行融合,从而增强视觉表示能力,同时保持与基线架构的兼容性。
  • Result: 在nuScenes数据集上的实验表明,RCDINO达到了雷达-相机模型的最先进性能,获得56.4 NDS和48.1 mAP的优异指标。
  • Conclusion: 通过融合DINOv2的语义丰富表示,RCDINO成功提升了多模态3D目标检测的性能,证明了预训练基础模型在增强视觉表示方面的有效性,为自动驾驶感知系统提供了强有力的解决方案。

[31] An Empirical Study on How Video-LLMs Answer Video Questions

Chenhui Gou,Ziyu Ma,Zicheng Duan,Haoyu He,Feng Chen,Akide Liu,Bohan Zhuang,Jianfei Cai,Hamid Rezatofighi

Main category: cs.CV

TL;DR: 本文通过注意力敲除技术系统分析Video-LLMs内部机制,发现视频信息处理主要在早期层完成,呈现感知编码到抽象推理的两阶段过程,中间层是关键异常点,时空建模更依赖语言引导检索而非视频token自注意力。

  • Motivation: 现有Video-LLMs研究主要关注性能提升,对其内部机制理解有限,本文旨在通过系统实证研究填补这一空白,揭示Video-LLMs如何处理和理解视频内容。
  • Method: 采用注意力敲除作为主要分析工具,设计三种变体:视频时间敲除、视频空间敲除和语言到视频敲除,通过控制层窗口和敲除类型进行全局和细粒度设置分析。
  • Result: 发现三个关键发现:1)早期层主要负责视频信息提取;2)某些中间层对视频问答有超大影响;3)时空建模更依赖语言引导检索。这些见解可用于减少注意力计算。
  • Conclusion: 这是首个系统揭示Video-LLMs内部视频处理机制的工作,为未来研究提供可解释性和效率视角,证明了通过理解模型内部机制可以优化计算效率。

[32] Transfer learning optimization based on evolutionary selective fine tuning

Jacinto Colan,Ana Davila,Yasuhisa Hasegawa

Main category: cs.CV

TL;DR: BioTune是一种进化自适应微调技术,通过进化算法选择性地微调层来提升迁移学习效率,在多个图像分类数据集上实现了竞争性或改进的准确性和效率。

  • Motivation: 传统微调方法需要更新所有模型参数,可能导致过拟合和计算成本高,需要更高效的迁移学习策略。
  • Method: 使用进化算法识别需要微调的层子集,集中微调过程在相关层上,减少可训练参数数量。
  • Result: 在9个不同领域的图像分类数据集上评估,BioTune相比AutoRGN和LoRA等方法实现了竞争性或改进的准确性和效率。
  • Conclusion: 通过选择性层微调,BioTune降低了计算成本,促进了跨不同数据特征和分布的更高效迁移学习。

[33] Image-Conditioned 3D Gaussian Splat Quantization

Xinshuang Liu,Runfa Blark Li,Keito Suzuki,Truong Nguyen

Main category: cs.CV

TL;DR: 提出ICGS-Quantizer方法,通过联合利用高斯间和属性间相关性,使用共享码本,将3DGS压缩到千字节级别,并支持基于图像的场景更新

  • Motivation: 现有3DGS压缩方法只能压缩到兆字节级别,不适用于大规模场景或场景集合,且缺乏对长期归档后场景变化的适应机制
  • Method: 使用图像条件化高斯分布量化器,联合利用高斯间和属性间相关性,采用跨场景共享码本,编码、量化和解码过程联合训练
  • Result: 将3DGS存储需求降低到千字节范围,保持视觉保真度,在压缩效率和场景变化适应性方面优于最先进方法
  • Conclusion: ICGS-Quantizer显著提升了3DGS的压缩效率,实现了千字节级别的压缩,同时提供了对归档后场景变化的适应能力

[34] DriveSplat: Decoupled Driving Scene Reconstruction with Geometry-enhanced Partitioned Neural Gaussians

Cong Wang,Xianda Guo,Wenbo Xu,Wei Tian,Ruiqi Song,Chenming Zhang,Lingxi Li,Long Chen

Main category: cs.CV

TL;DR: DriveSplat是一种基于神经高斯表示的动态-静态解耦方法,用于驾驶场景的高质量3D重建,通过区域体素初始化、可变形神经高斯和深度/法线先验监督,在Waymo和KITTI数据集上实现了最先进的性能。

  • Motivation: 现有基于3D高斯泼溅的方法在处理驾驶场景时,虽然通过解耦动态和静态组件解决了运动模糊问题,但忽视了具有充分几何关系的背景优化,仅通过添加高斯来拟合每个训练视图,导致新视角渲染鲁棒性有限且缺乏准确的几何表示。
  • Method: 1. 采用区域体素初始化方案,将场景划分为近、中、远区域以增强近距离细节表示;2. 引入可变形神经高斯来建模非刚性动态物体,其参数通过可学习的变形网络进行时间调整;3. 使用预训练模型的深度和法线先验对整个框架进行监督,提高几何结构的准确性。
  • Result: 在Waymo和KITTI数据集上进行了严格评估,证明了在驾驶场景的新视角合成方面达到了最先进的性能。
  • Conclusion: DriveSplat通过创新的动态-静态解耦方法和几何先验监督,有效解决了驾驶场景3D重建中的挑战,实现了高质量的新视角渲染和准确的几何表示。

[35] DIO: Refining Mutual Information and Causal Chain to Enhance Machine Abstract Reasoning Ability

Ruizhuo Song,Beiming Yuan

Main category: cs.CV

TL;DR: 该论文针对深度学习模型在抽象推理方面的瓶颈,通过Raven渐进矩阵问题作为基准测试,提出了基于因果链建模的方法来提升机器智能的抽象推理能力。

  • Motivation: 当前深度学习模型在抽象推理方面存在根本性瓶颈,Raven渐进矩阵问题被用作评估深度学习算法抽象推理能力的权威基准。论文旨在通过解决RPM问题来增强机器智能的抽象推理能力。
  • Method: 采用因果链建模视角分析RPM任务的完整因果链,设计了基线模型DIO的网络架构。针对DIO优化目标的局限性,逐步提出了三种改进方法来解决互信息下界紧致性和因果关系捕获的问题。
  • Result: 实验发现基于最大化上下文与正确选项间互信息变分下界的优化目标无法让模型真正获得预定义的人类推理逻辑,需要进一步改进。
  • Conclusion: 论文通过因果链分析揭示了当前方法的局限性,并提出了渐进式的改进方案来更好地解决RPM问题,从而提升深度学习模型的抽象推理能力。

[36] Spiking Variational Graph Representation Inference for Video Summarization

Wenrui Li,Wei Han,Liang-Jian Deng,Ruiqin Xiong,Xiaopeng Fan

Main category: cs.CV

TL;DR: 提出SpiVG网络,通过脉冲神经网络和变分推理解决视频摘要中的时序依赖和特征融合噪声问题,在多个数据集上优于现有方法

  • Motivation: 短视频内容兴起需要高效的关键信息提取技术,但现有方法难以捕捉全局时序依赖和保持语义连贯性,且多通道特征融合易受噪声影响
  • Method: 基于脉冲神经网络的关键帧提取器、动态聚合图推理器解耦上下文一致性、变分推理重建模块使用ELBO优化处理特征融合不确定性
  • Result: 在SumMe、TVSum、VideoXum、QFVS等多个数据集上超越现有方法
  • Conclusion: SpiVG网络通过结合SNN的事件驱动机制和变分推理,有效提升了视频摘要的信息密度和语义连贯性,同时降低了计算复杂度

[37] From Linearity to Non-Linearity: How Masked Autoencoders Capture Spatial Correlations

Anthony Bisulco,Rahul Ramesh,Randall Balestriero,Pratik Chaudhari

Main category: cs.CV

TL;DR: 本文通过理论分析揭示了MAE超参数(掩码比例和补丁大小)如何影响学习到的空间相关性特征,为实践中超参数选择提供了理论指导

  • Motivation: 尽管MAE在视觉基础模型中表现出色,但在新数据集上需要大量超参数调优,且MAE超参数与下游任务性能之间的关系缺乏理论探索
  • Method: 通过分析线性MAE学习到的特征,推导掩码比例和补丁大小对选择短程和长程空间相关性特征的影响,并将分析扩展到非线性MAE
  • Result: 证明MAE表示能够适应数据集中的空间相关性(超越二阶统计量),掩码比例和补丁大小可用于选择性捕获不同范围的空间相关特征
  • Conclusion: 为MAE超参数选择提供了理论依据,掩码比例和补丁大小是控制学习特征空间相关范围的关键参数

[38] Bidirectional Temporal Information Propagation for Moving Infrared Small Target Detection

Dengyan Luo,Yanping Xiang,Hu Wang,Luping Ji. Shuai Li,Mao Ye

Main category: cs.CV

TL;DR: 提出BIRD方法,通过双向时间信息传播同时利用局部和全局时间信息进行红外小目标检测,在性能和推理速度上均达到最优

  • Motivation: 现有的基于学习的多帧方法主要采用滑动窗口方式聚合相邻帧信息,但忽略了滑动窗口外的全局时间信息,导致计算冗余和性能次优
  • Method: 提出双向传播策略,包含前向和后向传播分支:1) LTMF模块建模目标帧与相邻帧的局部时空依赖;2) GTMF模块聚合全局传播特征与局部融合特征;3) 双向聚合特征融合后输入检测头;4) 使用检测损失和STF损失联合优化整个视频片段
  • Result: 大量实验表明BIRD方法不仅达到了最先进的性能,而且显示出快速的推理速度
  • Conclusion: BIRD方法通过双向时间信息传播有效解决了现有滑动窗口方法的局限性,在红外小目标检测任务中实现了性能与效率的双重提升

[39] A Curated Dataset and Deep Learning Approach for Minor Dent Detection in Vehicles

Danish Zia Baig,Mohsin Kamal

Main category: cs.CV

TL;DR: 这篇论文提出了一种基于YOLOv8的深度学习方法,用于自动检测汽车表面微观凹陷,解决传统手动检测的问题。

  • Motivation: 传统汽车损坏检测方法劳动密集、手动化且容易漏检微小表面缺陷,机器学习提供了更快速准确的解决方案。
  • Method: 构建了带标注的汽车表面图片数据集,训练YOLOv8m模型及其两个自定义变体YOLOv8m-t4和YOLOv8m-t42,采用实时数据增强技术提高模型稳健性。
  • Result: YOLOv8m-t42模型表现最佳,精度0.86、召回0.84、F1分0.85,mAP@0.5为0.60,PR曲线面积0.88,适合实时应用。
  • Conclusion: 研究证明YOLOv8m-t42模型在微观凹陷检测中具有高准确度和实用性,可应用于自动保险评估和汽车检测场景。

[40] Aligning Moments in Time using Video Queries

Yogesh Kumar,Uday Agarwal,Manish Gupta,Anand Mishra

Main category: cs.CV

TL;DR: MATR是一个基于Transformer的视频到视频时刻检索模型,通过双阶段序列对齐和自监督预训练,在ActivityNet-VRL和SportsMoments数据集上显著超越现有方法。

  • Motivation: 视频到视频时刻检索任务需要语义帧级对齐和建模查询视频与目标视频之间的复杂依赖关系,现有方法在这方面存在挑战。
  • Method: 提出MATR模型,使用基于Transformer的双阶段序列对齐来编码查询和目标视频之间的相关性,并采用自监督预训练技术来初始化模型。
  • Result: 在ActivityNet-VRL数据集上R@1提升13.1%,mIoU提升8.1%;在SportsMoments数据集上R@1提升14.7%,mIoU提升14.4%。
  • Conclusion: MATR通过有效的序列对齐和预训练策略,在视频到视频时刻检索任务上取得了显著的性能提升,证明了其方法的有效性。

[41] Enhancing Novel View Synthesis from extremely sparse views with SfM-free 3D Gaussian Splatting Framework

Zongqi He,Hanmin Li,Kin-Chung Chan,Yushen Zuo,Hao Xie,Zhe Xiao,Jun Xiao,Kin-Man Lam

Main category: cs.CV

TL;DR: 提出了一种无需SfM的3D高斯泼溅方法,能够在极稀疏视角输入下联合估计相机位姿和重建3D场景,显著提升渲染质量

  • Motivation: 传统3DGS严重依赖密集多视角输入和精确相机位姿,但在现实场景中难以获得。当输入视角极其稀疏时,SfM初始化方法无法准确重建3D几何结构,导致渲染质量下降
  • Method: 提出稠密立体模块逐步估计相机位姿信息并重建全局稠密点云进行初始化;设计一致性视角插值模块基于训练视角对插值相机位姿并生成视角一致内容作为额外监督;引入多尺度拉普拉斯一致性正则化和自适应空间感知多尺度几何正则化
  • Result: 在极稀疏视角条件下(仅使用2个训练视角),PSNR指标显著提升2.75dB,合成图像失真最小且保留丰富高频细节,视觉质量优于现有技术
  • Conclusion: 该方法有效解决了3DGS在极稀疏输入条件下的性能瓶颈,为实际应用提供了可行的解决方案

[42] LGMSNet: Thinning a medical image segmentation model via dual-level multiscale fusion

Chengqi Dong,Fenghe Tang,Rongge Mao,Xinpei Gao,S. Kevin Zhou

Main category: cs.CV

TL;DR: LGMSNet是一个轻量级医学图像分割框架,通过局部和全局双多尺度设计,在低计算开销下实现最先进性能,并具有优秀的零样本泛化能力

  • Motivation: 解决现有轻量级模型在医学图像分割中性能与效率的权衡问题,特别是缺乏全局上下文感知能力和通道冗余问题
  • Method: 采用异构层内卷积核提取局部高频信息并减少通道冗余,集成稀疏Transformer-卷积混合分支捕获低频全局信息
  • Result: 在六个公共数据集上超越现有最先进方法,在四个未见数据集上保持优异的零样本泛化性能
  • Conclusion: LGMSNet在资源有限的医疗场景中具有实际部署潜力,为轻量级医学图像分割提供了有效解决方案

[43] MExECON: Multi-view Extended Explicit Clothed humans Optimized via Normal integration

Fulden Ece Uğur,Rafael Redondo,Albert Barreiro,Stefan Hristov,Roger Marí

Main category: cs.CV

TL;DR: MExECON是一个从稀疏多视角RGB图像进行3D穿衣人体重建的新方法,通过多视角联合优化提升几何和姿态估计精度

  • Motivation: 现有单视角方法ECON在重建精度上有限,需要利用多视角信息来提升穿衣人体3D重建的几何保真度和细节捕捉能力
  • Method: 提出JMBO算法联合优化SMPL-X人体模型,保持多视角一致性;通过法线图积分添加几何细节,整合前后视角的法线信息
  • Result: 实验结果显示MExECON相比单视角基线方法在保真度上持续提升,与当前少样本3D重建方法相比具有竞争力
  • Conclusion: MExECON成功扩展了单视角方法到多视角场景,无需重新训练网络即可实现显著的重建质量提升,为穿衣人体3D重建提供了有效解决方案

[44] Task-Generalized Adaptive Cross-Domain Learning for Multimodal Image Fusion

Mengyu Wang,Zhenyu Liu,Kun Li,Yu Wang,Yuwei Wang,Yanyan Wei,Fei Wang

Main category: cs.CV

TL;DR: AdaSFFuse是一个新颖的多模态图像融合框架,通过自适应跨域协同融合学习实现任务通用性,在保持低计算成本和紧凑网络的同时提供卓越的融合性能。

  • Motivation: 当前多模态图像融合方法面临模态不对齐、高频细节破坏和任务特定限制等挑战,需要一种能够适应不同场景并保持细节完整性的通用解决方案。
  • Method: 提出AdaSFFuse框架,包含两个关键创新:自适应近似小波变换(AdaWAT)用于频率解耦,以及空间-频率Mamba块用于高效的多模态跨域融合。
  • Result: 在红外-可见光图像融合、多焦点图像融合、多曝光图像融合和医学图像融合四个任务上的广泛实验表明,AdaSFFuse具有优越的融合性能。
  • Conclusion: 该框架通过自适应频率分离和跨域融合,显著改善了多模态特征的对齐和整合,减少了频率损失并保留了关键细节,在性能和效率之间取得了良好平衡。

[45] ExtraGS: Geometric-Aware Trajectory Extrapolation with Uncertainty-Guided Generative Priors

Kaiyuan Tan,Yingying Shen,Haohui Zhu,Zhiwei Zhan,Shan Zhao,Mingfei Tu,Hongcheng Luo,Haiyang Sun,Bing Wang,Guang Chen,Hangjun Ye

Main category: cs.CV

TL;DR: ExtraGS是一个用于自动驾驶场景轨迹外推的框架,结合几何和生成先验,通过创新的Road Surface Gaussian表示和自监督不确定性估计,显著提升外推视图的真实性和几何一致性。

  • Motivation: 从驾驶记录中合成外推视图对自动驾驶模拟至关重要,但现有方法使用生成先验作为伪真值往往导致几何一致性差和渲染过平滑的问题。
  • Method: 提出ExtraGS框架,包含基于混合高斯-SDF设计的Road Surface Gaussian表示、使用可学习缩放因子的Far Field Gaussians处理远距离物体,以及基于球谐函数的自监督不确定性估计框架来选择性地集成生成先验。
  • Result: 在多个数据集、多样化多相机设置和各种生成先验上的广泛实验表明,ExtraGS显著提升了外推视图的真实性和几何一致性,同时在原始轨迹上保持高保真度。
  • Conclusion: ExtraGS通过整合几何和生成先验的创新方法,有效解决了自动驾驶场景外推视图合成中的关键挑战,为自动驾驶模拟提供了更高质量的解决方案。

[46] Multi-Object Sketch Animation with Grouping and Motion Trajectory Priors

Guotao Liang,Juncheng Hu,Ximing Xing,Jing Zhang,Qian Yu

Main category: cs.CV

TL;DR: GroupSketch是一种新颖的矢量草图动画方法,通过两阶段流程(运动初始化和运动细化)有效处理多对象交互和复杂运动,解决了现有方法的时间不一致性和泛化能力差的问题。

  • Motivation: 现有草图动画方法在处理多对象交互和复杂运动时存在局限,要么仅限于单对象情况,要么存在时间不一致性和泛化能力差的问题,需要一种能够有效处理这些复杂场景的新方法。
  • Method: 采用两阶段流程:1)运动初始化阶段交互式分割语义组并定义关键帧,通过插值生成粗略动画;2)运动细化阶段使用基于组的位移网络(GDN)预测组特定位移场,利用文本到视频模型的先验,并包含上下文条件特征增强(CCFE)等专门模块来提高时间一致性。
  • Result: 大量实验表明,该方法在生成复杂多对象草图的高质量、时间一致动画方面显著优于现有方法。
  • Conclusion: GroupSketch方法成功扩展了草图动画的实际应用范围,为处理复杂多对象交互和运动提供了有效的解决方案。

[47] D3FNet: A Differential Attention Fusion Network for Fine-Grained Road Structure Extraction in Remote Perception Systems

Chang Liu,Yang Xu,Tamas Sziranyi

Main category: cs.CV

TL;DR: D3FNet是一种用于高分辨率遥感影像中细粒度窄路分割的深度学习网络,通过差分注意力膨胀提取、双流解码融合机制和多尺度膨胀策略,有效解决了窄路宽度有限、拓扑断裂和遮挡问题。

  • Motivation: 从高分辨率遥感影像中提取窄路面临重大挑战,包括宽度有限、拓扑断裂和频繁遮挡。传统模型往往过度拟合通用道路宽度,无法有效处理细粒度、遮挡和低对比度的路段。
  • Method: 基于D-LinkNet编码器-解码器架构,提出三个关键创新:1)差分注意力膨胀提取模块增强细微道路特征并抑制背景噪声;2)双流解码融合机制整合原始特征和注意力调制特征;3)多尺度膨胀策略(1,3,5,9)减少网格伪影并改善连续性。
  • Result: 在DeepGlobe和CHN6-CUG基准测试上的广泛实验表明,D3FNet在具有挑战性的道路区域实现了优越的IoU和召回率,超越了最先进的基线方法。消融研究进一步验证了注意力引导编码和双路径解码的互补协同作用。
  • Conclusion: D3FNet被证实为复杂遥感和协同感知场景中细粒度窄路提取的鲁棒解决方案,特别适用于处理细粒度、遮挡和低对比度的道路段。

[48] Backpropagation-Free Test-Time Adaptation via Probabilistic Gaussian Alignment

Youjia Zhang,Youngeun Kim,Young-Geun Choi,Hongyeob Kim,Huiling Liu,Sungeun Hong

Main category: cs.CV

TL;DR: ADAPT是一种无需反向传播的测试时自适应方法,通过高斯概率推理建模类别条件似然,利用CLIP先验和历史知识库进行轻量级正则化,在多种分布偏移下实现最先进性能。

  • Motivation: 现有测试时自适应方法存在两个主要问题:1)依赖反向传播或迭代优化,限制了可扩展性和实时部署;2)缺乏对类别条件特征分布的显式建模,导致决策边界不可靠和预测校准不足。
  • Method: 将测试时自适应重新构建为高斯概率推理任务,使用逐步更新的类别均值和共享协方差矩阵建模类别条件似然,实现闭式、无训练推理。引入基于CLIP先验和历史知识库的轻量级正则化来纠正可能的似然偏差。
  • Result: 在多种基准测试上的广泛实验表明,该方法在广泛的分布偏移下实现了最先进的性能,具有优异的可扩展性和鲁棒性。
  • Conclusion: ADAPT方法无需源数据、梯度更新或完整访问目标数据,支持在线和转导设置,为测试时自适应提供了高效且有效的解决方案。

[49] High-Frequency First: A Two-Stage Approach for Improving Image INR

Sumit Kumar Dam,Mrityunjoy Gain,Eui-Nam Huh,Choong Seon Hong

Main category: cs.CV

TL;DR: 提出两阶段训练策略解决INR频谱偏差问题:第一阶段使用邻域感知软掩码对高频细节像素赋予更高权重,第二阶段进行全图像训练,有效提升重建质量

  • Motivation: 隐式神经表示(INR)存在频谱偏差问题,神经网络倾向于学习低频分量而难以捕捉高频细节如锐利边缘和精细纹理
  • Method: 采用两阶段训练策略:1)使用邻域感知软掩码自适应地为局部变化强烈的像素分配更高权重,引导模型早期关注细节;2)过渡到全图像训练
  • Result: 实验结果表明该方法能持续改善重建质量,并与现有INR方法互补
  • Conclusion: 作为首个在图像INR中为像素分配频率感知重要性的尝试,为缓解频谱偏差问题提供了新途径

[50] Fast globally optimal Truncated Least Squares point cloud registration with fixed rotation axis

Ivo Ivanov,Carsten Markgraf

Main category: cs.CV

TL;DR: 提出了一种新的线性时间凸松弛方法和承包商方法,用于加速分支定界算法,能够在半秒内解决100个点的3D点云配准问题,比现有SDP求解器快两个数量级。

  • Motivation: 现有的半定规划松弛方法求解点云配准问题需要数百秒,计算效率低下,需要更快的全局最优求解方法。
  • Method: 采用线性时间凸松弛和承包商方法来加速分支定界算法,特别针对旋转轴已知的情况进行优化。
  • Result: 能够在0.5秒内完成100个点的3D点云配准,达到全局最优,比STRIDE SDP求解器快100倍。
  • Conclusion: 该方法显著提高了点云配准的计算效率,虽然目前仅限于旋转轴已知的情况,但为全局最优求解提供了新的有效途径。

[51] Multi-perspective monitoring of wildlife and human activities from camera traps and drones with deep learning models

Hao Chen,Fang Qiu,Li An,Douglas Stow,Eve Bohnett,Haitao Lyu,Shuang Tian

Main category: cs.CV

TL;DR: 采用相机捕捉器和无人机多视角监测技术,通过深度学习模型自动识别野生动物和人类活动,分析其空间分布模式以识别人兽冲突区域

  • Motivation: 理解野生动物与人类活动的空间分布对于评估人兽互动和制定有效保护计划至关重要
  • Method: 结合可见光/近红外相机捕捉器和热红外无人机图像,构建深度学习模型(YOLOv11s和Faster RCNN)进行自动识别,并进行空间模式分析
  • Result: YOLOv11s模型在相机捕捉图像中达到最高性能(精度96.2%,召回率92.3%,mAP50 96.7%);无人机热成像提供了补充的空中视角;识别出了野生动物和人类活动的热点区域及其重叠模式
  • Conclusion: 多视角监测与自动化物体检测的集成提升了野生动物监测和景观管理能力,揭示了保护景观内的人兽冲突问题

[52] When and What: Diffusion-Grounded VideoLLM with Entity Aware Segmentation for Long Video Understanding

Pengcheng Fang,Yuxia Chen,Rui Guo

Main category: cs.CV

TL;DR: Grounded VideoDiT是一个视频大语言模型,通过扩散时间潜在编码器、对象接地表示和混合令牌方案,显著提升了视频时间感知和实体交互的精确度。

  • Motivation: 现有视频LLM在时间感知方面表现粗糙,时间戳编码隐式、帧级特征连续性弱、语言视觉对齐漂移,需要更精确的时间定位和实体交互能力。
  • Method: 采用三个关键技术:扩散时间潜在编码器增强边界敏感性和时间一致性;对象接地表示显式绑定查询实体到局部视觉证据;混合令牌方案提供显式时间戳建模。
  • Result: 在Charades STA、NExT GQA和多个VideoQA基准测试中达到了最先进的性能,验证了强大的接地能力。
  • Conclusion: Grounded VideoDiT通过创新的时间编码和实体绑定技术,成功解决了视频理解中的时间感知粗糙问题,实现了精细化的时间推理。

[53] Weakly-Supervised Learning for Tree Instances Segmentation in Airborne Lidar Point Clouds

Swann Emilien Céleste Destouches,Jesse Lahaye,Laurent Valentin Jospin,Jan Skaloud

Main category: cs.CV

TL;DR: 本文提出一种弱监督方法,通过人工评分和评分模型迭代改进机载光软扫描数据的树木实例分割性能,减少对精确标签数据的依赖。

  • Motivation: 机载光软扫描(ALS)数据的树木实例分割对森林监测至关重要,但因数据变异性和精确标签数据获取成本高而面临挑战。
  • Method: 提出弱监督方法:先获得初始分割结果,由人工进行质量评分,然后训练评分模型,最后利用评分模型的反馈来微调分割模型。
  • Result: 方法将原始分割模型的正确识别树木实例数量提高了34%,同时大幅减少了非树木实例的预测数量。
  • Conclusion: 该弱监督方法能有效改善树木分割性能,但在疏林区域小树或复杂环境中仍面临挑战。

[54] Towards a 3D Transfer-based Black-box Attack via Critical Feature Guidance

Shuchao Pang,Zhenghan Chen,Shen Zhang,Liming Lu,Siyuan Liang,Anan Du,Yongbin Zhou

Main category: cs.CV

TL;DR: 提出CFG方法,通过关键特征引导提高3D点云对抗样本的迁移性,在黑盒攻击中无需目标模型信息即可生成有效对抗样本

  • Motivation: 现实场景中难以获取目标模型信息,现有3D对抗攻击方法依赖模型参数或输出,需要开发不依赖目标模型信息的迁移攻击方法
  • Method: 基于不同DNN架构使用一致关键特征的观察,提出关键特征引导(CFG)方法,通过计算特征重要性来正则化对抗点云搜索,优先破坏跨架构通用的关键特征,并在损失函数中约束最大偏差以确保不可感知性
  • Result: 在ModelNet40和ScanObjectNN基准数据集上的大量实验表明,CFG方法大幅优于现有最先进的攻击方法
  • Conclusion: CFG方法通过利用跨模型一致的关键特征,显著提高了3D点云对抗样本的迁移攻击效果,为黑盒场景下的3D模型安全评估提供了有效工具

[55] MapKD: Unlocking Prior Knowledge with Cross-Modal Distillation for Efficient Online HD Map Construction

Ziyang Yan,Ruikai Li,Zhiyong Cui,Bohan Li,Han Jiang,Yilong Ren,Aoyong Li,Zhenning Li,Sijia Wen,Haiyang Yu

Main category: cs.CV

TL;DR: MapKD是一个新颖的多层次跨模态知识蒸馏框架,通过教师-教练-学生范式,将多模态模型的知识转移到轻量级视觉学生模型中,显著提升在线高清地图构建性能。

  • Motivation: 现有在线高清地图构建方法依赖离线地图先验和多模态传感器,导致推理时计算开销大且受限于陈旧地图数据。需要开发更高效、低成本的视觉中心解决方案。
  • Method: 提出MapKD框架:1)多模态教师模型(相机-LiDAR融合+SD/HD地图先验);2)视觉中心教练模型(带先验知识和模拟LiDAR);3)轻量级学生模型。采用TGPD和MSRD两种蒸馏策略进行特征对齐和语义学习指导。
  • Result: 在nuScenes数据集上,学生模型性能提升+6.68 mIoU和+10.94 mAP,同时推理速度加快。
  • Conclusion: MapKD成功实现了从多模态模型到视觉模型的跨模态知识转移,为自动驾驶系统提供了高效、低成本的在线地图构建解决方案。

[56] CM2LoD3: Reconstructing LoD3 Building Models Using Semantic Conflict Maps

Franz Hanke,Antonia Bieringer,Olaf Wysocki,Boris Jutzi

Main category: cs.CV

TL;DR: 基于冲突地图的自动化LoD3建筑模型重建方法,通过语义分割真实与合成冲突地图来提升立面元素识别精度

  • Motivation: 现有LoD1和LoD2建筑模型缺乏详细立面元素,而传统手工建模方式无法满足大规模LoD3模型需求
  • Method: 利用光线到模型先验分析获取冲突地图,通过语义冲突地图生成器生成合成地图进行语义分割,并与素材模型分割结果融合
  • Result: 方法能够有效分割和重建建筑开放部位,不确定性感知融合下立面素材分割性能达到61%
  • Conclusion: 研究推动了自动化LoD3模型重建的发展,为可扩展和高效的3D城市建模排铺了道路

[57] LLM-empowered Dynamic Prompt Routing for Vision-Language Models Tuning under Long-Tailed Distributions

Yongju Jia,Jiarui Ma,Xiangxian Li,Baiqiao Zhang,Xianhui Cao,Juan Liu,Yulong Bian

Main category: cs.CV

TL;DR: 提出了MDPR框架,通过多维动态提示路由解决VLM在类别不平衡场景下的微调偏差问题,在多个长尾基准测试中达到SOTA水平

  • Motivation: 预训练视觉语言模型在类别不平衡场景下微调时存在偏差,现有方法忽略了VLM预训练中固有的类别不平衡问题,导致下游任务中的偏差累积
  • Method: 构建包含五个视觉语义维度的综合知识库,采用动态路由机制对齐全局视觉类别、检索最优提示、平衡细粒度语义,通过logits融合获得稳定预测
  • Result: 在CIFAR-LT、ImageNet-LT和Places-LT等长尾基准测试中取得了与当前SOTA方法相当的结果,动态路由计算开销极小
  • Conclusion: MDPR为数据不平衡下的VLM微调提供了一个灵活高效的增强方案,语义库对尾部类别特别有效

[58] StreamMem: Query-Agnostic KV Cache Memory for Streaming Video Understanding

Yanlai Yang,Zhuokai Zhao,Satya Narayan Shukla,Aashu Singh,Shlok Kumar Mishra,Lizhu Zhang,Mengye Ren

Main category: cs.CV

TL;DR: StreamMem是一种查询无关的KV缓存内存机制,用于流式视频理解,通过注意力分数压缩视觉token和通用查询token之间的KV缓存,在内存受限的长视频场景中实现高效问答。

  • Motivation: 多模态大语言模型在处理长视频时面临内存和计算开销大的问题,现有视觉压缩方法需要预先编码整个视觉上下文或提前获取问题,不适用于长视频理解和多轮对话场景。
  • Method: 提出StreamMem方法,以流式方式编码新视频帧,使用视觉token和通用查询token之间的注意力分数压缩KV缓存,同时维持固定大小的KV内存。
  • Result: 在三个长视频理解和两个流式视频问答基准测试中,StreamMem在查询无关KV缓存压缩方面达到最先进性能,与查询感知压缩方法具有竞争力。
  • Conclusion: StreamMem为长视频理解和多轮对话提供了一种高效的流式KV缓存压缩解决方案,显著降低了内存和计算开销。

[59] WorldWeaver: Generating Long-Horizon Video Worlds via Rich Perception

Zhiheng Liu,Xueqing Deng,Shoufa Chen,Angtian Wang,Qiushan Guo,Mingfei Han,Zeyue Xue,Mengzhao Chen,Ping Luo,Linjie Yang

Main category: cs.CV

TL;DR: WorldWeaver是一个用于生成长视频的框架,通过联合建模RGB帧和感知条件来增强时间一致性和运动动态,利用深度线索构建记忆库,并采用分段噪声调度来减少漂移。

  • Motivation: 当前生成视频建模方法主要依赖RGB信号,在长序列中会导致对象结构和运动误差累积,需要解决长时间结构一致性和时间一致性的挑战。
  • Method: 提出联合建模RGB帧和感知条件的统一长时域建模方案,利用深度线索构建记忆库保存上下文信息,采用分段噪声调度训练预测组。
  • Result: 在扩散模型和整流流模型上的大量实验证明,WorldWeaver能有效减少时间漂移并提高生成视频的保真度。
  • Conclusion: WorldWeaver通过统一的表示联合预测感知条件和颜色信息,显著提升了长视频生成的时间一致性和运动动态质量。

[60] Fine-grained Multi-class Nuclei Segmentation with Molecular-empowered All-in-SAM Model

Xueyuan Li,Can Cui,Ruining Deng,Yucheng Tang,Quan Liu,Tianyuan Yao,Shunxing Bao,Naweed Chowdhury,Haichun Yang,Yuankai Huo

Main category: cs.CV

TL;DR: 提出了分子赋能的All-in-SAM模型,通过分子赋能学习、SAM适配器和分子导向校正学习,在计算病理学中实现更精确的细胞分类和分割,减少标注工作量。

  • Motivation: 现有的视觉基础模型(如SAM)在细粒度语义分割方面存在挑战,特别是在识别特定细胞亚型时表现不佳,需要开发更精确的计算病理学方法。
  • Method: 采用全栈方法:1)分子赋能学习减少像素级标注需求;2)SAM适配器增强语义特异性;3)分子导向校正学习(MOCL)提高分割精度。
  • Result: 在内部和公共数据集上的实验表明,All-in-SAM模型显著提高了细胞分类性能,即使面对不同质量的标注也能保持良好效果。
  • Conclusion: 该方法不仅减轻了标注人员的工作负担,还将精确的生物医学图像分析扩展到资源有限的环境,推动了医学诊断和病理图像分析的自动化。

[61] Waver: Wave Your Way to Lifelike Video Generation

Yifu Zhang,Hao Yang,Yuqi Zhang,Yifei Hu,Fengda Zhu,Chuang Lin,Xiaofeng Mei,Yi Jiang,Zehuan Yuan,Bingyue Peng

Main category: cs.CV

TL;DR: Waver是一个高性能的多模态生成基础模型,能够统一处理图像和视频生成,支持文本到视频(T2V)、图像到视频(I2V)和文本到图像(T2I)生成,在多个基准测试中排名前三。

  • Motivation: 为了解决现有视频生成模型在运动捕捉、时间一致性和多模态统一方面的挑战,开发一个能够同时处理图像和视频生成的高性能基础模型。
  • Method: 采用混合流DiT架构增强模态对齐和加速训练收敛,建立全面的数据筛选流程,使用MLLM视频质量模型过滤高质量样本,并提供详细的训练和推理方案。
  • Result: 能够直接生成5-10秒720p原生分辨率视频(可上采样至1080p),在Artificial Analysis的T2V和I2V排行榜中均排名前三,超越现有开源模型并匹敌或超越商业解决方案。
  • Conclusion: Waver在复杂运动捕捉和视频合成方面表现出色,为社区提供了高效训练高质量视频生成模型的方法,有望加速视频生成技术的发展。

[62] ATLAS: Decoupling Skeletal and Shape Parameters for Expressive Parametric Human Modeling

Jinhyung Park,Javier Romero,Shunsuke Saito,Fabian Prada,Takaaki Shiratori,Yichen Xu,Federica Bogo,Shoou-I Yu,Kris Kitani,Rawal Khirodkar

Main category: cs.CV

TL;DR: ATLAS是一个高保真人体模型,通过解耦形状和骨骼基础,从60万高分辨率扫描中学习,在多样姿势和形状下提供更准确的人体表示。

  • Motivation: 现有参数化人体模型在捕捉多样化姿势和形状的细节变化方面存在困难,主要由于训练数据多样性有限和建模假设限制,且内部骨骼与外部软组织之间存在问题性依赖关系。
  • Method: 使用240个同步相机捕获的60万高分辨率扫描数据,明确解耦形状和骨骼基础,将网格表示基于人体骨骼,采用非线性姿态校正方法。
  • Result: ATLAS在拟合未见过的多样化姿势主体方面优于现有方法,定量评估显示非线性姿态校正比线性模型更有效地捕捉复杂姿势。
  • Conclusion: 通过解耦形状和骨骼表示,ATLAS实现了增强的形状表达能力、细粒度身体属性定制以及独立于外部软组织特征的关键点拟合,为高保真人体建模提供了新范式。

[63] SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass

Yanxu Meng,Haoning Wu,Ya Zhang,Weidi Xie

Main category: cs.CV

TL;DR: SceneGen是一个新颖的框架,能够从单张场景图像和物体掩码同时生成多个3D资产的几何和纹理,无需优化或资产检索,支持多图像输入扩展。

  • Motivation: 解决从单张场景图像同时合成多个3D资产的挑战性问题,推动VR/AR和具身AI领域的3D内容生成应用。
  • Method: 提出SceneGen框架,包含特征聚合模块整合局部和全局场景信息,通过视觉和几何编码器提取特征,配合位置头实现单次前向传播生成3D资产及其相对空间位置。
  • Result: 广泛的定量和定性评估证实了该方法的高效性和鲁棒生成能力,能够直接扩展到多图像输入场景。
  • Conclusion: 该范式为高质量3D内容生成提供了新颖解决方案,有望推动下游任务的实际应用发展。

[64] Visual Autoregressive Modeling for Instruction-Guided Image Editing

Qingyang Mao,Qi Cai,Yehao Li,Yingwei Pan,Mingyue Cheng,Ting Yao,Qi Liu,Tao Mei

Main category: cs.CV

TL;DR: VAREdit是一个基于视觉自回归模型的图像编辑框架,通过多尺度特征预测和尺度对齐参考模块,解决了扩散模型在指令引导编辑中的全局纠缠问题,实现了更精确的编辑效果和更高的效率。

  • Motivation: 扩散模型在指令引导图像编辑中存在全局去噪过程导致编辑区域与整个图像上下文纠缠的问题,会产生意外的虚假修改并影响编辑指令的遵循度。自回归模型通过序列化合成过程提供了不同的解决方案。
  • Method: 提出VAREdit框架,将图像编辑重新定义为下一尺度预测问题。基于源图像特征和文本指令生成多尺度目标特征。引入尺度对齐参考(SAR)模块,在第一个自注意力层注入尺度匹配的条件信息,解决细粒度源特征无法有效指导粗粒度目标特征预测的问题。
  • Result: 在标准基准测试中,GPT-Balance分数比领先的基于扩散的方法高出30%以上。完成512×512图像编辑仅需1.2秒,比同等规模的UltraEdit快2.2倍。
  • Conclusion: VAREdit通过自回归范式和多尺度对齐机制,显著提升了图像编辑的精确度和效率,为指令引导的图像编辑提供了新的解决方案。

[65] Scaling Group Inference for Diverse and High-Quality Generation

Gaurav Parmar,Or Patashnik,Daniil Ostashev,Kuan-Chieh Wang,Kfir Aberman,Srinivasa Narasimhan,Jun-Yan Zhu

Main category: cs.CV

TL;DR: 提出了一种可扩展的组推理方法,通过将组推理建模为二次整数分配问题,在提升样本质量的同时最大化组内多样性,解决了生成模型中独立采样导致的冗余问题。

  • Motivation: 现实应用中用户通常需要查看多个输出样本(如4-8个),但传统独立采样方法会导致结果冗余,限制了用户选择和创意探索。
  • Method: 将组推理建模为二次整数分配问题:候选输出作为图节点,通过优化样本质量(一元项)和最大化组多样性(二元项)来选择子集;采用渐进式候选集剪枝提高运行效率。
  • Result: 实验表明该方法相比独立采样基线和最新推理算法,显著提升了组多样性和质量,适用于文本到图像、图像到图像、图像提示和视频生成等多种任务。
  • Conclusion: 该框架使生成模型能够将多个输出视为有凝聚力的组而非独立样本,为多输出生成场景提供了有效的解决方案。

[66] CineScale: Free Lunch in High-Resolution Cinematic Visual Generation

Haonan Qiu,Ning Yu,Ziqi Huang,Paul Debevec,Ziwei Liu

Main category: cs.CV

TL;DR: CineScale是一种无需调优的推理范式,能够实现更高分辨率的视觉生成,支持8K图像和4K视频生成

  • Motivation: 现有视觉扩散模型由于缺乏高分辨率数据和计算资源限制,通常在有限分辨率下训练,导致生成高分辨率内容时出现重复模式和低频信息增加的问题
  • Method: 提出CineScale推理范式,针对不同类型的视频生成架构设计专门变体,支持高分辨率T2I、T2V、I2V和V2V合成
  • Result: 实验验证了该范式在扩展图像和视频模型高分辨率生成能力方面的优越性,实现了无需调优的8K图像生成和最小LoRA调优的4K视频生成
  • Conclusion: CineScale成功解决了预训练模型在高分辨率视觉生成中的限制,为高质量高分辨率内容生成提供了有效解决方案

eess.IV

[67] Scalable Event-Based Video Streaming for Machines with MoQ

Andrew C. Freeman

Main category: eess.IV

TL;DR: 该论文探讨了神经形态事件传感器的视频流传输问题,提出了基于Media Over QUIC协议的低延迟事件流格式解决方案

  • Motivation: 传统视频流采用有损压缩和速率自适应技术,但新兴的神经形态事件传感器以异步像素采样方式记录视频,主要用于计算机视觉应用而非人类观看。目前研究主要关注应用开发,忽视了数据传输这一关键问题
  • Method: 调研事件视频系统现状,基于最近的Media Over QUIC协议草案,提出新的低延迟事件流格式
  • Result: 提出了一个针对神经形态事件传感器数据特点的流媒体传输解决方案
  • Conclusion: 事件传感器视频流传输是一个重要但被忽视的问题,需要专门的低延迟流格式来支持这类新兴传感器的实际应用

[68] Zero-shot Volumetric CT Super-Resolution using 3D Gaussian Splatting with Upsampled 2D X-ray Projection Priors

Jeonghyun Noh,Hyun-Jic Oh,Byungju Chae,Won-Ki Jeong

Main category: eess.IV

TL;DR: 通过流行模型生成高分辨率2D X光投影作为外部先验知识,结合3D髑光散射技术和负值混合方法,实现了无需成对数据的高性能3D CT超分辨重建

  • Motivation: 解决监督学习需要大量成对LR-HR数据集且难以获得的问题,以及现有零检查方法因内部信息有限而无法恢复细微解剖结构的限制
  • Method: 基于流行模型生成高分辨率2D X光投影作为外部先验,结合3D髑光散射技术进行3D CT重建,并提出负值alpha混合方法支持殊异学习
  • Result: 在两个数据集上进行实验,该方法在数量和质量上都获得了优秀的3D CT超分辨率结果
  • Conclusion: 本文提出的方法有效利用了2D X光数据估享性作为外部先验,解决了零检查3D CT超分辨率中细微结构恢复的挑战

[69] Pathology-Informed Latent Diffusion Model for Anomaly Detection in Lymph Node Metastasis

Jiamu Wang,Keunho Byeon,Jinsol Song,Anh Nguyen,Sangjeong Ahn,Sung Hak Lee,Jin Tae Kwak

Main category: eess.IV

TL;DR: 该论文提出了一种结合视觉语言模型和扩散模型的数字病理学无监督异常检测方法,利用组织病理学提示来区分正常和异常组织。

  • Motivation: 数字病理学中监督学习方法需要大量标注数据,但标注数据稀缺。无监督异常检测可以识别正常组织分布的偏差,而无需详尽标注。扩散概率模型在无监督异常检测中表现出色,因此结合视觉语言模型来提升性能。
  • Method: 将视觉语言模型与扩散模型结合,在重建过程中使用一组与正常组织相关的病理学关键词作为提示,引导重建过程,从而更好地区分正常和异常组织。
  • Result: 在本地医院的胃淋巴结数据集和公共乳腺淋巴结数据集上进行实验,结果表明该方法在不同器官的数字病理学无监督异常检测中具有良好潜力。
  • Conclusion: 提出的AnoPILaD方法展示了视觉语言模型与扩散模型结合在数字病理学无监督异常检测中的有效性,能够跨不同器官进行泛化应用。

[70] Explainable Knowledge Distillation for Efficient Medical Image Classification

Aqib Nazir Mir,Danish Raza Rizvi

Main category: eess.IV

TL;DR: 该研究探索了基于知识蒸馏的COVID-19和肺癌分类框架,使用高性能教师模型指导紧凑型学生模型训练,在保持高精度的同时显著降低计算资源需求。

  • Motivation: 开发适用于资源受限临床环境的高效、可信赖的医疗AI解决方案,平衡分类准确性和计算效率。
  • Method: 采用VGG19和轻量级Vision Transformers作为教师模型,指导基于OFA-595超网的紧凑型学生模型训练,使用混合监督(真实标签+教师软目标),并通过Score-CAM可视化解释模型决策。
  • Result: 蒸馏后的学生模型在COVID-QU-Ex和LCS25000数据集上保持高分类性能,同时显著减少参数数量和推理时间。
  • Conclusion: 知识蒸馏框架成功实现了模型效率与可解释性的结合,为临床环境提供了实用的医疗AI解决方案。

[71] Bladder Cancer Diagnosis with Deep Learning: A Multi-Task Framework and Online Platform

Jinliang Yu,Mingduo Xie,Yue Wang,Tianfan Fu,Xianglai Xu,Jiajun Wang

Main category: eess.IV

TL;DR: 这篇论文提出了一种多任务深度学习框架和在线诊断平台,用于改善膜背癌的客观诊断准确性和效率。

  • Motivation: 传统的膜背镜检查太依赖医生专业知识,导致诊断结果主观性和变异性强,需要客观、准确的计算方法来改善诊断效果。
  • Method: 提出集成多任务深度学习框架:使用CBAM增强的EfficientNet-B0进行分类,基于ResNet34-UNet++的分割模型配备自注意机制,以及使用ConvNeXt-Tiny进行分子分型。同时开发了Gradio基础的在线诊断平台。
  • Result: 在分类任务中达到准确率93.28%、F1分数82.05%、AUC96.41%;分割任务Dice系数为0.9091。在线平台显著提升了诊断的准确性、效率和可访问性。
  • Conclusion: 该多任务框架和集成工具通过提高临床可靠性、支持早期肿瘤检测和实时诊断反馈,推进了智能膜背癌诊断领域的发展,为消化科AI辅助决策走向实践重要一步。

[72] DoSReMC: Domain Shift Resilient Mammography Classification using Batch Normalization Adaptation

Uğurcan Akyüz,Deniz Katircioglu-Öztürk,Emre K. Süslü,Burhan Keleş,Mete C. Kaya,Gamze Durhan,Meltem G. Akpınar,Figen B. Demirkazık,Gözde B. Akar

Main category: eess.IV

TL;DR: DoSReMC是一个针对乳腺X线摄影分类的批归一化适应框架,通过仅微调BN层和全连接层来提升跨域泛化能力,无需重新训练整个模型。

  • Motivation: 现有深度学习模型在乳腺X线摄影图像识别中面临域偏移问题,导致跨域性能下降,限制了AI在真实临床环境中的安全公平部署。
  • Method: 提出DoSReMC框架,通过仅微调批归一化(BN)层和全连接(FC)层来适应域偏移,同时保留预训练的卷积滤波器。还结合了对抗训练方案来进一步提升跨域泛化能力。
  • Result: 实验证明BN层是域依赖性的主要来源,DoSReMC在三个大规模全视野数字乳腺X线摄影数据集上显著提升了跨域分类性能。
  • Conclusion: DoSReMC提供了一种实用的方法,可以轻松集成到现有AI流程中,为构建更鲁棒和可泛化的乳腺X线摄影分类系统提供了可行路径。

[73] Deep Equilibrium Convolutional Sparse Coding for Hyperspectral Image Denoising

Jin Ye,Jingran Wang,Fengchao Xiong,Jingzhou Chen,Yuntao Qian

Main category: eess.IV

TL;DR: 基于深度平衡模型的卷积稀疏编码框架DECSC,通过统一局部空谱相关性、非局部空间自相似性和全局空间一致性,实现高光谱图像去噪,性能优于现有方法

  • Motivation: 高光谱图像常受复杂噪声影响,现有深度展开方法缺乏收敛保证,需要一种能确保物理特性且具有收敛保证的去噪方法
  • Method: 在深度平衡框架下结合2D和3D卷积稀疏表示,2D CSC确保全局空间一致性,3D CSC捕捉局部空谱细节,嵌入Transformer块利用非局部自相似性,集成细节增强模块
  • Result: 实验结果表明DECSC方法在去噪性能上优于最先进的方法
  • Conclusion: DECSC框架成功统一了多种特征表示,通过深度平衡模型实现了收敛保证和优异的去噪性能

[74] Are Virtual DES Images a Valid Alternative to the Real Ones?

Ana C. Perre,Luís A. Alexandre,Luís C. Freire

Main category: eess.IV

TL;DR: 本研究探索使用U-Net和CycleGAN模型从低能量图像生成虚拟双能量减影图像,以减少患者辐射暴露,并在乳腺癌分类任务中评估其效果。

  • Motivation: 通过图像到图像转换技术生成虚拟DES图像,可以减少患者在高能量图像采集过程中的辐射暴露,同时保持诊断价值。
  • Method: 使用三种模型进行虚拟DES图像生成:预训练U-Net、端到端训练U-Net和CycleGAN模型,并评估这些虚拟图像在良恶性分类任务中的性能。
  • Result: 预训练U-Net模型表现最佳,使用虚拟DES图像获得85.59%的F1分数,相比真实DES图像的90.35%略有差距,但显示出临床应用潜力。
  • Conclusion: 虚拟DES图像生成具有重要价值,虽然目前与真实图像存在性能差距,但未来技术进步可能使其达到临床可用水平,从而减少患者辐射风险。

[75] Label Uncertainty for Ultrasound Segmentation

Malini Shivaram,Gautam Rajendrakumar Gare,Laura Hutchins,Jacob Duplantis,Thomas Deiss,Thales Nogueira Gomes,Thong Tran,Keyur H. Patel,Thomas H Fox,Amita Krishnan,Deva Ramanan,Bennett DeBoisblanc,Ricardo Rodriguez,John Galeotti

Main category: eess.IV

TL;DR: 本文提出了一种在医学影像标注中引入放射科医生像素级置信度的方法,通过训练时利用置信度阈值来提升分割性能,并显著改善下游临床任务的预测效果。

  • Motivation: 医学影像中放射科医生之间的标注差异导致标签不确定性,特别是在肺部超声等主观性较强的模态中。传统方法将标注视为绝对真值,忽略了临床数据中固有的不确定性。
  • Method: 设计数据标注协议,让放射科医生为每个标注区域提供像素级置信度值。使用不同置信度阈值(如60%)对标签进行二值化,训练AI模型。系统比较不同阈值对分割性能和下游临床任务的影响。
  • Result: 使用高置信度阈值(60%)训练模型比50%阈值效果更好,显著提升了分割性能。改进的分割质量进一步转化为下游临床任务的更好表现,包括S/F氧合比估计、S/F比变化分类和30天患者再入院预测。
  • Conclusion: 标签置信度是一个有价值的信号,适当利用可以显著提高医学影像AI的可靠性和临床实用性。训练时使用高置信度像素比传统方法更有效。

[76] Hessian-based lightweight neural network for brain vessel segmentation on a minimal training dataset

Alexandra Bernadotte,Elfimov Nikita,Mikhail Shutov,Ivan Menshikov

Main category: eess.IV

TL;DR: 提出HessNet轻量级神经网络,用于脑MRA血管分割,仅需6000参数,在CPU上运行,达到最先进的分割精度,并创建了包含200张标注图像的公开数据集。

  • Motivation: 脑磁共振血管成像(MRA)中血管的精确分割对手术至关重要,但目前缺乏公开的详细标注数据集,且现有方法如Frangi滤波器精度不足。
  • Method: 提出HessNet半监督学习轻量神经网络,集成Hessian矩阵进行3D管状结构分割,网络仅含6000个参数,可在CPU上运行。
  • Result: 在最小训练数据集上达到最先进的血管分割精度,基于IXI数据集创建了200张半手动标注的脑血管数据集,由专家在神经血管外科医生监督下完成标注。
  • Conclusion: HessNet显著降低了神经网络训练资源需求,提供高精度血管分割,使专家能专注于复杂病例,创建的公开数据集填补了该领域数据空白。

q-bio.QM

[77] Fusing Structural Phenotypes with Functional Data for Early Prediction of Primary Angle Closure Glaucoma Progression

Swati Sharma,Thanadet Chuangsuwanich,Royston K. Y. Tan,Shimna C. Prasad,Tin A. Tun,Shamira A. Perera,Martin L. Buist,Tin Aung,Monisha E. Nongpiur,Michaël J. A. Girard

Main category: q-bio.QM

TL;DR: 使用结合视盘结构特征和视野功能参数的机器学习方法,成功分类原发性闭角型青光眼的快速和缓慢进展者,随机森林模型AUC达0.87

  • Motivation: 需要更准确地区分原发性闭角型青光眼患者的进展速度,以改善疾病监测和治疗策略
  • Method: 纳入451眼PACG患者,提取31个ONH结构参数和5个视野区域敏感度,训练多种机器学习分类器,使用SHAP分析关键预测因子
  • Result: 随机森林模型结合结构和功能特征表现最佳(AUC=0.87),识别出6个关键预测因子,包括下方位MRW、RNFL厚度等
  • Conclusion: 结合ONH结构和VF功能参数显著提高了PACG进展风险分类准确性,下方位ONH特征是最重要的预测指标

cond-mat.stat-mech

[78] Exploring the Landscape of Non-Equilibrium Memories with Neural Cellular Automata

Ethan Lake,Ehsan Pajouheshgar

Main category: cond-mat.stat-mech

TL;DR: 本文通过严格证明和机器学习方法,发现二维多体记忆的景观远比之前认为的丰富,存在多种与Toom规则不同的错误纠正机制和有序相。

  • Motivation: 研究多体记忆的景观,探索局部非平衡动力学如何在存在任意扰动的情况下,在热力学长时间尺度上保留初始条件信息。
  • Method: 结合严格数学证明和机器学习方法,分析二维多体记忆系统的动力学行为。
  • Result: 发现二维记忆系统存在多种与Toom规则不同的错误纠正方式,有些有序相由涨落稳定,有些只在噪声存在时才能保存信息。
  • Conclusion: 物理系统可以通过多种不同方式实现鲁棒的信息存储,多体记忆的物理特性比之前认识的要丰富得多。

cs.MM

[79] \textit{adder-viz}: Real-Time Visualization Software for Transcoding Event Video

Andrew C. Freeman,Luke Reinkensmeyer

Main category: cs.MM

TL;DR: 本文介绍了adder-viz软件的改进,这是一个用于实时事件转码过程可视化的开源工具,支持ADΔER事件视频表示格式。

  • Motivation: 传统的事件视频表示格式在灵活性、速度和压缩性方面存在局限,ADΔER表示格式旨在解决这些问题,但需要更好的可视化工具来支持实时事件转码和应用开发。
  • Method: 开发了改进的adder-viz软件,提供实时事件转码过程的可视化功能,支持在应用开发过程中进行实时监控和调试。
  • Result: 发布了MIT许可的开源软件,可从集中式代码库获取,为事件视频研究社区提供了实用的可视化工具。
  • Conclusion: adder-viz软件的改进增强了ADΔER表示格式的实用性和可访问性,为事件视频处理和应用开发提供了重要的可视化支持。

cs.RO

[80] A Vision-Based Shared-Control Teleoperation Scheme for Controlling the Robotic Arm of a Four-Legged Robot

Murilo Vinicius da Silva,Matheus Hipolito Carvalho,Juliano Negri,Thiago Segreto,Gustavo J. G. Lahr,Ricardo V. Godoy,Marcelo Becker

Main category: cs.RO

TL;DR: 提出基于视觉姿态估计的直观四足机器人遥操作方法,通过外部摄像头检测操作者手腕位置,实时映射到机械臂控制,结合轨迹规划确保安全操作

  • Motivation: 在危险和远程环境中,四足机器人机械臂的遥操作存在挑战,传统操纵杆方式不直观且需要专业知识,碰撞风险高,需要更简单易用的解决方案
  • Method: 使用外部摄像头和机器学习模型构建视觉姿态估计管道,检测操作者手腕位置,实时映射为机械臂命令,集成轨迹规划器检测和防止碰撞
  • Result: 在真实机器人上验证,展示了实时控制的鲁棒性能,系统能够可靠运行
  • Conclusion: 该方法为工业应用提供了成本效益高的解决方案,在安全性、精度和易用性至关重要的高风险环境中确保可靠直观的机器人控制

[81] Decentralized Vision-Based Autonomous Aerial Wildlife Monitoring

Makram Chahine,William Yang,Alaa Maalouf,Justin Siriska,Ninad Jadhav,Daniel Vogt,Stephanie Gil,Robert Wood,Daniela Rus

Main category: cs.RO

TL;DR: 提出基于视觉的分散式多无人机系统,用于野生动物监测,具有可扩展、低带宽、传感器最少的特点,能够在动态非结构化环境中实现稳健识别和跟踪。

  • Motivation: 野生动物野外作业需要高效的并行部署方法来识别和交互特定个体,以支持同时进行的集体行为分析以及健康安全干预。现有机器人解决方案要么从群体角度处理问题,要么是手动操作且规模有限。
  • Method: 开发新颖的基于视觉的协调和跟踪算法,设计用于动态非结构化环境,不依赖集中式通信或控制。系统使用单个板载RGB相机,实现低带宽和传感器最小化。
  • Result: 通过真实世界实验验证系统,展示了在不同野外条件下的可靠部署能力。
  • Conclusion: 该分散式多四旋翼系统为野生动物监测提供了可扩展、稳健的解决方案,能够在自然栖息地中有效识别和跟踪大型物种。

[82] Lang2Lift: A Framework for Language-Guided Pallet Detection and Pose Estimation Integrated in Autonomous Outdoor Forklift Operation

Huy Hoang Nguyen,Johannes Huemer,Markus Murschitz,Tobias Glueck,Minh Nhat Vu,Andreas Kugi

Main category: cs.RO

TL;DR: Lang2Lift是一个利用基础模型实现自然语言引导的托盘检测和6D姿态估计的框架,通过直观的语言指令实现自动化叉车操作,在真实物流和建筑环境中验证了可行性。

  • Motivation: 解决物流和建筑行业在户外环境中自动化托盘搬运的挑战,包括劳动力短缺、安全隐患以及手动定位和检索托盘的效率低下问题。
  • Method: 集成Florence-2和SAM-2进行语言引导的分割,结合FoundationPose在杂乱多托盘户外场景中进行鲁棒的姿态估计,最终通过运动规划模块实现全自主叉车操作。
  • Result: 在真实测试数据集上达到0.76 mIoU的托盘分割精度,时序和误差分析证明了系统的鲁棒性,确认了在操作环境中部署的可行性。
  • Conclusion: Lang2Lift框架成功实现了自然语言引导的托盘自动化搬运,为物流和建筑行业的户外自动化操作提供了可行的解决方案。

cs.AI

[83] See it. Say it. Sorted: Agentic System for Compositional Diagram Generation

Hantao Zhang,Jingyang Liu,Ed Li

Main category: cs.AI

TL;DR: 提出See it. Say it. Sorted.系统,通过VLM和LLM的协同工作,将手绘草图转换为精确可编辑的SVG图表,解决了扩散模型在空间精度和符号结构方面的不足。

  • Motivation: 扩散模型在生成逼真图像方面表现出色,但在处理流程图等需要精确空间对齐和符号结构的图表时存在困难,需要一种能够保持全局约束和可编辑性的解决方案。
  • Method: 采用训练免费的代理系统,结合视觉语言模型(VLM)和大型语言模型(LLM),通过迭代循环:批评VLM提出定性编辑建议,多个候选LLM生成不同策略的SVG更新,法官VLM选择最佳候选,确保稳定改进。
  • Result: 在10个来自已发表论文流程图的草图测试中,该方法比GPT-5和Gemini-2.5-Pro等前沿闭源图像生成LLM更准确地重建布局和结构,能够精确组合图元而不插入不需要的文本。
  • Conclusion: 该方法通过程序化SVG输出实现了高质量草图到图表的转换,具有良好的可扩展性和人机协作能力,代码已开源。

cs.AR

[84] Scalable FPGA Framework for Real-Time Denoising in High-Throughput Imaging: A DRAM-Optimized Pipeline using High-Level Synthesis

Weichien Liao

Main category: cs.AR

TL;DR: 基于FPGA的高通量成像实时去噪预处理流水线,通过HLS实现,优化DRAM缓冲,在帧间隔内完成处理,减少数据集大小。

  • Motivation: 高通量成像工作流(如PRISM)产生的数据速率超过传统实时处理能力,需要低延迟的实时预处理解决方案。
  • Method: 采用可扩展的FPGA预处理流水线,通过高级综合(HLS)实现,优化DRAM缓冲,使用突发模式AXI4接口执行帧减法和平均操作。
  • Result: 内核操作时间低于帧间隔,实现内联去噪,减少下游CPU/GPU分析的数据集大小,在PRISM规模采集下得到验证。
  • Conclusion: 该模块化FPGA框架为光谱学和显微镜学中的延迟敏感成像工作流提供了实用解决方案。

cs.HC

[85] "Does the cafe entrance look accessible? Where is the door?" Towards Geospatial AI Agents for Visual Inquiries

Jon E. Froehlich,Jared Hwang,Zeyu Wang,John S. O'Meara,Xia Su,William Huang,Yang Zhang,Alex Fiannaca,Philip Nelson,Shaun Kane

Main category: cs.HC

TL;DR: 提出了Geo-Visual Agents的愿景,这是一种能够通过分析地理空间图像和GIS数据来回答复杂视觉空间问题的多模态AI代理

  • Motivation: 传统数字地图依赖预定义的结构化GIS数据,无法回答关于世界外观的视觉空间问题,限制了地理可视化能力
  • Method: 结合街景图像、地点照片、航拍影像等大规模地理空间图像库与传统GIS数据源,开发多模态AI代理系统
  • Result: 提出了Geo-Visual Agents的概念框架,描述了感知和交互方法,并提供了三个示例应用
  • Conclusion: 该愿景为地理空间AI开辟了新方向,但面临数据整合、模型训练、隐私保护等关键挑战,具有广阔的研究和应用前景

cs.IR

[86] On the Effectiveness of Graph Reordering for Accelerating Approximate Nearest Neighbor Search on GPU

Yutaro Oguri,Mai Nishimura,Yusuke Matsui

Main category: cs.IR

TL;DR: 首个GPU上图重排序对图基近伙搜索的系统研究,通过统一评估框架实现了最高15%的QPS提升

  • Motivation: 现代AI应用中图基ANNS已成为主流,但近期研究偏重算法创新而忽视了内存布局对执行效果的重要影响
  • Method: 开发了统一评估框架,包括图转换器和GPU优化图遍历引擎,对多种重排序策略进行综合分析,并引入量化结构性质与内存布局效果关系的分析指标
  • Result: 在保持搜索准确性的前提下,GPU目标重排序实现了最高15%的QPS提升,证明内存布局优化与现有算法创新完全正交
  • Conclusion: 内存布局优化在图基ANNS中具有重要价值,与算法创新形成补充关系,研究成果将公开代码以促进可复现性和进一步研究

cs.CL

[87] End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning

Qiaoyu Zheng,Yuze Sun,Chaoyi Wu,Weike Zhao,Pengcheng Qiu,Yongguo Yu,Kun Sun,Yanfeng Wang,Ya Zhang,Weidi Xie

Main category: cs.CL

TL;DR: Deep-DxSearch是一个基于强化学习的端到端代理RAG系统,通过构建大规模医学检索语料库和定制化奖励机制,显著提升了医学大语言模型的诊断准确性和可追溯性

  • Motivation: 解决医学大语言模型在诊断中存在的知识鸿沟和幻觉问题,传统检索增强方法对外部知识利用不足且反馈推理可追溯性差
  • Method: 构建大规模医学检索语料库,将LLM作为核心代理,检索语料库作为环境,通过强化学习训练代理RAG策略,使用格式、检索、推理结构和诊断准确性等多维度奖励
  • Result: 在多个数据中心超越提示工程和无训练RAG方法,诊断准确性显著优于GPT-4o、DeepSeek-R1等强基线模型,在常见和罕见疾病诊断中表现优异
  • Conclusion: 端到端代理强化学习训练框架有效提升了医学诊断的准确性和可靠性,奖励设计和检索语料库组件对性能提升至关重要,为临床医生提供更可靠的初步诊断支持

physics.optics

[88] Self-supervised physics-informed generative networks for phase retrieval from a single X-ray hologram

Xiaogang Yang,Dawit Hailu,Vojtěch Kulvait,Thomas Jentschke,Silja Flenner,Imke Greving,Stuart I. Campbell,Johannes Hagemann,Christian G. Schroer,Tak Ming Wong,Julian Moosmann

Main category: physics.optics

TL;DR: 本文提出一种不需要训练数据的自学习GAN方法,用于从单张X光相位对比成像中恢复波前相位和吸收信息

  • Motivation: 传统的相位恢复方法需要特定近似或边界条件,且需要专家手动调整参数,在复杂或变化条件下适用性差。获取合适的训练数据也是主要挑战
  • Method: 使用物理信息激励生成对抗网络(PI-GAN),从单张光学全息图中重建样品平面的未传播波场的相位和吸收信息,无需任何训练数据
  • Result: 算法在多种成像条件和样品类型下都表现出稳健且一致的性能,能够同时恢复相位和吸收信息,在模拟数据和实验数据上都获得了高质量的量化重建结果
  • Conclusion: 该自学习方法显著扩展了相位恢复技术的适用范围,充分利用了物理信息而不依赖于大量训练数据,在实验室和同步改复光源应用中都表现出良好的性能

cs.LG

[89] Side Effects of Erasing Concepts from Diffusion Models

Shaswati Saha,Sourajit Saha,Manas Gaur,Tejas Gokhale

Main category: cs.LG

TL;DR: 本文研究发现概念擦除技术(CETs)存在严重安全漏洞,可以通过语义相似提示词、层级结构和组合变体轻松绕过,同时还存在属性泄露和注意力异常等副作用。

  • Motivation: 随着文本到图像生成模型在隐私、版权和安全方面的担忧日益增加,概念擦除技术(CETs)被开发用于禁止生成特定不良概念。然而这些技术的实际效果和鲁棒性需要系统评估。
  • Method: 提出了Side Effect Evaluation (SEE)评估基准,包含分层和组合提示词的数据集,通过自动化评估流程从三个维度量化CETs的副作用:对邻近概念的影响、目标规避能力和属性泄露情况。
  • Result: 实验表明CETs可以通过超类-子类层级结构和语义相似提示词轻松绕过,存在属性泄露问题,并出现注意力集中或分散的反直觉现象。
  • Conclusion: 当前的概念擦除技术存在严重安全漏洞和副作用,需要更鲁棒的解决方案。作者发布了数据集、代码和评估工具以支持未来研究。

[90] Probability Density from Latent Diffusion Models for Out-of-Distribution Detection

Joonas Järve,Karl Kaspar Haavel,Meelis Kull

Main category: cs.LG

TL;DR: 本文探讨了在表示空间中基于似然的OOD检测性能,通过训练变分扩散模型在预训练ResNet-18的表示空间上进行评估,并与最先进方法比较。

  • Motivation: 尽管似然理论上是最优的OOD检测器,但在实践中经常失败,研究旨在确定这是密度估计能力问题还是像素空间特有的问题。
  • Method: 训练变分扩散模型在预训练ResNet-18的表示空间上,而不是在图像像素空间上,使用OpenOOD套件与最先进方法进行比较评估。
  • Result: 研究结果显示在表示空间中基于似然的OOD检测性能表现,但具体结果需要查看完整论文。
  • Conclusion: 通过将生成模型应用于表示空间而非像素空间,可以更好地评估似然基OOD检测器的实际性能,为解决OOD检测问题提供了新的视角。

[91] Intern-S1: A Scientific Multimodal Foundation Model

Lei Bai,Zhongrui Cai,Maosong Cao,Weihan Cao,Chiyu Chen,Haojiong Chen,Kai Chen,Pengcheng Chen,Ying Chen,Yongkang Chen,Yu Cheng,Yu Cheng,Pei Chu,Tao Chu,Erfei Cui,Ganqu Cui,Long Cui,Ziyun Cui,Nianchen Deng,Ning Ding,Nanqin Dong,Peijie Dong,Shihan Dou,Sinan Du,Haodong Duan,Caihua Fan,Ben Gao,Changjiang Gao,Jianfei Gao,Songyang Gao,Yang Gao,Zhangwei Gao,Jiaye Ge,Qiming Ge,Lixin Gu,Yuzhe Gu,Aijia Guo,Qipeng Guo,Xu Guo,Conghui He,Junjun He,Yili Hong,Siyuan Hou,Caiyu Hu,Hanglei Hu,Jucheng Hu,Ming Hu,Zhouqi Hua,Haian Huang,Junhao Huang,Xu Huang,Zixian Huang,Zhe Jiang,Lingkai Kong,Linyang Li,Peiji Li,Pengze Li,Shuaibin Li,Tianbin Li,Wei Li,Yuqiang Li,Dahua Lin,Junyao Lin,Tianyi Lin,Zhishan Lin,Hongwei Liu,Jiangning Liu,Jiyao Liu,Junnan Liu,Kai Liu,Kaiwen Liu,Kuikun Liu,Shichun Liu,Shudong Liu,Wei Liu,Xinyao Liu,Yuhong Liu,Zhan Liu,Yinquan Lu,Haijun Lv,Hongxia Lv,Huijie Lv,Qidang Lv,Ying Lv,Chengqi Lyu,Chenglong Ma,Jianpeng Ma,Ren Ma,Runmin Ma,Runyuan Ma,Xinzhu Ma,Yichuan Ma,Zihan Ma,Sixuan Mi,Junzhi Ning,Wenchang Ning,Xinle Pang,Jiahui Peng,Runyu Peng,Yu Qiao,Jiantao Qiu,Xiaoye Qu,Yuan Qu,Yuchen Ren,Fukai Shang,Wenqi Shao,Junhao Shen,Shuaike Shen,Chunfeng Song,Demin Song,Diping Song,Chenlin Su,Weijie Su,Weigao Sun,Yu Sun,Qian Tan,Cheng Tang,Huanze Tang,Kexian Tang,Shixiang Tang,Jian Tong,Aoran Wang,Bin Wang,Dong Wang,Lintao Wang,Rui Wang,Weiyun Wang,Wenhai Wang,Yi Wang,Ziyi Wang,Ling-I Wu,Wen Wu,Yue Wu,Zijian Wu,Linchen Xiao,Shuhao Xing,Chao Xu,Huihui Xu,Jun Xu,Ruiliang Xu,Wanghan Xu,GanLin Yang,Yuming Yang,Haochen Ye,Jin Ye,Shenglong Ye,Jia Yu,Jiashuo Yu,Jing Yu,Fei Yuan,Bo Zhang,Chao Zhang,Chen Zhang,Hongjie Zhang,Jin Zhang,Qiaosheng Zhang,Qiuyinzhe Zhang,Songyang Zhang,Taolin Zhang,Wenlong Zhang,Wenwei Zhang,Yechen Zhang,Ziyang Zhang,Haiteng Zhao,Qian Zhao,Xiangyu Zhao,Xiangyu Zhao,Bowen Zhou,Dongzhan Zhou,Peiheng Zhou,Yuhao Zhou,Yunhua Zhou,Dongsheng Zhu,Lin Zhu,Yicheng Zou

Main category: cs.LG

TL;DR: Intern-S1是一个专门针对科学领域的多模态专家混合模型,在科学专业任务上显著超越开源模型,甚至在某些任务上超过闭源SOTA模型

  • Motivation: 解决科学专业领域中开源基础模型与闭源模型之间的性能差距,推动通用人工智能在科学领域的发展
  • Method: 采用多模态专家混合架构,包含280亿激活参数和2410亿总参数,通过5T token持续预训练(其中2.5T来自科学领域),并在InternBootCamp中进行离线和在线强化学习训练,提出混合奖励机制同时训练1000多个任务
  • Result: 在综合评估基准测试中,在通用推理任务上达到开源模型顶级水平,在科学领域显著超越开源模型,在分子合成规划、反应条件预测、晶体热力学稳定性预测等专业任务上超过闭源SOTA模型
  • Conclusion: Intern-S1通过算法、数据和训练系统的集成创新,成功缩小了科学领域中开源与闭源模型的性能差距,为科学研究和AGI发展提供了有力工具