Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] 2COOOL: 2nd Workshop on the Challenge Of Out-Of-Label Hazards in Autonomous Driving
Ali K. AlShami,Ryan Rabinowitz,Maged Shoman,Jianwu Fang,Lukas Picek,Shao-Yuan Lo,Steve Cruz,Khang Nhut Lam,Nachiket Kamod,Lei-Lei Li,Jugal Kalita,Terrance E. Boult
Main category: cs.CV
TL;DR: 该论文介绍了一个关于自动驾驶中异常危险检测的研讨会,旨在解决自动驾驶安全部署中的关键障碍——新场景处理问题。
- Motivation: 自动驾驶技术虽然不断进步,但完全安全的自动驾驶汽车仍未实现,主要原因是难以处理新颖场景和异常危险情况。
- Method: 通过举办2COOOL研讨会,汇集学术界和工业界专家,推动异常危险检测、视觉语言模型、新基准方法等领域的研究。
- Result: 该研讨会将在ICCV 2025会议上举办,延续首届WACV 2025研讨会的成功模式。
- Conclusion: 该研讨会旨在激发新的算法和系统开发,利用异常检测、开放集识别、开放词汇建模等相关领域的思想来提升自动驾驶安全性。
[2] Advanced Deep Learning Techniques for Classifying Dental Conditions Using Panoramic X-Ray Images
Alireza Golkarieh,Kiana Kiashemshaki,Sajjad Rezvani Boroujeni
Main category: cs.CV
TL;DR: 本研究评估了三种深度学习方法来分类全景X射线图像中的牙齿状况,发现结合CNN特征提取和随机森林的混合模型效果最佳,达到85.4%的准确率。
- Motivation: 开发自动化牙齿状况分类系统,为牙科诊断提供计算机辅助支持,提高诊断效率和准确性。
- Method: 使用1,512张全景X射线图像数据集,评估三种方法:自定义CNN、CNN与传统分类器的混合模型、以及微调的预训练架构,采用5折交叉验证。
- Result: 混合CNN-随机森林模型表现最佳(85.4%准确率),优于自定义CNN基线(74.3%)。预训练模型中VGG16表现最好(82.3%)。
- Conclusion: CNN特征提取与集成分类器结合是自动化牙科诊断支持的有效途径,但需要更大数据集和进一步临床验证。
[3] Q-Align: Alleviating Attention Leakage in Zero-Shot Appearance Transfer via Query-Query Alignment
Namu Kim,Wonbin Kweon,Minsoo Kim,Hwanjo Yu
Main category: cs.CV
TL;DR: Q-Align通过Query-Query对齐解决大模型零样本外观迁移中的注意力泄漏问题,在保持结构的同时显著提升外观保真度
- Motivation: 解决大规模图像生成模型在零样本外观迁移中出现的注意力泄漏问题,该问题源于Query-Key对齐导致的语义映射错误
- Method: 提出Q-Align方法,包含三个核心贡献:1) Query-Query对齐实现精细空间语义映射;2) Key-Value重排增强特征对应;3) 使用重排后的Key-Value进行注意力精化保持语义一致性
- Result: 通过大量实验验证,Q-Align在外观保真度方面优于最先进方法,同时保持竞争力的结构保持能力
- Conclusion: Q-Align有效解决了注意力泄漏问题,为零样本外观迁移提供了更精确的语义对齐和更好的性能表现
[4] ERTACache: Error Rectification and Timesteps Adjustment for Efficient Diffusion
Xurui Peng,Hong Liu,Chenqian Yan,Rui Ma,Fangmin Chen,Xing Wang,Zhihua Wu,Songwei Liu,Mingbao Lin
Main category: cs.CV
TL;DR: ERTACache是一个针对扩散模型的缓存加速框架,通过分析缓存累积误差的两个主要成分(特征偏移误差和步长放大误差),采用离线残差分析和轨迹感知校正系数,在保持视觉质量的同时实现2倍推理加速。
- Motivation: 扩散模型由于迭代推理过程导致计算开销大,传统缓存重用方法会造成明显的质量下降,需要解决缓存引入的累积误差问题。
- Method: 提出ERTACache框架:1)离线残差分析识别可重用步骤;2)动态调整积分间隔的轨迹感知校正系数;3)通过闭式残差线性化模型近似缓存误差。
- Result: 在标准图像和视频生成基准测试中,ERTACache实现高达2倍推理加速,同时保持甚至提升视觉质量。在Wan2.1视频扩散模型上实现2倍加速且VBench退化最小。
- Conclusion: ERTACache通过系统分析缓存误差并联合校正两种误差类型,实现了高效准确的采样,显著提升了扩散模型的推理效率。
[5] Video-LLMs with Temporal Visual Screening
Zheyu Fan,Jiateng Liu,Yuji Zhang,Zihan Wang,Yi R.,Fung,Manling Li,Heng Ji
Main category: cs.CV
TL;DR: 该文章提出了时间视觉筛选(TVS)方法,通过保留关键视频段落和重构查询来改善视频大语言模型的细粒度时间语义理解能力。
- Motivation: 视频大语言模型在细粒度时间语义理解方面遇到困难,主要原因是帧采样稀疏和训练过程中缺乏足够的帧间推理监督。
- Method: 受认知科学启发,提出TVS方法:(1)保留重点关键视频段落 (2)同步重构查询到最直接形式保持答案一致性 (3)保持答案的不变性和一致性。还构建了首个TVS测试集和ReSimplifyIt基线方法。
- Result: ReSimplifyIt在视频剪辑任务上比之前方法提升F-1分数0.47,查询重写性能也很竞争力。结合TVS在训练和推理阶段分别获得7.33%和34.6%的相对提升。
- Conclusion: TVS通过时间信息筛选有效改善了视频-语言理解能力,是一种可以无缝集成到视频指令微调和问答流程中的模块化前端适配器任务。
[6] ROBUST-MIPS: A Combined Skeletal Pose and Instance Segmentation Dataset for Laparoscopic Surgical Instruments
Zhe Han,Charlie Budd,Gongyu Zhang,Huanyu Tian,Christos Bergeles,Tom Vercauteren
Main category: cs.CV
TL;DR: 该论文提出使用骨骼姿态标注作为手术工具定位的标注方法,并发布了ROBUST-MIPS数据集来促进这种标注方式的采用。
- Motivation: 现有的手术工具定位方法主要依赖分割标注,但学习性能受限于标注数据的多样性。骨骼姿态标注在语义信息丰富度和标注效率之间取得了更好的平衡。
- Method: 基于现有的ROBUST-MIS数据集,创建了包含工具姿态和实例分割标注的ROBUST-MIPS数据集,并使用流行的姿态估计方法建立基准测试。
- Result: 实验表明姿态标注能够实现高质量的手术工具定位结果,同时发布了数据集、基准模型和自定义工具姿态标注软件。
- Conclusion: 骨骼姿态标注是手术工具定位的有效方法,能够加速标注数据的增长,并为各种下游任务提供支持。
[7] Safe-Control: A Safety Patch for Mitigating Unsafe Content in Text-to-Image Generation Models
Xiangtao Meng,Yingkai Dong,Ning Yu,Li Wang,Zheng Li,Shanqing Guo
Main category: cs.CV
TL;DR: Safe-Control是一种即插即用的安全补丁,通过数据驱动策略和安全感知条件,在锁定T2I模型中注入安全控制信号,有效减少不安全内容生成,同时保持良性图像质量和文本对齐。
- Motivation: 现有的T2I模型安全机制容易受到分布偏移的规避攻击,且需要大量模型特定调整,存在局限性。
- Method: 使用数据驱动策略和安全感知条件,以补丁方式向锁定的T2I模型注入安全控制信号,支持构建多种安全补丁并灵活合并。
- Result: 在6个不同的T2I模型上评估显示,Safe-Control将不安全内容生成概率降至7%,显著优于其他7种最先进的安全机制(约20%)。
- Conclusion: Safe-Control是一种有效、适应性强的安全解决方案,能在保持图像质量的同时显著减少T2I模型的不安全内容生成。
[8] GENNAV: Polygon Mask Generation for Generalized Referring Navigable Regions
Kei Katsumata,Yui Iioka,Naoki Hosomi,Teruhisa Misu,Kentaro Yamada,Komei Sugiura
Main category: cs.CV
TL;DR: GENNAV是一个用于从自然语言指令和前置摄像头图像中识别目标区域位置的新方法,特别擅长处理具有模糊边界的stuff-type目标区域,并在多目标和无目标情况下表现优异。
- Motivation: 现有方法在处理stuff-type目标区域(边界模糊的区域)时表现不佳,特别是在处理无目标或多目标场景时存在局限性。
- Method: 提出GENNAV方法,能够预测目标存在性并为多个stuff-type目标区域生成分割掩码。构建了GRiN-Drive新基准数据集,包含无目标、单目标和多目标三种样本类型。
- Result: GENNAV在标准评估指标上优于基线方法。在5个不同地理区域的4辆汽车上进行的真实世界实验中,展示了优异的零样本迁移性能和跨环境鲁棒性。
- Conclusion: GENNAV方法有效解决了stuff-type目标区域的识别问题,在复杂真实世界环境中表现出色,具有很好的实用价值。
[9] R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning
Jie Jiang,Qi Yang,Bolin Ni,Shiming Xiang,Han Hu,Houwen Peng
Main category: cs.CV
TL;DR: R-4B是一个自适应思考的多模态大语言模型,能够根据问题复杂度自动决定是否启用思考过程,在保持高性能的同时降低计算成本。
- Motivation: 现有的多模态大语言模型在处理简单问题时也会进行冗余的逐步思考过程,导致计算效率低下。需要一种能够自适应决定是否思考的模型来提高效率。
- Method: 采用双模式退火训练方法,让模型同时具备思考和非思考两种能力,并通过双模式策略优化(BPO)来提升模型判断是否激活思考过程的准确性。训练分为两个阶段:首先在精心策划的数据集上训练,然后在改进的GRPO框架下进行策略优化。
- Result: R-4B在25个具有挑战性的基准测试中达到最先进性能,在大多数任务上超越Qwen2.5-VL-7B,在推理密集型基准上与更大的Kimi-VL-A3B-Thinking-2506(16B)模型性能相当,但计算成本更低。
- Conclusion: R-4B通过自适应思考机制成功解决了多模态大语言模型在处理简单问题时的计算效率问题,实现了高性能与高效率的平衡。
[10] HiddenObject: Modality-Agnostic Fusion for Multimodal Hidden Object Detection
Harris Song,Tuan-Anh Vu,Sanjith Menon,Sriram Narasimhan,M. Khalid Jawed
Main category: cs.CV
TL;DR: HiddenObject是一个基于Mamba的多模态融合框架,整合RGB、热成像和深度数据,用于检测遮挡或伪装目标,在多个基准数据集上达到先进性能。
- Motivation: 传统RGB检测方法在遮挡、伪装和光照变化等恶劣条件下表现不佳,需要更鲁棒的模态无关方法来检测隐藏或部分遮挡物体。
- Method: 提出基于Mamba的融合机制,整合RGB、热成像和深度数据,识别模态特定特征并在统一表示中进行融合。
- Result: 在多个基准数据集上验证,相比现有方法达到最先进或竞争性性能,证明了融合设计的有效性。
- Conclusion: 基于Mamba的融合架构能显著推进多模态目标检测领域发展,特别是在视觉退化或复杂条件下。
[11] RadGS-Reg: Registering Spine CT with Biplanar X-rays via Joint 3D Radiative Gaussians Reconstruction and 3D/3D Registration
Ao Shen,Xueming Fu,Junfeng Jiang,Qiang Zeng,Ye Tang,Zhengming Chen,Luming Nong,Feng Wang,S. Kevin Zhou
Main category: cs.CV
TL;DR: RadGS-Reg是一个新颖的框架,通过联合3D辐射高斯重建和3D/3D配准,实现了椎体级别的CT/X射线配准,在噪声X射线下表现出色。
- Motivation: 传统"渲染比较"方法存在空间信息丢失和域差距问题,而现有双平面X射线3D重建方法受限于密集视图要求和噪声处理困难。
- Method: 采用基于学习的辐射高斯重建方法,结合反事实注意力学习机制,专注于噪声X射线中的椎体区域,并使用患者特异性预训练策略从模拟数据逐步适应到真实数据。
- Result: 在内部数据集上的实验表明,该方法在两个任务上都达到了最先进的性能,超越了现有方法。
- Conclusion: RadGS-Reg框架有效解决了CT/X射线配准中的准确性和实时性挑战,为图像引导导航提供了更好的解决方案。
[12] SYNBUILD-3D: A large, multi-modal, and semantically rich synthetic dataset of 3D building models at Level of Detail 4
Kevin Mayer,Alex Vesel,Xinyi Zhao,Martin Fischer
Main category: cs.CV
TL;DR: 这篇论文提出了SYNBUILD-3D数据集,包含超过620万个合成住宅建筑的多模态数据,包括3D线框图、平面图和点云数据,以支持高级别3D建筑模型的自动生成。
- Motivation: 解决公开领域缺大规模注释数据集的问题,为自动生成准确且语义丰富的3D建筑模型提供基础数据支持。
- Method: 创建合成数据集SYNBUILD-3D,包含三种模态:LoD 4级别语义丰富的3D线框图、对应平面图像和LiDAR类屋顶点云数据,并从平面图中提取房间、门窗等语义标注。
- Result: 成功构建了包含620万个建筑的大规模多模态数据集,为3D建筑生成算法的发展提供了丰富的训练资源。
- Conclusion: SYNBUILD-3D数据集为开发新型生成式AI算法提供了基础,能够在指定平面布局和屋顶几何的前提下自动创建语义-几何一致的高级别3D建筑模型。
[13] Radially Distorted Homographies, Revisited
Mårten Wadenbäck,Marcus Valtonen Örnhag,Johan Edstedt
Main category: cs.CV
TL;DR: 本文提出了一种统一的方法来同时估计单应性变换和径向畸变,解决了三种不同的畸变配置情况,并开发了快速、稳定、准确的最小求解器。
- Motivation: 在真实图像处理中,相机镜头引起的几何畸变(特别是径向畸变)会影响单应性估计的准确性。传统方法需要分别处理不同的畸变配置,缺乏统一的解决方案。
- Method: 提出了一种新颖的统一方法,能够同时处理三种径向畸变配置:单图像畸变、两图像相同畸变和两图像独立畸变。基于该方法构建了最小求解器。
- Result: 在所有三种情况下,提出的求解器都比现有最先进方法更快,同时保持了相似的精度。在包括鱼眼相机图像在内的标准基准测试中表现良好。
- Conclusion: 该方法提供了一个统一的框架来解决径向畸变单应性估计问题,所开发的求解器在速度和准确性方面都优于现有方法,具有实际应用价值。
[14] GCAV: A Global Concept Activation Vector Framework for Cross-Layer Consistency in Interpretability
Zhenghao He,Sanchit Sinha,Guangzhi Xiong,Aidong Zhang
Main category: cs.CV
TL;DR: 提出了Global Concept Activation Vector (GCAV)框架,通过对比学习和注意力融合机制统一不同层的CAV表示,解决跨层概念不一致问题,提升概念归因的稳定性和可靠性。
- Motivation: 传统CAV在不同层独立计算时存在概念表示不一致的问题,导致跨层比较不可靠,需要一种统一的全局概念表示方法。
- Method: 使用对比学习对齐跨层概念表示,采用基于注意力的融合机制构建全局集成的GCAV,并提出了TGCAV评估方法。
- Result: 实验表明GCAV有效减少了TCAV分数的方差,保持了概念相关性,增强了概念定位能力,并提高了对抗扰动的鲁棒性。
- Conclusion: GCAV通过整合跨层信息提供了更全面、可解释的深度学习模型概念编码理解框架。
[15] Generalizable Object Re-Identification via Visual In-Context Prompting
Zhizhong Huang,Xiaoming Liu
Main category: cs.CV
TL;DR: VICP是一个新颖的视觉上下文提示框架,通过在上下文中使用示例作为提示,使模型能够直接泛化到未见过的物体类别,无需参数调整。
- Motivation: 当前物体重识别方法需要针对特定领域训练模型,缺乏泛化能力且需要大量标注数据。自监督学习虽然减少标注需求,但难以捕捉对重识别至关重要的身份敏感特征。
- Method: 结合大语言模型和视觉基础模型:LLM通过任务特定提示从少量正负样本对中推断语义身份规则,然后指导VFM(如DINO)通过动态视觉提示提取身份判别特征。
- Result: 在ShopID10K数据集和多个重识别基准测试中,VICP在未见类别上的表现明显优于基线方法。
- Conclusion: VICP通过将LLM衍生的语义概念与VFM的预训练先验对齐,实现了对新类别的泛化,消除了数据集特定重新训练的需求。
[16] Lightweight MRI-Based Automated Segmentation of Pancreatic Cancer with Auto3DSeg
Keshav Jha,William Sharp,Dominic LaBella
Main category: cs.CV
TL;DR: 本研究使用SegResNet模型在PANTHER挑战赛的两个MRI胰腺肿瘤分割任务中进行了评估,结果显示T1加权MRI任务表现较好(DSC 0.56),T2加权MR-Linac任务表现较差(DSC 0.33),凸显了小数据集和不同MRI序列带来的挑战。
- Motivation: 胰腺肿瘤的精确分割对诊断、治疗计划和结果评估至关重要,但由于解剖结构变异性和数据集有限,自动分割仍然具有挑战性。
- Method: 采用SegResNet模型(Auto3DSeg架构的一部分),在91例T1加权动脉对比增强MRI和50例T2加权MR-Linac病例上进行了5折交叉验证,并使用STAPLE集成方法在解剖相关感兴趣区域进行训练。
- Result: 任务1(T1加权MRI)获得DSC 0.56、5mm DSC 0.73、HD95 41.1mm;任务2(T2加权MR-Linac)性能下降,DSC仅0.33、5mm DSC 0.50、HD95 20.1mm。
- Conclusion: 研究结果显示了基于MRI的胰腺肿瘤分割在小数据集中的挑战性,强调了不同MRI序列引入的变异性,表明需要更大、标准化的MRI数据集来提高模型鲁棒性和临床实用性。
[17] Reverse Imaging for Wide-spectrum Generalization of Cardiac MRI Segmentation
Yidong Zhao,Peter Kellman,Hui Xue,Tongyun Yang,Yi Zhang,Yuchi Han,Orlando Simonetti,Qian Tao
Main category: cs.CV
TL;DR: Reverse Imaging是一种基于物理原理的心脏MRI数据增强方法,通过反演推断底层自旋属性来解决不同成像序列间的泛化问题,显著提升分割模型的跨域性能。
- Motivation: 预训练的心脏MRI分割模型在不同成像序列间泛化困难,主要原因是图像对比度的显著差异。虽然成像协议不同,但相同的自旋物理属性(质子密度、T1、T2值)控制着所有获取的图像。
- Method: 提出Reverse Imaging方法:1)通过解决非线性逆问题从观测图像反演推断底层自旋属性;2)使用扩散模型从mSASHA数据集中学习自旋属性的先验分布;3)基于估计的自旋属性合成任意新序列的图像。
- Result: 该方法能够从MRI图像中获得近似但有意义的自旋属性估计,作为可解释的潜在变量,实现高度灵活的图像合成。实验表明Reverse Imaging能够在 vastly不同的图像对比度和成像协议上实现高精度分割。
- Conclusion: Reverse Imaging通过物理驱动的数据增强和域适应方法,从根本上解决了心脏MRI分割的泛化问题,实现了宽谱泛化能力,为医学图像分析提供了新的解决方案。
[18] PHD: Personalized 3D Human Body Fitting with Point Diffusion
Hsuan-I Ho,Chen Guo,Po-Chen Wu,Ivan Shugurov,Chengcheng Tang,Abhay Mittal,Sizhe An,Manuel Kaufmann,Linguang Zhang
Main category: cs.CV
TL;DR: PHD是一种新颖的个性化3D人体网格恢复方法,通过用户特定形状信息提升视频姿态估计精度,使用点扩散变换器作为形状条件姿态先验,可无缝集成现有姿态估计器。
- Motivation: 传统HMR方法为通用性优化,但2D约束会损害3D精度,无法同时考虑个性化体型和3D姿态合理性。
- Method: 先校准用户体型,然后基于该体型进行个性化姿态拟合,使用点扩散变换器作为形状条件3D姿态先验,通过点蒸馏采样损失迭代引导拟合。
- Result: 不仅提高了骨盆对齐姿态精度,还改善了绝对姿态精度,仅需合成数据训练,可作为即插即用模块提升现有姿态估计器性能。
- Conclusion: PHD通过解耦体型校准和姿态拟合,有效减少对2D约束的过度依赖,在数据效率和集成灵活性方面表现出色。
[19] Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning
Yuquan Bi,Hongsong Wang,Xinli Shi,Zhipeng Gui,Jie Gui,Yuan Yan Tang
Main category: cs.CV
TL;DR: 提出了一个基于扩散模型的高效3D人体姿态估计框架HTP,通过分层时间剪枝策略在保持运动动态的同时大幅降低计算成本
- Motivation: 扩散模型在生成高保真3D人体姿态方面表现出色,但其迭代性质和多重假设需求导致计算成本过高,需要提高效率
- Method: 采用分层时间剪枝(HTP)策略:1)TCEP通过自适应时间图分析帧间运动相关性识别关键帧;2)SFT MHSA利用帧级稀疏性减少注意力计算;3)MGPTP通过聚类进行细粒度语义剪枝保留最有信息量的姿态token
- Result: 在Human3.6M和MPI-INF-3DHP数据集上,HTP将训练MACs减少38.5%,推理MACs减少56.8%,推理速度平均提升81.1%,同时达到最先进性能
- Conclusion: HTP策略有效解决了扩散模型在3D人体姿态估计中的计算效率问题,在显著降低计算成本的同时保持了优异的性能表现
[20] Print2Volume: Generating Synthetic OCT-based 3D Fingerprint Volume from 2D Fingerprint Image
Qingran Miao,Haixia Wang,Haohao Sun,Yilong Zhang
Main category: cs.CV
TL;DR: Print2Volume是一个从2D指纹图像生成逼真合成OCT 3D指纹的框架,通过解决OCT数据稀缺问题显著提升了生物识别性能
- Motivation: OCT技术能够获取高分辨率三维指纹数据,但数据采集成本高、耗时长,导致大规模公开数据集稀缺,严重阻碍了深度学习模型的发展
- Method: 三阶段框架:1) 2D风格转换模块将二值指纹转为灰度图像;2) 3D结构扩展网络将2D图像外推为3D解剖体积;3) 基于3D GAN的OCT真实感细化器添加纹理和噪声特征
- Result: 生成了42万个合成样本的大规模数据集,通过在合成数据上预训练并在小规模真实数据上微调,将等错误率从15.62%显著降低至2.50%
- Conclusion: Print2Volume框架有效解决了OCT指纹数据稀缺问题,生成的合成数据质量高,能够显著提升生物识别性能,为数据饥渴的深度学习模型提供了可行解决方案
[21] GLENDA: Gynecologic Laparoscopy Endometriosis Dataset
Andreas Leibetseder,Sabrina Kletz,Klaus Schoeffmann,Simon Keckstein,Jörg Keckstein
Main category: cs.CV
TL;DR: 发布了首个妇科腹腔镜子宫内膜异位症数据集GLENDA,包含区域标注的子宫内膜异位症图像数据,用于支持计算机视觉和机器学习在手术视频分析中的应用
- Motivation: 妇科腹腔镜手术视频的人工分析过程耗时且繁琐,而现有的计算机视觉方法严重依赖样本数据,但在医学领域数据稀缺,特别是缺乏专门针对子宫内膜异位症的标注数据集
- Method: 与领先医学专家合作创建了首个妇科腹腔镜子宫内膜异位症数据集GLENDA,包含区域基础的子宫内膜异位症组织标注
- Result: 成功发布了首个此类数据集,为子宫内膜异位症的计算机视觉分析提供了宝贵的标注数据资源
- Conclusion: GLENDA数据集的发布将促进更先进的计算机视觉和机器学习方法在妇科腹腔镜手术视频分析中的发展,有助于改善手术记录分析、治疗规划和医学教育
[22] Identifying Surgical Instruments in Laparoscopy Using Deep Learning Instance Segmentation
Sabrina Kletz,Klaus Schoeffmann,Jenny Benois-Pineau,Heinrich Husslein
Main category: cs.CV
TL;DR: 该论文研究使用区域全卷积网络对腹腔镜妇科手术视频中的手术器械进行实例分割和识别,实现了高精度的器械定位和分割,但器械类型识别仍具挑战性。
- Motivation: 手术视频记录已成为医学内窥镜领域的重要信息来源,但自动内容索引(基于内容搜索的基础)由于视频内容的特殊性仍然是一个巨大挑战。
- Method: 使用区域全卷积网络进行实例感知的(1)器械分割(二值分割)和(2)器械识别(多类别识别)。
- Result: 即使训练样本数量较少,也能以相当高的精度定位和分割器械区域;但确定具体器械类型仍然非常困难。
- Conclusion: 手术器械分割取得了良好效果,但由于手术器械内在的高度相似性,器械类型识别仍然是一个具有挑战性的问题。
[23] SatDINO: A Deep Dive into Self-Supervised Pretraining for Remote Sensing
Jakub Straka,Ivan Gruber
Main category: cs.CV
TL;DR: SatDINO是一个基于DINO对比自监督学习的卫星图像表示学习模型,在多个数据集和测试设置中优于基于掩码自编码器(MAE)的最先进方法,并提出了新的GSD编码和自适应视图采样增强技术。
- Motivation: 遥感领域存在大量未标记数据,自监督学习成为强大工具。研究旨在探索DINO对比自监督方法在遥感图像预训练中的应用,解决现有方法如MAE的局限性。
- Method: 提出SatDINO模型,专门针对卫星图像表示学习。采用DINO对比自监督方法,引入新的地面采样距离(GSD)编码方式和自适应视图采样技术,并进行严格的消融研究评估各组件效果。
- Result: 在多个数据集和测试设置中,SatDINO显著优于基于MAE的最先进方法,在多个基准测试中取得有竞争力的结果。提出的增强技术可以独立应用于SatDINO模型。
- Conclusion: SatDINO证明了对比自监督学习在遥感图像表示学习中的有效性,提出的GSD编码和自适应视图采样技术为卫星图像分析提供了新的增强手段,代码和训练模型已开源。
[24] Standardized Multi-Layer Tissue Maps for Enhanced Artificial Intelligence Integration and Search in Large-Scale Whole Slide Image Archives
Gernot Fiala,Markus Plass,Robert Harb,Peter Regitnig,Kristijan Skok,Wael Al Zoughbi,Carmen Zerner,Paul Torke,Michaela Kargl,Heimo Müller,Tomas Brazdil,Matej Gallo,Jaroslav Kubín,Roman Stoklasa,Rudolf Nenutil,Norman Zerbe,Andreas Holzinger,Petr Holub
Main category: cs.CV
TL;DR: 提出了一种为全屋扫描图片(WSI)生成2D索引地图的标准框架,通过三层组织结构提供细粒度的组织内容信息,解决大规模WSI集合中手动检查的效率问题。
- Motivation: 目前WSI集合缺乏标准元数据标准,大规模集合(达到数百万对象)中手动检查内容效率低下,影响AI算法训练和验证的聚集过程。
- Method: 提出一种通用框架,为WSI生成2D索引地图和特定应用领域的配置机制。组织为三层结构:来源层、组织类型层和病理改变层,每个层都将WSI区域分配到特定类别。使用通用语法和语义实现不同目录间的互操性。
- Result: 在临床病理学领域进行了实验式验证,通过具体案例展示了该标准在WSI目录、机器学习和图基于WSI表示中的优势和适用性。
- Conclusion: 该框架为WSI集合提供了详细的组织地图,能够支持大规模AI算法开发中的自动化内容选择和分析,有助于提高医学图像分析的效率和准确性。
[25] Unsupervised Incremental Learning Using Confidence-Based Pseudo-Labels
Lucas Rakotoarivony
Main category: cs.CV
TL;DR: 提出了一种基于置信度伪标签的无监督增量学习方法ICPL,能够在无标注数据集上进行增量学习,性能接近有监督方法,在class-iNCD任务上比现有方法提升5%以上
- Motivation: 现实场景中经常出现训练时未见的新类别,传统增量学习方法需要完全标注的数据集,这在实践中不现实
- Method: 使用置信度伪标签替代人工标注,将伪标签集成到各种CIL方法中,通过置信度选择机制
- Result: 在CIFAR100和ImageNet100上评估性能下降,在细粒度数据集上验证实用性,计算复杂度适合资源受限环境
- Conclusion: ICPL方法在无监督设置下实现了与有监督方法竞争的结果,显著优于现有的class-iNCD方法
[26] MedShift: Implicit Conditional Transport for X-Ray Domain Adaptation
Francisco Caetano,Christiaan Viviers,Peter H. H. de With,Fons van der Sommen
Main category: cs.CV
TL;DR: MedShift是一个基于Flow Matching和Schrodinger Bridges的统一类别条件生成模型,用于解决合成与真实X射线图像之间的跨域转换问题,在保持较小模型规模的同时实现高性能的医学图像域适应。
- Motivation: 合成医学数据虽然可扩展性强,但与真实临床数据存在显著的域差距,限制了其在真实世界中的泛化能力。本文旨在解决合成与真实头部X射线图像之间的跨域转换挑战。
- Method: 提出MedShift模型,基于Flow Matching和Schrodinger Bridges构建统一的类别条件生成模型,学习共享的域无关潜在空间,支持训练期间见过的任意域对之间的无缝转换。
- Result: 实验结果表明,MedShift在较小模型规模下仍能提供强劲性能,推理时可根据需要优先考虑感知保真度或结构一致性。
- Conclusion: MedShift为医学成像中的域适应提供了一个可扩展且可泛化的解决方案,代码和X-DigiSkull数据集已公开。
[27] Trees as Gaussians: Large-Scale Individual Tree Mapping
Dimitri Gominski,Martin Brandt,Xiaoye Tong,Siyu Liu,Maurice Mugabowindekwe,Sizhuo Li,Florian Reiner,Andrew Davies,Rasmus Fensholt
Main category: cs.CV
TL;DR: 提出基于深度学习的全球尺度单株大树检测方法,使用3米分辨率卫星影像和高斯核模拟树冠,通过机载激光雷达自动提取训练数据,实现高精度树木检测。
- Motivation: 现有全球产品主要关注二元树冠覆盖或冠层高度,无法在个体水平识别树木,大规模单株树木监测存在建模不足的限制。
- Method: 使用深度学习方法和3米分辨率PlanetScope影像,通过高斯核模拟可扩展大小的树冠,从机载激光雷达数据自动提取数十亿个点进行训练。
- Result: 与现有树冠覆盖图和机载激光雷达相比达到最先进性能(与航空激光雷达的分数覆盖R²=0.81),在不同生物群落中报告平衡的检测指标。
- Conclusion: 该方法为全球高分辨率树木监测提供了可扩展框架,并可适应未来提供改进影像的卫星任务。
[28] Scale-GS: Efficient Scalable Gaussian Splatting via Redundancy-filtering Training on Streaming Content
Jiayu Yang,Weijian Su,Songqian Zhang,Yuqi Han,Jinli Suo,Qiang Zhang
Main category: cs.CV
TL;DR: \M是一个可扩展的高斯泼溅框架,通过分层锚点结构、混合变形生成策略和双向自适应掩码机制,显著降低了动态场景训练时间和计算开销。
- Motivation: 3D高斯泼溅技术在动态场景扩展中存在高斯数据量大和训练时间长的限制,需要更高效的训练框架。
- Method: 使用基于锚点的分层高斯球结构,粗粒度高斯表示场景低分辨率结构,细粒度高斯负责细节渲染;采用混合变形和生成策略建模帧间运动;引入双向自适应掩码机制去除静态区域并优先处理信息丰富的视角。
- Result: 大量实验表明,\M在实现优异视觉质量的同时,相比最先进方法显著减少了训练时间。
- Conclusion: 该框架为动态场景的高斯泼溅提供了一种高效可扩展的解决方案,在保持高质量渲染的同时大幅提升了训练效率。
[29] One More Glance with Sharp Eyes: Rethinking Lightweight Captioning as a Practical Visual Specialist
Junha Song,Yongsik Jo,So Yeon Min,Quanting Xie,Taehwan Kim,Yonatan Bisk,Jaegul Choo
Main category: cs.CV
TL;DR: 本文提出了一种轻量级图像描述模型,参数仅为125M,比LLaMA-7B小56倍,性能却可与大型多模态通用模型相媲美,并开发了Sharp-Eyed Refinement框架来解决视觉盲区问题。
- Motivation: 由于多模态大语言模型计算需求高,难以在本地设备部署,需要开发轻量级但性能相当的图像描述解决方案。
- Method: 基于125M参数语言模型构建专家模型,并通过DeepLens提取详细视觉表示,开发Sharp-Eyed Refinement框架改进视觉基础。
- Result: 模型在单句和详细描述任务上表现与大型多模态通用模型相当,但存在视觉盲区问题,新框架有效提升了描述质量。
- Conclusion: 轻量级专家模型可作为设备端应用的强大视觉专家,Sharp-Eyed Refinement框架成功解决了视觉盲区问题,验证了方法的有效性。
[30] Federated Fine-tuning of SAM-Med3D for MRI-based Dementia Classification
Kaouther Mouheb,Marawan Elbatel,Janne Papma,Geert Jan Biessels,Jurgen Claassen,Huub Middelkoop,Barbara van Munster,Wiesje van der Flier,Inez Ramakers,Stefan Klein,Esther E. Bron
Main category: cs.CV
TL;DR: 基础模型在联邦学习中的调优设计选择:分类头结构、细调策略和聚合方法对症病诊断性能有显著影响
- Motivation: 基础模型在AI病病诊断中具有强大潜力,但其在联邦学习系统中的集成研究仍然不足,需要系统性评估关键设计选择的影响
- Method: 使用大规模多生物标本数据集,通过对比实验系统评估不同的分类头结构、细调策略(全部细调vs冻结编码器)和聚合方法的性能和效率
- Result: 发现分类头结构对性能有显著影响,冻结FM编码器可以达到与全部细调相似的结果,进阶聚合方法超过标准联邦平均算法
- Conclusion: 研究结果为在去中心化临床环境中部署基础模型提供了实用见解,并指出了需要考虑的权衡交换以指导未来方法开发
[31] Multi-Method Ensemble for Out-of-Distribution Detection
Lucas Rakotoarivony
Main category: cs.CV
TL;DR: 提出MME评分方法,通过结合特征截断和多种评分函数来提升OOD检测性能,在多个基准测试中显著优于现有方法
- Motivation: 现有OOD检测方法要么只关注单一技术家族,要么在特定类型OOD数据集上评估,忽视了组合多种现有解决方案的潜力
- Method: 提出Multi-Method Ensemble (MME)评分方法,统一最先进的OOD检测器到一个更有效的评分函数中,结合特征截断和多种评分函数
- Result: 在大型和小型基准测试中,包括近OOD和远OOD场景,MME显著优于最新方法。使用BiT模型在ImageNet-1K基准上实现平均FPR95为27.57%,比现有最佳基线提升6%
- Conclusion: 理论分析和实验证明,最先进的特征截断和评分函数可以有效地结合,聚合多个评分函数能增强对各种类型OOD样本的鲁棒性
[32] Adversarial Patch Attack for Ship Detection via Localized Augmentation
Chun Liu,Panpan Ding,Zheng Zheng,Hailong Wang,Bingqian Zhu,Tao Xu,Zhigang Han,Jiayao Wang
Main category: cs.CV
TL;DR: 本文提出了一种针对遥感图像船舶检测的局部增强方法,通过仅对目标区域进行增强来避免背景干扰,提高了对抗性补丁攻击的成功率和迁移性。
- Motivation: 现有的基于数据变换的方法在增强对抗样本迁移性时,过度增强图像背景或无关区域会引入不必要的干扰,导致目标检测模型出现误检,这些错误并非由对抗补丁本身引起。
- Method: 提出局部增强方法,仅对目标区域应用增强,避免影响非目标区域,减少背景干扰,使损失函数更直接关注对抗补丁对检测模型的影响。
- Result: 在HRSC2016数据集上的实验表明,该方法有效提高了对抗性补丁攻击的成功率并增强了其迁移性。
- Conclusion: 局部增强方法通过减少背景干扰,能够更有效地提升对抗性补丁攻击的效果,为遥感图像船舶检测的安全性提供了新的防御思路。
[33] ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding
Hao Lu,Jiahao Wang,Yaolun Zhang,Ruohui Wang,Xuanyu Zheng,Yepeng Tang,Dahua Lin,Lewei Lu
Main category: cs.CV
TL;DR: 该论文提出了首个专门针对长视频幻觉的基准ELV-Halluc,系统研究了语义聚合幻觉(SAH)现象,发现SAH随语义复杂度增加而加剧,并提出位置编码策略和DPO训练方法来缓解SAH。
- Motivation: 现有的视频多模态大语言模型在视频理解方面取得显著进展,但仍容易产生与视频输入不一致或无关的幻觉内容。之前的幻觉基准主要关注短视频,且将幻觉归因于语言先验、缺失帧或视觉编码器引入的偏差,但这些原因过于简化。特别是在长视频中,语义聚合过程中的幻觉问题变得尤为关键。
- Method: 1) 构建ELV-Halluc基准,专门用于长视频幻觉研究;2) 识别和分析语义聚合幻觉(SAH)现象;3) 实验验证SAH的存在及其与语义复杂度的关系;4) 提出位置编码策略和DPO训练方法来缓解SAH;5) 构建包含8K对抗数据对的数据集进行训练。
- Result: 1) 确认了SAH现象的存在,且SAH随语义复杂度增加而增加;2) 发现模型在快速变化的语义上更容易产生SAH;3) 位置编码策略有助于缓解SAH;4) DPO策略提升了模型区分事件内和事件间语义的能力;5) 在ELV-Halluc和Video-MME基准上取得改进,SAH比率显著降低27.7%。
- Conclusion: 该研究首次系统性地研究了长视频中的语义聚合幻觉问题,提出了专门的基准和有效的缓解方法,为视频多模态大语言模型的幻觉问题提供了新的研究视角和解决方案,特别是在处理复杂长视频内容时具有重要意义。
[34] Maybe you don't need a U-Net: convolutional feature upsampling for materials micrograph segmentation
Ronan Docherty,Antonis Vamvakeros,Samuel J. Cooper
Main category: cs.CV
TL;DR: 提出一种卷积神经网络上采样器,将低分辨率的基础模型特征与输入图像结合进行上采样,用于高效处理显微图像分割任务
- Motivation: 现有的基于patch的基础模型在处理显微图像时存在两个问题:1)难以表示微图像中的精细特征;2)难以处理材料和生物图像分析中的大尺寸图像
- Method: 训练卷积神经网络,参考输入图像对低分辨率(大patch尺寸)基础模型特征进行上采样,无需额外训练即可应用于各种显微图像的特征提取和分割
- Result: 上采样后的丰富特征能够分离难以分割的相(如发丝裂纹),交互式分割使用这些深度特征能够以更少的标签和更快的速度产生高质量分割结果
- Conclusion: 该方法为显微图像分析提供了一种高效的特征提取和分割解决方案,显著优于传统的卷积网络训练或微调方法
[35] HCCM: Hierarchical Cross-Granularity Contrastive and Matching Learning for Natural Language-Guided Drones
Hao Ruan,Jinliang Lin,Yingxin Lai,Zhiming Luo,Shaozi Li
Main category: cs.CV
TL;DR: 提出HCCM框架解决无人机场景中视觉语言理解的挑战,通过区域-全局对比学习和匹配机制,在GeoText-1652数据集上达到SOTA性能,并在未见数据集上展现强大零样本泛化能力
- Motivation: 无人机场景中宽视场和复杂组合语义对视觉语言理解提出挑战,主流VLM缺乏细粒度语义,现有分层方法依赖精确实体划分和严格包含关系,在动态环境中效果有限
- Method: 提出HCCM框架:1) RG-ITC区域-全局图像文本对比学习,避免精确场景划分;2) RG-ITM区域-全局图像文本匹配,评估局部语义一致性;3) MCD动量对比和蒸馏机制提高鲁棒性
- Result: 在GeoText-1652数据集上达到28.8%的图像检索Recall@1和14.7%的文本检索Recall@1;在未见ERA数据集上达到39.93%的平均召回率,优于微调基线
- Conclusion: HCCM框架有效解决了无人机场景中的视觉语言理解挑战,通过分层跨粒度对比和匹配学习,在标准数据集和零样本泛化方面都表现出优异性能
[36] Complete Gaussian Splats from a Single Image with Denoising Diffusion Models
Ziwei Liao,Mohamed Sayed,Steven L. Waslander,Sara Vicente,Daniyar Turmukhambetov,Michael Firman
Main category: cs.CV
TL;DR: 从单张图像生成完整的3D场景里氏散点表示,包括遮挡部分,采用潜空滴流模型解决传统方法的模糊性和不可信问题
- Motivation: 里氏散点通常需要密集观测数据,无法恢复遮挡和未观测区域。传统回归方法只能预测单一的最可能表示,导致模糊和不可信的结果
- Method: 提出一种生成式方法,通过变分自动重构器(Variational AutoReconstructor)在2D图像上自盛盛学习潜空空间,然后在该空间上训练滴流模型来生成条件化的3D里氏散点表示
- Result: 方法能够生成准确的重建结果和多样化的样本,完成遮挡表面的恢复,产生高质量的360度渲染
- Conclusion: 通过生成式模型和自盛盛学习,成功解决了从单张图像恢复完整场景的挑战,充分利用潜空滴流模型的优势来处理多模态的可能性
[37] EZ-Sort: Efficient Pairwise Comparison via Zero-Shot CLIP-Based Pre-Ordering and Human-in-the-Loop Sorting
Yujin Park,Haejun Chung,Ikbeom Jang
Main category: cs.CV
TL;DR: EZ-Sort通过CLIP零样本预排序和不确定性引导的合并排序,将成对比较标注成本降低90.5%,同时保持或提高评分者间可靠性
- Motivation: 成对比较虽然比绝对评分更可靠,但需要O(n^2)次标注,现有方法仍需O(n log n)次标注,需要进一步降低人工标注负担
- Method: 使用CLIP模型进行分层零样本预排序,初始化桶感知Elo分数,然后运行不确定性引导的人机协同合并排序算法
- Result: 在多个数据集上验证,相比穷举成对比较减少90.5%人工标注,比现有方法减少19.8%标注(n=100时),同时保持或提高评分者间可靠性
- Conclusion: 结合CLIP先验知识和不确定性感知采样,为成对排序提供了高效可扩展的解决方案
[38] ECHO: Ego-Centric modeling of Human-Object interactions
Ilya A. Petrov,Vladimir Guzov,Riccardo Marin,Emre Aksan,Xu Chen,Daniel Cremers,Thabo Beeler,Gerard Pons-Moll
Main category: cs.CV
TL;DR: ECHO是一个从头部和手腕跟踪数据中恢复人体姿态、物体运动和接触信息的三模态统一框架,采用Diffusion Transformer架构和三变量扩散过程,在头中心坐标系中运行,支持灵活输入配置和任意长度序列处理。
- Motivation: 随着可穿戴设备的普及,从第一人称视角建模人-物交互是一个重要但尚未充分探索的问题。研究旨在探索仅通过头部和手腕跟踪能恢复多少交互信息。
- Method: 采用Diffusion Transformer架构和独特的三变量扩散过程,联合建模人体运动、物体轨迹和接触序列。在头中心规范空间中操作以增强全局方向鲁棒性,并提出基于传送带的推理方法处理任意长度序列。
- Result: 通过广泛评估表明,ECHO在自我中心人-物交互重建方面超越了现有方法,达到了最先进的性能水平。
- Conclusion: ECHO首次提出了从最小观察中统一恢复三模态信息的框架,为可穿戴设备场景下的人-物交互建模提供了有效的解决方案。
[39] How Well Do Vision--Language Models Understand Cities? A Comparative Study on Spatial Reasoning from Street-View Images
Juneyoung Ro,Namwoo Kim,Yoonjin Yoon
Main category: cs.CV
TL;DR: 本文比较了三种现成视觉语言模型在城市场景中的空间推理能力,通过合成VQA数据集进行微调,显著提升了模型性能,特别是对于否定和反事实等挑战性问题类型。
- Motivation: 当前视觉语言模型在通用场景上预训练,但它们在城市场景中的细粒度空间推理能力(如物体、布局和深度线索)尚未得到充分探索。
- Method: 构建了基于街景图像分割、深度和物体检测预测的合成VQA数据集,使用LLM生成链式思维答案进行逐步推理监督,对BLIP-2、InstructBLIP和LLaVA-1.5进行零样本评估和微调实验。
- Result: 视觉语言模型在零样本设置下表现合理,但使用合成的链式思维监督数据集进行微调后性能大幅提升,特别是在否定和反事实等挑战性问题类型上。
- Conclusion: 城市场景空间推理是视觉语言模型的新挑战,合成数据集构建是将通用模型适配到专业领域的实用路径。
[40] Temporal Flow Matching for Learning Spatio-Temporal Trajectories in 4D Longitudinal Medical Imaging
Nico Albert Disch,Yannick Kirchhoff,Robin Peretzke,Maximilian Rokuss,Saikat Roy,Constantin Ulrich,David Zimmerer,Klaus Maier-Hein
Main category: cs.CV
TL;DR: 提出了Temporal Flow Matching (TFM)方法,用于4D医学图像预测,通过学习时间分布来生成精细的空间预测,在三个公共纵向数据集上达到最先进性能
- Motivation: 现有深度学习方法要么只考虑单一时间上下文,要么局限于分类回归任务,无法进行精细空间预测,且现有方法多限于单时间点、特定疾病或有技术限制
- Method: Temporal Flow Matching (TFM) - 统一的生成轨迹方法,能够学习底层时间分布,支持3D体积、多先验扫描和不规则采样,并能回退到最近图像预测器
- Result: 在三个公共纵向数据集上的广泛基准测试表明,TFM始终超越自然成像中的时空方法,为4D医学图像预测建立了新的最先进和稳健基线
- Conclusion: TFM填补了医学成像中时间动态建模的基本空白,为疾病进展建模、治疗规划和解剖发育跟踪等应用提供了有效的解决方案
[41] Integrating Pathology and CT Imaging for Personalized Recurrence Risk Prediction in Renal Cancer
Daniël Boeke,Cedrik Blommestijn,Rebecca N. Wray,Kalina Chupetlovska,Shangqi Gao,Zeyu Gao,Regina G. H. Beets-Tan,Mireia Crispin-Ortuzar,James O. Jones,Wilson Silva,Ines P. Machado
Main category: cs.CV
TL;DR: 本研究评估了整合术前CT和术后病理切片的多模态深度学习模型,用于透明细胞肾癌复发预测。病理模型优于CT模型,中间融合策略效果最佳,接近临床金标准。
- Motivation: Leibovich评分系统在透明细胞肾癌复发风险分层中应用广泛,但存在患者层面分辨率有限且缺乏影像信息的局限性,需要开发更精准的多模态预测方法。
- Method: 采用模块化深度学习框架,使用预训练编码器和基于Cox的生存模型,测试了单模态、晚期融合和中间融合三种设置,整合CT和病理全切片图像数据。
- Result: 病理模型始终优于CT模型,中间融合进一步改善性能,最佳模型(TITAN-CONCH with ResNet-18)接近调整后的Leibovich评分。随机平局处理缩小了临床基线与学习模型之间的差距。
- Conclusion: 证明了基于基础模型的多模态整合在个性化ccRCC风险预测中的可行性,未来需要探索更具表达力的融合策略、更大的多模态数据集和通用CT编码器。
[42] Unfolding Framework with Complex-Valued Deformable Attention for High-Quality Computer-Generated Hologram Generation
Haomiao Zhang,Zhangyuan Li,Yanling Piao,Zhi Li,Xiaodong Wang,Miao Cao,Xiongfei Su,Qiang Song,Xin Yuan
Main category: cs.CV
TL;DR: 提出了一种深度展开网络(DUN),通过自适应带宽保持模型和相位域复值去噪器来解决计算机生成全息术中的非线性不适定问题,实现了超过35dB的PSNR性能
- Motivation: 现有深度学习方法存在三个主要问题:端到端网络忽视物理关系降低可解释性;CNN方法感受野有限难以捕捉长距离依赖;基于角谱方法的模型局限于有限近场
- Method: 将梯度下降分解为两个模块:自适应带宽保持模型(ABPM)实现更宽工作距离,相位域复值去噪器(PCD)使用复值可变形自注意力模块捕捉全局特征
- Result: 在模拟和真实数据上实现了超过35dB的PSNR,达到了最先进的性能
- Conclusion: 所提出的深度展开网络通过结合物理模型和深度学习,在计算机生成全息术的重建精度和稳定性方面取得了显著提升
[43] Towards Interactive Lesion Segmentation in Whole-Body PET/CT with Promptable Models
Maximilian Rokuss,Yannick Kirchhoff,Fabian Isensee,Klaus H. Maier-Hein
Main category: cs.CV
TL;DR: 基于autoPET III nnU-Net框架,通过添加用户点击提示作为额外输入通道,开发了可提示的PET/CT病灶分割模型。使用欧几里得距离变换编码优于高斯核,并通过在线模拟用户交互提升鲁棒性。
- Motivation: 解决全身PET/CT中由于示踪剂异质性、生理性摄取和多中心变异性导致的准确病灶分割挑战,同时保持人类在环的工作流程以提高临床效率。
- Method: 扩展nnU-Net框架,将用户提供的前景和背景点击编码为额外输入通道;系统研究空间提示表示方法;提出在线模拟用户交互和自定义点采样策略;使用集成模型方法。
- Result: 基于EDT的集成模型在交叉验证中表现最佳,相比基线模型减少了假阳性和假阴性;在真实提示条件下表现出更好的鲁棒性。
- Conclusion: 可提示模型在多示踪剂、多中心PET/CT中具有实现高效用户引导分割工作流程的潜力,代码已开源。
[44] Mapping like a Skeptic: Probabilistic BEV Projection for Online HD Mapping
Fatih Erdoğan,Merve Rabia Barın,Fatma Güney
Main category: cs.CV
TL;DR: 提出了一种新的概率投影机制,通过基于相机参数的几何映射和置信度评分来改进BEV空间中的道路元素映射,提高HD地图生成精度和泛化能力。
- Motivation: 现有HD地图构建方法使用基于注意力的标准映射技术存在泛化问题,经常产生不存在的道路元素幻觉,映射精度不足影响最终矢量化HD地图质量。
- Method: 提出概率投影机制:1) 基于相机参数的几何映射;2) 使用置信度评分优化映射以更好地对齐场景;3) 过滤不影响HD地图生成的无关元素;4) 利用置信度评分选择性累积时间上的可靠信息。
- Result: 在nuScenes和Argoverse2数据集的新划分上实验表明,性能优于最先进方法,泛化能力更好,在nuScenes和长感知距离挑战场景中改进尤为显著。
- Conclusion: 该方法通过概率投影和置信度机制有效解决了现有方法的泛化问题和幻觉现象,提高了HD地图构建的准确性和可靠性。
[45] Why Stop at Words? Unveiling the Bigger Picture through Line-Level OCR
Shashank Vempati,Nishit Anand,Gaurav Talebailkar,Arpan Garai,Chetan Arora
Main category: cs.CV
TL;DR: 这篇论文提出了从单词级到行级OCR的转变,通过直接处理整行文本来避免单词分割错误,并利用更大的语言上下文提高识别准确性和效率。
- Motivation: 传统字符级OCR容易出现字符分割错误,而现代单词级OCR将粒度瓶颈转移到了单词分割。需要进一步提升以避免这个问题。
- Method: 提出从单词级OCR迁移到行级OCR的方法,直接将整行文本输入模型,输出字符序列。还构建了包含251个英语页面图像的行级注释数据集。
- Result: 实验结果显示端到端准确性提高5.4%,效率提高4倍,证明了行级OCR的优势。
- Conclusion: 行级OCR是一个有前途的方向,能够更好地利用语言模型,避免分割错误,并在准确性和效率方面都有显著提升。
[46] FLORA: Efficient Synthetic Data Generation for Object Detection in Low-Data Regimes via finetuning Flux LoRA
Alvaro Patricio,Atabak Dehban,Rodrigo Ventura
Main category: cs.CV
TL;DR: FLORA是一个轻量级的合成数据生成管道,使用LoRA微调Flux 1.1扩散模型,仅需消费级GPU和500张合成图像就能在目标检测任务上超越需要5000张图像和V100 GPU的基线方法。
- Motivation: 解决现有扩散模型需要大量计算资源和合成图像进行数据增强的问题,使合成数据生成更加高效和实用。
- Method: 使用Flux 1.1 Dev扩散模型,通过低秩适应(LoRA)进行微调,大幅降低计算需求。
- Result: 在7个目标检测数据集上,仅用500张合成图像就比ODGEN基线使用5000张图像的性能提升高达21.3% mAP@.50:.95。
- Conclusion: 质量优先、效率导向的方法比暴力生成更有效,使先进的合成数据生成技术更加实用和易于获取。
[47] Entropy-Based Non-Invasive Reliability Monitoring of Convolutional Neural Networks
Amirhossein Nazeri,Wael Hafez
Main category: cs.CV
TL;DR: 通过监控CNN激活熵变化,无需修改模型即可检测对抗性攻击,准确率达90%
- Motivation: 现有对抗性攻击检测方法需要重新训练、修改网络架构或影响原始模型性能,需要一种无需修改模型即可实时检测的方法
- Method: 在VGG-16网络上并行监控激活熵,分析对抗性扰动在卷积层中产生的熵特征变化
- Result: 对抗性输入使早期卷积层激活熵偏移7%,检测准确率90%,假阳性和假阴性率低于20%,干净和对抗性输入的熵分布完全分离
- Conclusion: CNN激活熵单独即可评估模型可靠性,支持实时自诊断视觉系统部署,无需影响原始模型性能
[48] CAD2DMD-SET: Synthetic Generation Tool of Digital Measurement Device CAD Model Datasets for fine-tuning Large Vision-Language Models
João Valente,Atabak Dehban,Rodrigo Ventura
Main category: cs.CV
TL;DR: 这篇论文提出了CAD2DMD-SET合成数据生成工具,通过使用3D CAD模型和高保真渲染技术生成多样化的数字测量设备图像数据集,显著提升了大视觉-语言模型在实际应用场景中读取数字仪器值的性能。
- Motivation: 虽然大视觉-语言模型在多模态任务上表现优异,但在实际应用中如头戴摄像头和增强现实应用中,对于在杂乱、遮挡、极端视角和运动模糊条件下读取数字测量设备数值的平凡场景仍然存在困难。
- Method: 开发CAD2DMD-SET合成数据生成工具,利用3D CAD模型、高级渲染技术和高保真图像合成技术生成多样化的、带有VQA标签的合成数字测量设备数据集。同时构建DMDBench验证集,包含1,000张经过注释的实际图像用于评估模型性能。
- Result: 对三个独立的大视觉-语言模型进行测试并使用CAD2DMD-SET生成的数据集对它们进行LoRA微调,在平均标准化累斯蒂韦国相似度(ANLS)指标上取得了显著收益,其中InternVL模型的得分提升了200%,且没有在其他任务上出现性能下降。
- Conclusion: CAD2DMD-SET训练数据集能够实质性地提升大视觉-语言模型在具有挑战性条件的环境下的稳健性和性能。该工具将作为开源项目发布,允许社区添加不同的测量设备并生成自己的数据集。
[49] Learning from Silence and Noise for Visual Sound Source Localization
Xavier Juanola,Giovana Morais,Magdalena Fuentes,Gloria Haro
Main category: cs.CV
TL;DR: 本文提出SSL-SaN自监督模型,通过引入静默和噪声训练策略,改善声音源定位在负音频场景下的性能,并提出了新的评估指标和扩展数据集。
- Motivation: 当前视觉声音源定位方法在低音频-视觉语义对应场景(如静默、噪声、屏幕外声音)表现不佳,且现有评估仅限于单一可见声源的正面案例。
- Method: 提出包含静默和噪声的新训练策略,开发自监督模型SSL-SaN;提出量化正负音频-视觉对特征对齐和可分离性的新指标;扩展IS3合成数据集为IS3+。
- Result: SSL-SaN模型在声音定位和跨模态检索方面达到最先进的性能,对负声音更具鲁棒性。
- Conclusion: 该方法显著提升了在复杂音频环境下的声音源定位性能,为负音频场景提供了有效的解决方案和评估框架。
[50] UItron: Foundational GUI Agent with Advanced Perception and Planning
Zhixiong Zeng,Jing Huang,Liming Zheng,Wenkang Han,Yufeng Zhong,Lei Chen,Longrong Yang,Yingjie Chu,Yuzhi He,Lin Ma
Main category: cs.CV
TL;DR: UItron是一个开源的GUI代理基础模型,通过系统数据工程和交互基础设施,在GUI感知、定位和规划方面实现卓越性能,特别在中文移动应用场景中表现突出。
- Motivation: GUI代理是实现自动化设备操作的重要任务,但面临操作轨迹稀缺、交互基础设施不足以及基础模型能力限制等挑战。
- Method: 采用监督微调处理各种GUI场景的感知和规划任务,并开发课程强化学习框架支持复杂推理和在线环境探索。收集了超过100万步的操作轨迹数据。
- Result: UItron在GUI感知、定位和规划基准测试中取得优异性能,特别是在中文移动应用交互方面显著优于现有解决方案。
- Conclusion: UItron通过系统性数据工程和交互基础设施的建立,推动了GUI代理向实际应用迈进一步,解决了中文场景下的能力缺失问题。
[51] Domain Generalization in-the-Wild: Disentangling Classification from Domain-Aware Representations
Ha Min Son,Zhe Zhao,Shahbaz Rezaei,Xin Liu
Main category: cs.CV
TL;DR: 本文提出CLIP-DCA方法,通过增强领域感知表示来解决CLIP在域泛化评估中的性能下降问题,在更具挑战性的OOD数据集上表现显著优于现有方法。
- Motivation: 当前域泛化评估对基础模型如CLIP来说不够挑战性,因为网络规模的预训练数据可能已经覆盖了现有基准。需要更好地评估CLIP在真实未见数据场景下的性能。
- Method: 提出CLIP-DCA方法:1)使用单独领域头识别和增强CLIP编码器中的领域感知;2)通过合成生成多样化领域数据;3)通过从领域特征解耦来鼓励领域不变分类
- Result: CLIP-DCA在更具挑战性的评估中相比现有方法显示出显著改进,特别是在更OOD的数据集上表现突出
- Conclusion: 增强领域感知是基础模型中实现有效领域不变分类的前提条件,CLIP-DCA通过解耦分类和增强领域感知表示成功解决了CLIP在域泛化中的性能下降问题
[52] What Can We Learn from Harry Potter? An Exploratory Study of Visual Representation Learning from Atypical Videos
Qiyue Sun,Qiming Huang,Yang Yang,Hongjun Wang,Jianbo Jiao
Main category: cs.CV
TL;DR: 研究发现,在视频学习中引入非典型异常数据(如科幻、动画等)能显著提升开放世界学习任务的性能,包括OOD检测、新类别发现和零样本动作识别。
- Motivation: 探索在视频学习过程中引入非典型异常数据对开放世界学习能力的影响,弥补现有研究主要关注封闭集典型数据的不足。
- Method: 收集包含各种非典型视频(科幻、动画等)的新数据集,将其用于模型训练进行表征学习,并在OOD检测、新类别发现和零样本动作识别三个任务上评估性能。
- Result: 即使使用简单的学习方法,非典型数据也能在各种设置下一致提升性能。增加非典型样本的类别多样性可进一步提升OOD检测性能;在新类别发现任务中,使用更小但语义更多样的非典型数据集比使用更大但更典型的数据集效果更好;在零样本动作识别中,非典型视频的语义多样性有助于模型更好地泛化到未见过的动作类别。
- Conclusion: 非典型视频对开放世界视觉表征学习具有显著益处,新提出的数据集鼓励该方向的进一步研究。
[53] Unsupervised Video Continual Learning via Non-Parametric Deep Embedded Clustering
Nattapong Kurpukdee,Adrian G. Bors
Main category: cs.CV
TL;DR: 本文提出了一种无监督视频持续学习(uVCL)方法,通过核密度估计和新奇检测来处理无标签、无任务边界的视频学习问题。
- Motivation: 视频数据复杂且丰富,但在无监督持续学习领域研究不足。现有研究依赖标签和任务边界,而标签数据成本高且不实用。
- Method: 使用核密度估计(KDE)对无监督视频Transformer网络提取的深度特征进行非参数概率表示,通过新奇检测动态扩展内存集群,并利用过往任务进行过渡学习。
- Result: 在UCF101、HMDB51和Something-to-Something V2三个标准视频数据集上进行深度评估,无需任何标签或类别边界,方法显著提升了多任务学习性能。
- Conclusion: 该方法有效解决了无监督视频持续学习的挑战,为处理复杂的时空媒体信息提供了一种可行的非参数化方案。
[54] A Multi-Stage Fine-Tuning and Ensembling Strategy for Pancreatic Tumor Segmentation in Diagnostic and Therapeutic MRI
Omer Faruk Durugol,Maximilian Rokuss,Yannick Kirchhoff,Klaus H. Maier-Hein
Main category: cs.CV
TL;DR: 本文提出了一种基于nnU-Net框架的多阶段级联预训练策略,通过数据增强方案和训练调度的系统评估,开发了专门用于胰腺导管腺癌MRI分割的混合专家模型,在有限数据条件下取得了优异的性能。
- Motivation: 胰腺导管腺癌(PDAC)的MRI自动分割对临床工作流程至关重要,但受到肿瘤-组织对比度差和标注数据稀缺的限制。本文旨在解决PANTHER挑战中的诊断性T1加权(Task 1)和治疗性T2加权(Task 2)分割任务。
- Method: 采用nnU-Net框架,构建深度多阶段级联预训练策略:从通用解剖基础模型开始,依次在CT胰腺病变数据集和目标MRI模态上进行微调。通过五折交叉验证系统评估数据增强方案和训练调度,发现激进数据增强产生最高体积精度,而默认增强获得最佳边界精度。最终构建定制化的异构专家模型集成。
- Result: 在Task 1中实现了最先进的MASD 5.46 mm和HD95 17.33 mm边界精度,最终提交模型在交叉验证中获得了Task 1的Tumor Dice分数0.661和Task 2的0.523,表现优异。
- Conclusion: 本研究提出了一种在有限数据和复杂医学成像任务背景下开发专门化高性能模型的稳健方法,通过度量感知的集成策略证明了其高效性。
[55] Benchmarking GPT-5 in Radiation Oncology: Measurable Gains, but Persistent Need for Expert Oversight
Ugur Dinc,Jibak Sarkar,Philipp Schubert,Sabine Semrau,Thomas Weissmann,Andre Karius,Johann Brand,Bernd-Niklas Axer,Ahmed Gomaa,Pluvio Stephan,Ishita Sheth,Sogand Beirami,Annette Schwarz,Udo Gaipl,Benjamin Frey,Christoph Bert,Stefanie Corradini,Rainer Fietkau,Florian Putz
Main category: cs.CV
TL;DR: GPT-5在放射肿瘤学评估中表现优异,在多项选择题测试中准确率达92.8%,显著超越GPT-4和GPT-3.5,在真实临床情景中生成的治疗建议也获得较高评价,但仍需专家监督。
- Motivation: 评估专门针对肿瘤学优化的新型大语言模型GPT-5在临床决策支持中的表现,特别是在放射肿瘤学领域的应用潜力。
- Method: 使用两个互补基准进行评估:(1) ACR放射肿瘤学培训考试的300道多选题;(2) 60个真实放射肿瘤学临床情景,由4名认证放射肿瘤学家评估生成治疗建议的正确性、全面性和幻觉情况。
- Result: GPT-5在TXIT基准测试中平均准确率达92.8%,显著优于GPT-4(78.8%)和GPT-3.5(62.1%)。在情景评估中,正确性评分3.24/4,全面性评分3.59/4,幻觉罕见但存在实质性错误。
- Conclusion: GPT-5在放射肿瘤学领域表现优异,明显超越前代模型,但在复杂临床场景中仍有改进空间,生成的治疗建议需要严格的专家监督才能临床实施。
[56] TMUAD: Enhancing Logical Capabilities in Unified Anomaly Detection Models with a Text Memory Bank
Jiawei Liu,Jiahe Hou,Wei Wang,Jinsong Du,Yang Cong,Huijie Fan
Main category: cs.CV
TL;DR: TMUAD提出三记忆库框架,通过文本记忆库、对象级图像记忆库和补丁级记忆库的统一协作,实现了结构和逻辑异常检测的SOTA性能。
- Motivation: 现有异常检测方法主要依赖精心设计的图像特征提取器和记忆库来捕获对象间的逻辑关系,但在正常数据有限的情况下,逻辑异常检测仍然具有挑战性。
- Method: 提出三记忆库框架:1) 类级文本记忆库通过逻辑感知文本提取器捕获对象逻辑描述;2) 对象级图像记忆库保持完整对象轮廓;3) 补丁级记忆库用于结构异常检测。三个记忆库协同工作,检索相似正常图像并计算多级异常分数。
- Result: 在7个公开数据集(工业和医疗领域)上实现了最先进的性能。
- Conclusion: 通过统一结构和逻辑异常检测的协作记忆库方法,TMUAD在多个领域数据集上表现出优异的异常检测能力。
[57] VoCap: Video Object Captioning and Segmentation from Any Prompt
Jasper Uijlings,Xingyi Zhou,Xiuye Gu,Arsha Nagrani,Anurag Arnab,Alireza Fathi,David Ross,Cordelia Schmid
Main category: cs.CV
TL;DR: VoCap是一个灵活的视频模型,能够处理视频和多种模态提示(文本、框或掩码),生成时空掩码和对应的对象中心描述,同时解决可提示视频对象分割、参考表达分割和对象描述任务。
- Motivation: 视频理解需要细粒度定位掩码和详细语义属性,但获取此类数据既繁琐又昂贵。
- Method: 通过预处理带有真实掩码的视频来突出感兴趣对象,使用大型视觉语言模型生成伪对象描述,构建SAV-Caption数据集,并在该数据集与其他图像视频数据集上大规模训练VoCap模型。
- Result: 在参考表达视频对象分割上达到最先进结果,在半监督视频对象分割上具有竞争力,并为视频对象描述建立了基准。
- Conclusion: VoCap模型在多个视频理解任务上表现优异,提出的数据集和方法为视频对象分析提供了有效解决方案。
[58] The Demon is in Ambiguity: Revisiting Situation Recognition with Single Positive Multi-Label Learning
Yiming Lin,Yuchen Niu,Shang Wang,Kaizhu Huang,Qiufeng Wang,Xiao-Bo Jin
Main category: cs.CV
TL;DR: 本文揭示了场景识别中动词分类本质上是多标签问题,提出了单正例多标签学习方法,并设计了GE-VerbMLP模型,在保持传统指标竞争力的同时实现了3%以上的MAP提升。
- Motivation: 现有方法将动词分类视为单标签问题,但视觉事件识别存在固有歧义性,同一图像可能被多个动词类别合理描述,这种单标签设定无法处理语义重叠问题。
- Method: 将动词分类重新定义为单正例多标签学习(SPMLL)问题,提出Graph Enhanced Verb Multilayer Perceptron (GE-VerbMLP)模型,结合图神经网络捕捉标签相关性和对抗训练优化决策边界。
- Result: 在真实数据集上的广泛实验表明,该方法在保持传统top-1和top-5准确率指标竞争力的同时,实现了超过3%的MAP提升。
- Conclusion: 动词分类本质上是多标签问题,SPMLL框架和GE-VerbMLP模型能有效处理场景识别中的语义模糊性,为多标签评估提供了新的基准和方法。
[59] DriveQA: Passing the Driving Knowledge Test
Maolin Wei,Wanzhou Liu,Eshed Ohn-Bar
Main category: cs.CV
TL;DR: DriveQA是一个全面的开源文本和视觉基准测试,用于评估LLM和MLLM在驾驶知识测试中的表现,发现现有模型在数值推理、复杂路权场景等方面存在显著弱点,但通过微调和预训练可以显著提升性能。
- Motivation: 当前自动驾驶基准测试主要关注空间和视觉问答任务,但缺乏对交通规则、标志和路权原则的全面理解。人类驾驶员需要识别现实数据集中罕见的边缘案例,因此需要建立一个全面的驾驶知识测试基准。
- Method: 提出了DriveQA基准测试,包含文本和视觉版本(DriveQA-V),涵盖交通法规和场景的各个方面。通过实验评估最先进的LLM和MLLM模型,并进行微调和预训练研究。
- Result: 1) SOTA模型在基本交通规则上表现良好,但在数值推理、复杂路权场景、交通标志变体和空间布局方面存在显著弱点;2) 在DriveQA上微调可提高多个类别的准确性;3) DriveQA-V揭示了模型对环境因素(光照、视角、距离、天气)的敏感性;4) 在DriveQA上预训练可提升下游驾驶任务性能。
- Conclusion: DriveQA是一个全面的驾驶知识评估基准,揭示了当前模型的局限性,同时证明了通过适当的训练可以显著提升模型在复杂驾驶场景中的理解和推理能力,对自动驾驶系统的发展具有重要意义。
cs.CY
[60] From Drone Imagery to Livability Mapping: AI-powered Environment Perception in Rural China
Weihuan Deng,Yaofu Huang,Luan Chen,Xun Li,Yao Yao
Main category: cs.CY
TL;DR: 本研究提出基于无人机影像和多模态大语言模型的农村宜居性评估框架,通过大规模数据收集和智能分析揭示了中国农村宜居性的空间格局和影响因素。
- Motivation: 当前农村宜居性评估方法存在局限性,问卷调查难以规模化,城市导向的视觉感知方法不适用于农村环境,需要开发专门针对农村的评估框架。
- Method: 采用自上而下方法收集1766个村庄的无人机影像,开发高效图像比较机制和思维链提示,结合专家知识从生活质量和生态宜居性两个维度进行评估。
- Result: 发现中国农村宜居性呈现以四川和浙江为核心的双核-边缘空间格局;政府财政支出是核心影响因素,每增加1个单位可使宜居性提升3.9-4.9个单位。
- Conclusion: 该框架为农村宜居性评估提供了有效方法,研究结果可为农村建设政策制定提供重要参考,政府财政投入对提升农村宜居性具有关键作用。
cs.HC
[61] Morae: Proactively Pausing UI Agents for User Choices
Yi-Hao Peng,Dingzeyu Li,Jeffrey P. Bigham,Amy Pavel
Main category: cs.HC
TL;DR: Morae是一个UI代理系统,通过识别决策点并暂停让用户选择,增强盲人和低视力用户的控制权,相比传统端到端代理能更好地匹配用户偏好。
- Motivation: 当前UI代理通常端到端执行任务,不涉及用户关键选择或告知重要上下文信息,降低了用户控制权。研究发现BLV用户在购买决策中需要更多选择参与。
- Method: Morae使用大型多模态模型解析用户查询、UI代码和截图,在执行过程中自动识别决策点并暂停,提示用户进行澄清和选择。
- Result: 在真实网页任务研究中,Morae相比基线代理(包括OpenAI Operator)帮助用户完成更多任务,并选择更符合偏好的选项。
- Conclusion: 这项工作展示了混合主动方法的价值,用户既能受益于UI代理的自动化,又能表达个人偏好,提升了BLV用户的数字体验。
cs.LG
[62] Activation Subspaces for Out-of-Distribution Detection
Barış Zöngür,Robin Hesse,Stefan Roth
Main category: cs.LG
TL;DR: 提出ActSub方法,通过奇异值分解分类头权重矩阵,将激活分解为决定性和非显著分量,分别处理远分布和近分布OOD检测,在标准基准测试中达到SOTA效果
- Motivation: 确保深度学习模型在真实应用中的可靠性,需要有效区分训练分布内(ID)和分布外(OOD)样本,特别是在大分布偏移(远OOD)和小分布偏移(近OOD)的不同场景下
- Method: 使用奇异值分解分类头权重矩阵,将模型激活分解为决定性分量(对分类输出贡献最大)和非显著分量(贡献最小)。远OOD时利用非显著子空间,近OOD时专注于决定性子空间
- Result: 在多个标准OOD基准测试中取得了最先进的结果,非显著子空间在大分布偏移下更有效区分ID和OOD数据,而决定性子空间在小分布偏移下表现更好
- Conclusion: ActSub方法通过智能地利用模型激活的不同分量,针对不同分布偏移场景采用不同策略,显著提升了OOD检测性能,为深度学习模型的可靠性提供了有效保障
[63] Learning Unified Representations from Heterogeneous Data for Robust Heart Rate Modeling
Peng Yang,Zhengdong Huang,Zicheng Xie,Wentao Tian,Jingyu Liu,Lunhong Dong
Main category: cs.LG
TL;DR: 该论文提出了一种处理心率预测中数据异质性问题的框架,通过随机特征丢弃和对比学习技术,在新的ParroTao数据集上达到了17%性能提升
- Motivation: 心率预测在真实世界部署时面临数据异质性挑战,包括来自不同设备的源异质性和不同用户的用户异质性。现有方法要么丢弃设备特定信息,要么无法模型用户特定差异,限制了实际性能。
- Method: 提出了一个学习抽象表示的框架,通过随机特征丢弃策略处理源异质性,使模型能够适应各种特征集。使用时间感知注意力模块捕捉长期生理特征,并采用对比学习目标构建区分性表示空间来处理用户异质性。
- Result: 在新的ParroTao数据集和公开的FitRec数据集上,该模型分别显著超过现有基线方法17%和15%。学习到的表示展示出强大的区分能力,下游应用任务也证明了其实际价值。
- Conclusion: 该研究成功地解决了心率预测中的数据异质性问题,通过创新的框架技术在真实数据场景中实现了显著性能提升,为个性化健康监测提供了有效的解决方案。
cs.GR
[64] ScanMove: Motion Prediction and Transfer for Unregistered Body Meshes
Thomas Besnier,Sylvain Arguillère,Mohamed Daoudi
Main category: cs.GR
TL;DR: 这篇论文提出了一种无需架构的数据驱动框架,用于处理未注册表面网格的动作预测和传输问题,通过空时变形形场驱动网格变形。
- Motivation: 未注册表面网格(特别是原始3D扫描数据)缺乏点对应关系且存在噪声,导致自动计算可信变形遇到重大挑战。
- Method: 结合稳健的动作嵌入网络和学习的每顶点特征场,生成空时变形形场来驱动网格变形。
- Result: 经过广泛评估(包括定量基准测试和定性可视化)在走路、跑步等任务上证明了方法在具有挑战性的未注册网格上的有效性和多用性。
- Conclusion: 该方法为处理未注册体网格的动作预测和传输提供了一种新的、效果显著的无架构数据驱动解决方案。
[65] ARGS: Advanced Regularization on Aligning Gaussians over the Surface
Jeong Uk Lee,Sung Hee Choi
Main category: cs.GR
TL;DR: 该论文在SuGaR基础上提出两种正则化策略:有效秩正则化防止高斯形状过度各向异性,以及神经SDF正则化提供连续全局表面先验,从而提升3D高斯溅射的网格重建质量和视觉保真度。
- Motivation: 现有3D高斯溅射方法在重建高质量3D网格和视觉效果方面仍有改进空间,特别是在单个高斯形状和整体表面一致性方面存在局限性。
- Method: 1. 有效秩正则化:鼓励更平衡的"圆盘状"高斯形状而非"针状"形状;2. 神经SDF正则化:集成带Eikonal损失的符号距离函数,提供连续全局表面先验。
- Result: 最终模型能够从3DGS数据生成更准确和一致的视觉效果,改善了单个高斯基元保真度和集体表面行为。
- Conclusion: 两种互补的正则化策略有效解决了3D高斯溅射中的形状各向异性和表面一致性问题,提升了重建质量。
cs.CL
[66] Can Multimodal LLMs Solve the Basic Perception Problems of Percept-V?
Samrajnee Ghosh,Naman Agarwal,Hemanshu Garg,Chinmay Mittal,Mausam,Parag Singla
Main category: cs.CL
TL;DR: Percept-V数据集评估多模态大语言模型在基本视觉感知任务上的表现,发现模型性能随问题复杂度增加而显著下降。
- Motivation: 当前多模态大语言模型在复杂任务上表现优异,但在简单视觉感知任务上的性能缺乏系统评估,需要构建专门数据集来测试其基础感知能力。
- Method: 创建包含7200张程序生成图像的Percept-V数据集,分为30个类别测试不同视觉感知技能,并在GPT-4o、Gemini、Claude等先进模型上进行测试。
- Result: 实验显示所有测试模型在复杂度增加的问题上性能显著下降,不同模型在各类别中表现出相似的准确率趋势,某些认知技能比其他技能更难。
- Conclusion: 多模态大语言模型在复杂任务上表现出色,但在基础视觉感知任务上存在明显短板,需要进一步改进其底层感知能力。
[67] Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models
Meidan Ding,Jipeng Zhang,Wenxuan Wang,Cheng-Yi Li,Wei-Chieh Fang,Hsin-Yu Wu,Haiqin Zhong,Wenting Chen,Linlin Shen
Main category: cs.CL
TL;DR: 提出了第一个专门评估医疗奖励模型和评判器的基准Med-RewardBench,包含1026个专家标注的多模态医疗案例,覆盖13个器官系统和8个临床科室,在6个临床关键维度上评估32个先进MLLM模型。
- Motivation: 现有的多模态大语言模型在医疗应用中需要高度准确、上下文敏感且专业对齐的响应,但缺乏专门针对医疗场景的奖励模型和评判器评估基准,现有基准主要关注通用能力或模型作为求解器的评估。
- Method: 构建Med-RewardBench基准,采用三步严格流程确保高质量评估数据,包含多模态数据集,覆盖13个器官系统和8个临床科室的1026个专家标注案例,在6个临床关键维度进行评估。
- Result: 评估了32个最先进的MLLM模型(包括开源、专有和医疗专用模型),发现模型输出与专家判断之间存在显著对齐挑战,开发的基线模型通过微调显示出显著的性能提升。
- Conclusion: Med-RewardBench填补了医疗奖励模型评估的空白,揭示了当前MLLM在医疗场景中的对齐挑战,为未来医疗AI模型的发展提供了重要的评估框架和基准。
[68] Is this chart lying to me? Automating the detection of misleading visualizations
Jonathan Tonglet,Jan Zimny,Tinne Tuytelaars,Iryna Gurevych
Main category: cs.CL
TL;DR: 提出了Misviz基准数据集,包含2604个真实世界可视化图表和12种误导类型标注,以及Misviz-synth合成数据集(81,814个图表),用于训练和评估误导可视化检测模型。
- Motivation: 误导性可视化是社交媒体和网络错误信息的重要来源,违反图表设计原则会导致数据扭曲和错误结论。现有AI模型训练和评估缺乏大规模、多样化、公开可用的数据集。
- Method: 构建真实世界可视化数据集Misviz(2,604个图表)和合成数据集Misviz-synth(81,814个图表),使用最先进的多模态大语言模型、基于规则的系统以及微调分类器进行全面评估。
- Result: 研究结果显示误导可视化检测任务仍然极具挑战性,现有模型在此任务上表现有限。
- Conclusion: 发布了Misviz和Misviz-synth数据集及相关代码,为误导可视化检测研究提供了重要资源,但该领域仍需进一步研究以提升检测效果。
cs.RO
[69] QuadKAN: KAN-Enhanced Quadruped Motion Control via End-to-End Reinforcement Learning
Allen Wang,Gavin Tao
Main category: cs.RO
TL;DR: QuadKAN:基于样条参数化和KAN网络的视觉引导四足运动控制方法,通过结合本体感觉与视觉输入,实现了更鲁棒、高效和可解释的运动控制
- Motivation: 解决视觉引导四足运动控制中需要结合本体感觉与视觉信息以实现鲁棒控制的问题,传统方法在处理步态的片段平滑特性时存在效率低下和动作抖动等问题
- Method: 提出QuadKAN框架,使用样条参数化的跨模态策略,包含样条编码器处理本体感觉输入和样条融合头处理本体感觉-视觉输入;采用多模态延迟随机化(MMDR)和近端策略优化(PPO)进行端到端训练
- Result: 在多样化地形(平坦/不平坦表面、静态/动态障碍物)上的评估显示,QuadKAN相比最先进基线方法获得了更高的回报、更长的移动距离和更少的碰撞
- Conclusion: 样条参数化策略为鲁棒的视觉引导运动控制提供了一种简单、有效且可解释的替代方案,能够改善样本效率、减少动作抖动和能量消耗,并提供可解释的姿态-动作敏感性
[70] Mini Autonomous Car Driving based on 3D Convolutional Neural Networks
Pablo Moraes,Monica Rodriguez,Kristofer S. Kappel,Hiago Sodre,Santiago Fernandez,Igor Nunes,Bruna Guterres,Ricardo Grando
Main category: cs.RO
TL;DR: 本文提出基于RGB-D信息和3D CNN的自动驾驶方法,在微型自动驾驶汽车模拟环境中相比RNN取得更好性能
- Motivation: 自动驾驶系统开发面临高复杂性、长训练周期和不确定性等挑战,需要简化且成本效益高的测试环境来快速评估机器学习模型
- Method: 使用RGB-D信息和三维卷积神经网络(3D CNN)进行MAC自动驾驶,在模拟环境中与循环神经网络(RNN)进行对比评估
- Result: 3D CNN在任务完成成功率、圈速指标和驾驶一致性方面表现出色,架构修改和赛道复杂性影响模型的泛化能力和车辆控制性能
- Conclusion: 提出的3D CNN方法相比RNN展现出有前景的结果,为自动驾驶算法的在线训练和评估提供了有效的测试平台
[71] The Rosario Dataset v2: Multimodal Dataset for Agricultural Robotics
Nicolas Soncini,Javier Cremona,Erica Vidal,Maximiliano García,Gastón Castro,Taihú Pire
Main category: cs.RO
TL;DR: 提出了一个在豆田收集的多模态数据集,包含2小时以上的传感器数据,用于农业机器人定位、建图和导航算法的开发与评估。
- Motivation: 农业环境中的机器人技术面临自然光照变化、运动模糊、崎岖地形和长序列感知混淆等挑战,需要专门的数据集来支持算法开发。
- Method: 使用立体红外相机、彩色相机、加速度计、陀螺仪、磁力计、GNSS和轮式里程计等多传感器平台,在豆田环境中收集同步数据,并提供6自由度地面真值和长轨迹闭环。
- Result: 数据集成功捕获了农业环境的典型挑战,并在现有最先进的多模态SLAM方法上进行了测试,展示了它们在农业应用中的局限性。
- Conclusion: 该数据集为农业机器人技术的算法开发和基准测试提供了重要资源,有助于推动农业环境中定位、建图和导航技术的发展。
Powered by Deepseek & arXiv Daily AI Enhanced