Skip to content
每日arXiv - 2025年10月20日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] GAZE:Governance-Aware pre-annotation for Zero-shot World Model Environments

Leela Krishna,Mengyang Zhao,Saicharithreddy Pasula,Harshit Rajgarhia,Abhishek Mukherji

Main category: cs.CV

TL;DR: GAZE是一个自动化流水线,可将原始长视频转换为高质量的世界模型训练数据,通过AI模型进行多模态预标注,显著提升标注效率和一致性。

  • Motivation: 解决大规模多模态数据集标注的瓶颈问题,传统手动标注过程缓慢且昂贵,需要自动化方法来生成高质量的世界模型训练数据。
  • Method: 采用三步流程:(1)标准化360度视频格式并分片处理;(2)应用AI模型套件进行密集多模态预标注;(3)整合信号为结构化输出供人工验证。
  • Result: 实现效率提升(每审核小时节省约19分钟),减少人工审核量80%以上,生成高质量、隐私感知的数据集。
  • Conclusion: GAZE流水线为生成高质量世界模型训练数据提供了可扩展的蓝图,在不牺牲吞吐量或治理的前提下实现高效数据生成。

[2] PC-UNet: An Enforcing Poisson Statistics U-Net for Positron Emission Tomography Denoising

Yang Shi,Jingchao Wang,Liangsi Lu,Mingxuan Huang,Ruixin He,Yifeng Xie,Hanqian Liu,Minzhe Guo,Yangyang Liang,Weipeng Zhang,Zimeng Li,Xuhang Chen

Main category: cs.CV

TL;DR: 提出PC-UNet模型和PVMC-Loss损失函数,通过整合物理数据来改善PET图像质量,解决低剂量PET图像中的泊松噪声问题。

  • Motivation: PET成像在医学中很重要,但高剂量会增加辐射暴露。降低剂量会增加泊松噪声,现有去噪方法无法有效处理,导致图像失真和伪影。
  • Method: 开发Poisson Consistent U-Net (PC-UNet)模型,引入新的Poisson Variance and Mean Consistency Loss (PVMC-Loss),该损失函数整合物理数据,在方差和梯度适应方面具有统计无偏性。
  • Result: 在PET数据集上的测试表明,PC-UNet改善了物理一致性和图像保真度,证明其有效整合物理信息的能力。
  • Conclusion: PC-UNet模型通过PVMC-Loss成功整合物理信息,为低剂量PET成像提供了一种有效的去噪解决方案,提高了图像质量。

[3] DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models

Mor Ventura,Michael Toker,Or Patashnik,Yonatan Belinkov,Roi Reichart

Main category: cs.CV

TL;DR: DeLeaker是一种轻量级、无需优化的推理时方法,通过直接干预注意力图来缓解文本到图像模型中的语义泄漏问题,在保持图像质量的同时有效抑制实体间的意外特征传递。

  • Motivation: 现有文本到图像模型容易受到语义泄漏的影响,即不同实体间意外传递语义相关特征。现有缓解策略通常基于优化或依赖外部输入,需要更有效的方法。
  • Method: DeLeaker在扩散过程中动态重新加权注意力图,抑制过度的跨实体交互,同时增强每个实体的身份特征。该方法无需优化,在推理时直接操作。
  • Result: 实验表明DeLeaker在所有基线方法中表现最佳,即使基线方法使用外部信息,DeLeaker也能在不影响保真度或质量的情况下有效缓解泄漏。
  • Conclusion: 注意力控制在缓解语义泄漏方面具有重要价值,为开发更语义精确的文本到图像模型铺平了道路。

[4] UrbanVerse: Scaling Urban Simulation by Watching City-Tour Videos

Mingxuan Liu,Honglin He,Elisa Ricci,Wayne Wu,Bolei Zhou

Main category: cs.CV

TL;DR: UrbanVerse是一个数据驱动的真实到仿真系统,可将众包城市游览视频转换为物理感知的交互式仿真场景,包含10万+标注的3D城市资产库和自动生成管线,显著提升了城市导航AI代理的训练效果和泛化能力。

  • Motivation: 现有的手工制作或程序生成的仿真场景缺乏可扩展性或无法捕捉真实世界的复杂性,而城市嵌入式AI代理(如配送机器人)需要多样化、高保真的城市环境进行训练。
  • Method: UrbanVerse包含两个组件:(i) UrbanVerse-100K - 包含10万+带语义和物理属性标注的3D城市资产库;(ii) UrbanVerse-Gen - 从视频中提取场景布局并使用检索资产实例化度量尺度3D仿真的自动管线。
  • Result: UrbanVerse提供了来自24个国家的160个高质量构建场景,在仿真中训练的策略表现出缩放幂律和强泛化能力,相比先前方法在仿真中成功率提高+6.3%,在零样本仿真到真实迁移中提高+30.1%,仅需两次干预即可完成300米真实世界任务。
  • Conclusion: UrbanVerse能够保持真实世界的语义和布局,实现与手工制作场景相当的人类评估真实感,为城市导航AI代理的训练提供了可扩展且高保真的仿真环境。

[5] NANO3D: A Training-Free Approach for Efficient 3D Editing Without Masks

Junliang Ye,Shenghao Xie,Ruowen Zhao,Zhengyi Wang,Hongyu Yan,Wenqiang Zu,Lei Ma,Jun Zhu

Main category: cs.CV

TL;DR: Nano3D是一个无需训练的3D物体编辑框架,通过FlowEdit和TRELLIS实现局部编辑,引入Voxel/Slat-Merge策略保持结构一致性,并创建了首个大规模3D编辑数据集Nano3D-Edit-100k。

  • Motivation: 当前3D物体编辑方法存在效率低、不一致性、无法保护未编辑区域等问题,多数方法依赖多视角渲染和重建,导致伪影且实用性受限。
  • Method: 将FlowEdit集成到TRELLIS中,通过前视图渲染引导局部编辑,并引入区域感知合并策略Voxel/Slat-Merge,自适应保持结构保真度。
  • Result: 实验表明Nano3D在3D一致性和视觉质量方面优于现有方法,并构建了包含10万+高质量3D编辑对的大规模数据集。
  • Conclusion: 该工作解决了算法设计和数据可用性的长期挑战,显著提升了3D编辑的通用性和可靠性,为前馈式3D编辑模型的发展奠定了基础。

[6] Constantly Improving Image Models Need Constantly Improving Benchmarks

Jiaxin Ge,Grace Luo,Heekyung Lee,Nishant Malpani,Long Lian,XuDong Wang,Aleksander Holynski,Trevor Darrell,Sewon Min,David M. Chan

Main category: cs.CV

TL;DR: 提出了ECHO框架,通过社交媒体上的真实用户提示构建图像生成基准测试,发现现有基准测试未能覆盖的新兴用例,并能更好地区分最先进模型。

  • Motivation: 现有图像生成基准测试滞后于模型发展,无法捕捉新兴用例,导致社区认知与正式评估之间存在差距。
  • Method: 从社交媒体帖子中收集用户展示的新颖提示和定性判断,构建包含31,000多个提示的数据集,并基于此设计模型质量评估指标。
  • Result: ECHO发现了现有基准测试中缺失的创意复杂任务,能更清晰地区分最先进模型,并基于社区反馈设计了颜色、身份和结构等质量指标。
  • Conclusion: ECHO框架通过真实用户数据构建基准测试,能更好地反映模型的实际能力,为图像生成模型的评估提供了新方法。

[7] LoRAverse: A Submodular Framework to Retrieve Diverse Adapters for Diffusion Models

Mert Sonmezer,Matthew Zheng,Pinar Yanardag

Main category: cs.CV

TL;DR: 提出一种基于子模框架的方法,用于从大量LoRA适配器中选择最相关和多样化的模型,解决用户在海量模型库中的选择和导航难题。

  • Motivation: LoRA模型虽然能够个性化预训练扩散模型,但平台上超过10万个LoRA适配器缺乏结构化组织,用户难以选择和使用最适合的适配器。
  • Method: 将LoRA模型选择任务构建为组合优化问题,并提出新颖的子模框架来解决该问题。
  • Result: 定量和定性实验表明,该方法能够在广泛领域生成多样化的输出结果。
  • Conclusion: 提出的子模框架有效解决了海量LoRA适配器的选择问题,能够生成多样化且相关的输出。

[8] MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning

Mattia Segu,Marta Tintore Gazulla,Yongqin Xian,Luc Van Gool,Federico Tombari

Main category: cs.CV

TL;DR: MOBIUS是一个用于通用实例分割的基础模型家族,通过瓶颈像素解码器、语言引导不确定性校准损失和统一训练策略,在减少55%像素FLOPs和75%变换器解码器FLOPs的同时保持SOTA性能,仅需三分之一的训练迭代。

  • Motivation: 现有基础模型在实例级感知任务中表现出色,但计算成本过高限制了在资源受限平台上的部署。需要设计既能保持性能又能在边缘设备上高效部署的架构。
  • Method: 1) 瓶颈像素解码器用于高效多尺度和多模态融合;2) 语言引导不确定性校准损失用于自适应解码器剪枝;3) 简化的统一训练策略。
  • Result: MOBIUS在减少55%像素FLOPs和75%变换器解码器FLOPs的同时,保持了最先进的性能,仅需三分之一的训练迭代。在高端加速器和移动硬件上都建立了新的高效分割基准。
  • Conclusion: MOBIUS通过创新的架构设计和训练策略,实现了性能和效率的帕累托最优,为从高端计算平台到移动设备的各种设备提供了高效的实例分割解决方案。

[9] Composition-Grounded Instruction Synthesis for Visual Reasoning

Xinyi Gu,Jiayuan Mao,Zhang-Wei Hong,Zhuoran Yu,Pengyuan Li,Dhiraj Joshi,Rogerio Feris,Zexue He

Main category: cs.CV

TL;DR: COGS是一个数据高效框架,通过分解种子问题为感知和推理因子并重新组合,为多模态大语言模型提供高级推理能力,在图表推理等人工图像领域显著提升性能。

  • Motivation: 预训练多模态大语言模型在多样化任务上表现良好,但在缺乏大规模人工标注推理数据集的领域(如图表、渲染文档等)推理能力有限,这些领域在实践中很丰富但缺乏标注数据。
  • Method: COGS框架将每个种子问题分解为原始感知和推理因子,然后系统地与新的图像重新组合,生成大量合成问答对,每个生成的问题都配有子问题和中间答案,支持因子级过程奖励的强化学习。
  • Result: 在图表推理实验中,COGS显著提高了未见问题的性能,在推理密集和组合性问题上的提升最大。使用不同种子数据的因子级混合训练在多个数据集上实现了更好的迁移效果。
  • Conclusion: COGS框架能够诱导出可泛化的能力而非数据集特定的过拟合,并且可以扩展到图表以外的其他领域如网页。

[10] Generalized Dynamics Generation towards Scannable Physical World Model

Yichen Li,Zhiyi Li,Brandon Feng,Dinghuai Zhang,Antonio Torralba

Main category: cs.CV

TL;DR: GDGen是一个从势能角度统一刚体、关节体和软体动力学的框架,通过引入方向刚度来捕捉广泛的物理行为,为创建交互式虚拟环境和训练机器人代理提供基础。

  • Motivation: 数字孪生世界为开发通用具身智能体提供了新机会,但需要统一处理复杂物理行为的框架。
  • Method: 从势能角度出发,引入方向刚度扩展经典弹性动力学,使用专门网络建模材料属性,通过神经场以几何无关方式表示变形。
  • Result: 实验表明GDGen能稳健地统一多种仿真范式,适用于创建交互式虚拟环境和训练机器人代理。
  • Conclusion: GDGen提供了一个统一、几何无关的系统,能够无缝集成多种物理动力学,为复杂动态场景中的虚拟环境和机器人训练提供多功能基础。

[11] Comprehensive language-image pre-training for 3D medical image understanding

Tassilo Wald,Ibrahim Ethem Hamamci,Yuan Gao,Sam Bond-Taylor,Harshita Sharma,Maximilian Ilse,Cynthia Lo,Olesya Melnichenko,Noel C. F. Codella,Maria Teodora Wetscherek,Klaus H. Maier-Hein,Panagiotis Korfiatis,Valentina Salvatelli,Javier Alvarez-Valle,Fernando Pérez-García

Main category: cs.CV

TL;DR: 该论文提出COLIPRI编码器家族,通过引入报告生成目标和结合视觉语言预训练与纯视觉预训练,解决3D医学影像领域数据不足的问题,在多个任务上达到最先进性能。

  • Motivation: 3D医学影像领域的数据可用性限制了当前视觉语言编码器的能力,需要缓解数据缺乏的问题。
  • Method: 通过注入额外的归纳偏置:引入报告生成目标,并将视觉语言预训练与纯视觉预训练配对,利用图像-文本配对数据集和纯图像数据集,开发COLIPRI编码器家族。
  • Result: COLIPRI编码器在报告生成、分类探测和零样本分类任务上达到最先进性能,在语义分割任务上保持竞争力。
  • Conclusion: 通过引入额外的归纳偏置和结合3D医学影像领域的最佳实践,可以有效缓解数据不足问题,开发出性能优越的视觉语言编码器。

[12] Directional Reasoning Injection for Fine-Tuning MLLMs

Chao Huang,Zeliang Zhang,Jiang Liu,Ximeng Sun,Jialian Wu,Xiaodong Yu,Ze Wang,Chenliang Xu,Emad Barsoum,Zicheng Liu

Main category: cs.CV

TL;DR: DRIFT是一种轻量级方法,通过在梯度空间中转移推理知识来增强多模态大语言模型的推理能力,避免破坏多模态对齐。

  • Motivation: 多模态大语言模型的推理能力通常落后于纯文本模型,现有方法需要大量资源进行监督微调或强化学习,模型合并的效果因模型家族而异且不稳定。
  • Method: 提出DRIFT方法,预计算推理先验作为推理变体与多模态变体在参数空间中的差异,然后在多模态微调过程中使用该先验来偏置梯度。
  • Result: 在MathVista和MathVerse等多模态推理基准测试中,DRIFT相比朴素合并和监督微调持续提升推理性能,以较低成本达到或超过训练密集型方法的水平。
  • Conclusion: DRIFT提供了一种简单高效的推理知识转移方法,在保持标准监督微调流程的同时实现了显著的性能提升。

[13] A solution to generalized learning from small training sets found in everyday infant experiences

Frangil Ramirez,Elizabeth Clerkin,David J. Crandall,Linda B. Smith

Main category: cs.CV

TL;DR: 婴儿通过日常视觉体验中的"块状相似性结构"学习基本物体类别,这种结构包含高度相似的图像簇和较少见的可变图像,有助于从小数据集中实现泛化。

  • Motivation: 研究婴儿如何从有限的视觉经验中学习并泛化基本物体类别,解决婴儿泛化能力与有限经验之间的矛盾。
  • Method: 分析14名7-11个月婴儿的自我中心视角图像,发现视觉输入具有块状相似性结构;通过计算实验模拟这种结构来改进机器学习中的小数据集泛化。
  • Result: 婴儿日常视觉输入确实存在块状相似性结构,包含高度相似的图像簇和较少见的可变图像;计算实验表明这种结构能显著提升机器学习模型从小数据集中的泛化能力。
  • Conclusion: 婴儿日常视觉体验的自然块状结构支持早期类别学习和泛化,为各种问题和学习者的高效学习提供了原则。

[14] SaLon3R: Structure-aware Long-term Generalizable 3D Reconstruction from Unposed Images

Jiaxin Guo,Tongfan Guan,Wenzhen Dong,Wenzhao Zheng,Wenting Wang,Yue Wang,Yeung Yam,Yun-Hui Liu

Main category: cs.CV

TL;DR: SaLon3R是一个结构感知的长期3D高斯溅射重建框架,通过引入紧凑锚点基元和3D点变换器,有效消除冗余并解决跨帧几何不一致性,实现50-90%的冗余去除,在50+视图上以10+FPS运行。

  • Motivation: 现有3DGS方法在长时视频序列中预测逐像素高斯并将所有视图的高斯组合作为场景表示,导致大量冗余和几何不一致。
  • Method: 使用3D重建骨干网络预测密集逐像素高斯和几何复杂度显著图,通过可微分显著感知高斯量化将冗余高斯压缩为紧凑锚点,3D点变换器学习空间结构先验来精炼锚点属性和显著度。
  • Result: 在多个数据集上实现最先进的性能,在新视图合成和深度估计方面表现出色,具有卓越的效率、鲁棒性和泛化能力。
  • Conclusion: 该方法无需已知相机参数或测试时优化,在单次前向传播中有效解决伪影并修剪冗余3DGS,为长期可泛化3D重建提供了高效解决方案。

[15] TGT: Text-Grounded Trajectories for Locally Controlled Video Generation

Guofeng Zhang,Angtian Wang,Jacob Zhiyuan Fang,Liming Jiang,Haotian Yang,Bo Liu,Yiding Yang,Guang Chen,Longyin Wen,Alan Yuille,Chongyang Ma

Main category: cs.CV

TL;DR: 提出了Text-Grounded Trajectories (TGT)框架,通过轨迹与局部文本描述相结合来控制视频生成,解决了多对象场景下现有方法的局限性。

  • Motivation: 现有文本到视频生成方法在控制场景主题组合方面能力有限,特别是在多对象设置下,缺乏精确的轨迹与视觉实体对应关系。
  • Method: 引入位置感知交叉注意力(LACA)整合轨迹和文本信号,采用双CFG方案分别调制局部和全局文本指导,并开发了数据处理流水线生成带有跟踪实体局部描述的轨迹。
  • Result: TGT在视觉质量、文本对齐准确性和运动可控性方面优于现有方法,能够使用点轨迹作为直观的运动控制手柄。
  • Conclusion: TGT框架通过轨迹与文本的配对,实现了对视频中多个对象外观和运动的精确控制,显著提升了视频生成的质量和可控性。

[16] Deep generative priors for 3D brain analysis

Ana Lawry Aguila,Dina Zemlyanker,You Cheng,Sudeshna Das,Daniel C. Alexander,Oula Puonti,Annabel Sorby-Adams,W. Taylor Kimberly,Juan Eugenio Iglesias

Main category: cs.CV

TL;DR: 该论文提出将扩散模型作为先验来解决医学成像逆问题,结合贝叶斯逆问题框架和扩散模型的数据驱动能力,在脑MRI分析中实现高性能。

  • Motivation: 结合数据驱动的扩散模型与领域知识来指导脑成像问题,解决传统贝叶斯逆问题中经典数学先验无法捕捉脑解剖复杂结构的问题。
  • Method: 使用在多样化脑MRI数据上训练的基于分数的扩散先验,配合灵活的向前模型来处理超分辨率、偏置场校正、修复等常见图像处理任务。
  • Result: 在异质临床和研究MRI数据上的实验表明,该方法无需配对训练数据集即可实现最先进的性能,产生一致的高质量解决方案。
  • Conclusion: 扩散先验作为脑MRI分析的多功能工具具有巨大潜力,能够提升现有深度学习方法的解剖保真度。

[17] Fourier Transform Multiple Instance Learning for Whole Slide Image Classification

Anthony Bilic,Guangyu Sun,Ming Li,Md Sanzid Bin Hossain,Yu Tian,Wei Zhang,Laura Brattain,Dexter Hadley,Chen Chen

Main category: cs.CV

TL;DR: FFT-MIL是一种在频率域增强多实例学习的方法,通过快速傅里叶变换提取WSI的低频信息,与空间特征融合,显著提升WSI分类性能。

  • Motivation: 现有WSI分类方法难以捕捉全局依赖关系,因为WSI尺寸巨大且补丁嵌入具有局部性,这限制了粗粒度结构的建模能力。
  • Method: 提出FFT-MIL框架,通过快速傅里叶变换提取WSI的低频信息,使用FFT-Block处理频率数据,然后与空间补丁特征融合。
  • Result: 在三个公开数据集上测试六种MIL方法,集成FFT-Block后平均macro F1提升3.51%,AUC提升1.51%。
  • Conclusion: 频率域学习是捕获WSI分类中全局依赖关系的有效机制,能够补充空间特征,提升计算病理学的可扩展性和准确性。

[18] XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models

Xingrui Wang,Jiang Liu,Chao Huang,Xiaodong Yu,Ze Wang,Ximeng Sun,Jialian Wu,Alan Yuille,Emad Barsoum,Zicheng Liu

Main category: cs.CV

TL;DR: 提出了XModBench基准测试,用于评估全模态大语言模型在跨模态一致性方面的表现,发现当前模型在空间和时间推理、模态差异和方向不平衡方面仍存在显著问题。

  • Motivation: 现有基准主要评估一般跨模态问答能力,但无法确定全模态大语言模型是否真正实现了模态不变推理,还是存在模态特定偏差。
  • Method: 构建包含60,828个多选题的大规模三模态基准XModBench,涵盖五种任务族和六种模态组合,能够对模型的模态不变推理、模态差异和方向不平衡进行细粒度诊断。
  • Result: 实验表明,即使是表现最强的Gemini 2.5 Pro模型也存在:(i)空间和时间推理困难,准确率低于60%;(ii)持续模态差异,音频模态表现显著低于文本;(iii)系统性方向不平衡,视觉作为上下文时一致性低于文本。
  • Conclusion: 当前全模态大语言模型距离真正的模态不变推理仍有很大差距,XModBench可作为评估和改进跨模态能力的基本诊断工具。

[19] Train a Unified Multimodal Data Quality Classifier with Synthetic Data

Weizhi Wang,Rongmei Lin,Shiyang Li,Colin Lockard,Ritesh Sarkhel,Sanket Lokegaonkar,Jingbo Shang,Xifeng Yan,Nasser Zalmout,Xian Li

Main category: cs.CV

TL;DR: 提出了UniFilter方法,通过训练多模态大语言模型作为统一的多模态数据质量分类器,用于筛选高质量的图像-文本描述数据和交错文档数据。

  • Motivation: 当前多模态大语言模型在图像-文本描述数据和交错文档数据上的高质量数据筛选研究不足,需要开发有效的数据质量评估方法。
  • Method: 采用半合成方法,利用原始图像生成不同质量级别的文本,创建样本-分数对来训练UniFilter分类器,然后应用于DataComp和OBELICS数据集的数据筛选。
  • Result: 使用UniFilter筛选的数据预训练的MLLMs在零样本推理和上下文学习能力上显著提升,经过视觉监督微调后在多个基准测试中表现更强。
  • Conclusion: UniFilter方法能有效提升多模态预训练数据的质量,带来下游任务性能的显著改善,为社区提供了可复现的数据和模型资源。

[20] Hyperparameter Optimization and Reproducibility in Deep Learning Model Training

Usman Afzaal,Ziyu Su,Usama Sajjad,Hao Lu,Mostafa Rezapour,Metin Nafi Gurcan,Muhammad Khalid Khan Niazi

Main category: cs.CV

TL;DR: 该研究通过训练CLIP模型评估了组织病理学基础模型训练中的可复现性问题,发现了最佳的超参数设置和数据增强策略,并提供了实用的可复现性指导原则。

  • Motivation: 组织病理学基础模型训练中的可复现性面临软件随机性、硬件非确定性和超参数报告不一致等挑战,需要系统研究这些问题的影响。
  • Method: 在QUILT-1M数据集上训练CLIP模型,系统评估不同超参数设置和数据增强策略在三个下游组织病理学数据集(PatchCamelyon、LC25000-Lung和LC25000-Colon)上的影响。
  • Result: 发现RandomResizedCrop值0.7-0.8优于更激进或保守的设置,分布式训练无局部损失提高了稳定性,学习率低于5.0e-5会降低性能,LC25000(Colon)数据集提供了最可复现的基准。
  • Conclusion: 计算病理学中的可复现性不仅依赖于透明文档,还需要精心选择的实验配置,研究提供了开发可复现数字病理学基础模型的实用指导原则。

[21] Salient Concept-Aware Generative Data Augmentation

Tianchen Zhao,Xuanbai Chen,Zhihua Li,Jun Fang,Dongsheng An,Xiang Xu,Zhuowen Tu,Yifan Xing

Main category: cs.CV

TL;DR: 提出了一种个性化图像生成框架,通过显著概念感知图像嵌入模型减少合成过程中无关视觉细节的影响,在保持图像-文本对齐的同时增强训练数据多样性。

  • Motivation: 现有生成数据增强方法难以平衡保真度和多样性,因为合成过程中的表示往往与非必要图像属性(如环境背景)纠缠,与修改这些元素的文本提示产生冲突。
  • Method: 使用显著概念感知图像嵌入模型来减少合成过程中无关视觉细节的影响,保持图像和文本输入之间的直观对齐,生成既保留类别判别特征又具有可控变化的图像。
  • Result: 在8个细粒度视觉数据集上表现优异,相比最先进的数据增强方法,在常规和长尾设置下分别平均提升分类准确率0.73%和6.5%。
  • Conclusion: 该框架通过生成更好地保留类别判别特征并具有额外可控变化的图像,有效增强了训练数据集的多样性,从而提高了下游模型的鲁棒性。

[22] CARDIUM: Congenital Anomaly Recognition with Diagnostic Images and Unified Medical records

Daniela Vega,Hannah V. Ceballos,Javier S. Vera,Santiago Rodriguez,Alejandra Perez,Angela Castillo,Maria Escobar,Dario Londoño,Luis A. Sarmiento,Camila I. Castro,Nadiezhda Rodriguez,Juan C. Briceño,Pablo Arbeláez

Main category: cs.CV

TL;DR: 提出了CARDIUM数据集和基于跨注意力机制的多模态transformer架构,用于产前先天性心脏病检测,相比单模态方法性能提升显著。

  • Motivation: 先天性心脏病产前诊断中,高质量数据稀缺且不平衡,缺乏整合影像和临床数据的公开数据集,限制了AI模型在临床决策中的应用。
  • Method: 构建首个公开的多模态数据集CARDIUM,包含胎儿超声和超声心动图图像以及母体临床记录;提出基于跨注意力机制的多模态transformer架构,融合图像和表格数据的特征表示。
  • Result: 在CARDIUM数据集上,多模态方法比单模态图像和表格方法分别提升11%和50%的检测性能,F1分数达到79.8±4.8%。
  • Conclusion: CARDIUM数据集和多模态transformer架构为产前先天性心脏病检测提供了有效解决方案,公开数据集和代码将促进该领域进一步研究。

[23] The Face of Persuasion: Analyzing Bias and Generating Culture-Aware Ads

Aysan Aghazadeh,Adriana Kovashka

Main category: cs.CV

TL;DR: 研究探讨文本到图像模型在广告定制中的潜力,分析不同广告主题的人口统计偏见,以及除性别/种族外完全相同的广告在说服力上的差异,并实验针对特定国家的广告定向技术。

  • Motivation: 文本到图像模型在定制视觉广告和针对特定人群方面具有吸引力,本研究旨在探索这种潜力并分析其中存在的偏见问题。
  • Method: 通过检查不同广告主题中的人口统计偏见,评估除性别/种族外完全相同的广告的说服力差异,并实验针对特定国家的广告定向技术。
  • Result: 研究发现广告中存在人口统计偏见,相同广告内容但不同性别/种族的人物形象在说服力上存在差异,并成功开发了针对特定国家的广告定向方法。
  • Conclusion: 文本到图像模型在广告定制中具有潜力,但需要关注和解决其中的人口统计偏见问题,同时针对特定国家的定向技术是可行的。

[24] DriveGen3D: Boosting Feed-Forward Driving Scene Generation with Efficient Video Diffusion

Weijie Wang,Jiagang Zhu,Zeyu Zhang,Xiaofeng Wang,Zheng Zhu,Guosheng Zhao,Chaojun Ni,Haoxiao Wang,Guan Huang,Xinze Chen,Yukun Zhou,Wenkang Qin,Duochao Shi,Haoyun Li,Guanghong Jia,Jiwen Lu

Main category: cs.CV

TL;DR: DriveGen3D是一个新颖的框架,用于生成高质量、高可控性的动态3D驾驶场景,解决了现有方法在计算效率、时间扩展性和3D表示方面的限制。

  • Motivation: 现有驾驶场景合成方法存在计算需求过高、仅关注视频合成而缺乏3D表示,或局限于静态单场景重建的问题。本文旨在填补这一方法学空白。
  • Method: 集成加速长期视频生成与大规模动态场景重建,通过多模态条件控制。包含两个组件:FastDrive-DiT(高效视频扩散变换器)用于高分辨率时序一致视频合成;FastRecon3D(前馈重建模块)用于快速构建跨时间的3D高斯表示。
  • Result: 实现了实时生成长达12FPS的扩展驾驶视频(424×800分辨率)和相应的动态3D场景,在新视角合成上达到SSIM 0.811和PSNR 22.84,同时保持参数效率。
  • Conclusion: DriveGen3D成功解决了动态3D驾驶场景生成的挑战,通过统一管道实现了高质量、高效率的生成效果。

[25] CuSfM: CUDA-Accelerated Structure-from-Motion

Jingrui Yu,Jun Liu,Kefei Ren,Joydeep Biswas,Rurui Ye,Keqiang Wu,Chirag Majithia,Di Zeng

Main category: cs.CV

TL;DR: cuSfM是一个基于CUDA的离线Structure-from-Motion系统,通过GPU并行化实现高效精确的相机姿态估计和全局一致的地图构建,相比COLMAP在精度和处理速度上有显著提升。

  • Motivation: 解决自主导航、机器人感知和虚拟仿真系统中密集重建所需的相机姿态估计效率和精度问题。
  • Method: 使用CUDA加速的GPU并行化技术,采用计算密集型但高精度的特征提取器,生成全面且非冗余的数据关联,支持姿态优化、建图、先验地图定位和外参细化。
  • Result: 实验结果表明,cuSfM在各种测试场景下相比广泛使用的COLMAP方法,在精度和处理速度上都有显著提升,同时保持了离线SfM应用所需的高精度和全局一致性。
  • Conclusion: cuSfM是一个高效的离线SfM系统,已开源为Python封装实现PyCuSfM,旨在促进计算机视觉和机器人领域的研究和应用。

[26] Post-Processing Methods for Improving Accuracy in MRI Inpainting

Nishad Kulkarni,Krithika Iyer,Austin Tapp,Abhijeet Parida,Daniel Capellán-Martín,Zhifan Jiang,María J. Ledesma-Carbayo,Syed Muhammad Anwar,Marius George Linguraru

Main category: cs.CV

TL;DR: 本文提出了一种结合模型集成与后处理策略的脑部MRI图像修复方法,旨在提高肿瘤区域修复的解剖学合理性和视觉保真度。

  • Motivation: 现有自动化MRI分析工具主要针对健康解剖结构优化,在处理大型病变(如肿瘤)时容易失败。图像修复技术旨在在肿瘤区域合成健康脑组织,使通用工具能够可靠应用。
  • Method: 结合模型集成与高效后处理策略(中值滤波、直方图匹配、像素平均),并通过轻量级U-Net增强阶段进行解剖学细化。
  • Result: 综合评估表明,所提出的流水线提高了修复区域的解剖学合理性和视觉保真度,相比单个基线模型获得了更高的准确性和更稳健的结果。
  • Conclusion: 通过将现有模型与针对性后处理相结合,实现了改进且更易获取的图像修复结果,支持更广泛的临床部署和资源节约型研究。

[27] QCFace: Image Quality Control for boosting Face Representation & Recognition

Duc-Phuong Doan-Ngo,Thanh-Dang Diep,Thanh Nguyen-Duc,Thanh-Sach LE,Nam Thoai

Main category: cs.CV

TL;DR: 提出QCFace方法,通过硬边界策略解决人脸识别中可识别性与身份特征纠缠的问题,实现可识别性与身份表示的清晰解耦,在验证和识别任务中达到最先进性能。

  • Motivation: 当前人脸识别系统在可识别性利用方面存在两个主要问题:软边界约束只能部分捕获可识别性,导致质量表示较弱;特征方向和幅度的梯度重叠导致优化不稳定和泛化能力差。
  • Method: 引入硬边界策略QCFace,采用基于硬边界的损失函数,包含超球面规划的引导因子,同时优化识别能力和明确的可识别性表示。
  • Result: 实验证实QCFace不仅提供鲁棒且可量化的可识别性编码,在验证和识别基准测试中相比现有基于可识别性的损失函数达到最先进性能。
  • Conclusion: QCFace通过硬边界策略有效解决了可识别性与身份表示的纠缠问题,实现了更好的特征表示和性能提升。

[28] Hyperbolic Structured Classification for Robust Single Positive Multi-label Learning

Yiming Lin,Shang Wang,Junkai Zhou,Qiufeng Wang,Xiao-Bo Jin,Kaizhu Huang

Main category: cs.CV

TL;DR: 提出了首个用于单正多标签学习的双曲几何分类框架,将标签表示为双曲球而非点或向量,通过几何球交互建模丰富的标签关系,包括层次结构、共现模式和语义独立性。

  • Motivation: 现有方法通过基于距离的相似性隐式建模标签关系,缺乏对不同关系类型的显式几何定义。单正多标签学习中每个训练样本仅标注一个正标签,但实际可能属于多个类别,难以捕捉复杂标签关系和层次结构。
  • Method: 使用双曲几何表示每个标签为双曲球,通过球之间的几何交互(包含、重叠、分离)同时建模多种关系类型。引入温度自适应双曲球分类器和物理启发的双势阱正则化来引导球形成有意义的配置。
  • Result: 在四个基准数据集(MS-COCO、PASCAL VOC、NUS-WIDE、CUB-200-2011)上的广泛实验显示,与现有方法相比具有竞争力的性能和更优的可解释性。统计分析表明学习到的嵌入与现实世界共现模式强相关。
  • Conclusion: 双曲几何为不完全监督下的结构化分类提供了更鲁棒的范式,能够有效建模标签间的复杂关系。

[29] Latent Diffusion Model without Variational Autoencoder

Minglei Shi,Haolin Wang,Wenzhao Zheng,Ziyang Yuan,Xiaoshi Wu,Xintao Wang,Pengfei Wan,Jie Zhou,Jiwen Lu

Main category: cs.CV

TL;DR: SVG是一种新型的潜在扩散模型,不使用变分自编码器,而是利用自监督表示进行视觉生成,通过结合DINO特征和轻量级残差分支构建语义结构化的潜在空间,实现更高效的扩散训练和生成质量提升。

  • Motivation: 传统的VAE+扩散范式存在训练效率低、推理速度慢、迁移性差等问题,主要原因是VAE潜在空间缺乏清晰的语义分离和强判别结构。研究表明这些特性对于感知理解任务和潜在扩散模型的稳定高效训练至关重要。
  • Method: SVG利用冻结的DINO特征构建具有清晰语义判别性的特征空间,同时使用轻量级残差分支捕捉细粒度细节以实现高保真重建。扩散模型直接在这个语义结构化的潜在空间上进行训练。
  • Result: SVG实现了加速扩散训练、支持少步采样,并提高了生成质量。实验结果表明SVG保留了底层自监督表示的语义和判别能力。
  • Conclusion: SVG为任务通用、高质量的视觉表示提供了一条原则性路径,通过语义结构化的潜在空间解决了传统VAE+扩散模型的局限性。

[30] Layer as Puzzle Pieces: Compressing Large Language Models through Layer Concatenation

Fei Wang,Li Shen,Liang Ding,Chao Xue,Ye Liu,Changxing Ding

Main category: cs.CV

TL;DR: CoMe是一个用于大型语言模型结构化剪枝的新方法,通过渐进式层剪枝、基于拼接的合并技术和分层蒸馏后训练,有效减少模型大小同时保持性能。

  • Motivation: 现有结构化剪枝方法存在性能显著下降、线性权重层聚合能力不足、缺乏有效后训练恢复机制等问题,需要更有效的剪枝策略。
  • Method: 提出通道敏感度度量用于细粒度通道选择,使用基于拼接的层合并方法融合相邻层的关键通道,采用分层蒸馏协议进行知识迁移。
  • Result: 在7个基准测试中达到最先进性能,当剪枝LLaMA-2-7b模型30%参数时,剪枝后模型保持83%的原始平均准确率。
  • Conclusion: CoMe通过渐进式剪枝和分层蒸馏有效解决了结构化剪枝中的关键限制,在显著减少模型大小的同时保持了模型能力。

[31] Proto-Former: Unified Facial Landmark Detection by Prototype Transformer

Shengkai Hu,Haozhe Qi,Jun Wan,Jiaxing Huang,Lefei Zhang,Hang Sun,Dacheng Tao

Main category: cs.CV

TL;DR: Proto-Former是一个统一的自适应端到端面部关键点检测框架,通过增强数据集特定的面部结构表示(原型)来解决多数据集训练问题。

  • Motivation: 现有面部关键点检测数据集定义不同数量的关键点,主流方法只能在单一数据集上训练,限制了模型泛化能力和统一模型的发展。
  • Method: 提出Proto-Former框架,包含自适应原型感知编码器(APAE)进行自适应特征提取和学习原型表示,以及渐进原型感知解码器(PPAD)精炼原型生成提示来引导模型注意力。还引入了原型感知(PA)损失函数来解决多数据集训练中的原型专家寻址不稳定问题。
  • Result: 在广泛使用的基准数据集上的大量实验表明,Proto-Former相比现有最先进方法取得了更优越的性能。
  • Conclusion: Proto-Former通过统一架构实现多数据集联合训练,有效提升了面部关键点检测的泛化能力和性能。

[32] SHARE: Scene-Human Aligned Reconstruction

Joshua Li,Brendan Chharawala,Chang Shu,Xue Bin Peng,Pengcheng Xi

Main category: cs.CV

TL;DR: SHARE是一种利用场景几何空间线索来精确地重建人体运动的技术,仅需单目RGB视频即可准确地将人体放置在3D空间中。

  • Motivation: 当前的人体运动重建方法在准确将人体放置在3D空间中存在困难,这对于游戏、AR/VR和机器人等领域的自主代理很重要。
  • Method: SHARE首先估计每帧的人体网格和分割掩码,以及关键帧的场景点云图。然后通过比较人体网格与使用掩码从场景中提取的人体点云图,迭代优化关键帧中的人体位置。同时通过保持非关键帧人体网格与关键帧根关节的相对位置来确保一致性。
  • Result: 广泛的实验表明,SHARE在准确3D人体放置和周围场景重建方面优于现有方法。
  • Conclusion: SHARE能够在策划数据集和真实网络视频中实现更准确的3D人体放置,同时重建周围场景。

[33] Cortical-SSM: A Deep State Space Model for EEG and ECoG Motor Imagery Decoding

Shuntaro Suzuki,Shunya Nagashima,Masayuki Hirata,Komei Sugiura

Main category: cs.CV

TL;DR: 提出了Cortical-SSM模型,通过深度状态空间模型捕获EEG和ECoG信号在时域、空域和频域的集成依赖关系,在运动想象分类任务中优于基线方法。

  • Motivation: EEG和ECoG信号在运动想象分类中具有重要应用价值,但易受生理伪影干扰。现有Transformer方法难以捕获细粒度依赖关系。
  • Method: 提出Cortical-SSM架构,扩展深度状态空间模型,整合捕获EEG和ECoG信号在时域、空间域和频率域的依赖关系。
  • Result: 在三个基准测试中表现优于基线方法:两个大规模公共MI EEG数据集(超过50名受试者)和一个临床MI ECoG数据集(来自ALS患者)。
  • Conclusion: 该方法能有效捕获EEG和ECoG信号的神经生理相关区域,为运动想象分类提供了更优的解决方案。

[34] Adaptive transfer learning for surgical tool presence detection in laparoscopic videos through gradual freezing fine-tuning

Ana Davila,Jacinto Colan,Yasuhisa Hasegawa

Main category: cs.CV

TL;DR: 提出一种两阶段自适应微调方法,通过线性探测和渐进冻结策略,在手术工具检测任务中提升性能,在Cholec80数据集上达到96.4%的mAP。

  • Motivation: 微创手术中的自动化手术工具检测具有重要意义,但手术场景中标注数据有限,这给训练鲁棒的深度学习模型带来了挑战。
  • Method: 采用两阶段自适应微调方法:线性探测阶段在预训练CNN架构上调节额外分类层;渐进冻结阶段动态减少可微调层数,调节对手术领域的适应。该方法降低网络复杂度,提高效率,只需单次训练循环。
  • Result: 在Cholec80数据集上验证,使用ImageNet预训练的ResNet-50和DenseNet-121架构,相比现有方法和传统微调技术,检测性能得到提升,mAP达到96.4%。在CATARACTS数据集上的进一步验证表明该方法具有良好的泛化能力。
  • Conclusion: 渐进冻结微调是提升多样化手术过程中工具存在检测性能的有前景技术,在通用图像分类任务中具有更广泛的应用潜力。

[35] FreqPDE: Rethinking Positional Depth Embedding for Multi-View 3D Object Detection Transformers

Haisheng Su,Junjie Zhang,Feixiang Song,Sanping Zhou,Wei Wu,Nanning Zheng,Junchi Yan

Main category: cs.CV

TL;DR: 提出FreqPDE方法,通过频率感知的空间金字塔编码器、跨视图尺度不变深度预测器和位置深度编码器,为2D图像特征添加空间信息,用于3D检测Transformer解码器,无需LiDAR显式监督。

  • Motivation: 当前多视图2D图像3D检测方法依赖深度预测恢复空间信息,但预测质量不佳,存在物体边界深度不连续、小物体难以区分等问题,且忽略了跨视图一致性和尺度不变性。
  • Method: 使用频率感知空间金字塔编码器(FSPE)结合高频边缘线索和低频语义构建特征金字塔;跨视图尺度不变深度预测器(CSDP)估计像素级深度分布;位置深度编码器(PDE)生成3D深度感知特征;采用混合深度监督从度量和分布两方面进行互补学习。
  • Result: 在nuScenes数据集上的广泛实验证明了该方法的有效性和优越性。
  • Conclusion: FreqPDE方法能够有效提升多视图2D图像3D检测性能,无需LiDAR显式监督,解决了深度预测质量问题和跨视图一致性、尺度不变性等挑战。

[36] PFGS: Pose-Fused 3D Gaussian Splatting for Complete Multi-Pose Object Reconstruction

Ting-Yu Yen,Yu-Sheng Chiu,Shih-Hsuan Hung,Peter Wonka,Hung-Kuo Chu

Main category: cs.CV

TL;DR: PFGS是一个姿态感知的3D高斯泼溅框架,通过多姿态图像融合解决单姿态重建不完整的问题,实现更完整的3D重建。

  • Motivation: 现有3DGS方法假设物体在单一静态姿态下捕获,导致重建结果不完整,无法恢复被遮挡或自遮挡区域。
  • Method: 通过迭代融合多个辅助姿态到主姿态的3DGS表示,结合全局和局部配准策略,并智能整合3D基础模型进行姿态估计和跨姿态配准。
  • Result: 实验结果表明PFGS在定性和定量评估中均优于强基线方法,产生更完整的重建结果和更高保真度的3DGS模型。
  • Conclusion: PFGS通过姿态感知融合策略有效解决了多姿态重建的挑战,在保持实时性的同时显著提升了重建完整性。

[37] LILAC: Long-sequence Incremental Low-latency Arbitrary Motion Stylization via Streaming VAE-Diffusion with Causal Decoding

Peng Ren,Hai Yang

Main category: cs.CV

TL;DR: LILAC提出了一种实时长序列任意运动风格化的流式VAE-扩散框架,通过滑动窗口因果设计和解码运动特征注入,在不依赖未来帧的情况下实现高质量风格化。

  • Motivation: 现有流式方法在原始运动空间操作导致计算开销大、时间稳定性差,而基于潜在空间的VAE-扩散框架虽然质量高但仅限于离线处理,需要弥合这一差距。
  • Method: 基于高性能离线框架,采用潜在空间流式架构,结合滑动窗口因果设计和解码运动特征注入,确保平滑运动过渡。
  • Result: 在基准数据集上的实验表明,该方法在风格化质量和响应性之间取得了良好平衡,能够实现长序列实时任意风格化。
  • Conclusion: LILAC成功将离线VAE-扩散框架扩展到在线设置,为需要连续响应性角色控制的应用提供了有效的解决方案。

[38] MARIS: Marine Open-Vocabulary Instance Segmentation with Geometric Enhancement and Semantic Alignment

Bingyu Li,Feiyu Wang,Da Zhang,Zhiyuan Zhao,Junyu Gao,Xuelong Li

Main category: cs.CV

TL;DR: 提出了MARIS基准和统一框架,解决水下开放词汇实例分割中的视觉退化和语义错位问题,通过几何先验增强和语义对齐注入提升性能。

  • Motivation: 现有水下实例分割方法受限于封闭词汇预测,无法识别新的海洋类别,且水下场景存在视觉退化(如颜色衰减)和语义错位问题。
  • Method: 提出统一框架包含两个组件:几何先验增强模块(GPEM)利用部分级和结构线索保持对象一致性;语义对齐注入机制(SAIM)用领域特定先验丰富语言嵌入。
  • Result: 在MARIS基准上,该框架在域内和跨域设置中均优于现有开放词汇基线方法。
  • Conclusion: 为未来水下感知研究建立了坚实基础,证明了所提方法在水下开放词汇实例分割中的有效性。

[39] Robust High-Resolution Multi-Organ Diffusion MRI Using Synthetic-Data-Tuned Prompt Learning

Chen Qian,Haoyu Zhang,Junnan Ma,Liuhong Zhu,Qingrui Cai,Yu Wang,Ruibo Song,Lv Li,Lin Mei,Xianwang Jiang,Qin Xu,Boyu Jiang,Ran Tao,Chunmiao Chen,Shufang Chen,Dongyun Liang,Qiu Guo,Jianzhong Lin,Taishan Kang,Mengtian Lu,Liyuan Fu,Ruibin Huang,Huijuan Wan,Xu Huang,Jianhua Wang,Di Guo,Hai Zhong,Jianjun Zhou,Xiaobo Qu

Main category: cs.CV

TL;DR: LoSP-Prompt是一个用于多器官多b值多方向多切片多激发扩散加权磁共振成像的重建框架,通过物理建模和合成数据驱动的提示学习解决运动引起的相位伪影问题,在临床验证中实现了空间分辨率翻倍和优异的图像质量。

  • Motivation: 多激发扩散加权磁共振成像在全身肿瘤诊断中的临床应用受到呼吸、蠕动等运动引起的严重相位伪影的限制,同时面临多器官、多切片、多方向和多b值的复杂性挑战。
  • Method: 提出LoSP-Prompt重建框架,将激发间相位变化建模为高阶局部平滑相位,并集成到低秩Hankel矩阵重建中。通过仅在模拟生理运动的合成腹部DWI数据上训练的提示学习自动设置算法秩参数。
  • Result: 在10,000+临床图像验证中:1)实现临床单激发DWI两倍空间分辨率,提高肝脏病灶显著性;2)单一模型泛化到7个不同解剖区域;3)在图像质量、伪影抑制和噪声降低方面优于最先进方法,获得放射科医生4-5分评价。
  • Conclusion: 该方法消除了导航信号和真实数据监督需求,为高分辨率多器官多激发DWI提供了可解释、稳健的解决方案,其扫描仪无关性能在精准肿瘤学中具有变革潜力。

[40] Learning to Detect Unknown Jailbreak Attacks in Large Vision-Language Models

Shuang Liang,Zhihao Xu,Jialing Tao,Hui Xue,Xiting Wang

Main category: cs.CV

TL;DR: 提出Learning to Detect (LoD)框架,通过任务特定学习而非攻击特定学习来检测未知的越狱攻击,包含多模态安全概念激活向量和无监督攻击分类模块。

  • Motivation: 现有大型视觉语言模型仍然容易受到越狱攻击,现有检测方法要么学习攻击特定参数导致泛化能力差,要么依赖启发式方法限制准确性和效率。
  • Method: 提出LoD框架,包含多模态安全概念激活向量模块用于安全导向表示学习,以及安全模式自动编码器模块用于无监督攻击分类。
  • Result: 大量实验表明,该方法在多种未知攻击上实现了更高的检测AUROC,同时提高了效率。
  • Conclusion: LoD框架通过任务特定学习有效检测未知越狱攻击,在准确性和效率方面优于现有方法。

[41] Semantic4Safety: Causal Insights from Zero-shot Street View Imagery Segmentation for Urban Road Safety

Huan Chen,Ting Han,Siyu Chen,Zhihao Guo,Yiping Chen,Meiliu Wu

Main category: cs.CV

TL;DR: 提出Semantic4Safety框架,使用零样本语义分割从街景图像中提取11个可解释的街道指标,结合道路类型分析交通事故数据,通过XGBoost分类器和SHAP解释特征贡献,应用GPS加权和ATE估计量化因果效应。

  • Motivation: 解决街景图像在交通安全分析中的两个挑战:(1)构建捕捉事故相关特征的街道级指标,(2)量化这些指标对不同事故类型的因果影响。
  • Method: 使用零样本语义分割从街景图像提取11个街道指标,结合道路类型分析30,000个事故记录;训练XGBoost多类分类器,使用SHAP解释特征贡献;应用GPS加权和ATE估计控制混杂因素并量化因果效应。
  • Result: 发现异质性的、特定于事故类型的因果模式:捕捉场景复杂性、暴露度和道路几何的特征主导预测能力;更大的可行驶区域和应急空间降低风险,而过度视觉开放性可能增加风险。
  • Conclusion: 通过将预测建模与因果推断相结合,Semantic4Safety支持有针对性的干预措施和高风险走廊诊断,为城市道路安全规划提供可扩展的数据驱动工具。

[42] Rethinking Convergence in Deep Learning: The Predictive-Corrective Paradigm for Anatomy-Informed Brain MRI Segmentation

Feifei Zhang,Zhenhong Jia,Sensen Song,Fei Shi,Dayong Ren

Main category: cs.CV

TL;DR: 提出Predictive-Corrective(PC)范式,通过解耦建模任务加速学习。PCMambaNet包含预测先验模块和校正残差网络,利用解剖知识生成焦点图并专注优化关键区域,在脑MRI分割中仅需1-5个epoch即可达到SOTA精度。

  • Motivation: 解决端到端深度学习方法收敛慢、依赖大规模数据集的问题,特别是在数据稀缺的医学影像领域提高学习效率。
  • Method: PC范式将任务解耦为两个模块:预测先验模块(PPM)利用双侧对称性生成焦点图,低成本提供粗略近似;校正残差网络(CRN)学习残差误差,专注优化关键区域和病理边界。
  • Result: 在高分辨率脑MRI分割实验中,PCMambaNet仅需1-5个epoch就达到最先进精度,这是传统端到端模型无法实现的性能。
  • Conclusion: 通过显式融入领域知识简化学习目标,PCMambaNet有效缓解了数据效率低下和过拟合问题,实现了显著的学习加速。

[43] Select Less, Reason More: Prioritizing Evidence Purity for Video Reasoning

Xuchen Li,Xuzhao Li,Shiyu Hu,Kaiqi Huang

Main category: cs.CV

TL;DR: 提出证据优先的自适应框架EARL,通过强化学习让模型主动选择关键帧并进行局部重采样,在长视频推理任务中实现新的SOTA性能。

  • Motivation: 现有视频大语言模型在长视频推理中存在信息稀释问题,静态均匀帧采样会掩盖关键证据,且缺乏有效的奖励机制来确保证据纯度。
  • Method: 提出证据感知强化学习框架EARL,让模型动态选择最相关帧,并在关键帧周围进行局部重采样以获取细粒度时间细节。
  • Result: 在五个视频推理基准测试中达到开源视频LLM的新SOTA,7B模型在LongVideoBench、MVBench和VideoMME上分别达到59.8%、69.0%和64.9%。
  • Conclusion: 证据纯度的优先级和所提框架的有效性对长视频推理至关重要,'选择更少,推理更多'的理念得到验证。

[44] MAVR-Net: Robust Multi-View Learning for MAV Action Recognition with Cross-View Attention

Nengbo Zhang,Hann Woei Ho

Main category: cs.CV

TL;DR: MAVR-Net是一个基于多视图学习的微型飞行器动作识别框架,通过结合RGB帧、光流和分割掩码三种互补数据,显著提升了MAV运动识别的准确性和鲁棒性。

  • Motivation: 传统的基于RGB数据的视觉识别模型难以捕捉微型飞行器复杂的时空运动特征,限制了动作识别的准确性。
  • Method: 使用ResNet编码器从三个视图提取特征,采用多尺度特征金字塔保留时空细节,引入跨视图注意力模块建模模态依赖关系,并设计多视图对齐损失确保语义一致性。
  • Result: 在基准MAV动作数据集上,该方法在Short MAV、Medium MAV和Long MAV数据集上分别达到97.8%、96.5%和92.8%的准确率,明显优于现有方法。
  • Conclusion: 多视图学习方法能有效提升MAV动作识别性能,证明了结合互补数据模态的重要性。

[45] DPTrack:Directional Kernel-Guided Prompt Learning for Robust Nighttime Aerial Tracking

Zhiqiang Zhu,Xinbo Gao,Wen Lu,Jie Li,Zhaoyang Wang,Mingqian Ge

Main category: cs.CV

TL;DR: DPTrack是一种基于提示学习的夜间航拍跟踪器,通过将目标属性特征编码到包含细粒度线索的方向核中来生成精确提示,解决了现有方法仅依赖空间定位监督导致提示模糊的问题。

  • Motivation: 现有基于提示学习的夜间航拍跟踪器仅依赖空间定位监督,无法提供指向目标特征的细粒度线索,导致生成模糊提示,影响跟踪器准确聚焦目标特征,性能仍然较差。
  • Method: 受视觉仿生学启发,DPTrack首先分层捕获目标的拓扑结构,利用拓扑属性丰富特征表示;然后编码器将这些拓扑感知特征压缩到方向核中,作为明确封装目标细粒度属性线索的核心指导信号;最后基于通道类别对应关系的核引导提示模块在搜索区域特征中传播核来精确定位目标特征位置并将其转换为精确提示,集成空间门控实现鲁棒的夜间跟踪。
  • Result: 在已建立的基准测试上进行广泛评估,证明了DPTrack的优越性能。
  • Conclusion: DPTrack通过编码目标属性特征到方向核并生成精确提示,有效解决了夜间航拍跟踪中提示模糊的问题,实现了鲁棒的跟踪性能。

[46] Improving Micro-Expression Recognition with Phase-Aware Temporal Augmentation

Vu Tram Anh Khuong,Luu Tu Nguyen,Thanh Ha Le,Thi Duyen Ngo

Main category: cs.CV

TL;DR: 提出基于动态图像的双阶段时间增强方法,将微表情序列分解为起始到顶点和顶点到结束两个运动阶段,分别生成动态图像,有效提升微表情识别性能。

  • Motivation: 微表情识别面临标注数据稀缺的问题,现有方法主要依赖简单的空间增强而忽视了时间增强策略,限制了运动模式的多样性捕捉。
  • Method: 将每个微表情序列分解为起始到顶点和顶点到结束两个运动阶段,为每个阶段生成独立的动态图像,形成双阶段动态图像增强策略。
  • Result: 在CASME-II和SAMM数据集上的实验表明,该方法在识别准确率、未加权F1分数和未加权平均召回率方面均有显著提升,与空间增强结合时可获得高达10%的相对改进。
  • Conclusion: 该方法简单、模型无关且在低资源设置下有效,为鲁棒和可泛化的微表情识别提供了有前景的方向。

[47] MRASfM: Multi-Camera Reconstruction and Aggregation through Structure-from-Motion in Driving Scenes

Lingfeng Xuan,Chang Nie,Yiqing Xu,Zhe Liu,Yanzi Miao,Hesheng Wang

Main category: cs.CV

TL;DR: MRASfM是一个专为驾驶场景设计的运动恢复结构框架,通过利用多摄像头系统的固定空间关系提高相机姿态估计可靠性,使用平面模型提升路面重建质量,并将多摄像头作为单一单元进行优化以提高效率。

  • Motivation: 传统SfM方法在应用于多摄像头系统捕捉的驾驶场景时存在相机姿态估计不可靠、路面重建存在大量异常点、重建效率低等问题。
  • Method: 利用多摄像头系统的固定空间关系增强相机姿态估计可靠性;使用平面模型去除三角化路面中的错误点;将多摄像头系统作为单一单元进行捆绑调整以减少优化变量;通过场景关联和组装模块实现多场景聚合。
  • Result: 在nuScenes数据集上实现了0.124的绝对姿态误差,表现出最先进的性能;在实际车辆部署中验证了框架在各种场景下的泛化能力和在挑战性条件下的鲁棒性。
  • Conclusion: MRASfM框架有效解决了驾驶场景中多摄像头SfM的关键问题,在姿态估计精度和重建质量方面都达到了最先进水平。

[48] MSAM: Multi-Semantic Adaptive Mining for Cross-Modal Drone Video-Text Retrieval

Jinghao Huang,Yaxiong Chen,Ganchao Liu

Main category: cs.CV

TL;DR: 本文首次系统性地提出并研究了无人机视频-文本检索任务,针对无人机视频的俯视视角、结构同质性和目标组合多样性等特点,提出了多语义自适应挖掘方法,显著提升了检索性能。

  • Motivation: 随着无人机技术的发展,视频数据量急剧增加,迫切需要高效的语义检索方法。现有跨模态方法主要针对地面视角设计,无法有效处理无人机视频的俯视视角、结构同质性和目标组合多样性等独特特征。
  • Method: 提出多语义自适应挖掘方法,包含多语义自适应学习机制,通过动态帧间变化和特定场景区域语义信息提取,增强对无人机视频内容的深度理解和推理。该方法基于词与视频帧的细粒度交互,整合了自适应语义构建模块、分布驱动语义学习项和多样性语义项。
  • Result: 在两个自建的无人机视频-文本数据集上的大量实验表明,MSAM方法在无人机视频-文本检索任务中优于其他现有方法。
  • Conclusion: 针对无人机场景的专用检索机制是必要的,MSAM方法通过深度模态交互和鲁棒特征表示,有效解决了复杂背景干扰问题,在无人机视频-文本检索任务中表现出色。

[49] A Novel Combined Optical Flow Approach for Comprehensive Micro-Expression Recognition

Vu Tram Anh Khuong,Thi Bich Phuong Man,Luu Tu Nguyen,Thanh Ha Le,Thi Duyen Ngo

Main category: cs.CV

TL;DR: 该研究提出了一种结合起始到顶点和顶点到偏移两个阶段的组合光流方法,用于改进面部微表情识别性能。

  • Motivation: 大多数基于光流的微表情识别方法只关注起始到顶点阶段,忽略了顶点到偏移阶段的关键时间动态信息。
  • Method: 引入组合光流方法,整合起始到顶点和顶点到偏移两个阶段的光流信息,提供更全面的运动分析。
  • Result: 在CASMEII和SAMM数据集上的实验结果表明,组合光流方法优于单一光流方法。
  • Conclusion: 组合光流方法能有效捕捉微表情动态特征,提高微表情识别性能。

[50] Iterative Motion Compensation for Canonical 3D Reconstruction from UAV Plant Images Captured in Windy Conditions

Andre Rochow,Jonas Marcic,Svetlana Seliunina,Sven Behnke

Main category: cs.CV

TL;DR: 提出一个用于农业植物3D重建的自动化管道,通过无人机自主采集图像,使用迭代变形方法处理叶片运动问题,提高重建质量并生成高分辨率3D网格。

  • Motivation: 植物3D表型分析对于理解植物生长、产量预测和疾病控制至关重要,但环境风力和无人机下洗气流导致的重建挑战需要解决。
  • Method: 使用小型无人机自主采集图像,通过迭代方法估计叶片运动(使用光流法),逐步调整输入图像以减少场景运动,生成规范表示。
  • Result: 管道能够改进现有最先进3D重建方法的结果,生成高质量的重建效果和高分辨率3D网格。
  • Conclusion: 该管道有效解决了植物3D重建中的运动模糊问题,将公开源代码并提供包含多种作物在不同时间点采集的数据集。

[51] Rethinking Efficient Hierarchical Mixing Architecture for Low-light RAW Image Enhancement

Xianmin Chen,Peiliang Huang,Longfei Han,Dingwen Zhang,Junwei Han

Main category: cs.CV

TL;DR: 提出HiMA架构,结合Transformer和Mamba模块处理不同尺度特征,实现高效低光RAW图像增强,同时引入LoDA和MPF模块解决局部光照不均和细节增强问题。

  • Motivation: 现有低光RAW图像增强方法在增强质量和效率之间存在平衡问题,需要同时实现强增强效果和高计算效率。
  • Method: 使用分层混合架构HiMA,Transformer处理大尺度特征,Mamba处理小尺度特征;提出LoDA模块自适应调整局部区域特征分布;设计MPF模块融合空间和频域先验进行细节增强。
  • Result: 在多个公开数据集上的实验表明,该方法优于现有最先进方法,以更少的参数实现更优性能。
  • Conclusion: HiMA架构通过结合Transformer和Mamba的优势,以及LoDA和MPF模块的设计,有效解决了低光RAW图像增强中的效率和质量平衡问题。

[52] Exploring Conditions for Diffusion models in Robotic Control

Heeseong Shin,Byeongho Heo,Dongyoon Han,Seungryong Kim,Taekyung Kim

Main category: cs.CV

TL;DR: ORCA通过可学习的任务提示和视觉提示,利用预训练扩散模型为机器人控制提供任务自适应视觉表示,无需微调模型本身,在多个机器人控制基准测试中达到最先进性能。

  • Motivation: 预训练视觉表示在模仿学习中通常保持任务无关性,在策略学习期间保持冻结状态。本研究探索利用预训练文本到图像扩散模型获得任务自适应视觉表示,但发现简单应用文本条件在控制任务中收效甚微甚至产生负面影响。
  • Method: 提出ORCA方法,引入可学习的任务提示以适应控制环境,以及视觉提示来捕捉细粒度的帧特定细节,通过新设计的条件促进任务自适应表示。
  • Result: 该方法在各种机器人控制基准测试中实现了最先进的性能,显著超越了先前的方法。
  • Conclusion: 通过考虑控制所需的特定动态视觉信息,利用预训练扩散模型和自适应提示可以显著提升机器人控制的视觉表示效果。

[53] Latent Feature Alignment: Discovering Biased and Interpretable Subpopulations in Face Recognition Models

Ignacio Serna

Main category: cs.CV

TL;DR: 提出Latent Feature Alignment (LFA)方法,无需属性标签即可识别人脸识别模型中的偏见子群体,通过潜在方向发现可解释的属性分组。

  • Motivation: 现代人脸识别模型虽然整体准确率高,但存在系统性偏见,影响特定子群体。传统偏见评估依赖标注属性,成本高且限于预定义类别。
  • Method: 使用潜在方向识别子群体的无属性标签算法,相比标准聚类能获得语义一致的分组和可解释的方向(如年龄、种族、着装等)。
  • Result: 在四种最先进识别模型和两个基准测试上,LFA在组内语义一致性方面持续优于k-means和最近邻搜索,并发现与人口统计和上下文属性对齐的可解释潜在方向。
  • Conclusion: LFA作为人脸识别模型表示审计的实用方法,使从业者无需预定义属性标注即可识别和解释偏见子群体。

[54] Balanced Multi-Task Attention for Satellite Image Classification: A Systematic Approach to Achieving 97.23% Accuracy on EuroSAT Without Pre-Training

Aditya Vir

Main category: cs.CV

TL;DR: 本文提出了一种用于卫星土地利用分类的自定义卷积神经网络架构,在EuroSAT数据集上实现了97.23%的测试准确率,无需依赖预训练模型。

  • Motivation: 解决卫星图像分类中的特定失败模式,探索空间和光谱特征在卫星图像分类中的重要性。
  • Method: 通过三个渐进式架构迭代:基线架构、CBAM增强架构和平衡多任务注意力架构,结合坐标注意力机制和Squeeze-Excitation块,使用可学习的融合参数统一空间和光谱特征提取。
  • Result: 最终12层架构在EuroSAT数据集上达到97.23%测试准确率,Cohen's Kappa为0.9692,所有类别准确率均超过94.46%。
  • Conclusion: 系统化的架构设计对于特定领域应用是有效的,该方法性能接近微调的ResNet-50(98.57%),但无需外部数据。

[55] Diffusion Bridge Networks Simulate Clinical-grade PET from MRI for Dementia Diagnostics

Yitong Li,Ralph Buchert,Benita Schmitz-Koep,Timo Grimmer,Björn Ommer,Dennis M. Hedderich,Igor Yakushev,Christian Wachinger

Main category: cs.CV

TL;DR: SiM2P是一个基于3D扩散桥的框架,可以从MRI和患者辅助信息生成诊断质量的FDG-PET图像,显著提高了痴呆症诊断准确性。

  • Motivation: FDG-PET在痴呆症诊断中很有价值,但相比常规MRI更昂贵且不易获得。研究旨在开发一种从MRI生成模拟PET图像的方法,使PET的诊断优势更易获得。
  • Method: 使用3D扩散桥框架学习从MRI和患者信息到FDG-PET图像的概率映射,只需20个特定病例和基本人口统计信息即可部署。
  • Result: 在盲法临床阅读研究中,SiM2P将三组(阿尔茨海默病、行为变异性额颞叶痴呆、健康对照)的总体诊断准确率从75.0%提高到84.7%,模拟PET图像获得更高的诊断确定性和评估者间一致性。
  • Conclusion: SiM2P框架使FDG-PET成像的诊断优势在资源有限环境中更易获得,可能改善痴呆症的早期检测和鉴别诊断。

[56] ClapperText: A Benchmark for Text Recognition in Low-Resource Archival Documents

Tingyu Lin,Marco Peer,Florian Kleber,Robert Sablatnig

Main category: cs.CV

TL;DR: ClapperText是一个用于手写和打印文本识别的基准数据集,专门针对视觉退化场景和低资源环境,基于127个二战时期档案视频片段中的场记板数据构建。

  • Motivation: 解决历史文档分析中结构化内容在退化、非标准形式下出现的挑战,包括运动模糊、手写变化、曝光波动和杂乱背景等问题。
  • Method: 从档案视频中提取场记板帧,使用旋转边界框(4点多边形)进行精确标注,提供完整帧标注和裁剪单词图像,支持零样本和微调评估。
  • Result: 数据集包含9,813个标注帧和94,573个单词级文本实例,其中67%为手写文本,1,566个部分遮挡。微调模型在少量训练数据(18个视频)下取得显著性能提升。
  • Conclusion: ClapperText为低资源档案环境中的鲁棒OCR和文档理解提供了现实且文化基础的数据资源,特别适合少样本学习场景。

[57] Imaginarium: Vision-guided High-Quality 3D Scene Layout Generation

Xiaoming Zhu,Xu Huang,Qinghongbing Xie,Zhi Deng,Junsheng Yu,Yirui Guan,Zhongyuan Liu,Lin Zhu,Qijun Zhao,Ligang Liu,Long Zeng

Main category: cs.CV

TL;DR: 提出了一种基于视觉引导的3D场景布局生成系统,通过图像生成模型扩展提示表示,结合图像解析模块恢复3D布局,并使用场景图优化确保逻辑一致性。

  • Motivation: 传统优化方法受限于手动规则,深度生成模型难以产生丰富多样的内容,基于大语言模型的方法缺乏鲁棒性且无法准确捕捉复杂空间关系。
  • Method: 构建高质量资产库,使用图像生成模型扩展提示表示并微调对齐资产库,开发图像解析模块恢复3D布局,通过场景图和视觉语义优化布局。
  • Result: 用户测试表明,该方法在布局丰富性和质量方面显著优于现有方法。
  • Conclusion: 提出的视觉引导3D布局生成系统能够有效解决现有方法的局限性,生成艺术性和连贯性的3D场景布局。

[58] Unmasking Facial DeepFakes: A Robust Multiview Detection Framework for Natural Images

Sami Belguesmia,Mohand Saïd Allili,Assia Hamadene

Main category: cs.CV

TL;DR: 提出一种多视角架构来增强DeepFake检测,通过全局、中观和局部三个专用编码器分析面部特征,并加入面部朝向编码器确保在各种视角下的鲁棒检测。

  • Motivation: 现有DeepFake检测方法在真实世界条件下难以处理姿态变化、遮挡和难以检测的伪影,需要更鲁棒的解决方案。
  • Method: 集成三个专用编码器:全局视角编码器检测边界不一致性,中观视角编码器分析纹理和颜色对齐,局部视角编码器捕捉眼睛、鼻子和嘴巴等表达性面部区域的失真。还加入面部朝向编码器来分类面部姿态。
  • Result: 在具有挑战性的数据集上的实验结果表明该方法有效,优于传统的单视角方法。
  • Conclusion: 通过融合多个编码器的特征,该模型在检测操纵图像方面实现了优越性能,即使在具有挑战性的姿态和光照条件下也能保持鲁棒性。

[59] Lightweight CycleGAN Models for Cross-Modality Image Transformation and Experimental Quality Assessment in Fluorescence Microscopy

Mohammad Soltaninezhad,Yashar Rouzbahani,Jhonatan Contreras,Rohan Chippalkatti,Daniel Kwaku Abankwa,Christian Eggeling,Thomas Bocklitz

Main category: cs.CV

TL;DR: 提出轻量级CycleGAN用于荧光显微镜模态转换,大幅减少参数至约9000个,同时引入GAN作为实验质量诊断工具。

  • Motivation: 解决荧光显微镜中不成对数据集的模态转换问题,同时降低计算成本和环境影响。
  • Method: 用固定通道方法替代U-Net生成器中的传统通道倍增策略,大幅减少可训练参数。
  • Result: 参数从4180万减少到约9000个,性能更优,训练更快,内存使用更低。
  • Conclusion: 该模型不仅是有效的模态转换工具,还可作为验证显微镜工作流中实验准确性和图像保真度的实用诊断工具。

[60] Standardization for improved Spatio-Temporal Image Fusion

Harkaitz Goyena,Peter M. Atkinson,Unai Pérez-Goya,M. Dolores Ugarte

Main category: cs.CV

TL;DR: 提出了两种标准化方法(传统上采样和ABSIS锐化)来提升时空图像融合方法的准确性,其中锐化方法在光谱和空间精度上分别提升达49.46%和78.40%。

  • Motivation: 为了促进时空图像融合方法的应用,需要解决不同传感器图像在空间和光谱分辨率上的匹配问题。
  • Method: 比较了两种标准化方法:一是基于传统上采样的方法,二是名为ABSIS的锐化方法,该方法将高分辨率图像系列的整体特征与特定低分辨率图像的独特属性相结合。
  • Result: 两种方法都显著提高了USTFIP时空图像融合方法的准确性,其中锐化方法使融合图像的光谱和空间精度分别提升达49.46%和78.40%。
  • Conclusion: 提出的标准化方法,特别是ABSIS锐化方法,能有效提升时空图像融合的准确性,为不同分辨率传感器的图像融合提供了有效解决方案。

[61] FlexiReID: Adaptive Mixture of Expert for Multi-Modal Person Re-Identification

Zhen Sun,Lei Tan,Yunhang Shen,Chengmao Cai,Xing Sun,Pingyang Dai,Liujuan Cao,Rongrong Ji

Main category: cs.CV

TL;DR: FlexiReID是一个灵活的多模态行人重识别框架,支持RGB、红外、素描和文本四种模态之间的七种检索模式,通过自适应专家混合机制和跨模态查询融合模块实现高性能检索。

  • Motivation: 现有方法大多局限于有限的跨模态设置,无法支持任意查询-检索组合,阻碍了实际部署。需要开发一个支持多种模态组合的灵活框架。
  • Method: 提出自适应专家混合(MoE)机制动态整合不同模态特征,使用跨模态查询融合模块增强多模态特征提取,构建了统一的CIRS-PEDES数据集进行综合评估。
  • Result: 在广泛实验中,FlexiReID实现了最先进的性能,并在复杂场景中表现出强大的泛化能力。
  • Conclusion: FlexiReID提供了一个灵活且高效的多模态行人重识别解决方案,能够支持多种模态组合,为实际应用提供了重要价值。

[62] Quantized FCA: Efficient Zero-Shot Texture Anomaly Detection

Andrei-Timotei Ardelean,Patrick Rückbeil,Tim Weyrich

Main category: cs.CV

TL;DR: 提出QFCA方法,通过量化特征对应分析实现实时纹理异常检测,获得10倍加速且精度损失极小

  • Motivation: 现有纹理异常定位方法运行时间过长,难以在实际场景(如生产线监控)中部署使用
  • Method: 量化特征对应分析(FCA)算法,通过量化值直方图进行补丁统计比较,并引入基于PCA的特征预处理步骤
  • Result: 相比现有方法获得10倍速度提升,精度损失极小,在复杂纹理上检测精度有所提高
  • Conclusion: QFCA方法在保持高精度的同时实现了实时性能,适用于实际工业应用场景

[63] Lightweight Data-Free Denoising for Detail-Preserving Biomedical Image Restoration

Tomáš Chobola,Julia A. Schnabel,Tingying Peng

Main category: cs.CV

TL;DR: 提出了一种名为Noise2Detail的超轻量级自监督去噪模型,通过多阶段去噪管道实现快速去噪和高质量图像恢复,无需干净参考图像或显式噪声建模。

  • Motivation: 现有自监督去噪技术计算和内存需求大,需要在推理速度和重建质量之间妥协,限制了实际应用。
  • Method: 基于Noise2Noise训练框架,引入创新的多阶段去噪管道Noise2Detail,在推理过程中破坏噪声模式的空间相关性产生中间平滑结构,然后从噪声输入中重新捕获细节。
  • Result: 在广泛测试中,Noise2Detail超越了现有的无数据集技术,同时仅需少量计算资源。
  • Conclusion: 该方法结合了高效性、低计算成本和无数据方法,是生物医学成像的宝贵工具,克服了干净训练数据稀缺的挑战,同时实现快速推理的实用价值。

[64] Deep Learning Based Domain Adaptation Methods in Remote Sensing: A Comprehensive Survey

Shuchang Lyu,Qi Zhao,Zheng Zhou,Meng Li,You Zhou,Dingding Yao,Guangliang Cheng,Huiyu Zhou,Zhenwei Shi

Main category: cs.CV

TL;DR: 本文对遥感领域基于深度学习的域自适应方法进行了全面综述,涵盖方法分类、数据集和性能评估,并指出了未来研究方向。

  • Motivation: 遥感中的域自适应对于知识从源域迁移到不同分布的目标域至关重要,但由于数据差异(如采样距离、传感器模式、地理景观等)带来重大挑战,需要系统总结深度学习方法在这一领域的进展。
  • Method: 通过引入基础知识、组织现有算法(从任务分类、输入模式、监督范式和算法粒度等角度)、回顾常用数据集和总结最先进方法性能,提供对该领域的结构化理解。
  • Result: 构建了系统化的分类体系,比以往综述覆盖更广泛的遥感域自适应任务,为研究社区提供了更全面和有条理的理解。
  • Conclusion: 本综述能够启发研究社区,促进理解,并指导遥感域自适应领域的未来工作,识别了开放挑战和潜在研究方向。

[65] Uncertainty-Aware Extreme Point Tracing for Weakly Supervised Ultrasound Image Segmentation

Lei Shi,Gang Li,Junxing Zhang

Main category: cs.CV

TL;DR: 提出了一种弱监督医学图像分割框架,仅需四个极值点标注,通过SAM2生成初始伪标签,结合增强的FGEPM算法和不确定性估计进行边界追踪,在超声图像分割上达到与全监督方法相当甚至更好的性能。

  • Motivation: 全监督医学图像分割需要大量像素级标注,成本高且耗时。为减轻标注负担,探索仅使用极值点标注的弱监督方法。
  • Method: 使用极值点生成边界框作为SAM2提示生成初始伪标签;增强FGEPM算法结合蒙特卡洛dropout不确定性估计构建梯度不确定性代价图进行边界追踪;引入双分支不确定性感知尺度一致性损失和边界框对齐损失。
  • Result: 在BUSI和UNS两个公共超声数据集上的实验表明,该方法性能与全监督方法相当甚至更好,同时显著降低标注成本。
  • Conclusion: 提出的弱监督框架在超声图像分割中具有有效性和实用性,为医学图像分析提供了高效的解决方案。

[66] Valeo Near-Field: a novel dataset for pedestrian intent detection

Antonyo Musabini,Rachid Benmokhtar,Jagdish Bhanushali,Victor Galizzi,Bertrand Luvison,Xavier Perrotton

Main category: cs.CV

TL;DR: 提出了一个用于检测行人意图的新型多模态数据集,包含鱼眼摄像头、激光雷达、超声波传感器和动作捕捉数据,支持行人检测、3D姿态估计和轨迹预测算法的开发与评估。

  • Motivation: 解决智能车辆在近场场景中感知行人意图的挑战,包括传感器遮挡、动态环境和硬件限制等实际问题。
  • Method: 收集同步的多模态数据,包括鱼眼相机、激光雷达、超声波传感器和动作捕捉系统,提供详细的3D身体关节位置标注和准确的3D行人位置信息。
  • Result: 发布了部分数据集和完整的基准测试套件,包含精度、效率和嵌入式系统可扩展性的评估指标,并提供了基于自定义神经网络架构的基线性能指标。
  • Conclusion: 该数据集为研究人员开发先进的智能车辆行人感知算法提供了独特资源,特别是在近场场景中,同时指出了未来的研究方向以促进数据集的采用和改进。

[67] Towards Label-Free Brain Tumor Segmentation: Unsupervised Learning with Multimodal MRI

Gerard Comas-Quiles,Carles Garcia-Cabrera,Julia Dietlmeier,Noel E. O'Connor,Ferran Marques

Main category: cs.CV

TL;DR: 提出了一种基于多模态视觉变换器自编码器(MViT-AE)的无监督异常检测方法,用于脑肿瘤分割,无需人工标注即可通过重建误差图检测和定位肿瘤。

  • Motivation: 解决脑磁共振成像中标注数据有限、成本高或不一致的问题,提供可扩展的无监督分割方案。
  • Method: 使用多模态早期-晚期融合策略整合多个MRI序列信息,并引入Segment Anything Model(SAM)进行后处理以优化肿瘤轮廓。
  • Result: 在BraTS-GoAT 2025数据集上,全肿瘤、肿瘤核心和增强肿瘤的Dice相似系数分别为0.437、0.316和0.350,验证集异常检测率达到89.4%。
  • Conclusion: 基于变换器的无监督模型有潜力成为神经肿瘤成像中可扩展、标签高效的工具。

[68] Unimedvl: Unifying Medical Multimodal Understanding And Generation Through Observation-Knowledge-Analysis

Junzhi Ning,Wei Li,Cheng Tang,Jiashi Lin,Chenglong Ma,Chaoyang Zhang,Jiyao Liu,Ying Chen,Shujian Gao,Lihao Liu,Yuandong Pu,Huihui Xu,Chenhui Gou,Ziyan Huang,Yi Xin,Qi Qin,Zhongying Deng,Diping Song,Bin Fu,Guang Yang,Yuanfeng Ji,Tianbin Li,Yanzhou Su,Jin Ye,Shixiang Tang,Ming Hu,Junjun He

Main category: cs.CV

TL;DR: 提出了UniMedVL,首个医学统一多模态模型,能够在单一架构中同时处理图像理解和生成任务,解决了现有医学AI系统在数据表示、特征集成和多模态能力方面的不足。

  • Motivation: 现有医学AI系统破坏了统一的诊断流程:医学图像理解模型只能解释图像而不能生成视觉输出,医学图像生成模型只能合成图像而不能提供文本解释,导致数据表示、特征集成和任务级多模态能力的差距。
  • Method: 采用观察-知识-分析(OKA)范式:观察层构建UniMed-5M数据集(560万样本);知识层提出渐进式课程学习;分析层开发UniMedVL统一多模态模型。
  • Result: UniMedVL在五个医学图像理解基准测试中表现优异,同时在八种医学成像模态的生成质量上与专用模型相当。统一架构实现了双向知识共享:生成任务增强了视觉理解特征。
  • Conclusion: 在单一医学框架中整合传统上分离的能力,能够解锁跨不同医学视觉语言任务的改进,证明了统一多模态架构在医学应用中的价值。

[69] DGME-T: Directional Grid Motion Encoding for Transformer-Based Historical Camera Movement Classification

Tingyu Lin,Armin Dadras,Florian Kleber,Robert Sablatnig

Main category: cs.CV

TL;DR: 提出了DGME-T方法,通过注入方向性网格运动编码来增强Video Swin Transformer,显著提升在档案影片和现代视频上的相机运动分类性能。

  • Motivation: 解决现有相机运动分类模型在档案影片(存在噪声、缺失帧和低对比度)上性能下降的问题,弥合现代高质量视频与历史档案影片之间的性能差距。
  • Method: 构建统一基准测试集,整合现代语料库和历史档案影片;提出DGME-T方法,在Video Swin Transformer基础上通过可学习的后期融合层注入基于光流的方向性网格运动编码。
  • Result: DGME-T将骨干网络的top-1准确率从81.78%提升到86.14%,宏F1从82.08%提升到87.81%(现代视频);在二战档案影片上准确率从83.43%提升到84.62%,宏F1从81.72%提升到82.63%;跨域研究表明在现代数据上进行中间微调可将历史性能提升5个百分点以上。
  • Conclusion: 结构化运动先验和transformer表示是互补的,即使是一个小型、精心校准的运动头也能显著增强在退化影片分析中的鲁棒性。

[70] Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

Qingyan Bai,Qiuyu Wang,Hao Ouyang,Yue Yu,Hanlin Wang,Wen Wang,Ka Leong Cheng,Shuailei Ma,Yanhong Zeng,Zichen Liu,Yinghao Xu,Yujun Shen,Qifeng Chen

Main category: cs.CV

TL;DR: Ditto框架通过创新的数据生成管道、高效模型架构和智能代理系统,构建了包含100万个高质量视频编辑样本的Ditto-1M数据集,训练出的Editto模型在指令式视频编辑任务中达到新的最先进水平。

  • Motivation: 解决指令式视频编辑领域因缺乏大规模高质量训练数据而发展受限的问题。
  • Method: 1. 融合领先图像编辑器和上下文视频生成器的数据生成管道;2. 采用高效蒸馏模型架构和时序增强器;3. 使用智能代理进行多样化指令生成和严格质量过滤;4. 基于Ditto-1M数据集进行课程学习训练。
  • Result: 投入超过12,000 GPU天构建了包含100万个高质量视频编辑样本的Ditto-1M数据集,训练出的Editto模型在指令式视频编辑任务中表现出卓越的指令遵循能力,达到了新的最先进水平。
  • Conclusion: Ditto框架成功解决了指令式视频编辑的数据稀缺问题,通过规模化高质量数据生成和高效模型设计,显著推动了该领域的发展。

[71] SEGA: A Stepwise Evolution Paradigm for Content-Aware Layout Generation with Design Prior

Haoran Wang,Bo Zhao,Jinghui Wang,Hanzhang Wang,Huan Yang,Wei Ji,Hao Liu,Xinyan Xiao

Main category: cs.CV

TL;DR: 提出SEGA方法,通过分层推理框架解决内容感知布局生成问题,采用从粗到细的策略,结合布局设计原则作为先验知识,在多个基准数据集上达到最先进效果。

  • Motivation: 现有方法采用单步推理框架,缺乏基于反馈的自我修正机制,在面对复杂元素布局规划时失败率显著增加。
  • Method: SEGA采用分层推理框架:粗粒度模块粗略估计布局规划结果,精炼模块对粗规划结果进行细粒度推理,并融入布局设计原则作为先验知识。
  • Result: 在多个基准数据集上实现了最先进的结果,证明了该方法的有效性。
  • Conclusion: SEGA通过分层推理和布局设计原则的融入,显著提升了内容感知布局生成的性能。

[72] NDM: A Noise-driven Detection and Mitigation Framework against Implicit Sexual Intentions in Text-to-Image Generation

Yitong Sun,Yao Huang,Ruochen Zhang,Huanran Chen,Shouwei Ruan,Ranjie Duan,Xingxing Wei

Main category: cs.CV

TL;DR: 提出NDM框架,首个基于噪声的检测和缓解方法,用于识别和减轻文本到图像生成中的隐含恶意意图,同时保持模型生成能力。

  • Motivation: 文本到图像扩散模型在面对隐含性暗示提示时容易生成不当内容,现有检测方法主要针对显式内容,无法有效识别这些隐蔽线索,而微调方法会降低生成质量。
  • Method: 利用早期预测噪声的可分离性开发噪声检测方法;提出噪声增强自适应负引导机制,通过抑制突出区域注意力来优化初始噪声。
  • Result: 在自然和对抗数据集上验证,NDM性能优于现有SOTA方法(如SLD、UCE、RECE等)。
  • Conclusion: NDM框架能有效检测和缓解隐含恶意意图,同时保持模型原始生成能力,为解决T2I生成中的伦理问题提供了新方案。

[73] Semantic segmentation with coarse annotations

Jort de Jong,Mike Holenderski

Main category: cs.CV

TL;DR: 提出一种基于超像素的正则化方法,用于在粗标注数据上训练语义分割模型,显著提升边界召回率。

  • Motivation: 当获取精细像素级标注困难或昂贵时,粗标注(如粗略标注像素,边界区域未标注)成为替代方案。但在粗标注上训练分割模型,特别是优化类别边界对齐时面临困难。
  • Method: 提出正则化方法,结合编码器-解码器架构和基于超像素的上采样,鼓励解码图像中的分割像素形成SLIC超像素(基于像素颜色和位置,独立于分割标注)。应用于FCN-16全卷积网络架构。
  • Result: 在SUIM、Cityscapes和PanNuke数据集上评估,相比最先进模型,在粗标注训练时边界召回率显著提升。
  • Conclusion: 该方法有效改善了在粗标注数据上训练语义分割模型的边界对齐性能。

[74] QSilk: Micrograin Stabilization and Adaptive Quantile Clipping for Detail-Friendly Latent Diffusion

Denis Rychkovskiy

Main category: cs.CV

TL;DR: QSilk是一个轻量级的潜在扩散模型稳定层,通过微钳制和自适应分位数裁剪技术提升高频保真度并抑制罕见激活峰值,无需训练即可在低步数和高分辨率下获得更清晰锐利的结果。

  • Motivation: 为了解决潜在扩散模型中高频细节保真度不足和罕见激活峰值导致的伪影问题,需要一种无需训练的轻量级稳定方案来提升生成质量。
  • Method: 结合了每样本微钳制技术(温和限制极端值而不损失纹理)和自适应分位数裁剪(AQClip),AQClip可根据局部结构统计或注意力熵指导来调整各区域允许的值范围。
  • Result: 在CADE 2.5渲染管线中集成QSilk后,在低步数和高分辨率下获得了更干净、更锐利的结果,计算开销可忽略,且与CFG/Rescale技术有协同作用。
  • Conclusion: QSilk是一种有效的潜在扩散模型稳定方案,在SD/SDXL骨干网络上均表现出稳定的质量提升,无需训练即可显著改善生成效果。

[75] Towards more holistic interpretability: A lightweight disentangled Concept Bottleneck Model

Gaoxiang Huang,Songning Lai,Yutao Yue

Main category: cs.CV

TL;DR: 提出轻量级解耦概念瓶颈模型(LDCBM),通过自动将视觉特征分组为语义组件,改善概念与视觉模式的对齐,提升概念瓶颈模型的解释性和分类性能。

  • Motivation: 现有概念瓶颈模型存在输入到概念映射偏差和有限可控性问题,限制了实际应用价值,损害了基于概念方法的责任性。
  • Method: 引入过滤器分组损失和联合概念监督,自动将视觉特征分组为语义上有意义的组件,无需区域标注。
  • Result: 在三个不同数据集上的实验表明,LDCBM在概念准确性和分类准确性方面均优于先前CBM方法,在解释性和分类性能上都有提升。
  • Conclusion: 通过将概念基于视觉证据,该方法克服了先前模型的基本限制,增强了可解释AI的可靠性。

[76] Controlling the image generation process with parametric activation functions

Ilia Pavlov

Main category: cs.CV

TL;DR: 提出了一种允许用户通过替换生成网络的激活函数为参数化函数来理解和控制模型输出的交互系统。

  • Motivation: 随着图像生成模型在保真度和普及度上的提升,开发能够直接与其内部机制交互的可解释工具却很少受到关注。
  • Method: 允许用户将生成网络的激活函数替换为参数化函数,并通过设置这些函数的参数来控制网络输出。
  • Result: 在StyleGAN2(FFHQ数据集)和BigGAN(ImageNet数据集)上验证了该方法的有效性。
  • Conclusion: 通过交互和实验,该系统帮助用户更好地理解生成模型,并提供了一种替代性的输出控制方法。

[77] ReCon: Region-Controllable Data Augmentation with Rectification and Alignment for Object Detection

Haowei Zhu,Tianxiang Pan,Rui Qin,Jun-Hai Yong,Bin Wang

Main category: cs.CV

TL;DR: ReCon是一个用于目标检测的数据增强框架,通过整合区域引导校正和区域对齐交叉注意力,在扩散采样过程中纠正生成错误,提升生成数据的质量和训练效果。

  • Motivation: 获取大规模标注数据成本高且耗时,现有生成方法依赖复杂后处理或大量微调,容易出现内容位置不匹配和语义泄漏问题。
  • Method: 在扩散采样过程中集成区域引导校正,使用预训练感知模型的反馈纠正错误生成区域;提出区域对齐交叉注意力机制,加强图像区域与文本提示的空间语义对齐。
  • Result: ReCon显著提高了生成数据的质量和可训练性,在各种数据集、骨干架构和数据规模下都实现了持续的性能提升。
  • Conclusion: ReCon框架通过改进结构可控生成模型的能力,有效解决了数据增强中的内容位置不匹配和语义泄漏问题,为训练鲁棒感知模型提供了高质量合成数据。

[78] ERNet: Efficient Non-Rigid Registration Network for Point Sequences

Guangzhao He,Yuxi Xiao,Zhen Xu,Xiaowei Zhou,Sida Peng

Main category: cs.CV

TL;DR: ERNet:一种高效的前馈模型,用于处理非刚性变形的点云序列配准,通过两阶段管道预测变形图序列,在精度和速度上均优于现有方法。

  • Motivation: 解决非刚性变形点云配准中的两个关键挑战:(i) 非凸配准目标导致的局部最小值问题,特别是在噪声或部分输入下;(ii) 长序列中的误差累积导致跟踪失败。
  • Method: 采用可扩展的数据驱动方法,通过两阶段管道预测变形图序列:首先估计帧级粗粒度图节点进行鲁棒初始化,然后以滑动窗口方式随时间细化其轨迹。
  • Result: 在DeformingThings4D和D-FAUST数据集上优于先前最先进方法,相比先前最佳方法实现了4倍以上的加速,显著提高了效率。
  • Conclusion: ERNet能够有效处理噪声和部分输入,同时利用时间信息进行准确一致的序列配准,在精度和效率方面均表现出色。

[79] VISTA: A Test-Time Self-Improving Video Generation Agent

Do Xuan Long,Xingchen Wan,Hootan Nakhost,Chen-Yu Lee,Tomas Pfister,Sercan Ö. Arık

Main category: cs.CV

TL;DR: VISTA是一个多代理系统,通过迭代循环自动改进视频生成质量,通过分解用户想法、选择最佳视频、专业代理评审和反思重写提示来实现持续优化。

  • Motivation: 现有文本到视频生成方法严重依赖精确的用户提示,而现有的测试时优化方法难以处理视频的多方面特性。
  • Method: VISTA采用多代理系统:首先将用户想法分解为结构化时间计划,生成后通过成对锦标赛选择最佳视频,然后由专注于视觉、音频和上下文保真度的三个专业代理进行评审,最后由推理代理综合反馈并重写提示进行下一轮生成。
  • Result: 在单场景和多场景视频生成实验中,VISTA持续改进视频质量和用户意图对齐,相比最先进基线方法获得高达60%的成对胜率。人类评估者在66.4%的比较中更偏好VISTA输出。
  • Conclusion: VISTA通过自主迭代改进机制,显著提升了文本到视频生成的质量和对齐度,在多场景视频生成中表现出色。

[80] Neuro-Symbolic Spatial Reasoning in Segmentation

Jiayi Lin,Jiabo Huang,Shaogang Gong

Main category: cs.CV

TL;DR: RelateSeg首次在开放词汇语义分割中引入神经符号空间推理,通过一阶逻辑公式强制空间关系约束,在多个基准数据集上达到最先进性能。

  • Motivation: 现有基于视觉语言模型的方法缺乏对场景中物体空间关系的理解,导致在开放词汇语义分割中性能受限。
  • Method: 提出RelateSeg方法,自动提取空间关系并编码为一阶逻辑公式,每个像素同时预测语义类别和空间伪类别,通过模糊逻辑松弛在深度网络中实现端到端学习。
  • Result: 在四个基准数据集上达到平均mIoU的最先进性能,特别在包含多个类别的图像上表现优势,仅引入单个辅助损失函数且无额外参数。
  • Conclusion: 神经符号空间推理在开放词汇语义分割中具有有效性,RelateSeg验证了空间关系约束对提升分割性能的重要作用。

[81] 3DPR: Single Image 3D Portrait Relight using Generative Priors

Pramod Rao,Abhimitra Meka,Xilong Zhou,Gereon Fox,Mallikarjun B R,Fangneng Zhan,Tim Weyrich,Bernd Bickel,Hanspeter Pfister,Wojciech Matusik,Thabo Beeler,Mohamed Elgharib,Marc Habermann,Christian Theobalt

Main category: cs.CV

TL;DR: 3DPR是一种基于图像的重新光照模型,利用从光舞台采集的多视角单光源图像学习的生成先验,结合预训练生成头模型的几何先验,实现高质量的人脸重新光照渲染。

  • Motivation: 传统图形学方法通过可微分渲染将输入图像分解为几何、材质和光照,但受限于底层模型的假设和近似。单目肖像图像重新光照是一个固有欠约束问题,需要更好的解决方案。
  • Method: 首先通过编码器将输入肖像嵌入预训练生成头模型的潜在空间,然后使用基于三平面的反射率网络合成高质量单光源图像,最后根据HDRI环境图组合生成物理准确的重新光照结果。
  • Result: 3DPR在定量和定性评估中优于先前方法,特别是在保持身份特征和捕捉光照效果(如镜面反射、自阴影和次表面散射)方面表现优异。
  • Conclusion: 该方法通过结合生成几何先验和光舞台训练的反射率模型,实现了高质量的人脸重新光照,即使使用相对较少的光舞台图像也能获得良好效果。

[82] Memory-SAM: Human-Prompt-Free Tongue Segmentation via Retrieval-to-Prompt

Joongwon Chae,Lihui Luo,Xi Yuan,Dongmei Yu,Zhenglin Chen,Lian Zhang,Peiwu Qin

Main category: cs.CV

TL;DR: Memory-SAM是一种无需训练、无需人工提示的舌像分割方法,通过DINOv3特征和FAISS检索从少量先验案例自动生成有效提示,指导SAM2进行分割。

  • Motivation: 传统监督模型需要大量标注数据,而SAM系列模型仍需人工提示。需要一种无需训练和人工干预的自动舌像分割方法。
  • Method: 使用DINOv3密集特征和FAISS检索构建小型记忆库,通过掩码约束对应关系将检索到的范例蒸馏为前景/背景点提示,指导SAM2进行分割。
  • Result: 在600张专家标注图像上测试,混合测试集mIoU达0.9863,优于FCN(0.8188)和检测器到框SAM基线(0.1839)。在真实场景下表现更佳。
  • Conclusion: 检索到提示的方法实现了数据高效、鲁棒的舌像不规则边界分割,代码已开源。

[83] BLIP3o-NEXT: Next Frontier of Native Image Generation

Jiuhai Chen,Le Xue,Zhiyang Xu,Xichen Pan,Shusheng Yang,Can Qin,An Yan,Honglu Zhou,Zeyuan Chen,Lifu Huang,Tianyi Zhou,Junnan Li,Silvio Savarese,Caiming Xiong,Ran Xu

Main category: cs.CV

TL;DR: BLIP3o-NEXT是一个完全开源的图像生成基础模型,统一了文本到图像生成和图像编辑功能,采用自回归+扩散架构,在多项基准测试中表现优异。

  • Motivation: 推进原生图像生成的前沿技术,将文本到图像生成和图像编辑统一在单一架构中,解决图像编辑这一具有挑战性的任务。
  • Method: 采用自回归+扩散混合架构:自回归模型首先生成基于多模态输入的离散图像标记,其隐藏状态作为扩散模型的调节信号来生成高保真图像。
  • Result: 在多个文本到图像和图像编辑基准测试中,BLIP3o-NEXT实现了优于现有模型的性能表现。
  • Conclusion: 架构选择对性能影响较小,强化学习能推进图像生成前沿,图像编辑仍具挑战性但可通过后训练和数据引擎改进,数据质量和规模是决定模型性能上限的关键因素。

[84] BiomedXPro: Prompt Optimization for Explainable Diagnosis with Biomedical Vision Language Models

Kaushitha Silva,Mansitha Eashwara,Sanduni Ubayasiri,Ruwan Tennakoon,Damayanthi Herath

Main category: cs.CV

TL;DR: BiomedXPro是一个进化框架,使用大型语言模型作为生物医学知识提取器和自适应优化器,自动生成多样化的可解释自然语言提示对用于疾病诊断,在数据稀缺的少样本设置中表现优异。

  • Motivation: 当前生物医学视觉语言模型的临床应用受到提示优化技术的限制,这些技术要么产生不可解释的潜在向量,要么产生单一文本提示,缺乏透明度且无法捕捉临床诊断的多方面性质,限制了在高风险环境中的可信度。
  • Method: 提出BiomedXPro进化框架,利用大型语言模型作为生物医学知识提取器和自适应优化器,自动生成多样化的可解释自然语言提示对。
  • Result: 在多个生物医学基准测试中,BiomedXPro始终优于最先进的提示调优方法,特别是在数据稀缺的少样本设置中。发现的提示与统计显著的临床特征之间存在强语义对齐。
  • Conclusion: 通过生成多样化的可解释提示集合,BiomedXPro为模型预测提供了可验证的基础,朝着开发更可信和临床对齐的AI系统迈出了关键一步。

[85] LightsOut: Diffusion-based Outpainting for Enhanced Lens Flare Removal

Shr-Ruei Tsai,Wei-Cheng Chang,Jie-Ying Lee,Chih-Hai Su,Yu-Lun Liu

Main category: cs.CV

TL;DR: LightsOut是一个基于扩散模型的图像外绘框架,专门用于增强单图像眩光去除(SIFR)方法,通过重建画面外的光源来解决现有方法在光源不完整或缺失时性能不佳的问题。

  • Motivation: 镜头眩光严重降低图像质量,影响关键计算机视觉任务。现有SIFR方法在画面外光源不完整或缺失时表现不佳,需要一种能重建这些光源的解决方案。
  • Method: 采用基于扩散模型的外绘框架,结合多任务回归模块和LoRA微调的扩散模型,确保生成真实且物理一致的外绘结果。
  • Result: 综合实验表明LightsOut能持续提升现有SIFR方法在挑战性场景下的性能,无需额外重新训练,可作为通用即插即用的预处理解决方案。
  • Conclusion: LightsOut是一个有效的扩散基外绘框架,能显著增强SIFR方法性能,特别是在处理不完整或缺失光源的场景时。

[86] Skyfall-GS: Synthesizing Immersive 3D Urban Scenes from Satellite Imagery

Jie-Ying Lee,Yi-Ruei Liu,Shr-Ruei Tsai,Wei-Cheng Chang,Chung-Ho Wu,Jiewen Chan,Zhenjun Zhao,Chieh Hubert Lin,Yu-Lun Liu

Main category: cs.CV

TL;DR: Skyfall-GS是一个无需3D标注的城市街区尺度3D场景生成框架,通过结合卫星图像和扩散模型,实现实时沉浸式3D探索。

  • Motivation: 解决大规模高质量3D城市场景合成的挑战,避免对昂贵3D扫描数据的依赖。
  • Method: 采用课程驱动的迭代优化策略,结合卫星图像提供粗略几何和扩散模型生成高质量外观,逐步提升几何完整性和照片级真实感纹理。
  • Result: 相比现有方法,Skyfall-GS在跨视角几何一致性和纹理真实感方面表现更优。
  • Conclusion: 该框架为大规模3D城市场景合成提供了一种无需3D标注的有效解决方案,支持实时沉浸式探索。

[87] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

Hanrong Ye,Chao-Han Huck Yang,Arushi Goel,Wei Huang,Ligeng Zhu,Yuanhang Su,Sean Lin,An-Chieh Cheng,Zhen Wan,Jinchuan Tian,Yuming Lou,Dong Yang,Zhijian Liu,Yukang Chen,Ambrish Dantrey,Ehsan Jahangiri,Sreyan Ghosh,Daguang Xu,Ehsan Hosseini-Asl,Danial Mohseni Taheri,Vidya Murali,Sifei Liu,Jason Lu,Oluwatobi Olabiyi,Frank Wang,Rafael Valle,Bryan Catanzaro,Andrew Tao,Song Han,Jan Kautz,Hongxu Yin,Pavlo Molchanov

Main category: cs.CV

TL;DR: OmniVinci是一个开源的多模态大语言模型,通过创新的模型架构和数据管道,在视觉和音频模态上实现了显著的性能提升,同时大幅减少了训练数据需求。

  • Motivation: 推进机器智能需要发展跨多模态的感知能力,模仿人类感知世界的方式。
  • Method: 提出了三个关键创新:OmniAlignNet用于增强视觉和音频嵌入在多模态潜在空间中的对齐;时间嵌入分组用于捕捉视觉和音频信号的相对时间对齐;约束旋转时间嵌入用于在多模态嵌入中编码绝对时间信息。还引入了生成2400万单模态和多模态对话的数据管道。
  • Result: OmniVinci在DailyOmni(跨模态理解)上比Qwen2.5-Omni高出19.05分,在MMAR(音频)上高出1.7分,在Video-MME(视觉)上高出3.9分,同时仅使用0.2T训练token,比Qwen2.5-Omni的1.2T减少了6倍。
  • Conclusion: 多模态在感知和推理中相互增强,OmniVinci在机器人、医疗AI和智能工厂等下游应用中展示了多模态优势。

cs.AI

[88] Context-aware deep learning using individualized prior information reduces false positives in disease risk prediction and longitudinal health assessment

Lavanya Umapathy,Patricia M Johnson,Tarun Dutt,Angela Tong,Madhur Nayan,Hersh Chandarana,Daniel K Sodickson

Main category: cs.AI

TL;DR: 开发了一个整合历史医疗数据的机器学习框架,通过结合患者既往就诊信息来改进健康监测,特别适用于就诊频率不规律且历史数据有限的情况。在28,342名前列腺癌患者的应用中,该模型显著降低了假阳性率。

  • Motivation: 医疗中的时间背景对于评估患者健康状况随时间变化至关重要,但既往就诊数据有限且频率不规律时,传统方法难以有效利用这些信息。
  • Method: 模型首先基于最近一次就诊的医疗数据估计疾病初始风险,然后利用先前收集的影像学和/或临床生物标志物信息来完善评估。
  • Result: 整合历史背景将假阳性转为真阴性,总体特异性提高同时保持高敏感性。整合最多三次既往影像检查信息时,假阳性率从51%降至33%;加入临床数据后进一步降至24%。预测五年内风险时,假阳性率从64%降至9%。
  • Conclusion: 随时间收集的信息提供了相关背景,可增强医疗风险预测的特异性。对于多种进展性疾病,通过背景信息充分降低假阳性率,可为低基线风险的大规模人群扩展纵向健康监测项目提供途径,实现早期检测和改善健康结果。

cs.RO

[89] VO-DP: Semantic-Geometric Adaptive Diffusion Policy for Vision-Only Robotic Manipulation

Zehao Ni,Yonghao He,Lingfeng Qian,Jilei Mao,Fa Fu,Wei Sui,Hu Su,Junran Peng,Zhipeng Wang,Bin He

Main category: cs.RO

TL;DR: 提出了一种仅使用视觉输入的单视图扩散策略学习方法VO-DP,通过预训练视觉基础模型融合语义和几何特征,在仿真和真实世界任务中表现优异,甚至超越基于点云的方法。

  • Motivation: 现有模仿学习方法大多依赖点云作为观测输入,缺乏对仅使用视觉输入的解决方案的深入探索,而纯视觉方法具有显著潜力。
  • Method: 利用VGGT的中间特征,结合DINOv2的语义特征和交替注意力块的几何特征,通过交叉注意力融合特征,并使用CNN进行空间压缩后输入策略头。
  • Result: 在仿真任务中平均成功率64.6%,与DP3的64.0%相当,远高于DP的34.8%;在真实世界任务中达到87.9%,显著优于DP3的67.5%和DP的11.2%。
  • Conclusion: VO-DP不仅显著优于视觉基线,在真实世界任务中甚至超越点云方法,且在多种条件下保持高度稳定性,同时开源了支持多机多GPU并行训练的训练库。

cs.LG

[90] Dissecting Mahalanobis: How Feature Geometry and Normalization Shape OOD Detection

Denis Janiak,Jakub Binkowski,Tomasz Kajdanowicz

Main category: cs.LG

TL;DR: 该论文研究了表示几何和归一化对基于马氏距离的OOD检测方法性能的影响,提出了径向缩放ℓ2归一化方法,通过控制特征空间的径向几何来显著提升OOD检测性能。

  • Motivation: 虽然马氏距离方法被广泛用于OOD检测,但表示几何和归一化对其性能的影响尚未被充分理解,这可能限制其下游应用。
  • Method: 进行了全面的实证研究,分析了不同图像基础模型、数据集和距离归一化方案;提出了径向缩放ℓ2归一化方法,引入可调参数直接控制特征空间的径向几何。
  • Result: 研究发现马氏距离方法并非普遍可靠;定义了数据表示的理想几何,证明光谱和内在维度指标能准确预测模型的OOD性能;提出的径向缩放ℓ2归一化能显著提升OOD检测性能。
  • Conclusion: 通过连接表示几何、归一化和OOD性能之间的差距,为设计更有效可靠的深度学习模型提供了新见解。

[91] An Empirical Study on MC Dropout--Based Uncertainty--Error Correlation in 2D Brain Tumor Segmentation

Saumya B

Main category: cs.LG

TL;DR: MC Dropout不确定性在脑肿瘤MRI分割中与分割错误的相关性较弱,特别是在边界区域,表明该方法在定位边界错误方面效果有限。

  • Motivation: 虽然MC Dropout被广泛用于估计模型不确定性,但其在识别分割错误(特别是肿瘤边界附近)方面的有效性尚不清楚。
  • Method: 使用U-Net在四种数据增强设置下进行2D脑肿瘤MRI分割,通过50次随机前向传递计算不确定性,并使用Pearson和Spearman系数与像素级错误进行相关性分析。
  • Result: 结果显示全局相关性较弱(r≈0.30-0.38),边界相关性可忽略不计(|r|<0.05)。虽然不同增强设置间的差异具有统计显著性(p<0.001),但缺乏实际意义。
  • Conclusion: MC Dropout不确定性在定位边界错误方面提供有限线索,强调了在医学图像分割中需要替代或混合不确定性估计方法。

[92] Poultry Farm Intelligence: An Integrated Multi-Sensor AI Platform for Enhanced Welfare and Productivity

Pieris Panagi,Savvas Karatsiolis,Kyriacos Mosphilis,Nicholas Hadjisavvas,Andreas Kamilaris,Nicolas Nicolaou,Efstathios Stavrakis,Vassilis Vassiliades

Main category: cs.LG

TL;DR: PoultryFI是一个模块化、经济实惠的AI平台,集成了六个AI模块,通过优化摄像头布局、视听监控、实时鸡蛋计数、预测分析和推荐系统,为中小型家禽养殖场提供持续监测和决策支持。

  • Motivation: 中小型家禽养殖场缺乏经济实惠的集成工具进行持续监测和决策,主要依赖手动、被动检查,难以同时满足生产力目标、动物福利和环境合规要求。
  • Method: 使用进化算法优化摄像头布局实现全覆盖;集成视听监控模块提取福利指标;边缘视觉模型实现实时鸡蛋计数;预测模型进行产量和饲料消耗预测;推荐模块结合天气预报指导环境调整。
  • Result: 现场试验显示在树莓派5上实现100%鸡蛋计数准确率,具有强大的异常检测能力和可靠的短期预测性能。
  • Conclusion: PoultryFI填补了孤立试点工具与可扩展农场智能之间的空白,使生产者能够主动保障动物福利和盈利能力。

cs.CL

[93] Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding

Sensen Gao,Shanshan Zhao,Xu Jiang,Lunhao Duan,Yong Xien Chng,Qing-Guo Chen,Weihua Luo,Kaifu Zhang,Jia-Wang Bian,Mingming Gong

Main category: cs.CL

TL;DR: 本文系统综述了多模态RAG在文档理解中的应用,提出了基于领域、检索模态和粒度的分类法,总结了关键数据集、基准和应用,并指出了效率、细粒度表示和鲁棒性方面的开放挑战。

  • Motivation: 当前文档理解方法存在局限性:OCR+LLM流水线会丢失结构细节,而原生多模态LLM在上下文建模方面存在困难。多模态RAG能够实现跨所有模态的整体检索和推理,从而解锁全面的文档智能。
  • Method: 提出基于领域、检索模态和粒度的分类法,综述涉及图结构和代理框架的进展,总结关键数据集、基准和应用。
  • Result: 系统梳理了多模态RAG在文档理解中的研究现状,建立了完整的分类体系,识别了该领域的关键技术进展和应用场景。
  • Conclusion: 多模态RAG是文档AI的重要发展方向,但仍面临效率、细粒度表示和鲁棒性等挑战,为未来研究提供了路线图。

[94] Paper2Web: Let's Make Your Paper Alive!

Yuhang Chen,Tianpeng Lv,Siyi Zhang,Yixiang Yin,Yao Wan,Philip S. Yu,Dongping Chen

Main category: cs.CL

TL;DR: Paper2Web是一个用于评估学术网页生成的基准数据集和多维评估框架,包含PWAgent自动管道,可将科学论文转换为交互式多媒体学术主页,显著优于现有基线方法。

  • Motivation: 当前学术项目网站在有效传播研究方面存在不足,现有方法(如直接LLM生成、模板或HTML转换)难以生成布局感知的交互式网站,且缺乏全面的评估套件。
  • Method: 提出Paper2Web基准数据集,包含基于规则的指标(连通性、完整性)和人类验证的LLM-as-a-Judge评估(交互性、美观性、信息性),以及PaperQuiz测量论文级知识保留。开发PWAgent自主管道,通过MCP工具迭代优化内容和布局。
  • Result: 实验表明PWAgent在学术网页生成任务中显著优于端到端基线方法(如基于模板的网页和arXiv/alphaXiv版本),同时保持低成本,达到了帕累托前沿。
  • Conclusion: Paper2Web为学术网页生成提供了全面的评估框架,PWAgent展示了在生成交互式多媒体学术主页方面的优越性能,为研究传播提供了有效解决方案。

cs.GR

[95] Fix False Transparency by Noise Guided Splatting

Aly El Hakie,Yiren Lu,Yu Yin,Michael Jenkins,Yehe Liu

Main category: cs.GR

TL;DR: 论文提出NGS方法解决3DGS中不透明物体表面虚假透明的问题,通过注入不透明噪声高斯来增强表面不透明度,并提出了基于透射率的量化评估指标。

  • Motivation: 3DGS重建的不透明物体表面经常出现虚假透明现象,导致在交互式观看时背景和内部图案不一致。这个问题源于3DGS优化过程中的病态问题,缺乏对表面不透明度的显式约束。
  • Method: 提出NGS策略,在训练过程中向物体体积内注入不透明噪声高斯,鼓励表面高斯采用更高的不透明度,仅需对现有溅射过程进行最小修改。
  • Result: 在多个数据集上的实验表明,NGS显著减少了虚假透明现象,同时在标准渲染指标上保持竞争力。
  • Conclusion: NGS方法有效解决了3DGS中的虚假透明问题,证明了其在减少这种伪影方面的整体有效性。

astro-ph.IM

[96] Neural Posterior Estimation for Cataloging Astronomical Images from the Legacy Survey of Space and Time

Yicun Duan,Xinyue Li,Camille Avestruz,Jeffrey Regier

Main category: astro-ph.IM

TL;DR: 该论文探讨了使用神经后验估计(NPE)方法进行天文目录构建,在LSST模拟数据上相比标准流程在多个指标上表现更优,并提供了校准良好的后验近似。

  • Motivation: 传统确定性目录构建方法缺乏统计一致性,而现有概率方法存在计算效率低、精度不足或无法处理多波段叠加图像等问题。LSST将产生海量天文图像数据,需要更有效的目录构建方法。
  • Method: 采用神经后验估计(NPE)这一贝叶斯推理方法,利用深度学习实现计算效率和精度的平衡。在DC2模拟天空调查数据集上进行评估。
  • Result: NPE在光源检测、通量测量、恒星/星系分类和星系形状测量等方面系统性地优于标准LSST流程,并提供校准良好的后验近似。
  • Conclusion: NPE在模拟数据中表现出巨大潜力,虽然在实际应用中可能存在模型失配问题,但有多种策略可以缓解其影响。

eess.IV

[97] Confidence-Weighted Semi-Supervised Learning for Skin Lesion Segmentation Using Hybrid CNN-Transformer Networks

Saqib Qamar

Main category: eess.IV

TL;DR: MIRA-U是一个半监督皮肤病变分割框架,结合不确定性感知的师生伪标签和混合CNN-Transformer架构,在有限标注数据下实现高性能分割。

  • Motivation: 皮肤病变自动分割对早期皮肤癌检测至关重要,但面临标注训练数据有限的问题。
  • Method: 使用预训练的教师网络通过掩码图像建模生成置信度加权的软伪标签,指导具有交叉注意力跳跃连接的U型CNN-Transformer学生网络。
  • Result: 在ISIC-2016和PH2数据集上,仅使用50%标注数据就达到DSC 0.9153和IoU 0.8552的优异性能。
  • Conclusion: 该方法在低标注情况下超越了基于重建和纯CNN的基线方法,特别改善了伪标签质量和边界分割效果。

[98] SANR: Scene-Aware Neural Representation for Light Field Image Compression with Rate-Distortion Optimization

Gai Zhang,Xinfeng Zhang,Lv Tang,Hongyu An,Li Zhang,Qingming Huang

Main category: eess.IV

TL;DR: 提出了SANR框架,一种用于光场图像压缩的场景感知神经表示方法,通过端到端率失真优化显著提升压缩效率。

  • Motivation: 光场图像的高维特性导致数据量巨大,现有神经表示方法缺乏对场景结构的显式建模,且通常没有端到端的率失真优化,限制了压缩效率。
  • Method: 引入分层场景建模块,利用多尺度潜在码捕获内在场景结构;首次将熵约束量化感知训练集成到神经表示压缩中,实现端到端率失真优化。
  • Result: 实验结果表明SANR在率失真性能上显著优于现有技术,相比HEVC实现了65.62%的BD-rate节省。
  • Conclusion: SANR通过场景感知建模和端到端率失真优化,为光场图像压缩提供了高效的解决方案。

stat.ML

[99] RankSEG-RMA: An Efficient Segmentation Algorithm via Reciprocal Moment Approximation

Zixun Wang,Ben Dai

Main category: stat.ML

TL;DR: 提出RankSEG-RMA方法,通过互反矩近似降低RankSEG的计算复杂度,从O(d log d)和O(d²)降至O(d),同时保持性能,并扩展适用于非重叠分割场景。

  • Motivation: 现有语义分割方法通常使用argmax或阈值处理,不直接优化分割指标,导致结果不一致或次优。RankSEG虽然能直接优化Dice和IoU指标,但存在计算复杂度高和仅适用于重叠分割的限制。
  • Method: 使用互反矩近似(RMA)改进RankSEG,提出RankSEG-RMA,降低计算复杂度,并开发像素级评分函数以支持非重叠分割设置。
  • Result: RankSEG-RMA将RankDice和RankIoU的复杂度分别从O(d log d)和O(d²)降至O(d),在LiTS数据集上预测时间从16.33秒减少到接近argmax规则的0.01秒,同时保持可比性能。
  • Conclusion: RankSEG-RMA成功解决了RankSEG的计算复杂度和适用性限制,为直接优化分割指标提供了高效实用的解决方案。