Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] WorldVQA: Measuring Atomic World Knowledge in Multimodal Large Language Models
Runjie Zhou,Youbo Shao,Haoyu Lu,Bowei Xing,Tongtong Bai,Yujie Chen,Jie Zhao,Lin Sui,Haotian Yao,Zijia Zhao,Hao Yang,Haoning Wu,Zaida Zhou,Jinguo Zhu,Zhiqi Huang,Yiping Bao,Yangyang Liu,Y. Charles,Xinyu Zhou
Main category: cs.CV
TL;DR: WorldVQA是一个评估多模态大语言模型原子视觉世界知识的基准,通过解耦视觉知识检索与推理能力,严格衡量模型记忆的视觉事实。
- Motivation: 当前评估方法往往将视觉知识检索与推理能力混为一谈,无法准确衡量模型真正记忆的视觉事实。需要建立一个能够严格评估模型视觉事实性、百科全书广度和幻觉率的基准。
- Method: 设计WorldVQA基准,通过解耦视觉知识检索与推理能力,专注于评估模型的原子能力:在分层分类体系中对视觉实体进行定位和命名,涵盖从常见头部类别到长尾稀有实体的范围。
- Result: WorldVQA基准能够严格测试模型的视觉事实性,为评估当前和下一代前沿模型的百科全书广度和幻觉率建立标准。
- Conclusion: WorldVQA作为一个严谨的基准,能够准确评估多模态大语言模型的原子视觉世界知识,为衡量模型视觉事实性提供标准化工具。
[2] AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning Process
Xintong Zhang,Xiaowen Zhang,Jongrong Wu,Zhi Gao,Shilin Yan,Zhenxin Diao,Kunpeng Gao,Xuanyan Chen,Yuwei Wu,Yunde Jia,Qing Li
Main category: cs.CV
TL;DR: 提出AdaptMMBench基准,用于评估视觉语言模型在多模态推理中的自适应模式选择能力,通过MCC指标衡量选择合理性,并支持多维度过程评估。
- Motivation: 现有评估方法依赖静态难度标签和简单指标,无法捕捉相对于不同模型能力的动态难度特性,掩盖了自适应模式选择与一般性能的区别,且缺乏细粒度过程分析。
- Method: 构建AdaptMMBench基准,涵盖五个领域(现实世界、OCR、GUI、知识、数学),包含直接感知和复杂推理任务。使用MCC指标评估不同推理模式的选择合理性,基于模型能力边界动态识别任务难度,并支持关键步骤覆盖、工具有效性、计算效率等多维度过程评估。
- Result: 评估发现:自适应模式选择能力随模型容量扩展,但与最终准确率显著解耦;关键步骤覆盖与性能一致,但工具有效性在不同模型架构间高度不一致。
- Conclusion: AdaptMMBench为自适应多模态推理提供了更全面的评估框架,揭示了自适应模式选择与性能之间的复杂关系,强调了过程评估的重要性。
[3] End-to-end reconstruction of OCT optical properties and speckle-reduced structural intensity via physics-based learning
Jinglun Yu,Yaning Wang,Wenhan Guo,Yuan Gao,Yu Sun,Jin U. Kang
Main category: cs.CV
TL;DR: 提出基于深度学习的正则化端到端框架,联合重建光学参数图和去散斑OCT结构强度,用于层可视化
- Motivation: OCT逆散射问题旨在恢复结构图像和内在组织光学特性(折射率、散射系数、各向异性),但由于衰减、散斑噪声和参数间强耦合而具有挑战性
- Method: 提出正则化端到端深度学习框架,结合基于物理的OCT前向模型,从估计参数生成预测信号,为参数恢复和伪影抑制提供物理一致监督
- Result: 在合成角膜OCT数据集上的实验表明,该方法在噪声下能稳健恢复光学图,提高分辨率,增强结构保真度
- Conclusion: 该方法实现了定量多参数组织表征,并突显了将物理信息建模与深度学习相结合在计算OCT中的优势
[4] SVD-ViT: Does SVD Make Vision Transformers Attend More to the Foreground?
Haruhiko Murata,Kazuhiro Hotta
Main category: cs.CV
TL;DR: SVD-ViT利用奇异值分解增强Vision Transformer的前景特征学习,通过三个组件抑制背景噪声,提升分类性能。
- Motivation: Vision Transformers作为大规模基础模型,由于自注意力机制全局操作,缺乏明确区分前景与背景的机制,导致可能学习不必要的背景特征和伪影,从而降低分类性能。
- Method: 提出SVD-ViT方法,包含三个组件:SPC模块、SSVA和ID-RSVD。利用奇异值分解提取和聚合捕获物体前景信息的奇异向量,抑制任务无关的背景噪声和伪影因素。
- Result: 实验结果表明,该方法提高了分类准确率,有效学习了信息丰富的前景表示,同时减少了背景噪声的影响。
- Conclusion: SVD-ViT通过奇异值分解机制增强了Vision Transformer的前景特征学习能力,为解决ViT中背景噪声问题提供了一种有效方案。
[5] LmPT: Conditional Point Transformer for Anatomical Landmark Detection on 3D Point Clouds
Matteo Bastico,Pierre Onghena,David Ryckelynck,Beatriz Marcotegui,Santiago Velasco-Forero,Laurent Corté,Caroline Robine--Decourcelle,Etienne Decencière
Main category: cs.CV
TL;DR: 提出Landmark Point Transformer (LmPT),一种基于点云的自动解剖标志检测方法,能够跨物种学习,在人类和狗股骨上验证了其泛化能力。
- Motivation: 传统手动标注解剖标志耗时且存在观察者间差异,基于规则的方法通常针对特定几何形状或有限标志集。需要一种能够跨物种学习的自动解剖标志检测方法。
- Method: 提出Landmark Point Transformer (LmPT),一种基于点云的解剖标志检测方法。模型包含条件机制,能够适应不同输入类型,实现跨物种学习。将解剖表面表示为点云这种轻量级空间坐标结构。
- Result: 在人类和新标注的狗股骨上进行评估,证明了方法在跨物种间的泛化能力和有效性。代码和狗股骨数据集将公开。
- Conclusion: LmPT是一种有效的跨物种解剖标志检测方法,能够利用不同物种的同源骨骼进行转化研究,解决了现有方法的局限性。
[6] Self-Supervised Uncalibrated Multi-View Video Anonymization in the Operating Room
Keqi Chen,Vinkle Srivastav,Armine Vardazaryan,Cindy Rolland,Didier Mutter,Nicolas Padoy
Main category: cs.CV
TL;DR: 提出自监督多视角视频匿名化框架,无需标注或相机标定,通过检索假阴性检测和自监督域适应实现手术室隐私保护
- Motivation: 手术室视频隐私保护需要精确定位每个人,现有方法存在两个可扩展性瓶颈:1)需要新临床站点的手动标注;2)多相机设置需要重新标定
- Method: 自监督多视角框架包含全身人员检测和姿态估计,通过低阈值检测收集候选,利用跟踪和未标定多视角关联检索假阴性,作为伪标签迭代微调检测器
- Result: 在模拟和真实手术数据集上达到超过97%的召回率,使用伪标签训练实时检测器获得可比性能
- Conclusion: 提出的自监督方法有效解决了手术室视频匿名化的可扩展性问题,无需手动标注或相机标定,具有实际应用价值
[7] ViThinker: Active Vision-Language Reasoning via Dynamic Perceptual Querying
Weihang You,Qingchan Zhu,David Liu,Yi Pan,Geng Yuan,Hanqi Jiang
Main category: cs.CV
TL;DR: ViThinker框架让视觉语言模型能主动生成查询令牌来按需合成专家对齐的视觉特征,通过两阶段课程学习实现主动感知,在视觉推理任务中优于被动方法。
- Motivation: 现有CoT方法在视觉语言模型中表现不佳,因为过早的视觉到文本转换丢失了几何和空间布局等连续信息。现有增强方法仍是被动处理预计算输入,而非主动寻找任务相关细节。
- Method: 提出ViThinker框架:1) 训练时将视觉专家能力内化到模型参数中;2) 通过两阶段课程学习:先蒸馏冻结专家到参数,再通过稀疏惩罚学习任务驱动的查询;3) 推理时生成决策令牌触发专家对齐的视觉特征合成,无需外部工具调用。
- Result: 在多个视觉中心基准测试中显示一致改进,验证了主动查询生成在感知基础和推理准确性上都优于被动方法。
- Conclusion: ViThinker通过主动感知和生成式心理模拟,使视觉语言模型能够发现每个推理步骤的最小充分感知,实现了更好的视觉推理性能。
[8] DoubleTake: Contrastive Reasoning for Faithful Decision-Making in Medical Imaging
Daivik Patel,Shrenik Patel
Main category: cs.CV
TL;DR: 提出对比性、文档感知的医学图像参考选择框架,通过平衡视觉相关性、嵌入多样性和来源可追溯性构建紧凑证据集,结合反事实对比推理提升医学图像决策准确率
- Motivation: 医学影像决策需要基于细微视觉差异进行推理,但现有方法依赖最近邻检索,返回冗余证据并强化单一假设,无法有效区分混淆病症
- Method: 1) 引入对比性、文档感知的参考选择框架,使用ROCO嵌入和元数据平衡视觉相关性、嵌入多样性和来源可追溯性;2) 提出反事实对比推理框架,执行结构化成对视觉比较,使用基于边界的决策规则进行证据聚合并支持忠实弃权
- Result: 在MediConfusion基准测试中达到最先进性能,相对先前方法提升集合级准确率近15%,减少混淆并提高个体准确率
- Conclusion: 通过对比性证据集和结构化推理框架,显著改善了医学图像决策的准确性和可靠性,为医学图像推理提供了系统化的参考选择协议
[9] FaceLinkGen: Rethinking Identity Leakage in Privacy-Preserving Face Recognition with Identity Extraction
Wenqi Guo,Shan Du
Main category: cs.CV
TL;DR: 现有基于变换的隐私保护人脸识别系统主要关注像素级重建防御,但FaceLinkGen攻击证明这种评估方法存在根本缺陷,攻击者无需恢复原始像素就能实现98.5%的身份匹配和96%的人脸再生。
- Motivation: 当前隐私保护人脸识别系统的评估主要依赖PSNR和SSIM等像素级重建指标,但作者认为这种重建中心的隐私观存在根本缺陷,无法反映真实的隐私风险。
- Method: 提出FaceLinkGen攻击方法,能够直接从保护后的模板中执行身份链接/匹配和人脸再生,无需恢复原始像素。在三种最新的PPFR系统上测试,包括近零知识场景。
- Result: 在三种PPFR系统上,FaceLinkGen达到超过98.5%的匹配准确率和96%以上的再生成功率;在近零知识设置下仍超过92%匹配和94%再生成功率。
- Conclusion: 像素失真指标与真实隐私之间存在结构性差距,视觉混淆无法保护身份信息,身份信息对攻击者和不可信服务提供商都广泛暴露。
[10] A Multi-scale Linear-time Encoder for Whole-Slide Image Analysis
Jagan Mohan Reddy Dwarampudi,Joshua Wong,Hien Van Nguyen,Tania Banerjee
Main category: cs.CV
TL;DR: MARBLE是首个基于Mamba的多状态多实例学习框架,用于全切片图像分析,通过并行处理多尺度信息在线性时间内捕获跨尺度依赖,相比现有方法显著提升性能。
- Motivation: 全切片图像分析面临千兆像素分辨率和层次化放大倍率的挑战,现有MIL方法通常只在单一尺度操作,而基于Transformer的方法存在二次注意力计算成本问题。
- Method: MARBLE采用纯Mamba架构,并行处理多个放大倍率,在线性时间状态空间模型中集成从粗到细的推理,以最小参数开销高效捕获跨尺度依赖。
- Result: 在五个公共数据集上的实验显示,MARBLE在AUC上提升高达6.9%,准确率提升20.3%,C-index提升2.3%,证明了其高效性和泛化能力。
- Conclusion: MARBLE为多尺度WSI分析提供了一个可扩展、模块化的替代注意力架构的方案,建立了高效且泛化性强的多状态MIL框架。
[11] SRA-Seg: Synthetic to Real Alignment for Semi-Supervised Medical Image Segmentation
OFM Riaz Rahman Aranya,Kevin Desai
Main category: cs.CV
TL;DR: SRA-Seg通过特征对齐解决合成数据与真实医学图像之间的语义差距,使用DINOv2嵌入的相似性对齐损失和软边缘混合技术,在仅10%标注真实数据下达到与使用真实未标注数据相当的分割性能。
- Motivation: 合成数据虽然视觉逼真,但由于与真实医学图像存在于不同的语义特征空间,存在领域差距,导致当前半监督学习方法无法有效利用合成数据提升分割性能。
- Method: 提出SRA-Seg框架,包含:1) 使用冻结DINOv2嵌入的相似性对齐损失,将合成特征拉向语义空间中最近的真实对应特征;2) 软边缘混合技术创建平滑解剖过渡和连续标签;3) 通过EMA教师模型为合成图像生成伪标签;4) 应用考虑混合区域不确定性的软分割损失。
- Result: 在仅使用10%标注真实数据和90%合成未标注数据的情况下,SRA-Seg在ACDC数据集上达到89.34% Dice分数,在FIVES数据集上达到84.42% Dice分数,显著优于现有半监督方法,并与使用真实未标注数据的方法性能相当。
- Conclusion: SRA-Seg通过显式对齐合成与真实特征分布,有效解决了合成数据在医学图像分割中的领域差距问题,为利用合成数据提升分割性能提供了有效框架。
[12] Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning
Yihong Huang,Fei Ma,Yihua Shao,Jingcai Guo,Zitong Yu,Laizhong Cui,Qi Tian
Main category: cs.CV
TL;DR: Nüwa是一个两阶段视觉令牌剪枝框架,通过保留全局空间锚点和文本引导剪枝,在视觉语言模型中同时提升VQA和VG任务的性能。
- Motivation: 现有视觉令牌剪枝方法在视觉问答(VQA)上表现良好,但在视觉定位(VG)任务上性能大幅下降。研究发现现有方法基于全局语义相似性和注意力分数的策略会丢失全局空间参考框架,而该框架源自令牌位置信息的交互。
- Method: 提出Nüwa两阶段剪枝框架:第一阶段在视觉编码器后,采用分离、对齐和聚合三个操作(受群体智能算法启发)来保留信息丰富的全局空间锚点;第二阶段在LLM内部,执行文本引导剪枝以保留任务相关的视觉令牌。
- Result: 在多个VQA基准测试中达到SOTA性能(从94%提升到95%),在视觉定位任务上取得显著改进(从7%提升到47%)。
- Conclusion: Nüwa通过保留全局空间参考框架和任务相关视觉令牌,有效解决了现有剪枝方法在VG任务上的性能下降问题,实现了视觉语言模型的高效加速同时保持空间完整性。
[13] TRACE: Temporal Radiology with Anatomical Change Explanation for Grounded X-ray Report Generation
OFM Riaz Rahman Aranya,Kevin Desai
Main category: cs.CV
TL;DR: TRACE是首个结合时间比较、变化分类和空间定位的模型,用于胸部X光片的时间变化检测,能生成自然语言描述变化并定位病灶位置。
- Motivation: 胸部X光片的时间比较在临床放射学中至关重要,用于检测疾病进展、治疗反应和新发现。现有视觉语言模型仅支持单图像报告生成和视觉定位,缺乏结合这两种能力进行时间变化检测的方法。
- Method: TRACE模型联合学习时间比较和空间定位,给定先前的和当前的胸部X光片,模型生成间隔变化的自然语言描述(恶化、改善、稳定),同时用边界框坐标定位每个发现。
- Result: TRACE在空间定位方面表现出色,定位准确率超过90%,为这一具有挑战性的新任务奠定了基础。消融研究发现了一个新兴能力:只有当时间比较和空间定位联合学习时,变化检测才会出现,单独学习任一项都无法实现有意义的变化检测。
- Conclusion: TRACE是首个结合时间比较、变化分类和空间定位的模型,为胸部X光片的时间变化检测提供了新方法。研究发现定位为时间推理提供了必要的空间注意力机制,表明联合学习对变化检测至关重要。
[14] Dynamic High-frequency Convolution for Infrared Small Target Detection
Ruojing Li,Chao Xiao,Qian Yin,Wei An,Nuo Chen,Xinyi Ying,Miao Li,Yingqian Wang
Main category: cs.CV
TL;DR: 提出动态高频卷积(DHiF)用于红外小目标检测,通过生成动态局部滤波器组来区分目标与其他高频分量
- Motivation: 红外小目标检测面临挑战,因为目标与其他高频分量(如亮角、破碎云等)难以区分。现有深度学习方法忽视了对不同高频分量的显式建模和判别性表示学习
- Method: 提出动态高频卷积(DHiF),将判别性建模过程转化为动态局部滤波器组的生成。DHiF对高频分量敏感,其动态参数根据傅里叶变换特性在零中心范围内对称调整,结合标准卷积自适应处理不同高频区域并捕获其灰度变化特征
- Result: 在真实场景数据集上的广泛实验表明,DHiF在不同红外小目标检测网络中均表现出优越的检测性能,相比其他先进卷积操作有明显提升
- Conclusion: DHiF可作为标准卷积的即插即用替代,在不显著降低计算效率的情况下提升红外小目标检测网络的判别性表示学习能力
[15] Fisheye Stereo Vision: Depth and Range Error
Leaf Jiang,Matthew Holzel,Bernhard Kaplan,Hsiou-Yuan Liu,Sabyasachi Paul,Karen Rankin,Piotr Swierczynski
Main category: cs.CV
TL;DR: 推导了鱼眼立体视觉系统深度和距离误差的解析表达式,特别考虑了大角度下的精度问题
- Motivation: 鱼眼立体视觉系统在大角度观测时精度会下降,需要建立准确的误差模型来评估系统性能
- Method: 通过理论推导,建立了深度和距离误差与物体距离的函数关系,特别关注大角度情况下的精度分析
- Result: 得到了鱼眼立体视觉系统误差的解析表达式,能够准确描述误差随距离和角度的变化规律
- Conclusion: 该解析模型为鱼眼立体视觉系统的性能评估和优化提供了理论基础,特别适用于大角度观测场景
[16] SceneLinker: Compositional 3D Scene Generation via Semantic Scene Graph from RGB Sequences
Seok-Young Kim,Dooyoung Kim,Woojin Cho,Hail Song,Suji Kang,Woontack Woo
Main category: cs.CV
TL;DR: SceneLinker是一个通过语义场景图从RGB序列生成组合式3D场景的新框架,利用图网络和变分自编码器实现与真实世界布局对齐的3D场景生成。
- Motivation: 为了根据每个用户的空间自适应地体验混合现实内容,需要生成反映真实世界布局的3D场景。现有方法难以充分捕捉物体间的上下文关系,或主要关注形状合成,难以生成与物体排列对齐的3D场景。
- Method: 设计了具有交叉检查特征注意力的图网络用于场景图预测,构建了图变分自编码器(graph-VAE),包含用于3D场景生成的联合形状和布局模块。
- Result: 在3RScan/3DSSG和SG-FRONT数据集上的实验表明,该方法在定量和定性评估中都优于现有方法,即使在复杂室内环境和具有挑战性的场景图约束下也表现出色。
- Conclusion: 该工作使用户能够通过场景图从其物理环境生成一致的3D空间,从而创建空间混合现实内容。
[17] Aligning Forest and Trees in Images and Long Captions for Visually Grounded Understanding
Byeongju Woo,Zilin Wang,Byeonghyun Pak,Sangwoo Mo,Stella X. Yu
Main category: cs.CV
TL;DR: CAFT提出分层图像-文本表示学习框架,通过跨域对齐视觉和文本的层次结构,无需像素级监督即可实现细粒度图像-文本匹配,在长文本检索任务上达到SOTA。
- Motivation: 现有视觉语言模型(如CLIP)将图像和文本作为整体对齐,难以处理长文本描述。细粒度视觉语言理解需要层次化语义,但语言层次(语法/语义)与视觉组织不匹配,纯视觉层次又倾向于将场景分割为外观驱动的部分而缺乏语义焦点。
- Method: 提出CAFT框架:1)耦合从细到粗的视觉编码器与分层文本Transformer;2)使用分层对齐损失,同时匹配整体图像-文本对并偏置区域-句子对应关系;3)粗粒度语义从细粒度证据构建而非脱离局部基础的聚合。
- Result: 在3000万图像-文本对上进行训练,在6个长文本检索基准上达到最先进性能,并表现出强大的扩展性。实验表明分层跨域对齐能够在不使用显式区域级监督的情况下产生细粒度、视觉基础的图像-文本表示。
- Conclusion: CAFT通过跨域层次对齐实现了细粒度视觉语言理解,解决了长文本处理难题,证明了无需像素级监督即可学习视觉基础的分层表示。
[18] SharpTimeGS: Sharp and Stable Dynamic Gaussian Splatting via Lifespan Modulation
Zhanfeng Liao,Jiajun Zhang,Hanzhang Tu,Zhixi Wang,Yunqi Gao,Hongwen Zhang,Yebin Liu
Main category: cs.CV
TL;DR: SharpTimeGS是一个基于4D高斯表示的寿命感知框架,通过可学习的寿命参数统一建模静态和动态区域,实现实时高质量4D重建和视图合成。
- Motivation: 现有基于高斯表示的方法在平衡长期静态区域和短期动态区域的建模与优化方面存在困难,需要一种能够统一处理静态和动态区域的时域自适应表示方法。
- Method: 引入可学习的寿命参数,将时间可见性从高斯衰减重新定义为平顶轮廓;寿命参数调制每个基元的运动,解耦运动幅度与时间持续时间;设计寿命-速度感知的致密化策略,平衡静态和动态区域的优化。
- Result: 在多个基准测试中达到最先进性能,支持在单个RTX 4090上以100 FPS实现4K分辨率的实时渲染。
- Conclusion: SharpTimeGS通过寿命感知的4D高斯框架,有效统一建模静态和动态区域,在保持动态保真度的同时提高长期稳定性,实现了高质量的实时4D重建和视图合成。
[19] Video-OPD: Efficient Post-Training of Multimodal Large Language Models for Temporal Video Grounding via On-Policy Distillation
Jiaze Li,Hao Yin,Haoran Xu,Boshen Xu,Wenhui Tan,Zewen He,Jianzhong Ju,Zhenbo Luo,Jian Luan
Main category: cs.CV
TL;DR: Video-OPD:一种基于策略蒸馏的高效视频时序定位后训练框架,通过教师模型提供密集的token级监督,结合TVDF课程学习策略,在保持策略对齐的同时显著提升训练效率和性能。
- Motivation: 现有基于GRPO的强化学习方法在视频时序定位任务中存在两个主要问题:1)稀疏奖励信号导致训练效率低下;2)计算开销大。需要一种既能保持策略对齐(缓解分布偏移)又能提供密集监督信号的高效后训练方法。
- Method: 提出Video-OPD框架:1)直接从当前策略采样轨迹,保持训练和推理分布对齐;2)使用前沿教师模型通过反向KL散度提供密集的token级监督;3)引入TVDF课程学习策略,迭代优先选择教师可靠且对学生信息量最大的轨迹。
- Result: 实验结果表明,Video-OPD在性能上持续优于GRPO方法,同时实现了显著更快的收敛速度和更低的计算成本,证明了策略蒸馏作为传统强化学习替代方案的有效性。
- Conclusion: Video-OPD成功地将稀疏的回合级反馈转化为细粒度的逐步学习信号,在保持关键策略对齐特性的同时,为视频时序定位任务提供了一种高效的后训练范式,推动了策略蒸馏在该领域的应用。
[20] VOILA: Value-of-Information Guided Fidelity Selection for Cost-Aware Multimodal Question Answering
Rahul Atul Bhope,K. R. Jayaram,Vinod Muthusamy,Ritesh Kumar,Vatche Isahagian,Nalini Venkatasubramanian
Main category: cs.CV
TL;DR: VOILA是一个基于信息价值驱动的自适应保真度选择框架,用于视觉问答任务,通过预检索选择最优视觉输入保真度,在保持90-95%准确率的同时减少50-60%的计算成本。
- Motivation: 当前多模态视觉语言系统通常使用固定保真度的视觉输入,导致高成本的检索和处理开销。需要一种能够在资源约束下优化多模态推理的方法,根据查询需求动态选择适当的视觉输入保真度。
- Method: 采用两阶段流水线:1) 梯度提升回归器仅基于问题特征估计每个保真度下的正确率可能性;2) 等渗校准器精炼这些概率以进行可靠决策。系统选择最小成本保真度,最大化给定预测准确率和检索成本的期望效用。
- Result: 在三个部署场景、五个数据集(VQA-v2, GQA, TextVQA, LoCoMo, FloodNet)和六个7B-235B参数的视觉语言模型上评估,VOILA一致实现50-60%的成本降低,同时保持90-95%的全分辨率准确率。
- Conclusion: 预检索保真度选择对于在资源约束下优化多模态推理至关重要,VOILA框架展示了在不同查询类型和模型架构中实现显著成本节省同时保持高准确性的能力。
[21] Thinking inside the Convolution for Image Inpainting: Reconstructing Texture via Structure under Global and Local Side
Haipeng Liu,Yang Wang,Biao Qian,Yong Rui,Meng Wang
Main category: cs.CV
TL;DR: 该论文提出了一种通过结构-纹理特征图互指导来缓解卷积下采样中信息损失的图像修复方法
- Motivation: 现有图像修复方法在卷积下采样过程中会不可避免地丢失结构和纹理特征信息,导致上采样恢复效果不理想。论文旨在探索结构和纹理特征图能否相互帮助来缓解这种信息损失。
- Method: 采用统计归一化和去归一化策略,在卷积下采样过程中利用结构和纹理特征图进行重建指导,让两者相互辅助以减少信息损失。
- Result: 实验结果表明该方法在256×256和512×512等不同分辨率图像上均优于现有技术,特别是将所有编码器替换为该方法时效果更佳。
- Conclusion: 通过结构和纹理特征图的互指导机制可以有效缓解卷积下采样中的信息损失,提升图像修复质量。
[22] A Vision-Based Analysis of Congestion Pricing in New York City
Mehmet Kerem Turkcan,Jhonatan Tavori,Javad Ghaderi,Gil Zussman,Zoran Kostic,Andrew Smyth
Main category: cs.CV
TL;DR: 通过计算机视觉分析纽约市900多个交通摄像头数据,评估拥堵收费政策实施前后的交通模式变化
- Motivation: 评估纽约市拥堵收费政策对交通模式的实际影响,为城市交通管理提供数据支持
- Method: 建立计算机视觉处理流水线,分析900多个分布在曼哈顿和纽约市的交通摄像头数据,对比2024年11月至2026年1月(包括2025年1月政策实施前后)的交通模式
- Result: 建立了基准交通模式,识别出监测区域内车辆密度的系统性变化
- Conclusion: 通过大规模交通摄像头数据分析,量化了拥堵收费政策对纽约市交通流量的影响
[23] MUSE: A Multi-agent Framework for Unconstrained Story Envisioning via Closed-Loop Cognitive Orchestration
Wenzhang Sun,Zhenyu Wang,Zhangchi Hu,Chunfeng Wang,Hao Li,Wei Chen
Main category: cs.CV
TL;DR: MUSE是一个多智能体框架,通过规划-执行-验证-修订的闭环机制,从简短用户提示生成长篇音视频故事,解决了长序列生成中的语义漂移和身份不一致问题。
- Motivation: 现有方法在从简短用户提示生成长篇音视频故事时存在意图-执行差距,容易导致语义漂移和身份不一致,特别是在长序列生成中。
- Method: 将故事讲述建模为闭环约束执行问题,提出MUSE多智能体框架,通过迭代的规划-执行-验证-修订循环协调生成,将叙事意图转化为对身份、空间构成和时间连续性的显式控制。
- Result: MUSE在长篇叙事连贯性、跨模态身份一致性和电影质量方面显著优于代表性基线方法。
- Conclusion: 通过闭环约束执行和多模态反馈,MUSE能够有效解决长序列音视频故事生成中的意图-执行差距问题,提高生成质量。
[24] Bongards at the Boundary of Perception and Reasoning: Programs or Language?
Cassidy Langenfeld,Claas Beger,Gloria Geng,Wasu Top Piriyakulkij,Keya Hu,Yewen Pu,Kevin Ellis
Main category: cs.CV
TL;DR: 本文提出了一种神经符号方法来解决经典的Bongard视觉推理问题,结合LLMs生成程序化规则表示和贝叶斯优化进行参数拟合。
- Motivation: 虽然视觉语言模型在日常视觉任务上取得进展,但人类能在全新情境中运用视觉推理能力,而Bongard问题正是测试这种能力的经典挑战。现有模型难以应对这种抽象推理任务。
- Method: 采用神经符号方法:给定Bongard问题的假设解规则,利用LLMs生成参数化的程序化规则表示,然后使用贝叶斯优化进行参数拟合。
- Result: 方法在两种任务上评估:1) 给定真实规则对Bongard问题图像进行分类;2) 从零开始解决问题。
- Conclusion: 提出的神经符号方法能够有效解决Bongard这类需要抽象视觉推理的挑战性问题,结合了LLMs的生成能力和贝叶斯优化的参数优化优势。
[25] HP-GAN: Harnessing pretrained networks for GAN improvement with FakeTwins and discriminator consistency
Geonhui Son,Jeong Ryong Lee,Dosik Hwang
Main category: cs.CV
TL;DR: HP-GAN提出了一种利用预训练网络和自监督学习增强GAN性能的方法,通过FakeTwins和判别器一致性机制,在17个数据集上显著提升了图像多样性和质量。
- Motivation: 现有方法主要利用预训练网络计算感知损失或特征空间,但未能充分利用神经网络先验。本文旨在通过创新的自监督学习技术和判别器一致性机制,更有效地利用预训练网络提升GAN性能。
- Method: 提出HP-GAN方法,包含两个核心策略:1) FakeTwins:利用预训练网络作为编码器计算自监督损失,通过生成图像训练生成器;2) 判别器一致性:在评估CNN和ViT特征网络的判别器之间建立一致性机制,促进协同学习并增强训练鲁棒性。
- Result: 在17个数据集(包括大规模、小规模和有限数据场景,涵盖多种图像域)上的广泛评估表明,HP-GAN在Fréchet Inception Distance (FID)指标上持续优于当前最先进方法,在图像多样性和质量方面取得显著改进。
- Conclusion: HP-GAN通过有效利用神经网络先验,结合自监督学习和判别器一致性机制,显著提升了GAN的图像生成质量,为利用预训练网络增强生成模型提供了新思路。
[26] IVC-Prune: Revealing the Implicit Visual Coordinates in LVLMs for Vision Token Pruning
Zhichao Sun,Yidong Ma,Gang Liu,Yibo Chen,Xu Tang,Yao Hu,Yongchao Xu
Main category: cs.CV
TL;DR: IVC-Prune:一种无需训练、提示感知的视觉令牌剪枝方法,通过保留隐式视觉坐标令牌和语义相关前景令牌,在减少约50%视觉令牌的同时保持≥99%的原始性能。
- Motivation: 大型视觉语言模型在处理高分辨率视觉输入时推理成本过高,现有视觉令牌剪枝方法主要关注语义相关性,但会丢弃对空间推理至关重要的令牌。
- Method: 提出IVC-Prune方法:1) 通过分析RoPE的数学特性识别隐式视觉坐标令牌;2) 通过两阶段过程识别前景令牌(语义种子发现+基于值向量相似度的上下文细化);3) 结合两种令牌进行剪枝。
- Result: 在4个代表性LVLM和20个多样化基准测试中,IVC-Prune减少约50%视觉令牌,同时保持≥99%的原始性能,在某些基准上甚至有所提升。
- Conclusion: 通过识别和保留对空间推理至关重要的隐式视觉坐标令牌,IVC-Prune在显著减少计算成本的同时保持了模型性能,为高效LVLM推理提供了有效解决方案。
[27] JRDB-Pose3D: A Multi-person 3D Human Pose and Shape Estimation Dataset for Robotics
Sandika Biswas,Kian Izadpanah,Hamid Rezatofighi
Main category: cs.CV
TL;DR: JRDB-Pose3D是一个从移动机器人平台采集的多人在室内外环境3D姿态数据集,包含SMPL参数、跟踪ID和丰富的社会上下文标注,填补了现有数据集在真实拥挤场景中的空白。
- Motivation: 现有3D人体姿态估计数据集主要关注单人场景或受控实验室环境,无法满足自动驾驶、机器人感知等应用中对真实拥挤场景多人姿态估计的需求。
- Method: 从移动机器人平台采集室内外多人类环境数据,提供SMPL-based的3D姿态标注,包含一致的体型参数和时序跟踪ID,并继承JRDB数据集的所有现有标注。
- Result: 创建了包含平均每帧5-10人、最多同时35人的数据集,具有频繁遮挡、截断身体、出框身体部位等真实世界挑战,并包含社会分组、活动、交互等丰富上下文信息。
- Conclusion: JRDB-Pose3D填补了真实拥挤场景3D人体姿态估计的数据空白,为下游感知和以人为中心的理解任务提供了全面的基准数据集。
[28] Finding Optimal Video Moment without Training: Gaussian Boundary Optimization for Weakly Supervised Video Grounding
Sunoh Kim,Kimin Yun,Daeho Um
Main category: cs.CV
TL;DR: 提出GBO框架,通过优化问题解决高斯提案到边界映射的启发式限制,提升弱监督视频时序定位性能
- Motivation: 现有弱监督视频时序定位方法使用高斯提案表示相关片段,但依赖启发式参数映射导致定位性能不理想,需要更优的边界预测机制
- Method: 提出高斯边界优化(GBO)框架,通过求解平衡提案覆盖度和片段紧凑性的优化问题来预测边界,提供闭式解并分析不同惩罚机制下的最优性条件
- Result: GBO显著提升定位性能,在标准基准测试中达到最先进结果,且具有训练免费、兼容单高斯和混合提案架构等实用优势
- Conclusion: GBO为弱监督视频时序定位提供了理论严谨且实用的边界预测框架,解决了启发式映射的局限性,在各种提案方案中展现出高效性和泛化能力
[29] A generalizable large-scale foundation model for musculoskeletal radiographs
Shinn Kim,Soobin Lee,Kyoungseob Shin,Han-Soo Kim,Yongsung Kim,Minsu Kim,Juhong Nam,Somang Ko,Daeheon Kwon,Wook Huh,Ilkyu Han,Sunghoon Kwon
Main category: cs.CV
TL;DR: SKELEX是一个基于120万张肌肉骨骼X光片训练的大规模基础模型,通过自监督学习实现,在12项下游诊断任务中表现优异,支持零样本异常定位,并开发了可解释的骨肿瘤预测模型。
- Motivation: 当前AI模型在肌肉骨骼疾病检测中存在局限性:任务特定、依赖标注、泛化能力有限。临床需要一个能够处理多种疾病和解剖区域的大规模基础模型,但公开数据集规模小且多样性不足。
- Method: 使用自监督学习方法在120万张多样化的肌肉骨骼X光片上训练SKELEX基础模型。模型支持零样本异常定位,并基于此开发了区域引导的可解释骨肿瘤预测模型。
- Result: 在12项下游诊断任务中,SKELEX在骨折检测、骨关节炎分级和骨肿瘤分类方面普遍优于基线模型。模型能够零样本定位异常区域,开发的骨肿瘤预测模型在独立外部数据集上保持稳健性能,并已部署为公开可访问的Web应用。
- Conclusion: SKELEX为肌肉骨骼影像提供了一个可扩展、标签高效且泛化能力强的AI框架,为临床转化和肌肉骨骼放射学的数据高效研究奠定了基础。
[30] Gromov Wasserstein Optimal Transport for Semantic Correspondences
Francis Snelgar,Stephen Gould,Ming Xu,Liang Zheng,Akshay Asthana
Main category: cs.CV
TL;DR: 本文提出了一种新的语义匹配方法,用包含Gromov Wasserstein空间平滑先验的最优传输算法替代标准最近邻匹配,显著提升了DINOv2基线的性能,在保持竞争力的同时实现了5-10倍的效率提升。
- Motivation: 当前最先进的语义对应方法需要结合DINOv2和Stable Diffusion的特征,虽然性能优秀但计算成本高昂。DINOv2特征准确但稀疏,Stable Diffusion特征空间一致但需要大型基础模型。本文旨在寻找更高效的替代方案。
- Method: 采用不同的方法,用具有空间一致性属性的优越匹配算法替代Stable Diffusion特征。具体来说,用包含Gromov Wasserstein空间平滑先验的最优传输算法替换标准最近邻匹配。
- Result: 该方法显著提升了DINOv2基线的性能,能够与使用Stable Diffusion特征的最先进方法竞争甚至超越,同时实现了5-10倍的计算效率提升。
- Conclusion: 通过用最优传输算法替代Stable Diffusion特征,可以在保持语义对应性能的同时大幅降低计算成本,为高效的语义匹配提供了新的解决方案。
[31] Beyond Cropping and Rotation: Automated Evolution of Powerful Task-Specific Augmentations with Generative Models
Judah Goldfeder,Shreyes Kaliyur,Vaibhav Sourirajan,Patrick Minwan Puma,Philippe Martin Wyder,Yuhang Hu,Jiong Lin,Hod Lipson
Main category: cs.CV
TL;DR: EvoAug:利用生成模型和进化算法自动学习任务特定数据增强的框架,通过分层组合增强操作构建随机增强树,在细粒度分类和少样本学习中表现优异。
- Motivation: 传统数据增强方法(如裁剪、旋转)虽然能减少过拟合,但多样性有限。生成模型(如条件扩散模型、少样本NeRF)能合成更真实多样的数据,但若与任务不匹配反而可能损害性能。需要自动化方法来学习任务最优的生成式增强策略。
- Method: 提出EvoAug自动化增强学习流水线:1)利用生成模型合成多样化数据;2)采用高效进化算法搜索最优任务特定增强策略;3)引入随机增强树,分层组合增强操作,实现结构化自适应变换。
- Result: 在细粒度分类和少样本学习任务中表现优异。即使在低数据场景下,发现的增强策略也与领域知识一致。展示了学习生成式增强的潜力,为鲁棒模型训练开辟新可能。
- Conclusion: EvoAug成功结合生成模型和进化算法,自动化学习任务最优增强策略。随机增强树提供结构化自适应变换,在多种任务中验证了生成式增强的有效性,为数据增强领域带来新范式。
[32] Feature, Alignment, and Supervision in Category Learning: A Comparative Approach with Children and Neural Networks
Fanxiao Wani Qiu,Oscar Leong
Main category: cs.CV
TL;DR: 比较儿童与CNN在少样本半监督分类学习中的表现,发现两者学习模式不同:儿童能从少量标签快速泛化但有特征偏好,CNN则更依赖监督且受特征对齐影响。
- Motivation: 研究人类和机器如何从稀疏数据中学习是认知科学和机器学习的重要问题。通过物种公平设计,比较儿童和卷积神经网络在相同条件下的学习能力,探索监督、特征结构和感知对齐对学习的影响。
- Method: 采用物种公平设计,让儿童和CNN在相同条件下进行少样本半监督分类学习。实验变量包括:监督程度(1/3/6个标签)、目标特征(大小、形状、图案)、感知对齐(高/低)。学习者接收混合的标记和未标记样本。
- Result: 儿童能从少量标签快速泛化,但表现出强烈的特征特定偏好和对对齐的敏感性。CNN则显示不同的交互模式:增加监督能提高性能,但对齐和特征结构会调节额外监督对学习的影响。
- Conclusion: 人类与模型比较必须在适当条件下进行,应关注监督、特征结构和对齐之间的交互作用,而非单纯的整体准确率。这有助于理解不同学习系统的本质差异。
[33] Flexible Geometric Guidance for Probabilistic Human Pose Estimation with Diffusion Models
Francis Snelgar,Ming Xu,Stephen Gould,Liang Zheng,Akshay Asthana
Main category: cs.CV
TL;DR: 提出使用扩散模型进行3D人体姿态估计,通过无条件的3D扩散模型结合2D关键点检测器热图梯度进行引导,实现从单张2D图像生成多个合理3D姿态的分布采样。
- Motivation: 传统方法假设存在确定性映射,从单张2D图像估计单一3D姿态,但实际存在深度模糊和遮挡问题,导致姿态估计是不确定的。此外,基于机器学习的方法需要大量配对2D-3D数据训练,且泛化能力有限。
- Method: 采用扩散模型框架,在条件生成引导框架下,仅使用3D数据训练无条件扩散模型,然后利用2D关键点检测器热图的梯度来引导采样,生成与2D图像一致的合理3D姿态分布。
- Result: 在Human 3.6M数据集上,采用最佳m个假设评估,在不需要配对2D-3D数据训练的方法中达到最先进性能。在MPI-INF-3DHP和3DPW数据集上展示出有竞争力的泛化能力。框架还可用于姿态生成和姿态补全等新任务。
- Conclusion: 提出的扩散模型框架能够从单张2D图像生成多个合理的3D姿态,解决了姿态估计的不确定性问题,同时避免了需要大量配对数据训练的限制,具有良好的泛化能力和任务灵活性。
[34] FinMTM: A Multi-Turn Multimodal Benchmark for Financial Reasoning and Agent Evaluation
Chenxi Zhang,Ziliang Gan,Liyun Zhu,Youwei Pang,Qing Zhang,Rongjunchen Zhang
Main category: cs.CV
TL;DR: FinMTM是一个多轮多模态金融基准测试,包含11,133个双语金融QA对,涵盖多种图表类型和任务形式,用于全面评估视觉语言模型在金融领域的表现。
- Motivation: 现有金融基准测试多为单轮且问题形式单一,无法全面评估视觉语言模型在真实金融应用场景中的表现,特别是在专业图表格式和知识密集型推理方面的挑战。
- Method: 构建FinMTM基准测试:1)数据方面:收集标注11,133个双语金融QA对,涵盖蜡烛图、统计图、报告图表等金融视觉内容;2)任务方面:覆盖单选、多选、多轮开放对话、基于代理的任务;3)设计专门评估协议:多选使用集合重叠评分规则,多轮对话使用轮级和会话级加权评分,代理任务使用规划质量和最终结果的综合指标。
- Result: 对22个视觉语言模型的广泛实验评估显示,它们在细粒度视觉感知、长上下文推理和复杂代理工作流程方面存在明显局限性。
- Conclusion: FinMTM填补了金融领域多轮多模态基准测试的空白,为全面评估视觉语言模型在金融应用中的能力提供了重要工具,揭示了现有模型在金融专业场景中的不足。
[35] SwiftVLM: Efficient Vision-Language Model Inference via Cross-Layer Token Bypass
Chen Qian,Xinran Yu,Danyang Li,Guoxuan Chi,Zheng Yang,Qiang Ma,Xin Miao
Main category: cs.CV
TL;DR: SwiftVLM是一种无需训练的视觉语言模型剪枝方法,通过"旁路"机制保留未选中的视觉token供后续层重新评估,解决了早期剪枝导致细粒度信息丢失的问题。
- Motivation: 现有视觉token剪枝方法依赖早期剪枝决策提高效率,虽然在粗粒度推理任务上有效,但在需要细粒度视觉细节的任务上性能显著下降。研究发现不同层间视觉token重要性存在显著差异,浅层认为不重要的token可能在后续层对文本条件推理变得高度相关。
- Method: 提出新的剪枝范式"旁路",保留未选中的视觉token并转发到后续剪枝阶段重新评估。基于此提出SwiftVLM方法:1)在模型特定层进行剪枝,这些层具有较强的视觉token选择能力;2)允许跨层独立剪枝决策;3)无需训练。
- Result: 在多个VLM和基准测试上的实验表明,SwiftVLM始终优于现有剪枝策略,实现了更优的准确率-效率权衡,并展现出更可靠的视觉token选择行为。
- Conclusion: SwiftVLM通过旁路机制避免了过早剪枝导致的不可逆关键信息丢失,解决了现有剪枝方法在细粒度任务上的性能下降问题,为视觉语言模型的高效推理提供了有效解决方案。
[36] FSOD-VFM: Few-Shot Object Detection with Vision Foundation Models and Graph Diffusion
Chen-Bin Feng,Youyang Sha,Longfei Liu,Yongjun Yu,Chi Man Vong,Xuanlong Yu,Xi Shen
Main category: cs.CV
TL;DR: FSOD-VFM是一个利用视觉基础模型进行少样本目标检测的框架,通过通用建议网络、SAM2和DINOv2特征实现新类别的快速适应,并引入基于图的置信度重加权方法解决边界框过度碎片化问题。
- Motivation: 尽管基础模型具有很强的泛化能力,但在少样本目标检测中,通用建议网络生成的边界框经常出现过度碎片化问题,只覆盖部分物体区域,导致大量小型的假阳性建议,而不是准确完整的物体检测。
- Method: FSOD-VFM包含三个核心组件:通用建议网络(UPN)用于类别无关的边界框生成,SAM2用于精确掩码提取,DINOv2特征用于新类别的高效适应。为解决边界框碎片化问题,提出基于图的置信度重加权方法,将预测边界框建模为有向图中的节点,通过图扩散操作在网络中传播置信度分数,从而提高完整物体的置信度,降低局部碎片部分的置信度。
- Result: 在Pascal-5^i、COCO-20^i和CD-FSOD数据集上的实验表明,该方法显著优于现有方法,无需额外训练即可实现卓越性能。在具有挑战性的CD-FSOD数据集上,10-shot设置下达到31.6 AP,大幅超过之前仅达到21.4 AP的无训练方法。
- Conclusion: FSOD-VFM通过结合视觉基础模型和创新的图基置信度重加权方法,有效解决了少样本目标检测中的边界框碎片化问题,在多个数据集上实现了最先进的性能,展示了基础模型在少样本学习任务中的强大潜力。
[37] Diversity-Preserved Distribution Matching Distillation for Fast Visual Synthesis
Tianhe Wu,Ruibin Li,Lei Zhang,Kede Ma
Main category: cs.CV
TL;DR: DP-DMD:一种角色分离的蒸馏框架,通过分离蒸馏步骤的角色(第一步保持多样性,后续步骤提升质量),解决DMD的模式崩溃问题,无需额外网络或真实图像。
- Motivation: DMD(分布匹配蒸馏)在低推理成本下实现高质量生成,但存在模式崩溃问题,因为其反向KL散度公式倾向于模式寻求行为。现有解决方案依赖感知或对抗正则化,导致计算开销大且训练不稳定。
- Method: 提出角色分离蒸馏框架:第一步使用目标预测(如v-prediction)目标保持样本多样性,后续步骤在标准DMD损失下专注于质量提升,并在第一步阻断DMD目标的梯度。该方法称为DP-DMD,无需感知主干、判别器、辅助网络或额外真实图像。
- Result: 在广泛的文本到图像实验中,DP-DMD在保持样本多样性的同时,视觉质量与最先进方法相当。
- Conclusion: DP-DMD通过简单的角色分离设计,有效解决了DMD的模式崩溃问题,在保持多样性和质量的同时,避免了复杂正则化带来的计算开销和训练不稳定性。
[38] Fully Kolmogorov-Arnold Deep Model in Medical Image Segmentation
Xingyu Qiu,Xinghua Ma,Dong Liang,Gongning Luo,Wei Wang,Kuanquan Wang,Shuo Li
Main category: cs.CV
TL;DR: 提出首个完全基于Kolmogorov-Arnold表示定理的深度模型ALL U-KAN,通过SaKAN和Grad-Free Spline解决深度KAN训练困难和内存消耗大的问题,在医学图像分割任务中取得优越性能。
- Motivation: 现有深度KAN由于训练困难和内存需求大,只能使用少量层数,限制了KAN在深度学习中的全面探索。需要克服这些限制,实现完全基于KA表示的深度模型。
- Method: 1. 提出Share-activation KAN (SaKAN),基于Sprecher变体的Kolmogorov-Arnold表示定理,简化参数化并增加训练样本密度;2. 提出Grad-Free Spline,消除样条梯度计算以大幅减少内存使用;3. 基于这两项创新构建ALL U-KAN,用KA和KAonv层完全替代传统FC和Conv层。
- Result: 在三个医学图像分割任务中,完全KA架构相比部分KA架构和传统架构均取得更高分割精度。相比直接堆叠的深度KAN,ALL U-KAN参数减少10倍,内存消耗降低20倍以上。
- Conclusion: 成功实现了首个完全基于KA表示的深度模型,解决了深度KAN的训练和内存瓶颈,为深度KAN架构的探索开辟了新方向,展示了KA层完全替代传统深度学习架构的潜力。
[39] Human-in-the-loop Adaptation in Group Activity Feature Learning for Team Sports Video Retrieval
Chihiro Nakatani,Hiroaki Kawashima,Norimichi Ukita
Main category: cs.CV
TL;DR: 提出无需群体活动标注的人类在环适应方法,用于群体活动特征学习,通过交互式微调提升视频检索性能
- Motivation: 传统方法需要预定义的群体活动类别标注,成本高昂且不灵活。本文旨在开发无需群体活动标注的方法,通过人类在环交互提升检索性能
- Method: 1) 自监督预训练GAF空间;2) 交互式微调:通过数据高效视频选择过程向用户提供视频进行正负标注;3) 对比学习更新GAF空间,使正负样本分别靠近和远离查询视频
- Result: 在两个团队运动数据集上的实验验证了方法显著提升检索性能,消融研究表明人类在环适应的多个组件对性能提升有贡献
- Conclusion: 提出的无需群体活动标注的人类在环适应方法有效提升了群体活动视频检索性能,通过交互式微调和数据高效选择实现了更好的检索效果
[40] BinaryDemoire: Moiré-Aware Binarization for Image Demoiréing
Zheng Chen,Zhi Yang,Xiaoyang Liu,Weihang Zhang,Mengfan Wang,Yifan Fu,Linghe Kong,Yulun Zhang
Main category: cs.CV
TL;DR: 提出BinaryDemoire框架,通过频率感知的二值化门控和分组残差适配器,实现高效的图像去摩尔纹二值化网络
- Motivation: 图像去摩尔纹需要处理频率相关的结构化伪影,现有全精度网络计算成本高,而传统二值化方法在去摩尔纹任务上表现不佳
- Method: 1) 摩尔纹感知二值化门控(MABG):提取轻量级频率描述符和激活统计,预测通道级门控系数;2) 分组残差适配器(SGRA):执行结构化稀疏捷径对齐,通过交错混合促进跨通道信息交换
- Result: 在四个基准测试上的实验表明,BinaryDemoire超越了当前的二值化方法
- Conclusion: 提出的频率感知二值化框架能有效处理摩尔纹的频率结构,为高效的去摩尔纹网络部署提供了解决方案
[41] LSGQuant: Layer-Sensitivity Guided Quantization for One-Step Diffusion Real-World Video Super-Resolution
Tianxing Wu,Zheng Chen,Cirou Xu,Bowen Chai,Yong Guo,Yutong Liu,Linghe Kong,Yulun Zhang
Main category: cs.CV
TL;DR: LSGQuant是一种针对一步扩散视频超分辨率的层敏感量化方法,通过动态范围自适应量化器、方差导向层训练策略和量化感知优化,在保持性能的同时显著压缩模型
- Motivation: 一步扩散模型在真实世界视频超分辨率中表现出色,但基于扩散变换器的大模型尺寸和高计算成本限制了实际应用。传统低比特量化方法在处理输入潜变量的高动态范围和不同层行为多样性时效果不佳
- Method: 提出LSGQuant方法:1) 动态范围自适应量化器(DRAQ)适应视频token激活;2) 通过层敏感度估计和方差导向层训练策略(VOLTS)分析层间统计特性;3) 量化感知优化(QAO)联合微调量化分支和高精度分支
- Result: 大量实验表明,该方法在保持全精度原始模型性能的同时,显著超越了现有量化技术
- Conclusion: LSGQuant为一步扩散视频超分辨率提供了一种有效的量化压缩方案,解决了高动态范围输入和层行为多样性带来的挑战,具有实际应用价值
[42] From Single Scan to Sequential Consistency: A New Paradigm for LIDAR Relocalization
Minghang Zhu,Zhijing Wang,Yuxin Guo,Wen Li,Sheng Ao,Cheng Wang
Main category: cs.CV
TL;DR: TempLoc:一种新的LiDAR重定位框架,通过建模序列一致性增强定位鲁棒性,在NCLT和Oxford Robot-Car基准上大幅超越现有方法。
- Motivation: 现有基于回归的LiDAR重定位方法在动态或模糊场景中容易出错,因为它们要么仅依赖单帧推理,要么忽略了扫描间的时空一致性。
- Method: 提出TempLoc框架:1) 全局坐标估计模块预测点级全局坐标和不确定性;2) 先验坐标生成模块通过注意力机制估计帧间点对应关系;3) 不确定性引导坐标融合模块端到端整合两种预测,得到更准确的时间一致6-DoF位姿。
- Result: 在NCLT和Oxford Robot-Car基准测试中,TempLoc大幅超越现有最先进方法,证明了时间感知对应建模在LiDAR重定位中的有效性。
- Conclusion: TempLoc通过有效建模序列一致性,显著提升了LiDAR重定位的鲁棒性和准确性,特别是在动态和模糊场景中。
[43] Hand3R: Online 4D Hand-Scene Reconstruction in the Wild
Wendi Hu,Haonan Zhou,Wenhao Hu,Gaoang Wang
Main category: cs.CV
TL;DR: Hand3R:首个从单目视频进行联合4D手-场景重建的在线框架,通过场景感知视觉提示机制将预训练手部专家与4D场景基础模型结合,实现精确手部网格和密集度量尺度场景几何的同时重建。
- Motivation: 现有方法通常在局部坐标系中恢复孤立的手部,忽略了周围的3D环境,这对于理解物理交互至关重要。需要一种能够同时重建动态手部和密集场景上下文的方法。
- Method: Hand3R通过场景感知视觉提示机制,将预训练的手部专家模型与4D场景基础模型协同工作。通过将高保真手部先验注入到持久场景记忆中,实现在单次前向传播中同时重建精确的手部网格和密集度量尺度的场景几何。
- Result: 实验表明,Hand3R无需依赖离线优化,在手部局部重建和全局定位方面都表现出有竞争力的性能。
- Conclusion: Hand3R是首个能够从单目视频进行联合4D手-场景重建的在线框架,通过有效结合手部专家和场景基础模型,实现了对物理交互的更好理解。
[44] VIRAL: Visual In-Context Reasoning via Analogy in Diffusion Transformers
Zhiwen Li,Zhongjie Duan,Jinyan Ye,Cen Chen,Daoyuan Chen,Yaliang Li,Yingda Chen
Main category: cs.CV
TL;DR: VIRAL框架通过视觉类比将上下文学习(ICL)重新定义为条件生成,利用预训练图像编辑模型进行视觉推理,在多种视觉任务上表现优异
- Motivation: 计算机视觉中的上下文学习(ICL)由于任务异质性而难以实现,需要统一的视觉ICL范式来处理感知、修复和编辑等多样化任务
- Method: 1. 将ICL重新定义为通过视觉类比的条件生成(x_s:x_t::x_q:y_q)
- 使用角色感知多图像条件化来适应冻结的扩散变换器(DiT)
- 引入混合专家LoRA来减轻跨多样化任务的梯度干扰
- 构建大规模视觉上下文数据集,涵盖感知、修复和编辑任务
- Result: VIRAL在实验中优于现有方法,验证了统一的视觉ICL范式可以处理大多数视觉任务,包括开放域编辑
- Conclusion: 通过视觉类比重新定义ICL为条件生成,结合角色感知多图像条件化和混合专家LoRA,VIRAL框架成功实现了统一的视觉上下文学习,为处理多样化视觉任务提供了有效解决方案
[45] ConsisDrive: Identity-Preserving Driving World Models for Video Generation by Instance Mask
Zhuoran Yang,Yanyong Zhang
Main category: cs.CV
TL;DR: ConsisDrive是一个身份保持的驾驶世界模型,通过实例级时间一致性解决身份漂移问题,提升自动驾驶视频生成质量。
- Motivation: 自动驾驶需要大规模高质量多视角驾驶视频训练模型,现有世界模型生成数据时存在身份漂移问题——同一物体在不同帧中外观或类别发生变化,缺乏实例级时间约束。
- Method: 提出两个关键组件:1) 实例掩码注意力:在注意力块中应用实例身份掩码和轨迹掩码,确保视觉标记仅在空间和时间维度上与对应实例特征交互;2) 实例掩码损失:通过概率性实例掩码自适应强调前景区域,减少背景噪声同时保持场景保真度。
- Result: 在nuScenes数据集上实现了最先进的驾驶视频生成质量,并在下游自动驾驶任务中展现出显著改进。
- Conclusion: ConsisDrive通过实例级时间一致性机制有效解决了身份漂移问题,为自动驾驶提供了高质量的数据生成方案。
[46] FARTrack: Fast Autoregressive Visual Tracking with High Performance
Guijie Wang,Tong Lin,Yifan Bai,Anjia Cao,Shiyi Liang,Wangbo Zhao,Xing Wei
Main category: cs.CV
TL;DR: FARTrack是一个快速自回归跟踪框架,通过任务特定自蒸馏和帧间自回归稀疏化技术,在保持高性能的同时实现了跨设备的实时跟踪,GPU上可达343 FPS。
- Motivation: 当前高性能跟踪器通常处理速度慢,难以在资源受限设备上部署。需要解决跟踪性能与推理速度之间的权衡问题。
- Method: 提出FARTrack框架:1) 任务特定自蒸馏:通过逐层蒸馏任务特定token实现模型压缩,避免手动分配教师-学生层对;2) 帧间自回归稀疏化:顺序压缩多个模板,学习时间全局最优稀疏化策略。
- Result: 在GOT-10k上达到70.6%的AO,实现实时跟踪。最快模型在GPU上达到343 FPS,CPU上121 FPS,展现了出色的速度和竞争力性能。
- Conclusion: FARTrack通过自回归框架和两种创新技术,成功解决了视觉跟踪中性能与速度的权衡问题,为资源受限设备提供了实用的高性能跟踪解决方案。
[47] PokeFusion Attention: Enhancing Reference-Free Style-Conditioned Generation
Jingbang Tang
Main category: cs.CV
TL;DR: 提出PokeFusion Attention,一种轻量级解码器级交叉注意力机制,用于文本到图像扩散模型中的无参考风格条件角色生成,通过解耦文本和风格条件实现高效风格化生成。
- Motivation: 现有方法主要依赖纯文本提示(视觉风格描述不足,易产生风格漂移和几何不一致)或引入基于参考的适配器(依赖外部图像,增加架构复杂性和部署限制),需要一种既保持高质量角色结构又实现跨提示一致细粒度风格表达的无参考解决方案。
- Method: 提出PokeFusion Attention,一种轻量级解码器级交叉注意力机制,在扩散解码器内部直接将文本语义与学习到的风格嵌入融合。通过注意力级别解耦文本和风格条件,保持预训练扩散主干完全冻结。仅训练解码器交叉注意力层和紧凑风格投影模块,形成参数高效、即插即用的控制组件。
- Result: 在风格化角色生成基准(宝可梦风格)上的实验表明,相比代表性基于适配器的基线方法,该方法在风格保真度、语义对齐和角色形状一致性方面持续改进,同时保持低参数开销和推理时简单性。
- Conclusion: PokeFusion Attention提供了一种有效的无参考风格化生成方法,通过轻量级注意力机制解耦文本和风格条件,实现高质量角色生成,同时保持架构简单和部署灵活性。
[48] Spiral RoPE: Rotate Your Rotary Positional Embeddings in the 2D Plane
Haoyu Liu,Sucheng Ren,Tingyu Zhu,Peng Wang,Cihang Xie,Alan Yuille,Zeyu Zheng,Feng Wang
Main category: cs.CV
TL;DR: Spiral RoPE:一种多方向位置编码方法,通过将嵌入通道分组到均匀分布的方向上,克服了标准轴向2D RoPE只能编码轴对齐方向的位置限制,从而更好地建模图像中的斜向空间关系。
- Motivation: 标准轴向2D RoPE将二维空间位置分解为水平和垂直分量,这限制了位置编码只能处理轴对齐方向,无法有效建模自然图像中普遍存在的斜向空间关系。这种方向性约束是标准方法的基本限制。
- Method: 提出Spiral RoPE,将嵌入通道划分为多个组,每个组对应均匀分布的方向。每个组根据图像块位置在其对应方向上的投影进行旋转,从而实现多方向位置编码,超越水平和垂直轴的限制。
- Result: 在分类、分割和生成等多种视觉任务中,Spiral RoPE一致地提升了性能。注意力图的定性分析显示,Spiral RoPE在语义相关对象上表现出更集中的激活,并更好地尊重局部对象边界。
- Conclusion: Spiral RoPE通过引入多方向位置编码,克服了标准轴向2D RoPE的方向限制,证明了多方向位置编码在视觉Transformer中的重要性,能够更好地建模图像中的空间关系。
[49] EventFlash: Towards Efficient MLLMs for Event-Based Vision
Shaoyu Liu,Jianing Li,Guanghui Zhao,Yunjian Zhang,Wen Jiang,Ming Li,Xiangyang Ji
Main category: cs.CV
TL;DR: EventFlash是一种高效的事件驱动多模态大语言模型,通过时空令牌稀疏化减少数据冗余并加速推理,相比基线实现12.4倍吞吐量提升。
- Motivation: 当前基于事件的多模态大语言模型通常采用密集的图像式处理范式,忽视了事件流的时空稀疏性,导致计算成本高昂。需要开发更高效的模型来利用事件数据的稀疏特性。
- Method: 1) 构建EventMind大规模多样化数据集(超过50万指令集);2) 设计自适应时间窗口聚合模块进行高效时间采样;3) 开发稀疏密度引导注意力模块提升空间令牌效率。
- Result: EventFlash相比基线(EventFlash-Zero)实现12.4倍吞吐量提升,同时保持可比性能。支持处理长达1000个时间bin的事件流,显著优于EventGPT的5个bin限制。
- Conclusion: EventFlash通过探索时空令牌稀疏化,为基于事件的视觉提供了一个高效的基础模型,能够处理长范围事件流并显著提升推理效率。
[50] InstaDrive: Instance-Aware Driving World Models for Realistic and Consistent Video Generation
Zhuoran Yang,Xi Guo,Chenjing Ding,Chiyu Wang,Wei Wu,Yanyong Zhang
Main category: cs.CV
TL;DR: InstaDrive是一个增强驾驶视频真实性的框架,通过实例流引导器和空间几何对齐器解决世界模型中实例级时间一致性和空间几何保真度问题,在nuScenes数据集上达到最先进的视频生成质量。
- Motivation: 自动驾驶需要高质量的大规模多视角驾驶视频训练模型。现有世界模型虽然能生成逼真驾驶视频,但在实例级时间一致性和空间几何保真度方面存在不足,影响视频真实性和下游任务性能。
- Method: 提出InstaDrive框架,包含两个关键组件:1) 实例流引导器 - 提取并跨帧传播实例特征以强制时间一致性,保持实例身份;2) 空间几何对齐器 - 改进空间推理,确保精确实例定位,显式建模遮挡层次。此外,利用CARLA自动驾驶系统程序化随机模拟罕见但安全关键的驾驶场景。
- Result: 在nuScenes数据集上实现了最先进的视频生成质量,并提升了下游自动驾驶任务的性能。通过CARLA模拟能够对自动驾驶系统进行严格的安全评估。
- Conclusion: InstaDrive通过实例感知机制有效解决了驾驶视频生成中的时间一致性和空间几何保真度问题,为自动驾驶模型训练提供了更高质量的数据生成方案,同时支持安全关键场景的评估。
[51] LaVPR: Benchmarking Language and Vision for Place Recognition
Ofer Idan,Dan Badur,Yosi Keller,Yoli Shavit
Main category: cs.CV
TL;DR: LaVPR是一个大规模视觉-语言定位基准,扩展了现有VPR数据集,包含65万+自然语言描述,支持多模态融合和跨模态检索,提升视觉退化条件下的定位性能。
- Motivation: 解决VPR在极端环境变化和感知混淆下的失败问题,以及现有系统无法仅通过语言描述进行"盲定位"的局限性,这对于应急响应等应用至关重要。
- Method: 构建LaVPR基准数据集,包含65万+自然语言描述;研究两种范式:多模态融合(增强鲁棒性)和跨模态检索(基于语言的定位);使用LoRA和Multi-Similarity损失建立跨模态检索基线。
- Result: 语言描述在视觉退化条件下带来一致性能提升,对小模型影响最显著;添加语言后,紧凑模型性能可媲美更大的纯视觉架构;跨模态检索基线显著优于标准对比方法。
- Conclusion: LaVPR实现了新一类定位系统,既能抵抗现实世界随机性,又适合资源受限部署,为视觉-语言定位研究提供了重要基准。
[52] HypCBC: Domain-Invariant Hyperbolic Cross-Branch Consistency for Generalizable Medical Image Analysis
Francesco Di Salvo,Sebastian Doerrich,Jonas Alle,Christian Ledig
Main category: cs.CV
TL;DR: 该论文提出了一种基于双曲流形的表示学习方法,用于医学图像分析的领域泛化,通过双曲交叉分支一致性约束提升模型在分布外数据上的性能。
- Motivation: 深度神经网络在训练分布之外的泛化能力仍然是一个关键挑战,特别是在医学图像分析中,数据稀缺、协变量偏移(来自不同硬件设备、成像协议和异质患者群体)等问题阻碍了可靠性能。现有方法主要依赖欧几里得流形,其平坦几何无法捕捉临床数据中复杂的层次结构。
- Method: 利用双曲流形建模复杂数据特征,提出无监督的领域不变双曲交叉分支一致性约束,在三个ViT模型上进行验证。
- Result: 在11个分布内数据集上获得统计显著增益,在三个领域泛化基准(Fitzpatrick17k、Camelyon17-WILDS和视网膜成像跨数据集设置)上平均AUC提升+2.1%,优于最先进的欧几里得方法。
- Conclusion: 双曲表示学习能够有效提升医学图像分析的领域泛化能力,在不同成像模态、数据规模和标签粒度下都表现出良好的泛化性能。
[53] Global Geometry Is Not Enough for Vision Representations
Jiwan Chung,Seon Joo Kim
Main category: cs.CV
TL;DR: 传统表示学习假设全局分布良好的嵌入支持鲁棒和泛化的表示,但研究发现全局几何无法有效预测组合绑定能力,而功能敏感性(通过Jacobian测量)能可靠追踪此能力。
- Motivation: 研究动机是挑战表示学习中的一个常见假设:全局分布良好的嵌入能支持鲁棒和泛化的表示。虽然全局几何能有效编码存在哪些元素,但对这些元素如何组合往往不敏感。研究者想探究这一局限性,特别是测试几何指标预测组合绑定能力的效果。
- Method: 方法包括:1)在21个视觉编码器上测试几何指标预测组合绑定能力的效果;2)使用标准几何统计量(如嵌入分布指标)与功能敏感性(通过输入-输出Jacobian测量)进行对比;3)提供理论分析,解释现有损失函数如何明确约束嵌入几何但未约束局部输入-输出映射。
- Result: 研究发现:1)标准几何统计量与组合绑定能力接近零相关;2)功能敏感性(Jacobian)能可靠追踪组合绑定能力;3)理论分析表明这种差异源于目标函数设计,现有损失函数约束全局几何但未约束局部映射。
- Conclusion: 结论是全局嵌入几何仅捕捉了表示能力的部分视图,功能敏感性是建模组合结构的关键补充维度。这挑战了将全局几何作为表示能力代理的传统观念,为更全面的表示评估提供了新方向。
[54] A3-TTA: Adaptive Anchor Alignment Test-Time Adaptation for Image Segmentation
Jianghao Wu,Xiangde Luo,Yubo Zhou,Lianming Wu,Guotai Wang,Shaoting Zhang
Main category: cs.CV
TL;DR: A3-TTA:一种基于锚点引导监督的测试时适应框架,通过类紧凑密度度量识别目标域中的可靠预测作为锚点,指导伪标签生成,解决传统伪标签方法因扰动集成启发式导致的训练信号不稳定问题。
- Motivation: 现有基于伪标签的TTA方法通常依赖扰动集成启发式(如dropout采样、测试时增强、高斯噪声),这些方法缺乏分布基础,产生不稳定的训练信号,导致错误累积和灾难性遗忘。需要一种更可靠的伪标签生成机制来提升TTA在域偏移下的性能。
- Method: 1. 使用类紧凑密度度量识别目标域中预测良好的图像作为锚点(假设置信度高的预测意味着与源域分布接近);2. 锚点作为稳定参考指导伪标签生成;3. 通过语义一致性和边界感知熵最小化进行正则化;4. 引入自适应指数移动平均策略减轻标签噪声并稳定模型更新。
- Result: 在医学图像(心脏结构和前列腺分割)和自然图像上评估,A3-TTA相比源模型将平均Dice分数提高了10.40到17.68个百分点,优于多种最先进的TTA方法。在持续TTA场景中表现出色,在连续目标域上保持高性能并具有强大的抗遗忘能力。
- Conclusion: A3-TTA通过锚点引导监督构建可靠的伪标签,解决了传统伪标签TTA方法的不稳定训练信号问题,在域偏移下显著提升了分割性能,并在持续适应场景中表现出良好的抗遗忘能力。
[55] LEVIO: Lightweight Embedded Visual Inertial Odometry for Resource-Constrained Devices
Jonas Kühne,Christian Vogt,Michele Magno,Luca Benini
Main category: cs.CV
TL;DR: LEVIO是一个针对超低功耗计算平台优化的视觉惯性里程计(VIO)系统,能够在资源受限的硬件上实现实时6自由度运动跟踪,在功耗低于100mW的情况下达到20FPS。
- Motivation: 当前最先进的VIO系统计算需求过高,无法在微无人机和智能眼镜等资源受限的硬件上运行,需要开发适用于超低功耗平台的高效VIO解决方案。
- Method: 采用硬件-软件协同优化方法,结合ORB特征跟踪和束调整等成熟VIO组件,设计计算高效架构,强调并行化和低内存使用,适用于嵌入式微控制器和低功耗SoC。
- Result: 在并行处理的超低功耗RISC-V SoC上验证,功耗低于100mW时达到20FPS,在公开VIO数据集上基准测试显示效率和准确性之间的良好平衡。
- Conclusion: LEVIO为资源受限设备提供了可行的VIO解决方案,实现了超低功耗下的实时运动跟踪,并通过开源发布促进可重复性和采用。
[56] Full end-to-end diagnostic workflow automation of 3D OCT via foundation model-driven AI for retinal diseases
Jinze Zhang,Jian Zhong,Li Lin,Jiaxiong Li,Ke Ma,Naiyang Li,Meng Li,Yuan Pan,Zeyu Meng,Mengyun Zhou,Shang Huang,Shilong Yu,Zhengyu Duan,Sutong Li,Honghui Xia,Juping Liu,Dan Liang,Yantao Wei,Xiaoying Tang,Jin Yuan,Peng Xiao
Main category: cs.CV
TL;DR: FOCUS是一个基于基础模型的端到端自动化3D OCT视网膜疾病诊断框架,通过图像质量评估、异常检测和多疾病分类的统一流程,实现了与专家相当的诊断性能。
- Motivation: 尽管OCT在视网膜疾病诊断中具有革命性意义,但临床实践中完全自动化诊断仍受限于多阶段工作流程和传统的单切片单任务AI模型,需要更高效的端到端解决方案。
- Method: FOCUS采用基础模型驱动框架:1) 使用EfficientNetV2-S进行图像质量评估;2) 微调视觉基础模型进行异常检测和多疾病分类;3) 通过统一自适应聚合方法将2D切片级预测智能整合为3D患者级诊断。
- Result: 在3,300名患者(40,672切片)上训练测试,并在1,345名患者(18,498切片)上外部验证,FOCUS在质量评估(99.01% F1)、异常检测(97.46% F1)和患者级诊断(94.39% F1)上表现优异。人机对比中,FOCUS在异常检测(95.47% vs 90.91%)和多疾病诊断(93.49% vs 91.35%)上匹配专家性能,且效率更高。
- Conclusion: FOCUS实现了从图像到诊断的端到端自动化,代表了向无人眼科发展的关键进展,为自主筛查提供了经过验证的蓝图,有助于提高人群规模视网膜护理的可及性和效率。
[57] PQTNet: Pixel-wise Quantitative Thermography Neural Network for Estimating Defect Depth in Polylactic Acid Parts by Additive Manufacturing
Lei Deng,Wenhao Huang,Chao Yang,Haoyuan Zheng,Yinbin Tian,Yue Ma
Main category: cs.CV
TL;DR: 提出PQT-Net网络,通过热成像技术实现3D打印PLA零件缺陷深度的像素级定量检测,达到0.0094mm的最小平均绝对误差和超过99%的决定系数。
- Motivation: 增材制造(AM)组件的缺陷深度量化在无损检测中仍然是一个重大挑战,需要开发更精确的定量检测方法。
- Method: 提出像素级定量热成像神经网络(PQT-Net),采用新颖的数据增强策略将热序列数据重构为二维条纹图像,保留每个像素热扩散的完整时间演化。网络架构包含预训练的EfficientNetV2-S主干和带有可学习参数的自定义残差回归头(RRH)来优化输出。
- Result: PQT-Net相比其他深度学习模型表现优越,达到最小平均绝对误差(MAE)0.0094mm,决定系数(R)超过99%,显示出高精度缺陷量化能力。
- Conclusion: PQT-Net的高精度证明了其在增材制造中稳健定量缺陷表征方面的潜力,为AM组件的无损检测提供了有效的解决方案。
[58] Invisible Clean-Label Backdoor Attacks for Generative Data Augmentation
Ting Xiang,Jinhui Zhao,Changjian Chen,Zhuo Tang
Main category: cs.CV
TL;DR: 提出InvLBA方法,通过潜在空间扰动对生成数据增强进行隐形干净标签后门攻击,相比现有像素级攻击方法显著提高攻击成功率
- Motivation: 随着图像生成模型的快速发展,生成数据增强成为丰富训练图像的有效方法,特别是在小规模数据集场景下。然而,生成数据增强容易受到干净标签后门攻击的威胁,现有像素级攻击方法在生成图像上攻击成功率低,因此需要探索潜在特征层面的攻击方法
- Method: 提出InvLBA方法,通过潜在空间扰动进行隐形干净标签后门攻击。该方法在生成图像的潜在特征层面进行扰动,而非传统的像素级触发模式,理论上保证了干净准确率和攻击成功率的泛化性
- Result: 在多个数据集上的实验表明,InvLBA方法平均提高攻击成功率46.43%,同时几乎不降低干净准确率,并且对最先进的防御方法具有高鲁棒性
- Conclusion: 潜在特征层面的后门攻击比像素级攻击更有效,InvLBA方法为生成数据增强的安全问题提供了新的攻击视角,同时具有理论保证和实际效果
[59] MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning
Shengyuan Liu,Liuxin Bao,Qi Yang,Wanting Geng,Boyun Zheng,Chenxin Li,Wenting Chen,Houwen Peng,Yixuan Yuan
Main category: cs.CV
TL;DR: MedSAM-Agent是一个将交互式医学图像分割重构为多步自主决策过程的框架,通过混合提示策略和两阶段训练,在6种模态21个数据集上实现SOTA性能。
- Motivation: 现有基于MLLM的医学图像分割方法通常采用单轮、僵化的交互策略,缺乏过程级监督训练,无法充分利用交互式工具的动态潜力,导致冗余操作。
- Method: 1) 提出混合提示策略生成专家轨迹,让模型内化人类决策启发式和自适应细化策略;2) 开发两阶段训练管道,集成多轮端到端结果验证和临床保真度过程奖励设计,促进交互简洁性和决策效率。
- Result: 在6种医学模态和21个数据集上的广泛实验表明,MedSAM-Agent实现了最先进的性能,有效统一了自主医学推理与稳健的迭代优化。
- Conclusion: MedSAM-Agent成功将交互式分割重构为多步自主决策过程,通过混合提示和两阶段训练解决了现有方法的局限性,为医学图像分割提供了更高效、自适应的解决方案。
[60] PWAVEP: Purifying Imperceptible Adversarial Perturbations in 3D Point Clouds via Spectral Graph Wavelets
Haoran Li,Renyang Liu,Hongjia Liu,Chen Wang,Long Yin,Jian Xu
Main category: cs.CV
TL;DR: PWAVEP:一种用于3D点云的即插即用非侵入式防御机制,通过谱域分析和分层策略净化对抗性噪声
- Motivation: 当前3D点云对抗攻击在空间不可感知性和高攻击性能方面取得进展,给防御带来挑战。现有防御方法通常需要侵入式模型修改、昂贵的训练过程或辅助数据访问,使用不便。
- Method: 提出基于谱域理论的净化框架PWAVEP:1) 计算每个点的谱图小波域显著性得分和局部稀疏性得分;2) 采用分层策略:消除最显著的对抗性离群点;3) 对中等显著点应用谱滤波过程,利用图小波变换衰减目标点的高频系数。
- Result: 广泛评估表明,PWAVEP相比现有方法实现了更高的准确性和鲁棒性,在3D点云净化方面达到了最先进水平。
- Conclusion: PWAVEP提供了一种有效的即插即用非侵入式防御机制,通过谱域分析和分层净化策略有效抑制对抗性噪声,推动了3D点云防御技术的发展。
[61] Composable Visual Tokenizers with Generator-Free Diagnostics of Learnability
Bingchen Zhao,Qiushan Guo,Ye Wang,Yixuan Huang,Zhonghua Zhai,Yu Tian
Main category: cs.CV
TL;DR: CompTok是一个训练视觉分词器的框架,通过token条件扩散解码器和InfoGAN风格目标增强分词器的组合性,支持token交换实现语义编辑,并在类别条件生成上达到SOTA性能。
- Motivation: 现有视觉分词器在组合性控制方面存在不足,token可能被解码器忽略,限制了通过token交换实现语义编辑的能力。需要一种能增强token组合性并确保解码器充分利用所有token的方法。
- Method: 1. 使用token条件扩散解码器;2. 采用InfoGAN风格目标,训练识别模型预测用于条件解码的token,强制解码器不忽略任何token;3. 通过交换图像间的token子集进行训练,增强组合控制;4. 对无配对交换生成应用流正则化保持自然图像分布。
- Result: 1. 在图像类别条件生成上达到最先进性能;2. 支持通过token交换实现高级语义图像编辑;3. 提出的两个token空间度量显示CompTok在组合性和生成器学习难度方面均有改进;4. 支持最先进的生成器进行类别条件生成。
- Conclusion: CompTok成功创建了具有增强组合性的视觉分词器,不仅提升了类别条件生成性能,还实现了通过token交换进行语义编辑的能力,为token空间的可学习性和组合性提供了新的度量方法。
[62] Tiled Prompts: Overcoming Prompt Underspecification in Image and Video Super-Resolution
Bryan Sangwoo Kim,Jonghyun Park,Jong Chul Ye
Main category: cs.CV
TL;DR: 提出Tiled Prompts框架,为每个潜在图块生成特定提示,解决全局提示在图像/视频超分辨率中的不足问题
- Motivation: 现代超分辨率管道通常依赖潜在分块处理高分辨率图像,但单一全局提示会导致提示不足:粗粒度的全局提示会遗漏局部细节(提示稀疏性)并提供局部无关的指导(提示误导性),这些问题可能被无分类器引导放大
- Method: 提出Tiled Prompts统一框架,为每个潜在图块生成特定提示,在局部文本条件后验下执行超分辨率,提供高信息量的指导,以最小开销解决提示不足问题
- Result: 在高分辨率真实世界图像和视频上的实验显示,相比全局提示基线,该方法在感知质量和文本对齐方面获得一致提升,同时减少幻觉和图块级伪影
- Conclusion: Tiled Prompts框架通过为每个图块生成特定提示,有效解决了文本条件扩散模型在超分辨率中的提示不足问题,提升了图像和视频超分辨率的性能
[63] Z3D: Zero-Shot 3D Visual Grounding from Images
Nikita Drozdov,Andrey Lemeshko,Nikita Gavrilov,Anton Konushin,Danila Rukhovich,Maksim Kolodiazhnyi
Main category: cs.CV
TL;DR: Z3D:首个无需几何监督或物体先验的零样本3D视觉定位方法,仅使用多视角图像,通过先进实例分割和提示分割实现SOTA性能
- Motivation: 解决现有零样本3D视觉定位方法性能显著下降的问题,探索仅使用多视角图像而不依赖几何监督或物体先验的通用3D定位方案
- Method: 提出Z3D通用定位流程:1)使用SOTA零样本3D实例分割生成高质量3D边界框提案;2)通过基于提示的分割利用现代视觉语言模型的完整推理能力;可灵活结合相机位姿和深度图
- Result: 在ScanRefer和Nr3D基准测试中,Z3D在零样本方法中达到最先进的性能表现
- Conclusion: Z3D证明了仅使用多视角图像即可实现高效3D视觉定位,无需几何监督,为通用3D场景理解提供了新方向
[64] Symbol-Aware Reasoning with Masked Discrete Diffusion for Handwritten Mathematical Expression Recognition
Takaya Kawakatsu,Ryo Ishiyama
Main category: cs.CV
TL;DR: 提出基于离散扩散框架的手写数学表达式识别方法,通过迭代符号精炼替代自回归生成,解决曝光偏差和句法不一致问题
- Motivation: 自回归模型在手写数学表达式识别中存在曝光偏差和句法不一致问题,需要一种能同时推理符号和二维结构布局的新方法
- Method: 采用离散扩散框架,将识别任务重构为迭代符号精炼过程,通过多步重掩码逐步优化符号和结构关系,结合符号感知分词和随机掩码互学习增强句法对齐
- Result: 在MathWriting基准上达到5.56%字符错误率和60.42%精确匹配率,优于Transformer和商业基线,在CROHME 2014-2023数据集上表现一致
- Conclusion: 离散扩散为结构感知视觉识别提供了超越生成建模的新范式,能有效处理手写数学表达式的符号多样性和结构复杂性
[65] Multi-Resolution Alignment for Voxel Sparsity in Camera-Based 3D Semantic Scene Completion
Zhiwen Yang,Yuxin Peng
Main category: cs.CV
TL;DR: 提出MRA方法解决基于相机的3D语义场景补全中的体素稀疏性问题,通过多分辨率特征对齐作为辅助监督
- Motivation: 现有基于相机的3D语义场景补全方法仅依赖体素标签监督,面临体素稀疏性问题(自动驾驶场景中大部分体素为空),限制了优化效率和模型性能
- Method: 提出多分辨率对齐(MRA)方法:1)多分辨率视图变换器模块,将2D图像特征投影到多分辨率3D特征并进行场景级对齐;2)立方语义各向异性模块,识别每个体素的实例级语义显著性;3)关键分布对齐模块,选择关键体素作为实例级锚点,通过循环损失实现跨分辨率关键特征分布一致性的辅助监督
- Result: 代码已开源,方法有效缓解了体素稀疏性问题,提高了优化效率和模型性能
- Conclusion: MRA方法通过多分辨率特征对齐作为辅助监督,有效解决了基于相机的3D语义场景补全中的体素稀疏性问题,为自动驾驶感知系统提供了更好的体素级场景感知基础
[66] SLIM-Diff: Shared Latent Image-Mask Diffusion with Lp loss for Data-Scarce Epilepsy FLAIR MRI
Mario Pascual-González,Ariadna Jiménez-Partinen,R. M. Luque-Baena,Fátima Nagib-Raya,Ezequiel López-Rubio
Main category: cs.CV
TL;DR: SLIM-Diff:用于癫痫FLAIR MRI中局灶性皮质发育不良(FCD)病变的紧凑联合扩散模型,通过共享瓶颈U-Net和可调Lp损失提高生成稳定性
- Motivation: FCD病变在癫痫FLAIR MRI中非常细微且稀少,传统的联合图像-掩模生成建模容易不稳定和记忆化,需要更稳定的生成方法
- Method: 提出SLIM-Diff紧凑联合扩散模型:1)使用单共享瓶颈U-Net,通过2通道图像+掩模表示强制解剖结构和病变几何的紧密耦合;2)通过可调Lp目标进行损失几何调优
- Result: 实验表明:x0预测是联合合成的最强选择;分数次二次惩罚(L1.5)提高图像保真度,而L2更好地保留病变掩模形态
- Conclusion: SLIM-Diff通过紧凑的联合扩散建模解决了FCD病变生成的稳定性问题,为医学图像合成提供了有效的解决方案
[67] Unifying Watermarking via Dimension-Aware Mapping
Jiale Meng,Runyi Hu,Jie Zhang,Zheming Lu,Ivor Tsang,Tianwei Zhang
Main category: cs.CV
TL;DR: DiM提出一个多维水印框架,将水印建模为不同维度的载荷映射问题,统一现有水印方法,通过改变嵌入和提取维度配置实现不同水印功能。
- Motivation: 现有深度水印方法虽然共享相似的编码器-解码器架构,但在功能行为上差异很大,缺乏统一的理论框架来解释这些差异。
- Method: 提出DiM框架,将水印信息建模为不同维度的载荷(一维二进制消息、二维空间掩码、三维时空结构),通过维度感知的映射统一现有水印方法,重点研究嵌入和提取维度配置对水印行为的影响。
- Result: 实验表明,仅改变嵌入和提取维度(无需架构修改)就能实现不同的水印功能,包括时空篡改定位、局部嵌入控制、以及帧顺序被打乱时的时序恢复。
- Conclusion: DiM框架为理解水印方法提供了统一视角,维度配置是决定水印功能的关键因素,在视频领域的三维时空表示支持下,维度映射能实现更丰富的水印功能。
[68] Seeing Through the Chain: Mitigate Hallucination in Multimodal Reasoning Models via CoT Compression and Contrastive Preference Optimization
Hao Fang,Jinyu Li,Jiawei Kong,Tianqu Zhuang,Kuofeng Gao,Bin Chen,Shu-Tao Xia,Yaowei Wang
Main category: cs.CV
TL;DR: C3PO框架通过思维链压缩和对比偏好优化减少多模态推理模型的幻觉问题
- Motivation: 多模态推理模型存在幻觉问题,且引入推理机制会加剧模型对语言先验的依赖而忽视视觉输入,导致思维链中视觉线索减少但文本冗余增加
- Method: 提出C3PO框架:1) 思维链压缩:选择性过滤冗余思考标记,获得更紧凑、信号高效的思维链表示;2) 对比偏好优化:使用高质量AI反馈构建训练对,并设计多模态幻觉诱导机制生成负信号进行对比校正
- Result: 在多种多模态推理模型和基准测试中实现了一致的幻觉减少,并提供了理论证明
- Conclusion: C3PO框架通过压缩思维链和对比偏好优化有效缓解多模态推理模型的幻觉问题
[69] From Vicious to Virtuous Cycles: Synergistic Representation Learning for Unsupervised Video Object-Centric Learning
Hyun Seok Seong,WonJun Moon,Jae-Pil Heo
Main category: cs.CV
TL;DR: SRL通过建立编码器与解码器之间的协同循环,解决无监督物体中心学习中注意力图与重建图之间的冲突,实现相互精炼。
- Motivation: 基于重建的无监督物体中心学习存在编码器尖锐注意力图与解码器模糊重建图之间的冲突,形成恶性循环:编码器噪声特征迫使解码器平均化输出,而模糊重建图又缺乏高频细节来监督编码器。
- Method: 提出协同表示学习(SRL),建立编码器与解码器之间的良性循环:利用编码器的锐度去模糊解码器输出的语义边界,同时利用解码器的空间一致性去噪编码器特征。通过带有槽正则化目标的预热阶段稳定训练。
- Result: 在视频物体中心学习基准测试中取得了最先进的结果。
- Conclusion: 通过弥合编码器与解码器之间的表示差距,SRL建立了良性循环,显著提升了无监督物体中心学习的性能。
[70] UnHype: CLIP-Guided Hypernetworks for Dynamic LoRA Unlearning
Piotr Wójcik,Maksym Petrenko,Wojciech Gromski,Przemysław Spurek,Maciej Zieba
Main category: cs.CV
TL;DR: UnHype是一个基于超网络的机器遗忘框架,通过动态生成自适应LoRA权重,实现更有效的单概念和多概念遗忘,解决了传统LoRA方法在概念语义适应性和可扩展性方面的限制。
- Motivation: 大规模扩散模型可能被滥用于生成有害内容,需要有效的机器遗忘技术。现有LoRA方法存在概念语义适应性有限、难以平衡相关概念移除与泛化保持、多概念遗忘可扩展性差等问题。
- Method: 将超网络集成到单概念和多概念的LoRA训练中,超网络根据CLIP嵌入动态生成自适应LoRA权重,实现上下文感知的遗忘。该架构可直接集成到Stable Diffusion和现代基于流的文本到图像模型中。
- Result: 在对象擦除、名人擦除和显式内容移除等挑战性任务上评估,UnHype表现出稳定的训练行为和有效的概念控制,展示了其有效性和多功能性。
- Conclusion: UnHype通过超网络增强LoRA训练,解决了现有机器遗忘方法的局限性,实现了更灵活、可扩展的上下文感知概念移除,为扩散模型的安全应用提供了有效解决方案。
[71] Socratic-Geo: Synthetic Data Generation and Geometric Reasoning via Multi-Agent Interaction
Zhengbo Jiao,Shaobo Wang,Zifan Zhang,Wei Wang,Bing Zhao,Hu Wei,Linfeng Zhang
Main category: cs.CV
TL;DR: Socratic-Geo:通过多智能体交互动态耦合数据合成与模型学习的自主框架,解决MLLMs几何推理数据稀缺问题
- Motivation: 多模态大语言模型在几何推理方面存在瓶颈,主要原因是高质量图像-文本对的极度稀缺。人工标注成本过高,自动化方法又无法保证保真度和训练效果。
- Method: 提出Socratic-Geo框架,包含三个智能体:教师智能体生成参数化Python脚本并确保图像-文本对质量;求解器智能体通过偏好学习优化推理,失败路径指导教师进行针对性增强;生成器智能体在积累的"图像-代码-指令"三元组上学习图像生成能力。
- Result: Socratic-Solver仅用基准数据量的四分之一,在六个基准测试中达到49.11分,超越强基线2.43分。Socratic-Generator在GenExam上达到42.4%,创下开源模型新SOTA,超越Seedream-4.0(39.8%),接近Gemini-2.5-Flash-Image(43.1%)。
- Conclusion: Socratic-Geo通过自主的多智能体交互框架,有效解决了MLLMs几何推理的数据稀缺问题,实现了数据合成与模型学习的动态耦合,显著提升了模型的几何推理和图像生成能力。
[72] ConsistentRFT: Reducing Visual Hallucinations in Flow-based Reinforcement Fine-Tuning
Xiaofeng Tan,Jun Liu,Yuanting Fan,Bin-Bin Gao,Xi Jiang,Xiaochen Chen,Jinlong Peng,Chengjie Wang,Hongsong Wang,Feng Zheng
Main category: cs.CV
TL;DR: 本文提出ConsistentRFT框架,通过动态粒度采样和一致性策略梯度优化,有效减少强化微调中的视觉幻觉问题
- Motivation: 基于流的强化微调模型常产生视觉幻觉(如过度优化细节和语义错位),需要探索其成因并减少这些问题
- Method: 提出ConsistentRFT框架:1) 动态粒度采样机制平衡全局语义和局部细节探索;2) 一致性策略梯度优化保持模型跨步一致性
- Result: 平均减少49%低级和38%高级感知幻觉,在域外指标上优于其他方法,相比FLUX1.dev提升5.1%
- Conclusion: ConsistentRFT能有效缓解视觉幻觉问题,提升模型一致性和泛化能力
[73] Hierarchical Concept-to-Appearance Guidance for Multi-Subject Image Generation
Yijia Xu,Zihao Wang,Jinshi Cui
Main category: cs.CV
TL;DR: 提出分层概念到外观引导框架,通过VAE dropout训练和对应感知掩码注意力,解决多主体图像生成中的身份不一致和组合控制问题
- Motivation: 现有多主体图像生成方法依赖扩散模型隐式关联文本提示与参考图像,导致身份不一致和组合控制有限,需要更明确的监督机制
- Method: 分层概念到外观引导框架:概念层使用VAE dropout训练策略,鼓励模型依赖视觉语言模型的语义信号;外观层集成VLM对应关系到扩散Transformer的对应感知掩码注意力模块
- Result: 在多项实验中达到最先进的性能,显著提升提示遵循和主体一致性
- Conclusion: 分层概念到外观引导框架通过从高层概念到细粒度外观的明确结构化监督,有效解决了多主体图像生成中的身份一致性和组合控制问题
[74] Contextualized Visual Personalization in Vision-Language Models
Yeongtak Oh,Sangwon Yu,Junsung Park,Han Cheol Moon,Jisoo Mok,Sungroh Yoon
Main category: cs.CV
TL;DR: CoViP框架通过强化学习后训练和标题增强生成,解决视觉语言模型在个性化视觉上下文理解上的不足,显著提升个性化图像描述和相关下游任务性能。
- Motivation: 现有视觉语言模型缺乏将视觉输入与用户累积的视觉-文本上下文关联的能力,无法基于用户具体经验生成个性化响应,需要解决这种情境化视觉个性化挑战。
- Method: 提出CoViP统一框架,将个性化图像描述作为核心任务,通过强化学习后训练和标题增强生成来提升情境化视觉个性化能力,并引入诊断评估排除文本捷径方案。
- Result: 实验显示现有开源和专有视觉语言模型存在显著局限性,而CoViP不仅改善了个性化图像描述,还在下游个性化任务中获得全面性能提升。
- Conclusion: CoViP是实现鲁棒且可泛化的情境化视觉个性化的重要阶段,为视觉语言模型的个性化能力提供了关键解决方案。
[75] Inlier-Centric Post-Training Quantization for Object Detection Models
Minsu Kim,Dongyeun Lee,Jaemyung Yu,Jiwan Hur,Giseop Kim,Junmo Kim
Main category: cs.CV
TL;DR: InlierQ是一种后训练量化方法,通过梯度感知体积显著性分数区分异常值和信息性内点,使用EM算法拟合后验分布,抑制异常值同时保留有用特征,仅需64个校准样本,在2D/3D目标检测中降低量化误差。
- Motivation: 目标检测计算需求大,部署时速度慢且功耗高,需要量化。但背景杂波和传感器噪声等任务无关形态会产生冗余激活(异常值),这些异常值扩大激活范围并使分布偏向任务无关响应,使比特分配复杂化并削弱信息特征的保留。
- Method: 提出InlierQ,一种以内点为中心的后训练量化方法:1) 计算梯度感知体积显著性分数;2) 将每个体积分类为内点或异常值;3) 使用期望最大化(EM)算法在这些分数上拟合后验分布。该方法无标签、即插即用,仅需64个校准样本。
- Result: 在COCO和nuScenes基准测试中,对于基于相机(2D和3D)和基于LiDAR(3D)的目标检测,都实现了量化误差的一致降低。
- Conclusion: InlierQ通过有效区分和抑制异常值同时保留信息性内点,解决了目标检测量化中的关键挑战,提供了一种高效、实用的后训练量化解决方案。
[76] Decoupling Skeleton and Flesh: Efficient Multimodal Table Reasoning with Disentangled Alignment and Structure-aware Guidance
Yingjie Zhu,Xuefeng Bai,Kehai Chen,Yang Xiang,Youcheng Pan,Xiaoqiang Zhou,Min Zhang
Main category: cs.CV
TL;DR: 提出DiSCo框架和Table-GLS方法,通过解耦结构-内容对齐和全局到局部结构引导推理,无需外部工具即可提升大视觉语言模型的表格理解能力
- Motivation: 现有方法依赖昂贵的监督训练、强化学习或外部工具,限制了效率和可扩展性,需要一种无需大量标注和外部工具的表格推理适应方法
- Method: 首先提出DiSCo框架,解耦结构抽象和语义基础;然后提出Table-GLS框架,通过结构化探索和证据基础推理进行表格推理
- Result: 在多个基准测试中,该框架有效提升了LVLM的表格理解和推理能力,特别是在未见过的表格结构上表现出良好的泛化能力
- Conclusion: 提出的框架能够以最小标注和无外部工具的方式有效适应大视觉语言模型进行表格推理,解决了复杂布局和结构-内容信息耦合的挑战
[77] Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers
Bozhou Li,Yushuo Guan,Haolin Li,Bohan Zeng,Yiyan Ji,Yue Ding,Pengfei Wan,Kun Gai,Yuanxing Zhang,Wentao Zhang
Main category: cs.CV
TL;DR: 提出一种统一的归一化凸融合框架,通过轻量级门控系统组织多层LLM隐藏状态,实现时间、深度和联合融合,发现深度语义路由是最优条件策略,能显著提升文本-图像对齐和组合生成能力。
- Motivation: 当前DiT模型使用LLM作为文本编码器,但文本条件通常是静态的,仅使用单一LLM层,忽略了LLM层的语义层次结构和扩散过程中非平稳的降噪动态。需要更好地匹配DiT生成的动态过程以增强扩散模型的生成能力。
- Method: 引入统一的归一化凸融合框架,配备轻量级门控,通过时间融合、深度融合和联合融合三种方式系统组织多层LLM隐藏状态,动态调整文本条件以适应不同的扩散时间和网络深度。
- Result: 实验表明深度语义路由是最优条件策略,能显著提升文本-图像对齐和组合生成能力(如在GenAI-Bench计数任务上提升9.97分)。纯时间融合反而会降低视觉生成质量,这归因于训练-推理轨迹不匹配问题。
- Conclusion: 深度路由是一种强大有效的基线方法,强调需要轨迹感知信号来实现稳健的时间依赖条件。时间融合的失败揭示了在分类器自由引导下,名义时间步无法跟踪有效SNR,导致推理过程中语义特征注入时机错误。
[78] Interpretable Logical Anomaly Classification via Constraint Decomposition and Instruction Fine-Tuning
Xufei Zhang,Xinjiao Zhou,Ziling Deng,Dongdong Geng,Jianxiong Wang
Main category: cs.CV
TL;DR: 提出Logical Anomaly Classification (LAC)任务,将异常检测与细粒度违规分类统一,并开发LogiCls视觉语言框架,通过分解逻辑约束为可验证子查询来解决该任务。
- Motivation: 现有工业异常检测方法大多只做二元判断,无法指出具体违反的逻辑规则,对质量保证价值有限。需要既能检测异常又能分类违规类型的统一方法。
- Method: 提出LogiCls框架:1) 将复杂逻辑约束分解为可验证子查询序列;2) 数据中心的指令合成管道生成链式思维监督;3) 结合精确标注和多样图像-文本增强;4) 难度感知重采样策略强调挑战性子查询和长尾约束类型。
- Result: 实验表明LogiCls能提供鲁棒、可解释且准确的工业逻辑异常分类,同时输出违规类别预测及其证据链。
- Conclusion: LAC任务统一了异常检测与违规分类,LogiCls框架通过分解逻辑约束和链式思维监督,实现了可解释的逻辑异常分类,为工业质量保证提供了更实用的解决方案。
[79] PnP-U3D: Plug-and-Play 3D Framework Bridging Autoregression and Diffusion for Unified Understanding and Generation
Yongwei Chen,Tianyi Wei,Yushi Lan,Zhaoyang Lyu,Shangchen Zhou,Xudong Xu,Xingang Pan
Main category: cs.CV
TL;DR: 提出了首个结合自回归与扩散的统一3D理解与生成框架,通过轻量级transformer桥接LLM特征空间与3D扩散模型条件空间,在保持各自模型先验的同时实现跨模态信息交互。
- Motivation: 现有尝试将3D任务统一到单一自回归范式会导致性能显著下降和训练成本过高。核心洞察在于:关键挑战不是强制统一自回归范式,而是在最小化损害各自固有能力的同时,实现生成与理解之间的有效信息交互,并利用预训练模型降低训练成本。
- Method: 采用自回归下一token预测范式进行3D理解,连续扩散范式进行3D生成。使用轻量级transformer桥接大语言模型特征空间与3D扩散模型条件空间,实现有效的跨模态信息交换,同时保留独立模型学习的先验知识。
- Result: 在多样化的3D理解与生成基准测试中实现了最先进的性能,同时在3D编辑任务中表现出色。这些结果突显了统一AR+扩散模型作为构建更通用3D智能的有前景方向。
- Conclusion: 提出的统一框架成功结合了自回归与扩散范式的优势,为3D理解与生成任务提供了有效的解决方案,展示了统一AR+扩散模型在构建通用3D智能方面的潜力。
[80] Constrained Dynamic Gaussian Splatting
Zihan Zheng,Zhenglong Wu,Xuanxuan Wang,Houqiang Zhong,Xiaoyun Zhang,Qiang Hu,Guangtao Zhai,Wenjun Zhang
Main category: cs.CV
TL;DR: CDGS提出约束动态高斯泼溅框架,通过预算控制器和自适应分配机制,在严格高斯预算下实现高质量4D重建,压缩率提升3倍以上。
- Motivation: 现有动态高斯泼溅方法面临两难困境:无约束密集化导致内存消耗过大不适用于边缘设备,而启发式剪枝无法在预设高斯预算下达到最佳渲染质量。
- Method: 提出约束动态高斯泼溅(CDGS)框架,核心是引入可微分预算控制器,基于几何、运动和感知线索的多模态统一重要性评分指导容量调节。采用静态和动态元素解耦优化,自适应分配机制根据运动复杂度动态分配容量,配合三阶段训练策略和双模混合压缩方案。
- Result: CDGS严格遵循硬件约束(误差<2%),在速率-失真性能方面推进了帕累托前沿,在不同容量限制下提供最佳渲染质量,相比最先进方法实现超过3倍的压缩。
- Conclusion: CDGS成功解决了动态场景重建中的预算约束优化问题,通过智能容量管理和自适应分配机制,在有限资源下实现了高质量的4D重建,为边缘设备部署提供了可行方案。
[81] Cut to the Mix: Simple Data Augmentation Outperforms Elaborate Ones in Limited Organ Segmentation Datasets
Chang Liu,Fuxin Fan,Annette Schwarz,Andreas Maier
Main category: cs.CV
TL;DR: 本文研究了四种跨图像数据增强策略(CutMix、CarveMix、ObjectAug和AnatoMix)在多器官分割任务中的应用,发现CutMix、CarveMix和AnatoMix能显著提升分割性能,其中CutMix表现最稳健。
- Motivation: 多器官分割是临床常规任务,但深度学习模型训练需要大量标注数据,而临床数据稀缺。传统数据增强仅限于图像内操作,跨图像的对象级数据增强策略在多器官分割中尚未充分探索。
- Method: 研究了四种跨图像数据增强策略:CutMix、CarveMix、ObjectAug和AnatoMix,在两个器官分割数据集上进行实验,并与最先进的nnUNet(无数据增强)进行对比。
- Result: CutMix、CarveMix和AnatoMix相比无数据增强的nnUNet,平均Dice分数分别提升了4.9、2.0和1.9。结合传统数据增强策略后性能可进一步提升。CutMix是最稳健且简单的策略。
- Conclusion: 跨图像数据增强策略能有效提升多器官分割性能,其中CutMix是稳健且有效的选择,即使生成的图像看起来"错误"也能提升模型泛化能力。
[82] ELIQ: A Label-Free Framework for Quality Assessment of Evolving AI-Generated Images
Xinyue Li,Zhiming Xu,Zhichao Zhang,Zhaolin Cai,Sijing Wu,Xiongkuo Min,Yitong Chen,Guangtao Zhai
Main category: cs.CV
TL;DR: ELIQ是一个无需人工标注的框架,用于评估不断进化的AI生成图像质量,通过自动构建正负样本对,将预训练多模态模型调整为质量感知的评估器,在多个基准测试中表现优异。
- Motivation: 生成式文本到图像模型快速发展,导致之前收集的质量标签对新生成的图像不可靠,需要一种无需人工标注、能适应模型进化的质量评估方法。
- Method: ELIQ自动构建正负样本对覆盖传统失真和AIGC特定失真模式,通过指令调优将预训练多模态模型调整为质量感知评估器,使用轻量级门控融合和质量查询变换器预测二维质量(视觉质量和提示-图像对齐)。
- Result: 在多个基准测试中,ELIQ始终优于现有的无标签方法,无需修改即可从AIGC场景泛化到用户生成内容场景,为持续进化的生成模型提供了可扩展的无标签质量评估方案。
- Conclusion: ELIQ为不断进化的生成模型提供了一种可扩展、无需人工标注的质量评估框架,能够适应模型快速发展的挑战,在视觉质量和提示-图像对齐两方面都表现出色。
[83] SlowFocus: Enhancing Fine-grained Temporal Understanding in Video LLM
Ming Nie,Dan Ding,Chunwei Wang,Yuanfan Guo,Jianhua Han,Hang Xu,Li Zhang
Main category: cs.CV
TL;DR: SlowFocus机制通过查询相关时间段的密集采样和多频混合注意力,解决了视频大语言模型在保持帧级语义信息和视频级时序信息之间的平衡问题,显著提升了细粒度视频理解能力。
- Motivation: 当前视频大语言模型(Vid-LLMs)难以同时保持高质量的帧级语义信息(每帧足够token数)和全面的视频级时序信息(足够采样帧数),这限制了细粒度视频理解的发展。
- Method: 提出SlowFocus机制:1) 基于问题识别查询相关时间段;2) 在该时间段进行密集采样提取局部高频特征;3) 使用多频混合注意力模块聚合局部高频细节和全局低频上下文;4) 引入训练策略增强时序定位和详细时序推理能力;5) 建立FineAction-CGR基准测试细粒度时序理解。
- Result: 在现有公共视频理解基准和提出的FineAction-CGR基准上,SlowFocus机制都表现出优越性能,显著提升了视频大语言模型的细粒度时序理解能力。
- Conclusion: SlowFocus机制通过创新的密集采样和多频混合注意力,有效解决了视频大语言模型在帧级语义和视频级时序信息平衡方面的挑战,推动了细粒度视频理解的发展。
[84] High-Resolution Underwater Camouflaged Object Detection: GBU-UCOD Dataset and Topology-Aware and Frequency-Decoupled Networks
Wenji Wu,Shuo Ye,Yiyu Liu,Jiguang He,Zhuo Wang,Zitong Yu
Main category: cs.CV
TL;DR: DeepTopo-Net:一种结合拓扑感知建模和频率解耦感知的新型水下伪装目标检测框架,针对深海细长生物和透明生物的特征提取挑战,在多个数据集上取得SOTA性能。
- Motivation: 水下伪装目标检测面临极端视觉相似性挑战,现有方法难以处理深海细长生物的拓扑结构断裂和透明生物的细微特征提取问题。
- Method: 提出DeepTopo-Net框架,包含:1)Water-Conditioned Adaptive Perceptor(WCAP),使用黎曼度量张量动态变形卷积采样场以应对物理退化;2)Abyssal-Topology Refinement Module(ATRM),通过骨骼先验保持细长目标的结构连通性;3)创建首个高分辨率(2K)GBU-UCOD基准数据集,针对海洋垂直分带。
- Result: 在MAS3K、RMAS和提出的GBU-UCOD数据集上进行广泛实验,DeepTopo-Net实现了最先进的性能,特别是在保持复杂水下图案的形态完整性方面表现优异。
- Conclusion: DeepTopo-Net通过拓扑感知建模和频率解耦感知有效解决了水下伪装目标检测的挑战,特别是在深海细长生物和透明生物的检测方面取得了显著进展,填补了深海区域数据集的空白。
[85] TIPS Over Tricks: Simple Prompts for Effective Zero-shot Anomaly Detection
Alireza Salehi,Ehsan Karami,Sepehr Noey,Sahand Noey,Makoto Yamada,Reshad Hosseini,Mohammad Sabokrou
Main category: cs.CV
TL;DR: 本文提出基于TIPS视觉语言模型的零样本异常检测方法,通过解耦提示和局部特征注入,显著提升了图像级和像素级的异常检测性能。
- Motivation: 现有基于CLIP的零样本异常检测方法存在空间错位和对细粒度异常敏感度不足的问题,而先前工作主要关注复杂辅助模块,忽视了骨干网络的选择。
- Method: 采用TIPS作为骨干网络(具有空间感知训练目标),提出解耦提示策略(固定提示用于图像级检测,可学习提示用于像素级定位),并将局部证据注入全局评分。
- Result: 在七个工业数据集上,图像级性能提升1.1-3.9%,像素级性能提升1.5-6.9%,无需CLIP特定技巧,实现了强泛化能力和简洁架构。
- Conclusion: 通过重新审视骨干网络选择并采用TIPS,结合解耦提示和局部特征注入,显著提升了零样本异常检测的性能,证明了骨干网络选择的重要性。
[86] Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation
Haichao Jiang,Tianming Liang,Wei-Shi Zheng,Jian-Fang Hu
Main category: cs.CV
TL;DR: 提出Refer-Agent多智能体系统,通过交替推理-反思机制解决视频指代分割问题,无需微调即可超越现有方法
- Motivation: 当前基于大规模监督微调的方法数据依赖性强、可扩展性差,而零样本方法性能落后。需要一种既灵活又高性能的解决方案
- Method: 设计协作多智能体系统,包含:1) 粗到细的帧选择策略保证多样性和文本相关性;2) 动态焦点布局自适应调整视觉关注;3) 反思链机制通过提问者-回答者对验证中间结果并生成反馈
- Result: 在五个挑战性基准测试中显著优于最先进方法,包括微调模型和零样本方法,且无需额外微调成本即可快速集成新MLLMs
- Conclusion: Refer-Agent通过多智能体协作和反思机制有效解决了RVOS问题,提供了灵活、高性能且可扩展的解决方案
[87] A Lightweight Library for Energy-Based Joint-Embedding Predictive Architectures
Basile Terver,Randall Balestriero,Megi Dervishi,David Fan,Quentin Garrido,Tushar Nagarajan,Koustuv Sinha,Wancong Zhang,Mike Rabbat,Yann LeCun,Amir Bar
Main category: cs.CV
TL;DR: EB-JEPA是一个开源库,用于使用联合嵌入预测架构(JEPA)学习表示和世界模型,通过能量基自监督学习实现单GPU快速训练。
- Motivation: JEPA在表示空间而非像素空间进行预测,避免了生成建模的缺陷,同时捕获适合下游任务的语义特征。需要将图像级自监督学习技术扩展到视频和动作条件世界模型,其中时间动态和控制输入增加了复杂性。
- Method: 提供模块化、自包含的实现,展示如何将表示学习技术从图像扩展到视频(时间建模)和动作条件世界模型。使用能量基自监督学习,包含正则化组件防止表示崩溃。
- Result: 在CIFAR-10上获得91%的探测准确率;在Moving MNIST上展示多步预测;在Two Rooms导航任务中达到97%的规划成功率。消融实验显示每个正则化组件对防止表示崩溃至关重要。
- Conclusion: EB-JEPA使能量基自监督学习在研究和教育中更易访问,展示了JEPA从图像到视频再到世界模型的可扩展性,为表示学习提供了实用工具。
[88] KTV: Keyframes and Key Tokens Selection for Efficient Training-Free Video LLMs
Baiyang Song,Jun Peng,Yuxin Zhang,Guangyao Chen,Feidiao Yang,Jianyuan Guo
Main category: cs.CV
TL;DR: KTV:一个两阶段训练免费视频理解框架,通过聚类选择关键帧和剪枝冗余视觉token,显著减少计算开销同时提升性能。
- Motivation: 现有训练免费视频理解方法存在严重视觉冗余和高计算开销问题,特别是处理长视频时。基于CLIP相似性的关键帧选择策略容易产生偏见,可能遗漏关键帧,导致视频理解效果不佳。
- Method: 提出KTV两阶段框架:第一阶段通过聚类帧级视觉特征进行问题无关的关键帧选择,获得紧凑、多样、有代表性的帧子集;第二阶段基于token重要性和冗余性,从每个关键帧中剪枝冗余或信息量较少的视觉token。
- Result: 在Multiple-Choice VideoQA任务上,KTV超越最先进的训练免费基线方法,同时使用显著更少的视觉token(例如60分钟10800帧视频仅用504个token),在MLVU-Test基准上达到44.8%准确率。在某些基准上甚至超过一些训练方法。
- Conclusion: KTV通过有效减少视觉冗余和计算开销,实现了高效且有效的训练免费视频理解,为解决长视频处理中的关键帧选择和token冗余问题提供了创新解决方案。
[89] Quasi-multimodal-based pathophysiological feature learning for retinal disease diagnosis
Lu Zhang,Huizhen Yu,Zuowei Wang,Fu Gui,Yatu Guo,Wei Zhang,Mengyu Jia
Main category: cs.CV
TL;DR: 提出统一框架整合多模态数据合成与融合,用于视网膜疾病分类和分级,通过合成FFA、MSI和显著性图,并行学习模态特定表征,自适应校准特征,在多个任务上优于现有方法。
- Motivation: 视网膜疾病诊断中多模态数据存在异质性、潜在侵入性、配准复杂性等挑战,需要统一框架来整合多模态数据合成与融合,提高诊断准确性和效率。
- Method: 1) 合成多模态数据(FFA、MSI、显著性图);2) 并行训练模型学习模态特定表征;3) 自适应校准跨模态特征进行信息剪枝和灵活整合;4) 通过图像和特征空间可视化解释学习系统。
- Result: 在两个公开数据集上,多标签分类任务F1-score达0.683,AUC达0.953;糖尿病视网膜病变分级准确率达0.842,Kappa系数达0.861,优于现有最先进方法。
- Conclusion: 该工作不仅提高了视网膜疾病筛查的准确性和效率,还为各种医学成像模态的数据增强提供了可扩展框架。
[90] Multi-Objective Optimization for Synthetic-to-Real Style Transfer
Estelle Chigot,Thomas Oberlin,Manon Huguenin,Dennis Wilson
Main category: cs.CV
TL;DR: 使用多目标遗传算法优化风格迁移管道,通过平衡结构连贯性和风格相似性来缩小合成图像与真实图像之间的域差距,提升语义分割性能。
- Motivation: 语义分割需要大量像素级标注数据,但真实图像标注成本高。合成图像虽有标注,但存在域差距导致模型在真实图像上表现不佳。风格迁移可减少这种差异,但如何选择有效的数据变换及其顺序是一个组合搜索难题。
- Method: 将风格迁移视为序列优化问题,使用多目标遗传算法优化管道,平衡结构连贯性和风格相似性。采用单图像配对指标而非需要大量图像的分布指标,实现快速评估。在GTA5到Cityscapes和ACDC数据集上进行合成到真实的域适应。
- Result: 进化算法能够提出适应不同目标的多样化增强管道。在GTA5到Cityscapes和ACDC(恶劣条件)的域适应任务中,该方法有效缩小了合成与真实图像之间的域差距。
- Conclusion: 将风格迁移表述为适合进化优化的序列问题,并研究高效指标实现可行搜索。该方法为合成到真实的域适应提供了有效的风格迁移管道优化方案。
[91] SPWOOD: Sparse Partial Weakly-Supervised Oriented Object Detection
Wei Zhang,Xiang Liu,Ningjing Liu,Mingxin Liu,Wei Liao,Chunyan Xu,Xue Yang
Main category: cs.CV
TL;DR: 提出首个稀疏部分弱监督定向目标检测框架,仅需少量稀疏弱标注数据和大量无标注数据,在遥感图像上实现高效检测。
- Motivation: 遥感领域目标检测面临密集目标分布和类别多样化的挑战,全标注成本极高。现有方法包括全监督、半监督和弱监督,但仍有改进空间。需要更高效的标注利用方法。
- Method: 1. SOS-Student模型:在稀疏标注设置下从背景分离未标注目标,从方向/尺度无关的弱标注中学习方向和尺度信息
- 多级伪标签过滤策略:利用模型多层预测信息指导伪标签生成
- 稀疏分区方法:确保每个类别得到平等处理
- Result: 在DOTA和DIOR数据集上的大量实验表明,该框架相比传统定向目标检测方法取得显著性能提升,提供高成本效益解决方案。
- Conclusion: 提出的稀疏部分弱监督定向目标检测框架能有效利用少量弱标注和大量无标注数据,为遥感目标检测提供实用且经济高效的解决方案。
[92] MM-SCALE: Grounded Multimodal Moral Reasoning via Scalar Judgment and Listwise Alignment
Eunkyu Park,Wesley Hanwen Deng,Cheyon Jin,Matheus Kunzler Maldaner,Jordan Wheeler,Jason I. Hong,Hong Shen,Adam Perer,Ken Holstein,Motahhare Eslami,Gunhee Kim
Main category: cs.CV
TL;DR: 提出了MM-SCALE数据集,通过5点标量评分和显式模态标注来对齐视觉语言模型与人类道德偏好,相比传统二元监督能提供更丰富的对齐信号。
- Motivation: 现有视觉语言模型在多模态和社会模糊情境下的道德判断能力不足,传统二元或成对监督无法捕捉人类道德推理的连续性和多元性。
- Method: 构建MM-SCALE大规模数据集,包含图像-场景对,通过专门设计的界面收集人类标注的5点标量道德可接受性评分和显式模态标注理由,支持基于排序场景集的列表式偏好优化。
- Result: 在MM-SCALE上微调的视觉语言模型相比二元信号训练模型,获得了更高的排序保真度和更稳定的安全校准性能。
- Conclusion: 从离散监督转向标量监督能够为多模态道德推理提供更丰富的对齐信号和更精细的校准,MM-SCALE数据集有效提升了视觉语言模型的道德判断能力。
[93] Efficient Sequential Neural Network with Spatial-Temporal Attention and Linear LSTM for Robust Lane Detection Using Multi-Frame Images
Sandeep Patil,Yongqi Dong,Haneen Farah,Hans Hellendoorn
Main category: cs.CV
TL;DR: 提出一种带有时空注意力机制的序列神经网络模型,用于车道线检测,在多种测试场景中优于现有方法,同时具有更少的参数和计算量。
- Motivation: 当前车道线检测方法缺乏在准确、鲁棒和实时兼容性方面的通用性,特别是基于视觉的方法常常忽略图像的关键区域和时空显著性,导致在严重遮挡和眩光等困难情况下性能不佳。
- Method: 提出一种新颖的序列神经网络模型,采用时空注意力机制来聚焦车道线的关键特征,并利用连续图像帧之间的显著时空相关性。模型基于标准的编码器-解码器结构和常见的神经网络骨干构建。
- Result: 在三个大规模开源数据集上的实验表明,该模型在各种测试场景中优于最先进的方法,展现出强大的性能和鲁棒性。同时,时空注意力机制使模型参数更少,乘累加操作(MACs)更低,计算效率更高。
- Conclusion: 提出的带有时空注意力机制的序列神经网络模型在车道线检测任务中表现出色,不仅性能优于现有方法,还具有更高的计算效率,适合自动驾驶和高级驾驶辅助系统的实际应用。
[94] Referring Industrial Anomaly Segmentation
Pengfei Yue,Xiaokang Jiang,Yilin Lu,Jianghang Lin,Shengchuan Zhang,Liujuan Cao
Main category: cs.CV
TL;DR: RIAS提出了一种基于语言引导的工业异常检测新范式,通过文本描述生成精确掩码,无需手动阈值,使用单一模型检测多种异常
- Motivation: 传统工业异常检测方法面临两大挑战:无监督方法需要手动阈值且定位粗糙,监督方法因数据稀缺和不平衡容易过拟合,且都受限于"一种异常一个模型"的限制
- Method: 提出Referring Industrial Anomaly Segmentation (RIAS)范式,利用语言指导检测;引入MVTec-Ref数据集支持该范式;提出DQFormer基准模型,采用双查询令牌和语言门控多级聚合技术
- Result: 实验证明RIAS在工业异常检测中的有效性,推动该领域向开放集能力发展;DQFormer仅使用"异常"和"背景"两个令牌实现高效视觉-文本集成
- Conclusion: RIAS通过语言引导的检测范式解决了传统工业异常检测方法的局限性,实现了无需手动阈值、单一模型检测多种异常的能力,为工业异常检测向开放集发展提供了新方向
[95] RegionReasoner: Region-Grounded Multi-Round Visual Reasoning
Wenfang Sun,Hao Chen,Yingjun Du,Yefeng Zheng,Cees G. M. Snoek
Main category: cs.CV
TL;DR: 提出RegionReasoner强化学习框架和RegionDial-Bench基准,通过显式引用边界框和全局-局部一致性奖励,提升多轮视觉推理能力
- Motivation: 现有视觉语言模型大多依赖单步或纯文本推理,缺乏跨多个视觉上下文迭代细化的能力,限制了多轮视觉推理的发展
- Method: 提出RegionReasoner强化学习框架:1)要求每个推理轨迹显式引用对应的参考边界框实现接地推理;2)通过全局-局部一致性奖励保持语义连贯性,从全局场景描述和区域级描述中提取关键对象和名词,与推理轨迹对齐;3)结合接地保真度和全局-局部语义对齐的结构化奖励进行优化
- Result: 在检测和分割任务上的实验表明,RegionReasoner-7B与RegionDial-Bench基准显著提升了多轮推理准确性、空间接地精度和全局-局部一致性,为这一新兴研究方向建立了强基线
- Conclusion: RegionReasoner框架通过显式接地机制和语义一致性奖励,有效解决了多轮视觉推理中的迭代细化问题,为视觉语言模型的复杂推理能力提供了新方向
[96] Edge-Optimized Vision-Language Models for Underground Infrastructure Assessment
Johny J. Lopez,Md Meftahul Ferdaus,Mahdi Abdelguerfi
Main category: cs.CV
TL;DR: 提出一个两阶段管道,用于地下基础设施缺陷的端到端总结:第一阶段使用轻量级RAPID-SCAN模型进行缺陷分割,第二阶段使用微调的Phi-3.5视觉语言模型生成自然语言总结,并在边缘设备上部署实现实时性能。
- Motivation: 地下基础设施(如下水道和涵洞系统)的自主检查对公共安全和城市可持续性至关重要。虽然配备视觉传感器的机器人平台可以高效检测结构缺陷,但从这些检测结果自动生成人类可读的总结仍然是一个重大挑战,特别是在资源受限的边缘设备上。
- Method: 提出一个新颖的两阶段管道:1) 使用轻量级RAPID-SCAN分割模型(仅0.64M参数)进行缺陷分割;2) 使用微调的Phi-3.5视觉语言模型从分割输出生成领域特定的自然语言总结。采用后训练量化和硬件特定优化,在移动机器人平台上部署完整管道。
- Result: RAPID-SCAN模型达到0.834 F1分数,实现了高效的缺陷分割。通过量化和优化,显著减少了模型大小和推理延迟,同时保持总结质量。在移动机器人平台上的部署验证了其在真实检查场景中的有效性。
- Conclusion: 该研究展示了边缘可部署集成AI系统的潜力,能够弥合自动缺陷检测与基础设施维护可操作见解之间的差距,为更可扩展和自主的检查解决方案铺平了道路。
[97] LIVE: Long-horizon Interactive Video World Modeling
Junchao Huang,Ziyang Ye,Xinting Hu,Tianyu He,Guiyu Zhang,Shaoshuai Shi,Jiang Bian,Li Jiang
Main category: cs.CV
TL;DR: LIVE提出了一种通过循环一致性约束来限制误差累积的长时域交互视频世界模型,无需教师模型蒸馏,在长时域视频生成上达到SOTA性能。
- Motivation: 自回归视频世界模型在短时域预测有效,但在长时域生成中,小的预测误差会随时间累积,导致生成质量下降。现有方法引入预训练教师模型和序列级分布匹配,但计算成本高且无法防止超出训练时域的误差传播。
- Method: 提出LIVE模型,通过新颖的循环一致性目标强制有界误差累积:1)从真实帧进行前向推演,2)应用反向生成过程重建初始状态,3)在重建的终端状态上计算扩散损失,显式约束长时域误差传播。还提供了统一视角并引入渐进训练课程来稳定训练。
- Result: 实验表明LIVE在长时域基准测试中达到最先进性能,能够生成超出训练推演长度的稳定、高质量视频。
- Conclusion: LIVE通过循环一致性约束有效解决了长时域视频生成中的误差累积问题,无需教师模型蒸馏,在长时域视频生成任务上表现出色。
[98] See-through: Single-image Layer Decomposition for Anime Characters
Jian Lin,Chengze Li,Haoyun Qin,Kwun Wang Chan,Yanghua Jin,Hanyuan Liu,Stephen Chun Wang Choy,Xueting Liu
Main category: cs.CV
TL;DR: 提出自动化框架,将静态动漫插图转化为可操控的2.5D模型,解决传统手动分割和遮挡区域"幻觉"的繁琐问题
- Motivation: 当前专业工作流程需要繁琐的手动分割和遮挡区域的艺术"幻觉"才能实现动画效果,这限制了动漫插图的动态化效率
- Method: 1) 将单张图像分解为完全修复、语义分明的图层并推断绘制顺序;2) 使用可扩展引擎从商业Live2D模型获取高质量监督数据;3) 结合基于扩散的身体部位一致性模块和像素级伪深度推断机制
- Result: 能够生成高保真、可操控的模型,适用于专业的实时动画应用,能够处理动漫角色的复杂分层结构(如交错发丝)
- Conclusion: 该框架成功实现了静态动漫插图的自动化2.5D转换,解决了训练数据稀缺问题,为专业动画应用提供了高效解决方案
[99] Zero-shot large vision-language model prompting for automated bone identification in paleoradiology x-ray archives
Owen Dong,Lily Gao,Manish Kota,Bennett A. Landmana,Jelena Bekvalac,Gaynor Western,Katherine D. Van Schaik
Main category: cs.CV
TL;DR: 利用大型视觉语言模型(LVLM)的零样本提示策略,自动识别古放射学图像中的主要骨骼、投影视图和侧位信息,显著加速大型数据集的内容导航。
- Motivation: 古放射学图像存在异质性:骨骼错位、定位随意、侧位标记缺失,加上年龄、性别、设备等因素导致高变异性,使得内容导航和图像筛选成为专家分析的瓶颈。
- Method: 采用零样本提示策略,利用最先进的大型视觉语言模型(LVLM):将原始DICOM文件转换为骨骼窗口PNG图像,通过精心设计的提示词提交给LVLM,接收结构化JSON输出,提取并格式化到电子表格中供验证。
- Result: 在专家评审的100张随机样本图像中,系统达到92%的主要骨骼识别准确率、80%的投影视图准确率和100%的侧位准确率,对模糊病例设置了低或中等置信度标记。
- Conclusion: LVLMs能够显著加速大型古放射学数据集的代码词开发,为未来人类学工作流程提供高效的内容导航能力。
[100] Test-Time Conditioning with Representation-Aligned Visual Features
Nicolas Sereyjol-Garros,Ellington Kirby,Victor Letzelter,Victor Besnier,Nermin Samet
Main category: cs.CV
TL;DR: REPA-G是一种在推理时利用自监督模型对齐表示进行条件生成的扩散模型框架,通过优化相似性目标实现多尺度控制和多概念组合。
- Motivation: 虽然表示对齐已被证明能改进扩散模型训练,但其在推理时条件生成的潜力尚未充分探索。现有方法主要依赖模糊的文本提示或粗糙的类别标签,缺乏灵活性和精确性。
- Method: 提出表示对齐引导(REPA-G)框架,在推理时通过优化相似性目标(势函数)来引导去噪过程,使其朝向预训练特征提取器提取的条件表示。支持从单块纹理匹配到全局语义引导的多尺度控制,并可扩展到多概念组合。
- Result: 在ImageNet和COCO数据集上的定量结果显示,该方法能实现高质量、多样化的生成。理论分析表明该引导方法能从势函数诱导的倾斜分布中采样。
- Conclusion: REPA-G提供了一种完全在推理时操作的灵活精确条件生成方法,可作为文本提示或类别标签的替代方案,实现了多尺度控制和多概念组合。
[101] RAWDet-7: A Multi-Scenario Benchmark for Object Detection and Description on Quantized RAW Images
Mishal Fatima,Shashank Agnihotri,Kanchana Vaishnavi Gandikota,Michael Moeller,Margret Keuper
Main category: cs.CV
TL;DR: RAWDet-7是一个包含约25k训练和7.6k测试RAW图像的大规模数据集,用于研究机器视觉中RAW图像处理,支持对象检测和描述任务,并模拟4/6/8位量化场景。
- Motivation: 传统视觉模型使用针对人类感知优化的ISP处理的RGB图像,会丢弃对机器推理有用的传感器级信息。RAW图像保留未处理的场景数据,能提供更丰富的线索用于对象检测和描述。
- Method: 构建RAWDet-7数据集,包含约25k训练和7.6k测试RAW图像,覆盖多种相机、光照条件和环境,密集标注7个对象类别,遵循MS-COCO和LVIS标准。提供从相应高分辨率sRGB图像提取的对象级描述,支持模拟4/6/8位量化评估。
- Result: 创建了一个大规模RAW图像数据集,支持对象检测、描述任务研究,以及低比特量化下的性能评估。数据集为研究RAW图像处理中的信息保留、检测性能、描述质量和泛化能力提供了基准。
- Conclusion: RAWDet-7数据集填补了RAW图像处理研究的空白,为探索机器视觉中利用传感器级原始数据、低比特量化下的性能表现提供了重要资源,有助于推动超越传统ISP处理范式的视觉模型发展。
[102] FOVI: A biologically-inspired foveated interface for deep vision models
Nicholas M. Blauch,George A. Alvarez,Talia Konkle
Main category: cs.CV
TL;DR: 提出基于人眼视网膜和初级视觉皮层的仿生变分辨率视觉接口FOVI,通过k近邻卷积实现高效的高分辨率视觉处理
- Motivation: 人类视觉具有中央凹变分辨率特性,能高效处理大视野图像,而传统计算机视觉系统使用均匀分辨率,处理高分辨率图像时计算效率低下
- Method: 设计视网膜式变分辨率传感器阵列,将其转换为均匀密集的V1式传感器流形,定义k近邻感受野,开发新颖的核映射技术实现kNN卷积
- Result: 开发了端到端kNN卷积架构和DINOv3 ViT模型的中央凹适配版本,在保持竞争力的性能下显著降低计算成本
- Conclusion: FOVI为高效可扩展的高分辨率第一人称视觉主动感知开辟了新途径,代码和预训练模型已开源
[103] QVLA: Not All Channels Are Equal in Vision-Language-Action Model's Quantization
Yuhao Xu,Yantai Yang,Zhenyang Fan,Yufan Liu,Yuming Li,Bing Li,Zhipeng Zhang
Main category: cs.CV
TL;DR: QVLA:首个面向具身控制的动作中心量化框架,通过通道级比特分配策略,在保持98.9%性能的同时将VRAM需求降至29.2%,实现1.49倍加速
- Motivation: VLA模型在具身智能领域有重大突破,但其巨大计算需求严重阻碍了在资源受限机器人平台上的部署。现有LLM量化方法直接应用于机器人控制存在问题,因为它们优先考虑被动数据保真度,而忽略了微小动作偏差会累积成灾难性任务失败。
- Method: 提出QVLA框架,采用高度细粒度的通道级比特分配策略。核心机制是直接测量量化每个通道到不同比特宽度时的最终动作空间敏感性,生成精确的每通道重要性指标,指导全局优化,将量化和剪枝(0比特)统一到单一框架中。
- Result: 在LIBERO基准测试中,使用QVLA量化的OpenVLA-OFT仅需原模型29.2%的VRAM,保持98.9%的原始性能,实现1.49倍加速,比LLM衍生方法SmoothQuant性能提升22.6%。
- Conclusion: QVLA为机器人领域VLA模型压缩建立了新的原则性基础,为在真实硬件上部署强大、大规模模型铺平了道路。
[104] From Pre- to Intra-operative MRI: Predicting Brain Shift in Temporal Lobe Resection for Epilepsy Surgery
Jingjing Peng,Giorgio Fiore,Yang Liu,Ksenia Ellum,Debayan Daspupta,Keyoumars Ashkan,Andrew McEvoy,Anna Miserocchi,Sebastien Ourselin,John Duncan,Alejandro Granados
Main category: cs.CV
TL;DR: NeuralShift:基于U-Net的模型,仅使用术前MRI预测脑移位,用于颞叶切除手术,DICE达0.97,标志点配准误差低至1.12mm
- Motivation: 神经外科中,图像引导神经外科系统依赖术前MRI定位手术目标和路径,但硬脑膜打开后脑移位使术前MRI失效。需要术中MRI更新以补偿脑移位,提高导航精度和手术效果。
- Method: 提出NeuralShift模型,基于U-Net架构,仅使用术前MRI预测颞叶切除患者的脑移位。使用目标配准误差评估解剖标志点位移,DICE分数比较预测的术中掩模与真实术中MRI掩模。
- Result: 模型能准确预测脑全局变形(DICE 0.97)和局部位移(标志点TRE低至1.12mm),有效补偿颞叶切除手术中的大范围脑移位。
- Conclusion: 该模型仅用术前图像即可预测颞叶切除期间的脑变形,为手术团队提供提高神经外科安全性和效率的潜在机会,改善患者预后。代码将在接受后公开。
[105] 3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation
Zhixue Fang,Xu He,Songlin Tang,Haoxian Zhang,Qingfeng Li,Xiaoqiang Liu,Pengfei Wan,Kun Gai
Main category: cs.CV
TL;DR: 3DiMo:一种新的3D感知隐式运动控制方法,通过联合训练运动编码器与预训练视频生成器,实现视角无关的运动控制,支持新颖视角合成。
- Motivation: 现有方法要么使用2D姿态(限制视角),要么使用显式3D模型(存在精度问题且会覆盖生成器的内在3D感知能力),需要一种更自然对齐生成器空间先验的隐式运动表示方法。
- Method: 提出3DiMo框架:1)联合训练运动编码器与预训练视频生成器,将驱动帧蒸馏为紧凑的视角无关运动token;2)通过跨注意力机制语义注入;3)使用视角丰富的监督训练(单视角、多视角、移动相机视频);4)利用SMPL进行早期初始化但逐渐衰减的辅助几何监督。
- Result: 实验证实3DiMo能够忠实再现驱动运动并支持灵活的文本驱动相机控制,在运动保真度和视觉质量方面显著超越现有方法。
- Conclusion: 通过隐式、视角无关的运动表示,3DiMo能够更好地利用大规模视频生成器的内在3D感知能力,实现高质量的运动控制和新颖视角合成。
[106] Progressive Checkerboards for Autoregressive Multiscale Image Generation
David Eigen
Main category: cs.CV
TL;DR: 提出一种基于渐进棋盘格排序的多尺度自回归图像生成方法,通过平衡的并行采样实现高效生成,在ImageNet上达到SOTA性能且减少采样步数。
- Motivation: 解决自回归图像生成中并行采样与序列条件建模的矛盾,现有方法要么使用多尺度金字塔,要么使用规则分区或随机顺序,需要更灵活高效的并行采样方案。
- Method: 采用渐进棋盘格固定排序,在每个尺度上从均匀间隔区域并行采样,在四叉树细分的每个层级保持完全平衡,实现尺度间和尺度内的有效条件建模。
- Result: 在平衡设置下,发现只要总序列步数恒定,多种尺度放大因子都能产生相似结果;在ImageNet条件生成任务上,相比同类模型容量的SOTA自回归系统,使用更少采样步数达到竞争性能。
- Conclusion: 渐进棋盘格排序为多尺度自回归图像生成提供了一种灵活高效的并行采样方案,在保持生成质量的同时显著减少采样时间,平衡的并行化策略是关键优势。
[107] Fast-Slow Efficient Training for Multimodal Large Language Models via Visual Token Pruning
Dingkun Zhang,Shuhan Qi,Yulin Wu,Xinyu Xiao,Xuan Wang,Long Chen
Main category: cs.CV
TL;DR: DualSpeed:一种用于多模态大语言模型高效训练的快-慢框架,通过视觉token剪枝加速训练,同时保持推理性能不下降
- Motivation: 多模态大语言模型存在严重的训练效率问题,主要源于巨大的模型规模和视觉token数量。现有高效训练方法主要关注减少模型规模或可训练参数,而视觉token剪枝在推理效率方面已取得成功,但直接应用于训练会导致训练-推理不匹配问题
- Method: 提出DualSpeed快-慢框架:快模式作为主要模式,集成现有视觉token剪枝方法作为插件来减少视觉token,并通过模式隔离器隔离模型行为;慢模式作为辅助模式,在完整视觉序列上训练以保持训练-推理一致性,并利用自蒸馏从充分训练的快模式中学习
- Result: 实验显示DualSpeed将LLaVA-1.5的训练加速2.1倍,将LLaVA-NeXT的训练加速4.0倍,同时保持超过99%的性能
- Conclusion: DualSpeed框架通过快-慢双模式设计,成功解决了视觉token剪枝在训练阶段的应用问题,实现了多模态大语言模型的高效训练而不牺牲性能
[108] Continuous Control of Editing Models via Adaptive-Origin Guidance
Alon Wolf,Chen Katzir,Kfir Aberman,Or Patashnik
Main category: cs.CV
TL;DR: 提出AdaOr方法,通过自适应原点调整实现文本引导编辑强度的平滑连续控制,解决现有扩散编辑模型无法平滑控制编辑强度的问题。
- Motivation: 现有基于扩散的编辑模型缺乏平滑控制文本引导编辑强度的机制。虽然Classifier-Free Guidance (CFG)在文本条件生成中影响提示遵循度,但在编辑模型中缩放CFG并不能产生从输入到编辑结果的平滑过渡,因为无条件预测作为指导原点在低指导尺度下主导生成,同时代表对输入内容的任意操作。
- Method: 提出Adaptive-Origin Guidance (AdaOr)方法,使用与身份操作对应的身份指令,将标准指导原点调整为身份条件自适应原点。通过根据编辑强度将身份预测与标准无条件预测进行插值,确保从输入到编辑结果的连续过渡。该方法将身份指令纳入标准训练框架,在推理时实现细粒度控制,无需每次编辑的特殊处理或依赖专门数据集。
- Result: 在图像和视频编辑任务上评估该方法,证明相比当前基于滑块的编辑方法,AdaOr提供了更平滑和更一致的控制。能够实现从输入到编辑结果的连续平滑过渡。
- Conclusion: AdaOr方法通过自适应原点调整实现了文本引导编辑强度的连续控制,解决了现有扩散编辑模型在编辑强度控制方面的局限性,为图像和视频编辑提供了更精细的控制能力。
[109] EventNeuS: 3D Mesh Reconstruction from a Single Event Camera
Shreyas Sachan,Viktor Rudnev,Mohamed Elgharib,Christian Theobalt,Vladislav Golyanik
Main category: cs.CV
TL;DR: EventNeuS:首个结合SDF和密度场学习的事件相机自监督3D重建模型,显著提升重建精度
- Motivation: 事件相机在多种场景中优于RGB相机,但现有事件相机3D重建方法精度严重受限,密集3D网格重建研究不足
- Method: 结合3D符号距离函数和密度场学习,引入球谐函数编码处理视角相关效应,使用事件流进行自监督学习
- Result: 显著优于现有方法,平均Chamfer距离降低34%,平均绝对误差降低31%
- Conclusion: EventNeuS首次将SDF和密度场学习与事件监督结合,实现了事件相机3D重建的显著精度提升
eess.IV
[110] Super-résolution non supervisée d'images hyperspectrales de télédétection utilisant un entraînement entièrement synthétique
Xinxin Xu,Yann Gousseau,Christophe Kervazo,Saïd Ladjal
Main category: eess.IV
TL;DR: 提出基于合成丰度数据的无监督高光谱图像超分辨率方法,通过解混、合成数据训练网络、再重构实现空间分辨率提升
- Motivation: 现有高光谱超分辨率方法大多依赖有监督学习需要高分辨率真实数据,但实际中这类数据往往难以获取,因此需要无监督方法
- Method: 1) 通过高光谱解混将图像分解为端元和丰度图;2) 使用死叶模型生成合成丰度数据训练神经网络进行超分辨率;3) 将超分辨率后的丰度图与端元重新组合得到最终高光谱图像
- Result: 实验结果表明该方法有效,证明了合成数据用于训练的相关性和可行性
- Conclusion: 提出的无监督方法能够有效提升高光谱图像空间分辨率,同时保持光谱信息,为缺乏高分辨率真实数据的场景提供了实用解决方案
[111] EchoJEPA: A Latent Predictive Foundation Model for Echocardiography
Alif Munim,Adibvafa Fallahpour,Teodora Szasz,Ahmadreza Attarpour,River Jiang,Brana Sooriyakanthan,Maala Sooriyakanthan,Heather Whitney,Jeremy Slivnick,Barry Rubin,Wendy Tsang,Bo Wang
Main category: eess.IV
TL;DR: EchoJEPA是一个用于超声心动图的基础模型,通过1800万张超声心动图训练,在左心室射血分数估计、视图分类和鲁棒性方面显著优于现有方法。
- Motivation: 当前超声心动图基础模型未能有效分离解剖信号与超声图像中的随机斑点噪声和采集伪影,这限制了模型的泛化能力和诊断一致性。
- Method: 提出了EchoJEPA模型,在300K患者的1800万张超声心动图上进行预训练,并引入多视图探测框架和因子化流嵌入来标准化冻结骨干网络的评估。
- Result: EchoJEPA将左心室射血分数估计误差降低19%,视图分类准确率达87.4%,仅用1%标注数据达到78.6%准确率,在声学扰动下仅退化2.3%,在儿科患者上零样本转移误差降低15%。
- Conclusion: 潜在预测是超声基础模型的优越范式,EchoJEPA在样本效率、鲁棒性和跨患者群体泛化方面表现出色,为超声心动图分析提供了强大的基础模型。
[112] Physics-based generation of multilayer corneal OCT data via Gaussian modeling and MCML for AI-driven diagnostic and surgical guidance applications
Jinglun Yu,Yaning Wang,Rosalinda Xiong,Ziyi Huang,Kristina Irsch,Jin U. Kang
Main category: eess.IV
TL;DR: 开发可配置的蒙特卡洛模拟框架,生成带有像素级五层分割标签的合成角膜OCT图像,用于AI模型训练和基准测试。
- Motivation: 角膜OCT成像的深度学习模型训练受限于大规模、高质量标注数据集的缺乏,需要可扩展的合成数据生成方法。
- Method: 使用高斯表面五层角膜模型,结合文献中的光学特性,通过MCML蒙特卡洛光传输模拟,并整合系统特征(共焦PSF、灵敏度衰减),生成合成OCT图像和分割标签。
- Result: 生成了超过10,000张高分辨率(1024x1024)图像-标签对,支持几何形状、光子计数、噪声和系统参数的自定义配置。
- Conclusion: 该框架为图像引导眼科中的诊断和手术引导应用开发提供了可重复、可扩展的资源,支持在受控真实条件下系统训练和基准测试AI模型。
[113] Real-time topology-aware M-mode OCT segmentation for robotic deep anterior lamellar keratoplasty (DALK) guidance
Rosalinda Xiong,Jinglun Yu,Yaning Wang,Ziyi Huang,Jin U. Kang
Main category: eess.IV
TL;DR: 提出一种轻量级、拓扑感知的M-mode OCT分割管道,用于机器人深前板层角膜移植手术的实时深度反馈,在单GPU上实现超过80Hz的端到端吞吐量。
- Motivation: 机器人深前板层角膜移植手术需要准确的实时深度反馈来接近Descemet膜而不穿孔。M-mode术中OCT提供高时间分辨率深度轨迹,但散斑噪声、衰减和器械引起的阴影常导致不连续或模糊的层界面,难以在部署帧率下实现解剖一致的分割。
- Method: 基于UNeXt的轻量级拓扑感知M-mode分割管道,结合解剖拓扑正则化,在低信噪比条件下稳定边界连续性和层序。系统在单GPU上实现完整的预处理-推理-覆盖管道的端到端吞吐量。
- Result: 系统实现超过80Hz的端到端吞吐量,提供时间余量来拒绝低质量或丢失帧,同时保持稳定的有效深度更新率。在标准兔眼M-mode数据集上的评估显示,相比拓扑无关的对照组,边界稳定性得到改善,同时保持可部署的实时性能。
- Conclusion: 提出的拓扑感知分割管道能够在实际实时引导中提供稳定的深度反馈,超越仅模型计时的性能,为机器人角膜移植手术提供可靠的术中指导。
cs.AI
[114] Experience-Driven Multi-Agent Systems Are Training-free Context-aware Earth Observers
Pengyu Dai,Weihao Xuan,Junjue Wang,Hongruixuan Chen,Jian Song,Yafei Ou,Naoto Yokoya
Main category: cs.AI
TL;DR: GeoEvolver是一个自进化的多智能体系统,通过结构化交互让LLM智能体在无需参数更新的情况下获取地球观测专业知识,显著提升复杂EO任务的成功率。
- Motivation: 现有LLM智能体在专业化、工具密集型领域(如地球观测)表现不佳,因为这些领域需要长时程执行、多模态协调和严格的工具约束。智能体缺乏从交互中学习细粒度工具级专业知识的机制,导致无法可靠配置工具参数或从执行失败中恢复。
- Method: GeoEvolver采用自进化多智能体系统:1)通过检索增强的多智能体协调器将查询分解为独立子目标;2)在子目标层面探索多样化的工具参数配置;3)从成功模式和失败根因分析中提炼知识,存储在进化记忆库中,为未来查询提供上下文演示。
- Result: 在三个工具集成的EO基准测试中,GeoEvolver持续提升端到端任务成功率,在多个LLM骨干网络上平均增益达12%,证明EO专业知识可以通过与环境的高效细粒度交互逐步涌现。
- Conclusion: GeoEvolver展示了LLM智能体可以通过结构化交互在无需参数更新的情况下获取领域专业知识,为复杂工具密集型任务提供了有效的自进化解决方案。
[115] AutoFigure: Generating and Refining Publication-Ready Scientific Illustrations
Minjun Zhu,Zhen Lin,Yixuan Weng,Panzhong Lu,Qiujie Xie,Yifan Wei,Sifan Liu,Qiyao Sun,Yue Zhang
Main category: cs.AI
TL;DR: FigureBench是首个大规模科学插图生成基准,包含3300个高质量文本-插图对;AutoFigure是首个基于长文本自动生成高质量科学插图的智能体框架。
- Motivation: 高质量科学插图对有效传达复杂科技概念至关重要,但手动创建插图在学术界和工业界都是公认的瓶颈,需要自动化解决方案。
- Method: 提出FigureBench基准数据集(3300个高质量文本-插图对)和AutoFigure智能体框架,该框架通过深度思考、重组和验证来生成结构完整且美观的科学插图。
- Result: 实验表明AutoFigure在所有基线方法中表现最优,能够生成可直接用于发表的科学插图。代码、数据集和HuggingFace空间已开源。
- Conclusion: FigureBench为科学插图生成提供了首个大规模基准,AutoFigure框架通过智能体方法有效解决了科学插图自动生成的挑战,推动了该领域的发展。
cs.SE
[116] FullStack-Agent: Enhancing Agentic Full-Stack Web Coding via Development-Oriented Testing and Repository Back-Translation
Zimu Lu,Houxing Ren,Yunqiao Yang,Ke Wang,Zhuofan Zong,Mingjie Zhan,Hongsheng Li
Main category: cs.SE
TL;DR: FullStack-Agent是一个用于全栈网站开发的统一智能体系统,包含开发框架、自学习方法和基准测试三部分,显著提升了全栈网站生成能力。
- Motivation: 现有LLM代码智能体主要生成前端网页,缺乏真实的全栈数据处理和存储能力。构建生产级全栈Web应用比仅生成前端页面更具挑战性,需要控制数据流、理解不断更新的包依赖、定位代码库中的隐蔽bug。
- Method: 提出FullStack-Agent系统,包含三个部分:1) FullStack-Dev:具有强大规划、代码编辑、代码库导航和bug定位能力的多智能体框架;2) FullStack-Learn:通过反向翻译爬取和合成的网站仓库来改进骨干LLM的数据扩展和自学习方法;3) FullStack-Bench:系统测试生成网站前端、后端和数据库功能的综合基准。
- Result: FullStack-Dev在前端、后端和数据库测试用例上分别比先前最优方法提升8.7%、38.2%和15.9%。FullStack-Learn通过自学习将30B模型在三个测试集上的性能分别提升9.7%、9.5%和2.8%。
- Conclusion: FullStack-Agent系统有效解决了全栈网站开发的挑战,通过多智能体框架、自学习方法和综合基准测试,显著提升了全栈网站生成能力,为LLM驱动的全栈开发提供了有效解决方案。
cs.CY
[117] Beyond Translation: Cross-Cultural Meme Transcreation with Vision-Language Models
Yuming Zhao,Peiyi Zhang,Oana Ignat
Main category: cs.CY
TL;DR: 该论文研究跨文化表情包转创任务,提出基于视觉语言模型的混合框架,构建大规模中英表情包数据集,发现当前模型在跨文化转创中存在方向性不对称(美→中优于中→美)。
- Motivation: 表情包作为普遍的在线交流形式,其文化特异性给跨文化适应带来挑战。需要研究如何保持交流意图和幽默感的同时,适应文化特定参考的跨文化表情包转创任务。
- Method: 提出基于视觉语言模型的混合转创框架,构建大规模双向中英表情包数据集(6,315对表情包),结合人工评估和自动化评估分析转创质量。
- Result: 当前视觉语言模型能够在一定程度上进行跨文化表情包转创,但存在明显的方向性不对称:美→中转创质量始终高于中→美转创。识别了幽默和视觉文本设计中哪些方面能够跨文化转移,哪些仍具挑战。
- Conclusion: 建立了跨文化多模态生成的评估框架,公开了代码和数据集,为跨文化表情包转创研究提供了基准和工具。
cs.CL
[118] POP: Prefill-Only Pruning for Efficient Large Model Inference
Junhui He,Zhihui Fu,Jun Wang,Qingan Li
Main category: cs.CL
TL;DR: POP是一种针对LLM/VLM的阶段感知推理策略,在预填充阶段安全剪枝深层网络,在解码阶段保留完整模型,实现1.37倍加速且精度损失最小
- Motivation: 现有结构化剪枝方法虽然硬件效率高,但会导致显著的精度下降。作者认为这种失败源于阶段无关的剪枝方法忽视了预填充和解码阶段之间的不对称角色
- Method: 提出Prefill-Only Pruning (POP):1) 通过虚拟门机制分析发现深层对解码关键但对预填充冗余;2) 在计算密集的预填充阶段安全剪枝深层,在敏感的解码阶段保留完整模型;3) 引入独立的KV投影保持缓存完整性;4) 边界处理策略确保首个生成token的准确性
- Result: 在Llama-3.1、Qwen3-VL和Gemma-3等模型上的实验表明,POP在预填充延迟上实现最高1.37倍加速,性能损失最小,有效克服了现有结构化剪枝方法的精度-效率权衡限制
- Conclusion: POP通过阶段感知的推理策略,区分预填充和解码阶段的不同需求,实现了在不牺牲精度的情况下显著提升推理效率,为LLM/VLM的高效部署提供了新思路
physics.med-ph
[119] Perfusion Imaging and Single Material Reconstruction in Polychromatic Photon Counting CT
Namhoon Kim,Ashwin Pananjady,Amir Pourmorteza,Sara Fridovich-Keil
Main category: physics.med-ph
TL;DR: VI-PRISM算法用于灌注CT重建,在极低剂量(10-100倍剂量降低)和稀疏采样条件下,仍能准确恢复碘浓度(误差<0.4 mg/ml),优于传统滤波反投影方法。
- Motivation: 灌注CT是医疗成像中X射线剂量最高的扫描之一。先前基于单调变分不等式的重建算法在单材料光子计数CT中显示出低剂量成像潜力,本研究将其适配到灌注CT中以实现剂量降低。
- Method: 提出VI-PRISM方法,基于单调变分不等式重建算法,假设静态背景组织已知,专门重建对比剂浓度图。使用数字体模(水和不同浓度碘)进行模拟,碘浓度范围0.05-2.5 mg/ml,X射线光子能量最高100 keV,平均强度从10^5到10^2光子/探测器元件,投影数从984到8个。
- Result: 在所有测试的源强度水平下,VI-PRISM恢复碘浓度的误差均低于0.4 mg/ml。与滤波反投影相比,在剂量降低10-100倍的情况下,VI-PRISM的重建质量与FBP相当甚至更好,在所有光子预算和角度采样密度下均表现出更低的RMSE、更少的噪声和更高的SNR。
- Conclusion: VI-PRISM能够在极端光子限制和稀疏采样条件下准确恢复碘浓度,误差低于0.4 mg/ml,表明该方法可以支持光子计数CT中准确且剂量高效的灌注成像。
cs.RO
[120] RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot Cross-Embodiment Generalization
Songming Liu,Bangguo Li,Kai Ma,Lingxuan Wu,Hengkai Tan,Xiao Ouyang,Hang Su,Jun Zhu
Main category: cs.RO
TL;DR: RDT2是一个基于7B参数视觉语言模型的机器人基础模型,通过大规模数据集和三阶段训练方法,实现了对未见过的物体、场景、指令和机器人平台的零样本泛化能力。
- Motivation: 当前视觉-语言-动作模型面临数据稀缺、架构效率低下以及无法跨硬件平台泛化的问题,需要开发能够零样本部署到新型机器人平台上的通用机器人模型。
- Method: 1) 收集超过10,000小时的大规模开源机器人数据集;2) 使用增强的、与具体实现无关的通用操作接口;3) 采用三阶段训练方法:通过残差向量量化对齐离散语言知识与连续控制,结合流匹配和蒸馏实现实时推理。
- Result: RDT2成为首批能够同时零样本泛化到未见过的物体、场景、指令和机器人平台的模型之一,在灵巧操作、长时程和动态任务(如打乒乓球)中超越了现有最先进基线。
- Conclusion: RDT2通过大规模数据集和创新的训练方法,成功解决了VLA模型的数据稀缺和泛化问题,为通用机器人系统的发展提供了重要进展。
[121] PlanTRansformer: Unified Prediction and Planning with Goal-conditioned Transformer
Constantin Selzer,Fabina B. Flohr
Main category: cs.RO
TL;DR: PlanTRansformer (PTR) 是一个统一的Transformer框架,将目标条件预测、动态可行性、交互感知和车道级拓扑推理集成在一起,解决了自动驾驶中轨迹预测与规划之间的不匹配问题。
- Motivation: 自动驾驶中轨迹预测和规划是分离的组件:预测模型在未知意图下预测周围智能体的多模态运动分布,而规划假设已知自身目标并生成确定性轨迹。这种不匹配造成关键瓶颈:预测缺乏对智能体意图的监督,而规划需要这些信息。现有预测模型尽管基准测试表现良好,但往往与碰撞避免、动态可行性等规划约束脱节。
- Method: 提出Plan Transformer (PTR),一个统一的高斯混合Transformer框架,集成了目标条件预测、动态可行性、交互感知和车道级拓扑推理。采用师生训练策略,在训练过程中逐步掩码周围智能体的命令,以与推理时智能体意图不可用的条件对齐。该设计是架构无关的,可应用于各种基于Transformer的预测模型。
- Result: 与基线Motion Transformer (MTR)相比,在边际/联合mAP上分别提升了4.3%/3.5%。与GameFormer相比,在5秒时间范围内规划误差减少了15.5%。
- Conclusion: PTR成功解决了自动驾驶中预测与规划之间的不匹配问题,通过统一的Transformer框架实现了更好的预测精度和规划性能,其架构无关设计使其具有广泛适用性。
[122] HetroD: A High-Fidelity Drone Dataset and Benchmark for Autonomous Driving in Heterogeneous Traffic
Yu-Hsiang Chen,Wei-Jer Chang,Christian Kotulla,Thomas Keutgens,Steffen Runde,Tobias Moers,Christoph Klas,Wei Zhan,Masayoshi Tomizuka,Yi-Ting Chen
Main category: cs.RO
TL;DR: HetroD是一个用于异构交通环境自动驾驶系统开发的数据集和基准测试,重点关注弱势道路使用者的复杂行为
- Motivation: 现有自动驾驶数据集主要关注结构化、有车道纪律的交通场景,而现实世界中的异构交通(特别是弱势道路使用者如行人、自行车、摩托车)的复杂行为(如钩形转弯、车道分割、非正式路权协商)在现有数据集中代表性不足
- Method: 通过大规模无人机采集数据,提供厘米级精确标注、高清地图和交通信号状态,开发模块化工具包提取每个智能体的场景,支持下游任务开发
- Result: 数据集包含超过65.4k个高保真智能体轨迹,其中70%来自弱势道路使用者,支持密集异构交通中的行为建模,并为预测、规划和仿真任务提供标准化基准
- Conclusion: 最先进的预测和规划模型在HetroD数据集上表现不佳,无法预测弱势道路使用者的横向移动,不能处理非结构化机动,在密集和多智能体场景中性能有限,凸显了异构交通需要更鲁棒的方法
[123] AffordanceGrasp-R1:Leveraging Reasoning-Based Affordance Segmentation with Reinforcement Learning for Robotic Grasping
Dingyi Zhou,Mu He,Zhuowei Fang,Xiangtong Yao,Yinlong Liu,Alois Knoll,Hu Cao
Main category: cs.RO
TL;DR: AffordanceGrasp-R1:结合思维链冷启动与强化学习的推理驱动抓取框架,通过全局点云生成抓取候选并基于指令条件掩码过滤,在复杂语言条件场景中表现优异
- Motivation: 现有机器人抓取方法在处理复杂语言指令和场景理解方面存在局限,需要更智能的推理驱动框架来提升空间感知和上下文理解能力
- Method: 1. 思维链(CoT)冷启动策略增强推理能力;2. 结合强化学习优化决策;3. 重新设计抓取流程:从全局场景点云生成抓取候选,再通过指令条件affordance掩码过滤
- Result: 在基准数据集上持续超越SOTA方法,真实世界机器人抓取评估验证了其在复杂语言条件操作场景下的鲁棒性和泛化能力
- Conclusion: AffordanceGrasp-R1通过推理驱动的方法显著提升了语言条件机器人抓取的性能,为复杂操作任务提供了有效的解决方案
[124] MVP-LAM: Learning Action-Centric Latent Action via Cross-Viewpoint Reconstruction
Jung Min Lee,Dohyeok Lee,Seokhun Ju,Taehyun Cho,Jin Woo Koo,Li Zhao,Sangwoo Hong,Jungwoo Lee
Main category: cs.RO
TL;DR: MVP-LAM通过多视角视频学习离散潜在动作,提升VLA预训练效果
- Motivation: 从多样化人类视频中学习潜在动作可以扩展机器人学习,但现有方法缺乏对真实动作的充分信息编码。需要学习能更好反映底层智能体动作的潜在动作表示。
- Method: 提出多视角潜在动作模型(MVP-LAM),通过跨视角重建目标训练离散潜在动作:从一个视角推断的潜在动作必须能解释另一个视角的未来状态,减少对视角特定线索的依赖。
- Result: 在Bridge V2数据集上,MVP-LAM产生更动作中心的潜在动作,与真实动作的互信息更高,动作预测效果更好,包括在分布外评估中。使用MVP-LAM潜在动作预训练VLA模型提升了SIMPLER和LIBERO-Long基准的下游操作性能。
- Conclusion: MVP-LAM通过多视角学习能有效提取动作信息的潜在动作表示,显著提升VLA预训练效果和下游机器人操作任务的性能。
[125] BridgeV2W: Bridging Video Generation Models to Embodied World Models via Embodiment Masks
Yixiang Chen,Peiyan Li,Jiabing Yang,Keji He,Xiangnan Wu,Yuan Xu,Kai Wang,Jing Liu,Nianfeng Liu,Yan Huang,Liang Wang
Main category: cs.RO
TL;DR: BridgeV2W提出了一种新的具身世界模型,通过将坐标空间动作转换为像素对齐的具身掩码,并注入预训练视频生成模型,解决了动作-视频不对齐、相机视角敏感和多具身架构不统一的问题。
- Motivation: 现有具身世界模型面临三个关键挑战:1)坐标空间动作与像素空间视频之间的不对齐;2)对相机视角的敏感性;3)不同具身形态的非统一架构。这些问题限制了世界模型在机器人领域的应用效果。
- Method: BridgeV2W的核心方法包括:1)将坐标空间动作转换为从URDF和相机参数渲染的像素对齐具身掩码;2)通过ControlNet风格路径将这些掩码注入预训练视频生成模型;3)引入基于光流的运动损失,专注于学习动态和任务相关区域,避免对静态背景的过拟合。
- Result: 在单臂(DROID)和双臂(AgiBot-G1)数据集上的实验表明,BridgeV2W在多样且具有挑战性的条件下(包括未见过的视角和场景)相比现有最先进方法提高了视频生成质量。同时展示了在下游实际任务(策略评估和目标条件规划)中的应用潜力。
- Conclusion: BridgeV2W通过将坐标动作转换为像素对齐掩码并注入视频生成模型,有效解决了具身世界模型中的动作-视频不对齐、视角敏感和架构不统一问题,为机器人学习提供了更统一和鲁棒的世界模型框架。
cs.GR
[126] WebSplatter: Enabling Cross-Device Efficient Gaussian Splatting in Web Browsers via WebGPU
Yudong Han,Chao Xu,Xiaodan Ye,Weichen Bi,Zilong Dong,Yun Ma
Main category: cs.GR
TL;DR: WebSplatter是一个针对异构Web生态系统的端到端GPU渲染流水线,通过无等待分层基数排序和透明度感知几何剔除技术,在WebGPU环境中实现了1.2-4.5倍的性能提升。
- Motivation: WebGPU缺乏全局原子操作,限制了传统渲染技术在Web环境中的直接移植。现有的Web查看器性能不足,需要专门为异构Web生态系统设计的GPU渲染解决方案。
- Method: 1. 无等待分层基数排序:绕过WebGPU缺乏全局原子操作的限制,确保跨硬件确定性执行
- 透明度感知几何剔除:在光栅化前动态修剪splats,减少过度绘制和峰值内存占用
- Result: WebSplatter在评估中相比最先进的Web查看器实现了1.2倍到4.5倍的加速,性能提升显著。
- Conclusion: WebSplatter为WebGPU环境提供了高效的端到端渲染流水线,通过创新的排序和剔除技术解决了Web生态系统的特定限制,显著提升了渲染性能。
[127] Pi-GS: Sparse-View Gaussian Splatting with Dense π^3 Initialization
Manuel Hofer,Markus Steinberger,Thomas Köhler
Main category: cs.GR
TL;DR: 提出一种用于稀疏视图场景的鲁棒3D高斯泼溅方法,通过无参考点云估计网络π³和几何正则化方案解决传统方法对准确相机位姿和高质量点云初始化的依赖问题。
- Motivation: 3D高斯泼溅(3DGS)虽然提供实时渲染和快速训练,但严重依赖准确的相机位姿和高质量点云初始化,这在稀疏视图场景中难以获得。传统SfM管道在这些场景中经常失败,而现有的基于学习的点估计方法需要可靠的参考视图,且对位姿或深度误差敏感。
- Method: 使用无参考点云估计网络π³进行密集初始化,并结合几何正则化方案:不确定性引导的深度监督、法线一致性损失和深度扭曲,以减轻几何不准确性。
- Result: 在Tanks and Temples、LLFF、DTU和MipNeRF360数据集上实现了最先进的性能。
- Conclusion: 该方法通过结合π³的无参考点云估计和几何正则化,成功解决了稀疏视图场景中3D高斯泼溅的初始化问题,实现了鲁棒的新视角合成。
[128] Split&Splat: Zero-Shot Panoptic Segmentation via Explicit Instance Modeling and 3D Gaussian Splatting
Leonardo Monchieri,Elena Camuffo,Francesco Barbato,Pietro Zanuttigh,Simone Milani
Main category: cs.GR
TL;DR: Split&Splat:基于3D高斯泼溅的实例感知全景场景重建框架,通过先分割后重建的策略实现对象一致性语义重建
- Motivation: 3D高斯泼溅(GS)虽然能实现快速高质量的场景重建,但缺乏对象一致性和语义感知的结构。现有方法无法有效建模对象实例,限制了在语义分割、对象检索和3D编辑等下游任务的应用。
- Method: 1. 使用深度信息跨视图传播实例掩码,生成视图一致的2D掩码;2. 独立重建每个对象,然后合并回场景并细化边界;3. 在重建对象中嵌入实例级语义描述符。采用先分割后重建的设计思路。
- Result: 在ScanNetv2分割基准测试中达到最先进性能。支持全景分割、对象检索和3D编辑等多种应用。相比现有方法,实现了更好的对象一致性和语义感知。
- Conclusion: Split&Splat通过先分割后重建的框架设计,成功解决了3D高斯泼溅缺乏对象一致性的问题,为语义感知的场景重建提供了有效解决方案,并支持多种下游任务应用。
cs.HC
[129] PrevizWhiz: Combining Rough 3D Scenes and 2D Video to Guide Generative Video Previsualization
Erzhen Hu,Frederik Brudy,David Ledo,George Fitzmaurice,Fraser Anderson
Main category: cs.HC
TL;DR: PrevizWhiz:利用粗糙3D场景和生成式AI模型创建风格化视频预览的系统,降低电影预制作技术门槛
- Motivation: 传统电影预制作方法存在效率与表现力的权衡:手绘故事板缺乏空间精度,3D预可视化需要专业知识和高质量资产。需要一种能快速原型设计、降低技术门槛的解决方案。
- Method: 结合粗糙3D场景与生成式图像/视频模型,集成帧级图像风格化(可调相似度)、基于时间的编辑(运动路径或外部视频输入)以及高保真视频剪辑精炼。
- Result: 对电影制作人的研究表明,系统降低了技术门槛、加速了创意迭代、有效弥合了沟通差距,但也揭示了AI辅助电影制作中的连续性、作者权和伦理挑战。
- Conclusion: PrevizWhiz为电影预制作提供了高效且富有表现力的工具,平衡了技术可访问性与创意表达,同时指出了AI辅助创作中需要解决的关键问题。
cs.CR
[130] Time Is All It Takes: Spike-Retiming Attacks on Event-Driven Spiking Neural Networks
Yi Yu,Qixin Zhang,Shuhan Ye,Xun Lin,Qianshan Wei,Kun Wang,Wenhan Yang,Dacheng Tao,Xudong Jiang
Main category: cs.CR
TL;DR: 提出一种针对脉冲神经网络的时序攻击方法,通过重新调整现有脉冲的时间而不改变脉冲数量和幅度,保持速率不变,实现隐蔽的攻击效果。
- Motivation: 现有对抗攻击主要改变强度或事件计数,而忽略了脉冲时序的重要性。脉冲神经网络利用时序结构进行计算,因此研究仅改变时序的攻击方法对于理解SNN的鲁棒性至关重要。
- Method: 提出容量为1的脉冲重定时威胁模型,包含三种预算约束:每脉冲抖动、总延迟和篡改计数。采用投影在环优化方法,通过可微的软重定时进行反向传播,前向传播中严格投影生成满足约束的离散调度。
- Result: 在多个事件驱动基准测试(CIFAR10-DVS、DVS-Gesture、N-MNIST)和不同SNN架构上评估,攻击成功率高达90%以上,同时仅修改不到2%的脉冲。时序感知对抗训练也难以完全防御此类攻击。
- Conclusion: 脉冲重定时是一种实用且隐蔽的攻击面,现有防御方法难以应对,为事件驱动SNN的时序鲁棒性提供了重要参考。
[131] Origin Lens: A Privacy-First Mobile Framework for Cryptographic Image Provenance and AI Detection
Alexander Loth,Dominique Conceicao Rosario,Peter Ebinger,Martin Kappes,Marc-Oliver Pahl
Main category: cs.CR
TL;DR: Origin Lens是一个隐私优先的移动框架,通过分层验证架构应对视觉虚假信息,在设备本地执行加密图像来源验证和AI检测,提供分级置信度指示。
- Motivation: 生成式AI的扩散给信息完整性保证带来挑战,需要将模型治理与终端用户验证连接起来的系统。当前服务器端检测系统存在隐私和延迟问题,需要更直接的用户端解决方案。
- Method: 采用Rust/Flutter混合架构的移动框架,在设备本地执行加密图像来源验证和AI检测。整合多种信号:加密来源、生成模型指纹、可选检索增强验证,提供分层验证架构。
- Result: 开发了一个隐私优先的移动验证框架,能够在消费点为用户提供分级置信度指示。系统符合欧盟AI法案和数字服务法案等监管要求,作为平台级机制的补充验证基础设施。
- Conclusion: Origin Lens为应对视觉虚假信息提供了一个有效的隐私优先解决方案,通过本地验证架构连接模型治理与用户验证,符合监管要求,可作为验证基础设施的重要组成部分。
q-bio.PE
[132] Deep-learning-based pan-phenomic data reveals the explosive evolution of avian visual disparity
Jiao Sun
Main category: q-bio.PE
TL;DR: 使用ResNet34深度学习模型分析鸟类形态进化,发现高维嵌入空间编码表型趋同,物种丰富度是形态空间扩张的主要驱动力,并揭示了CNN模型能够学习整体形状表征而非仅依赖局部纹理。
- Motivation: 传统形态学分析存在主观偏见,本研究旨在利用深度学习技术客观探索鸟类形态进化,同时为深度神经网络的解释性提供见解。
- Method: 使用能够识别10,000多种鸟类的ResNet34模型,提取最终全连接层权重,分析高维嵌入空间与生物表型的语义对齐,并进行形态差异分析、物种丰富度关联分析以及时间序列差异分析。
- Result: 高维嵌入空间编码表型趋同;物种丰富度是形态空间扩张的主要驱动力;时间序列分析显示K-Pg灭绝后出现视觉上的"早期爆发"模式;模型在平坦标签训练下仍能学习层次化语义结构(生物分类学);通过对抗样本证明模型能够克服纹理偏见学习整体形状表征。
- Conclusion: 深度学习为形态进化研究提供了客观、可扩展的方法,同时挑战了CNN主要依赖局部纹理的传统观点,证明其能够学习生物形态的整体表征,为进化生物学和深度学习解释性研究提供了新视角。
cs.LG
[133] RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System
Yinjie Wang,Tianbao Xie,Ke Shen,Mengdi Wang,Ling Yang
Main category: cs.LG
TL;DR: RLAnything是一个强化学习框架,通过闭环优化动态构建环境、策略和奖励模型,增强LLM和智能体场景的学习信号和系统性能。
- Motivation: 现有强化学习系统在LLM和智能体场景中面临学习信号不足、环境适应性差等问题,需要一种能够动态优化整个RL系统的框架来提升学习效率和性能。
- Method: 1) 策略通过步进信号和结果信号的集成反馈进行训练;2) 奖励模型通过一致性反馈联合优化;3) 理论驱动的自动环境适应利用批评反馈改进奖励和策略模型训练;4) 形成闭环优化系统。
- Result: 每个组件都持续改进整体系统性能:Qwen3-VL-8B-Thinking在OSWorld上提升9.1%;Qwen2.5-7B-Instruct在AlfWorld和LiveBench上分别提升18.7%和11.9%。优化的奖励模型信号优于依赖人工标签的结果。
- Conclusion: RLAnything通过动态闭环优化环境、策略和奖励模型,显著增强了强化学习系统在LLM和智能体任务中的性能,证明了集成优化方法的有效性。
[134] From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation
Tianle Gu,Kexin Huang,Lingyu Li,Ruilin Luo,Shiyang Huang,Zongqi Wang,Yujiu Yang,Yan Teng,Yingchun Wang
Main category: cs.LG
TL;DR: UniMod提出了一种新的多模态安全审核范式,通过结构化推理轨迹替代稀疏二元标签,解决数据稀疏和捷径学习问题,在减少40%训练数据的情况下达到竞争性性能。
- Motivation: 当前多模态安全审核面临数据和监督稀疏的双重挑战,传统二元标签导致捷径学习,掩盖了有效的多模态判别所需的内在分类边界。
- Method: 提出UniMod学习范式,将稀疏决策转为密集推理轨迹,包含证据定位、模态评估、风险映射、策略决策和响应生成五个阶段。开发多头部标量奖励模型UniRM提供多维监督,并引入专门优化策略解耦任务参数和平衡训练动态。
- Result: UniMod在文本审核上达到竞争性性能,并在多模态审核上建立新基准,仅使用领先基线40%的训练数据。消融实验验证了多属性轨迹推理的有效性。
- Conclusion: UniMod通过结构化推理轨迹和多维监督,为多模态审核提供了一个有效且高效的框架,解决了捷径学习问题并提升了模型的可解释性。
[135] Enhancing Post-Training Quantization via Future Activation Awareness
Zheqi Lv,Zhenxuan Fan,Qi Tian,Wenqiao Zhang,Yueting Zhuang
Main category: cs.LG
TL;DR: FAQ方法利用未来层激活指导量化,通过窗口预览机制聚合多层信息,无需反向传播或数据重构,显著提升量化效果
- Motivation: 传统PTQ方法仅基于当前层激活设置量化超参数,存在量化偏差和误差累积问题,尤其在标定数据有偏时效果不稳定
- Method: 提出未来感知量化(FAQ),利用未来层激活指导量化以更好识别重要权重;引入窗口式预览机制软聚合多层未来激活;使用预搜索配置避免昂贵贪婪搜索
- Result: FAQ在实验中始终优于现有方法,额外成本可忽略,无需反向传播、数据重构或调优,适合边缘部署
- Conclusion: FAQ通过利用未来信息有效解决了传统PTQ的量化偏差和误差累积问题,实现了更优且稳定的量化效果
[136] How Much Information Can a Vision Token Hold? A Scaling Law for Recognition Limits in VLMs
Shuxin Zhuang,Zi Liang,Runsheng Yu,Hongzong Li,Rong Feng,Shiqin Tang,Youzhi Zhang
Main category: cs.LG
TL;DR: 该论文研究了视觉编码器作为有损通道的信息容量上限,通过压力测试发现了视觉token信息负载的三阶段相变现象,并提出了统一的概率缩放定律。
- Motivation: 虽然以DeepSeek-OCR为代表的视觉中心方法在长上下文建模中取得了显著进展,通过将渲染文本编码为连续视觉token实现了高压缩率而不损失识别精度,但将视觉编码器视为具有有限表示能力的有损通道引发了一个根本问题:视觉token的信息上限是多少?
- Method: 通过控制压力测试,逐步增加图像中的信息量(字符数量),观察视觉token信息负载的变化。分析相变现象的机械起源和关键因素,并制定了一个将平均视觉token负载和视觉密度统一为潜在难度度量的概率缩放定律。
- Result: 发现了明显的三阶段相变现象:近乎完美的稳定阶段、误差方差增加的失稳阶段和完全崩溃阶段。提出的缩放定律在各种视觉语言模型中表现出普遍性,为优化视觉上下文压缩的效率-准确性权衡提供了关键经验指导。
- Conclusion: 该研究揭示了视觉编码器的信息容量限制和相变行为,提出的统一缩放定律为视觉上下文压缩系统的设计和优化提供了理论基础和实用指导。
[137] ToolTok: Tool Tokenization for Efficient and Generalizable GUI Agents
Xiaoce Wang,Guibin Zhang,Junzhe Li,Jinzhe Tu,Chun Li,Ming Li
Main category: cs.LG
TL;DR: ToolTok提出了一种新的GUI代理多步路径查找范式,将操作建模为渐进式工具使用序列,通过语义锚定机制在有限监督下学习工具嵌入,使用易到难的课程学习,在少量数据下实现强大性能。
- Motivation: 现有GUI代理模型存在两个主要问题:基于坐标的一步视觉定位方法难以泛化到不同输入分辨率和宽高比;而坐标无关策略在数据稀缺情况下学习效果不佳。需要一种既能适应不同屏幕尺寸,又能在有限监督下有效学习的方法。
- Method: 1. 提出多步路径查找范式,将GUI操作建模为渐进式工具使用序列;2. 设计符合人类交互习惯的工具,用可学习的token嵌入表示每个工具;3. 引入语义锚定机制,将工具与语义相关概念关联作为自然归纳偏置;4. 构建易到难的课程学习:token定义问答、纯文本引导工具选择、简化视觉路径查找。
- Result: 在多个基准测试中,ToolTok在同等规模模型(4B)中表现优异,与更大模型(235B)保持竞争力。这些结果仅使用了其他后训练方法所需训练数据的不到1%。ToolTok在未见场景中表现出强大的泛化能力。
- Conclusion: ToolTok通过多步路径查找范式、语义锚定机制和课程学习,解决了GUI代理在分辨率适应和数据稀缺方面的挑战,实现了高效的小样本学习,为GUI交互智能体提供了新的有效解决方案。
[138] EEO-TFV: Escape-Explore Optimizer for Web-Scale Time-Series Forecasting and Vision Analysis
Hua Wang,Jinghao Lu,Fan Zhang
Main category: cs.LG
TL;DR: 提出轻量级Transformer架构与新颖的Escape-Explore优化器,解决多变量长序列预测中的误差累积和图像任务中对分布外样本的脆弱性问题,在Web规模数据分析中表现优异。
- Motivation: Transformer基础模型在时间序列预测和图像分割等任务中取得显著进展,但在多变量长序列预测中存在误差累积问题,在图像相关任务中对分布外样本表现脆弱。这些挑战在涉及复杂时间模式和跨模态特征的大规模Web数据分析任务中尤为突出,增加了优化难度,使模型容易陷入高维参数空间的鞍点停滞。
- Method: 提出轻量级Transformer架构结合新颖的Escape-Explore优化器(EEO),该优化器增强探索和泛化能力,有效避免尖锐最小值和鞍点陷阱。
- Result: 在代表性Web数据场景中,该方法在11个时间序列基准数据集和Synapse医学图像分割任务上达到与最先进模型相当的性能,并展现出优越的泛化能力和稳定性。
- Conclusion: 该方法验证了其作为Web规模数据挖掘和分析的通用跨任务基础模型的潜力,为解决大规模复杂数据分析中的优化和泛化问题提供了有效方案。
[139] Auditing Sybil: Explaining Deep Lung Cancer Risk Prediction Through Generative Interventional Attributions
Bartlomiej Sobieski,Jakub Grzywaczewski,Karol Dobiczek,Mateusz Wójcik,Tomasz Bartczak,Patryk Szatkowski,Przemysław Bombiński,Matthew Tivnan,Przemyslaw Biecek
Main category: cs.LG
TL;DR: S(H)NAP框架对Sybil肺癌风险预测模型进行因果审计,发现模型虽能区分良恶性结节,但存在对临床无关伪影的敏感性和径向偏差等关键缺陷。
- Motivation: 肺癌筛查模型Sybil已通过临床验证,但现有评估仅基于相关性指标,缺乏对模型推理机制的因果验证,需要确保临床部署前的稳健决策。
- Method: 提出S(H)NAP模型无关审计框架,利用3D扩散桥建模系统修改解剖特征,构建生成式干预归因,并由放射科专家验证,隔离对象特异性因果贡献。
- Result: 首次对Sybil进行干预性审计,发现模型常表现出类似专家放射科医生的行为(区分良恶性结节),但存在关键失败模式:对临床无依据伪影的危险敏感性和明显的径向偏差。
- Conclusion: 需要从相关性评估转向因果验证,S(H)NAP框架能揭示深度学习模型的真实推理机制,发现Sybil在临床部署前需要解决的关键缺陷。
[140] Trajectory Consistency for One-Step Generation on Euler Mean Flows
Zhiqi Li,Yuchen Sun,Duowen Chen,Jinjin He,Bo Zhu
Main category: cs.LG
TL;DR: EMF提出了一种基于流的生成框架,通过线性替代实现长程轨迹一致性,支持一步和少步生成,显著降低训练时间和内存消耗。
- Motivation: 现有流生成模型在长时程轨迹一致性约束上难以监督和优化,采样成本高,需要更高效的训练框架。
- Method: 从流模型的半群公式推导出线性替代,用直接数据监督近似原始一致性目标,避免显式Jacobian计算,支持u预测和x1预测变体。
- Result: 在图像合成、粒子几何生成和函数生成任务中,在固定采样预算下实现了更好的优化稳定性和样本质量,训练时间和内存消耗减少约50%。
- Conclusion: EMF通过线性替代方法有效解决了流生成模型的长程轨迹一致性优化问题,为高效一步和少步生成提供了新框架。
[141] Hierarchical Entity-centric Reinforcement Learning with Factored Subgoal Diffusion
Dan Haramati,Carl Qi,Tal Daniel,Amy Zhang,Aviv Tamar,George Konidaris
Main category: cs.LG
TL;DR: 提出分层实体中心框架用于离线目标条件强化学习,通过子目标分解和因子化结构解决多实体领域的长时程任务
- Motivation: 解决复杂环境中实现长时程目标的挑战,特别是在多实体领域中,由于组合复杂性导致传统方法难以处理高维观测和稀疏奖励问题
- Method: 采用两层层次结构:基于价值的目标条件强化学习代理和因子化子目标生成条件扩散模型。两者独立训练,后通过基于价值函数的子目标选择进行组合
- Result: 在图像基长时程稀疏奖励任务中持续提升基础RL代理性能,在最难任务上成功率提高150%以上,并能泛化到更长的时程和更多实体
- Conclusion: 分层实体中心框架有效解决了多实体领域的长时程任务挑战,具有模块化、兼容现有算法和良好泛化能力的优势
[142] From Tokens to Numbers: Continuous Number Modeling for SVG Generation
Michael Ogezi,Martin Bell,Freda Shi,Ethan Smith
Main category: cs.LG
TL;DR: CNM(连续数字建模)提出直接建模SVG中的连续数值参数而非离散token,解决了传统token编码效率低的问题,结合强化学习微调提升视觉质量,训练速度提升30%以上。
- Motivation: SVG在图像生成任务中具有灵活性、尺寸效率和编辑便利性等优势,但现有方法将SVG的几何参数编码为长token序列,导致训练效率低、准确性差和泛化能力弱。
- Method: 提出连续数字建模(CNM),将数值作为连续值而非离散token直接建模;训练200万张光栅到SVG样本的多模态transformer;通过强化学习使用感知反馈进行微调提升视觉质量。
- Result: 训练速度提升超过30%,同时保持比替代方法更高的感知保真度;建立了高质量矢量生成的实用高效方法。
- Conclusion: CNM为高质量矢量生成提供了实用高效的方法,具有更广泛的应用潜力;代码已开源。
[143] A Random Matrix Theory Perspective on the Consistency of Diffusion Models
Binxu Wang,Jacob Zavatone-Veth,Cengiz Pehlevan
Main category: cs.LG
TL;DR: 扩散模型在不同数据子集上训练后,使用相同噪声种子会产生相似输出,这源于数据的高斯统计特性。作者建立了随机矩阵理论框架,量化有限数据集如何影响线性扩散模型,解释了跨训练数据分割时样本差异的来源。
- Motivation: 扩散模型在不同、非重叠的数据子集上训练时,使用相同噪声种子会产生惊人相似的输出。作者希望探究这种一致性的原因,并量化有限数据集如何影响扩散模型的训练结果,为扩散训练的可重复性提供理论基础。
- Method: 开发随机矩阵理论(RMT)框架,在线性设置下量化有限数据集如何影响学习到的去噪器和采样映射的期望和方差。将确定性等价工具扩展到分数矩阵幂,分析整个采样轨迹。理论预测线性扩散模型的行为,并在UNet和DiT架构的非记忆化区域验证预测。
- Result: 理论揭示了跨训练数据分割时样本差异的三个关键因素:特征模态的各向异性、输入间的非均匀性、以及随数据集大小的整体缩放。采样变异性通过自洽关系σ²↦κ(σ²)重新归一化噪声水平,解释了有限数据如何过度收缩低方差方向并将样本拉向数据集均值。
- Conclusion: 该研究为扩散训练的可重复性提供了原则性基线,将数据的谱特性与生成输出的稳定性联系起来。理论框架能够准确预测线性扩散模型的行为,并识别在非记忆化区域中样本如何在不同训练数据分割间产生偏差。
[144] A Reproducible Framework for Bias-Resistant Machine Learning on Small-Sample Neuroimaging Data
Jagan Mohan Reddy Dwarampudi,Jennifer L Purks,Joshua Wong,Renjie Hu,Tania Banerjee
Main category: cs.LG
TL;DR: 提出一个可重复、抗偏见的机器学习框架,用于小样本神经影像数据,结合领域知识特征工程、嵌套交叉验证和校准决策阈值优化,解决传统CV方法导致的乐观偏差问题。
- Motivation: 传统交叉验证框架在同一折叠上同时进行模型选择和性能评估,会产生乐观偏差结果,限制了可重复性和泛化能力,特别是在小样本神经影像数据中这一问题尤为突出。
- Method: 整合领域知识特征工程、嵌套交叉验证和校准决策阈值优化,通过重要性引导排序选择紧凑可解释的特征子集,构建可重复、抗偏见的机器学习框架。
- Result: 在深部脑刺激认知结果的高维结构MRI数据集上,框架实现了嵌套CV平衡准确率0.660±0.068,使用紧凑可解释的特征子集,证明了方法的有效性。
- Conclusion: 该工作通过结合可解释性和无偏评估,为数据有限的生物医学领域提供了可靠机器学习的通用计算蓝图,具有良好泛化能力。
[145] SAFE-KD: Risk-Controlled Early-Exit Distillation for Vision Backbones
Salim Khazem
Main category: cs.LG
TL;DR: SAFE-KD:一种结合知识蒸馏和保形风险控制的早期退出网络框架,通过校准退出阈值保证选择性误分类风险,提高推理效率同时提供理论保证。
- Motivation: 早期退出网络能减少推理成本,但实际部署需要知道何时安全退出。现有方法缺乏对退出决策的可靠风险控制保证。
- Method: 1) 在中间层附加轻量级退出头;2) 使用解耦知识蒸馏将强教师模型知识蒸馏到所有退出头;3) 强制深层到浅层退出的一致性;4) 使用保形风险控制在校准集上校准每个退出的停止阈值。
- Result: 在多个数据集和架构上,SAFE-KD实现了更好的准确率-计算量权衡、更强的校准能力,在数据损坏下表现鲁棒,并提供有限样本风险保证。
- Conclusion: SAFE-KD为早期退出网络提供了实用的部署解决方案,通过结合知识蒸馏和保形风险控制,在保证风险控制的同时提高推理效率。
[146] Neural Predictor-Corrector: Solving Homotopy Problems with Reinforcement Learning
Jiayao Mai,Bangyan Liao,Zhenjun Zhao,Yingping Zeng,Haoang Li,Javier Civera,Tailin Wu,Yi Zhou,Peidong Liu
Main category: cs.LG
TL;DR: 提出Neural Predictor-Corrector (NPC)框架,用强化学习自动学习同伦方法中的步长和终止策略,替代传统手工启发式方法,实现跨多个同伦问题的通用高效求解。
- Motivation: 同伦方法在鲁棒优化、全局优化、多项式求根等多个领域有广泛应用,但现有求解器依赖手工设计的启发式策略(如步长选择、迭代终止),这些策略通常次优且任务特定,需要更通用、自动化的解决方案。
- Method: 1) 将多个同伦问题统一到单一框架;2) 提出Neural Predictor-Corrector (NPC),将策略选择建模为序列决策问题,用强化学习自动学习高效策略;3) 引入摊销训练机制,实现一次性离线训练和高效在线推理。
- Result: 在四个代表性同伦问题上的实验表明,NPC能有效泛化到未见实例,在效率上持续优于经典和专用基线方法,同时在不同任务中展现出更好的稳定性。
- Conclusion: 将同伦方法统一到单一神经框架具有重要价值,NPC通过自动学习策略替代手工启发式,实现了跨多个同伦问题的通用高效求解,展示了神经求解器在同伦方法中的潜力。
[147] Spectral Evolution Search: Efficient Inference-Time Scaling for Reward-Aligned Image Generation
Jinyan Ye,Zhongjie Duan,Zhiwen Li,Cen Chen,Daoyuan Chen,Yaliang Li,Yingda Chen
Main category: cs.LG
TL;DR: 提出Spectral Evolution Search (SES)方法,通过低频率子空间进化搜索优化初始噪声,显著提高视觉生成模型推理时对齐的效率
- Motivation: 现有推理时缩放方法通过优化高维初始噪声来对齐视觉生成模型,但效率低下,因为许多搜索方向对最终生成影响微乎其微。这种低效性与生成动态中的频谱偏差密切相关:模型对初始扰动的敏感性随频率增加而迅速降低。
- Method: 提出Spectral Evolution Search (SES)框架,基于频谱缩放预测理论,在低频率子空间执行无梯度进化搜索来优化初始噪声。该方法利用扰动传播动态的频谱特性,专注于对生成结果有显著影响的低频分量。
- Result: 大量实验表明,SES显著推进了生成质量与计算成本之间的帕累托前沿,在相同计算预算下始终优于强基线方法。
- Conclusion: SES为视觉生成模型的推理时对齐提供了一种高效、即插即用的解决方案,通过利用生成动态的频谱偏差特性,在低维子空间进行优化,大幅提升了计算效率。
[148] R1-SyntheticVL: Is Synthetic Data from Generative Models Ready for Multimodal Large Language Model?
Jingyi Zhang,Tianyi Lin,Huanjin Yao,Xiang Lan,Shunyu Liu,Jiaxing Huang
Main category: cs.LG
TL;DR: 提出CADS方法,通过集体对抗数据合成技术自动生成高质量、多样且具有挑战性的多模态训练数据,以增强多模态大语言模型在复杂现实任务中的能力。
- Motivation: 当前多模态大语言模型需要大量高质量训练数据来解决复杂现实任务,但现有数据往往质量不足、多样性有限且缺乏挑战性。需要开发能够自主合成高质量多模态训练数据的技术。
- Method: 提出集体对抗数据合成(CADS)方法,包含两个循环阶段:CAD-Generate(利用集体知识联合生成新的多样化多模态数据)和CAD-Judge(协作评估合成数据质量)。引入对抗上下文优化机制来优化生成上下文,鼓励生成具有挑战性和高价值的数据。
- Result: 使用CADS构建了MMSynthetic-20K数据集,并训练了R1-SyntheticVL模型。该模型在各种基准测试中表现出优越性能。
- Conclusion: CADS是一种新颖通用的方法,能够有效合成高质量、多样且具有挑战性的多模态数据,显著提升多模态大语言模型在复杂任务中的表现。
[149] Scaling Continual Learning with Bi-Level Routing Mixture-of-Experts
Meng Lou,Yunxiang Fu,Yizhou Yu
Main category: cs.LG
TL;DR: CaRE提出了一种可扩展的持续学习方法,采用双层路由混合专家机制,能在超长任务序列(100-300个任务)上实现卓越性能,同时保持稳定性和可塑性。
- Motivation: 基于预训练模型的持续学习(特别是类增量学习)面临如何在超长任务序列中同时学习判别性和全面性特征表示,同时保持稳定性和可塑性的挑战。
- Method: 提出CaRE框架,核心是双层路由混合专家机制:1)路由器选择阶段动态激活相关任务特定路由器;2)专家路由阶段动态激活和聚合专家,将判别性和全面性表示注入每个中间网络层。
- Result: CaRE在多种数据集和任务设置中表现领先,包括经典CIL设置(5-20个任务)。更重要的是,它是首个能扩展到超长任务序列(100-300个非重叠任务)的持续学习方法,且在这些任务序列上大幅超越所有基线方法。
- Conclusion: CaRE通过双层路由混合专家机制有效解决了超长任务序列下的持续学习问题,在保持稳定性和可塑性的同时实现了卓越性能,为大规模持续学习提供了可行的解决方案。
[150] Robust Representation Learning in Masked Autoencoders
Anika Shrivastava,Renu Rameshan,Samar Agnihotri
Main category: cs.LG
TL;DR: MAE在图像分类中表现出色但内部表征机制不明,研究发现其表征具有鲁棒性,能渐进构建类感知的潜在空间,并表现出早期持续的全局注意力。
- Motivation: 理解MAE在下游分类任务中表现出色的内在原因,探究其内部表征机制和鲁棒性来源。
- Method: 通过层级的token嵌入分析,研究MAE潜在空间的构建过程;对比MAE与标准ViT的注意力机制;引入两个敏感性指标(干净与扰动嵌入的方向对齐、特征在退化下的头部保留)来量化特征鲁棒性。
- Result: 发现MAE在预训练和微调过程中学习的表征具有鲁棒性,能在模糊和遮挡等退化条件下保持良好的分类性能;MAE的潜在空间在网络深度上渐进地以类感知方式构建,不同类别的嵌入子空间逐渐可分;MAE表现出早期且持续的全局注意力模式。
- Conclusion: MAE通过渐进构建类感知潜在空间和早期全局注意力机制,实现了鲁棒的特征表示,这解释了其在下游分类任务中的优异表现。
Powered by Deepseek & arXiv Daily AI Enhanced