Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Beyond Binary Preference: Aligning Diffusion Models to Fine-grained Criteria by Decoupling Attributes
Chenye Meng,Zejian Li,Zhongni Liu,Yize Li,Changle Xie,Kaixin Jia,Ling Yang,Huanghuang Deng,Shiying Ding,Shengyuan Zhang,Jiayi Li,Lingyun Sun
Main category: cs.CV
TL;DR: 提出Complex Preference Optimization (CPO)框架,通过层次化细粒度评价标准和辅助扩散模型,解决扩散模型后训练对齐中复杂人类专业知识对齐不足的问题。
- Motivation: 当前扩散模型的后训练对齐依赖于简化的信号(如标量奖励或二元偏好),这限制了与复杂人类专业知识的对齐,因为人类专业知识是层次化和细粒度的。
- Method: 1. 与领域专家构建层次化细粒度评价标准,将图像质量分解为多个正负属性并组织成树状结构;2. 提出两阶段对齐框架:首先通过监督微调将领域知识注入辅助扩散模型,然后提出Complex Preference Optimization (CPO)扩展DPO,使目标扩散模型与我们的非二元层次化标准对齐。
- Result: 在绘画生成领域实例化该方法,使用基于标准的细粒度属性标注数据集进行CPO训练。大量实验表明,CPO显著提升了生成质量和与专业知识的对齐,为细粒度标准对齐开辟了新途径。
- Conclusion: CPO框架通过层次化细粒度评价标准和辅助扩散模型,有效解决了扩散模型与复杂人类专业知识对齐的挑战,在绘画生成领域展示了显著效果,为细粒度标准对齐提供了新方向。
[2] Embedding Textual Information in Images Using Quinary Pixel Combinations
A V Uday Kiran Kandala
Main category: cs.CV
TL;DR: 提出一种基于RGB空间五进制像素强度组合的文本嵌入图像新方法,将文本符号映射到125种像素组合,实现单像素编码,相比传统方法效率更高且失真小。
- Motivation: 现有文本嵌入图像方法(如LSB、MSB、PVD、变换域方法、深度学习方法等)大多依赖多像素操作、变换系数或复杂计算,容易产生噪声且计算量大。需要一种更高效、失真小、计算简单的文本嵌入方法。
- Method: 在RGB空间中采用五进制像素强度组合方法,每个R、G、B通道使用五种受控的像素强度变化,形成125种不同的像素强度组合。将这些组合映射到文本符号(大小写字母、数字、空格、常用特殊字符),实现单个RGB像素编码一个完整文本符号。
- Result: 通过MSE、MAE、SNR、PSNR、SSIM、直方图比较和热图分析等多种指标评估,编码图像与原图像相比没有显著失真。相比需要多像素或多步骤的LSB/MSB方法,以及计算开销大的变换和学习方法,本方法实现了更高的嵌入效率。
- Conclusion: 提出的五进制像素强度组合方法为文本嵌入图像提供了一种高效、低失真、计算简单的替代方案,能够在单个像素中编码完整文本符号,优于传统方法。
[3] Unified Text-Image Generation with Weakness-Targeted Post-Training
Jiahui Chen,Philippe Hansen-Estruch,Xiaochuang Han,Yushi Hu,Emily Dinan,Amita Kamath,Michal Drozdzal,Reyhane Askari-Hemmat,Luke Zettlemoyer,Marjan Ghazvininejad
Main category: cs.CV
TL;DR: 本文提出一种通过后训练实现完全统一的文本-图像生成方法,让模型在单次推理过程中自主从文本推理过渡到视觉合成,相比现有显式模态切换方法有更好效果。
- Motivation: 现有统一多模态生成架构通常采用显式模态切换,先生成推理文本再手动切换到图像生成,这种分离的顺序推理过程限制了跨模态耦合,无法实现自动多模态生成。
- Method: 采用离线、奖励加权的后训练方法,使用完全自生成的合成数据,探索不同的后训练数据策略,研究联合文本-图像生成对T2I性能的影响以及后训练中各模态的相对重要性。
- Result: 在四个不同的T2I基准测试中,该方法在多模态图像生成方面取得了改进,证明了奖励加权两个模态和战略性设计的后训练数据的有效性。
- Conclusion: 通过针对性数据集解决特定限制的后训练策略优于广泛的图像-标题语料库或基准对齐数据,实现了完全统一的文本-图像生成,增强了跨模态耦合。
[4] ReHyAt: Recurrent Hybrid Attention for Video Diffusion Transformers
Mohsen Ghafoorian,Amirhossein Habibian
Main category: cs.CV
TL;DR: ReHyAt提出了一种循环混合注意力机制,将softmax注意力的保真度与线性注意力的效率相结合,实现了分块循环重构和恒定内存使用,将注意力成本从二次降低到线性,同时保持最先进的视频生成质量。
- Motivation: 当前基于transformer的视频扩散模型虽然取得了最先进的视频生成效果,但存在二次注意力复杂度问题,严重限制了长序列的可扩展性。需要一种既能保持生成质量又能提高效率的注意力机制。
- Method: 提出了ReHyAt(循环混合注意力)机制,结合了softmax注意力的保真度和线性注意力的效率,支持分块循环重构和恒定内存使用。通过轻量级蒸馏和微调流程,可以从现有的softmax基础模型高效蒸馏,大幅降低训练成本。
- Result: 在VBench和VBench-2.0上的实验以及人类偏好研究表明,ReHyAt实现了最先进的视频质量,同时将注意力成本从二次降低到线性,训练成本降低了两个数量级至约160 GPU小时,为长时视频生成和设备端应用提供了实用可扩展性。
- Conclusion: ReHyAt的混合设计为未来最先进的双向softmax基础模型提供了一个可应用的配方,解锁了长时视频生成和设备端视频生成的实用可扩展性,在保持质量的同时大幅提升了效率。
[5] SCAR-GS: Spatial Context Attention for Residuals in Progressive Gaussian Splatting
Diego Revilla,Pooja Suresh,Anand Bhojan,Ooi Wei Tsang
Main category: cs.CV
TL;DR: 提出了一种基于残差向量量化的3D高斯泼溅渐进式编解码器,使用多分辨率哈希网格引导的自回归熵模型提高压缩效率
- Motivation: 3D高斯泼溅模型在大型场景中存储需求巨大,阻碍了云和流媒体服务的部署。现有的标量量化方法可能无法充分利用高维特征向量的相关性,限制了率失真性能。
- Method: 采用残差向量量化替代传统方法压缩原始特征,提出由多分辨率哈希网格引导的自回归熵模型,准确预测每个传输索引的条件概率,实现粗化和细化层的高效压缩。
- Result: 该方法能够更有效地压缩3D高斯泼溅模型,相比标量量化方法,能更好地捕捉高维特征向量的相关性,提高压缩效率。
- Conclusion: 提出的残差向量量化方法结合自回归熵模型,为3D高斯泼溅模型提供了更高效的渐进式压缩方案,有助于降低存储和传输成本。
[6] Comparative Analysis of Custom CNN Architectures versus Pre-trained Models and Transfer Learning: A Study on Five Bangladesh Datasets
Ibrahim Tanvir,Alif Ruslan,Sartaj Solaiman
Main category: cs.CV
TL;DR: 比较定制CNN与预训练模型(ResNet-18、VGG-16)在孟加拉国5个图像分类数据集上的表现,发现微调迁移学习效果最好,准确率提升3%-76%,ResNet-18微调在道路损伤数据集达到100%准确率。
- Motivation: 研究旨在为实践者提供选择深度学习方法的实用指导,特别是在数据集特征、计算资源和性能需求不同的情况下,比较定制CNN与预训练模型的优劣。
- Method: 使用5个孟加拉国图像分类数据集,比较定制CNN与预训练模型(ResNet-18、VGG-16)的两种方法:特征提取和迁移学习微调,评估准确率、模型大小和训练效率。
- Result: 迁移学习微调方法在所有数据集上表现最佳,准确率比定制CNN和特征提取方法提升3%-76%;ResNet-18微调在道路损伤数据集达到100%准确率;定制CNN模型更小(340万参数)且训练效率更高。
- Conclusion: 对于复杂分类任务和有限训练数据,预训练模型加迁移学习微调效果最好;对于简单任务和计算资源有限的情况,定制CNN是更高效的选择;研究为实践者提供了基于不同需求选择方法的实用指导。
[7] PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache
Kunyang Li,Mubarak Shah,Yuzhang Shang
Main category: cs.CV
TL;DR: PackCache:一种训练自由的KV缓存管理方法,通过条件锚定、跨帧衰减建模和空间保持位置嵌入,动态压缩KV缓存,加速统一自回归视频生成模型推理速度1.7-2.2倍。
- Motivation: 统一自回归模型(如Transformer)在处理多模态任务时,KV缓存随生成令牌数线性增长,成为限制推理效率和生成长度的主要瓶颈。视频生成任务继承此限制,需要更高效的缓存管理方法。
- Method: PackCache通过三个协调机制动态压缩KV缓存:1) 条件锚定:保留文本和条件图像等语义参考令牌;2) 跨帧衰减建模:根据时间距离分配缓存预算;3) 空间保持位置嵌入:在缓存移除时保持连贯的3D结构。
- Result: 在48帧长序列上,PackCache将端到端生成加速1.7-2.2倍。对于受KV缓存扩展影响最大的最后四帧,在A40和H200上分别实现2.6倍和3.7倍加速,显著提升长序列视频生成效率。
- Conclusion: PackCache通过利用KV缓存令牌的时空特性,提供了一种高效、训练自由的缓存管理方案,有效缓解了统一自回归视频生成模型中的KV缓存瓶颈,为实现更长序列的视频生成提供了可能。
[8] Combining facial videos and biosignals for stress estimation during driving
Paraskevi Valergaki,Vassilis C. Nicodemou,Iason Oikonomidis,Antonis Argyros,Anastasios Roussos
Main category: cs.CV
TL;DR: 本文提出基于3D面部几何的驾驶压力识别方法,通过EMOCA提取3D表情和姿态系数,结合Transformer时序建模和跨模态注意力融合,显著提升压力识别性能。
- Motivation: 传统基于面部动作单元的压力识别方法受限于主观性和自主面部控制,而解耦的3D面部几何特征在压力识别中的作用尚未充分探索。本文旨在利用3D面部几何特征来更可靠地识别压力状态。
- Method: 1) 使用EMOCA模型从面部视频中提取3D表情和姿态系数;2) 通过配对假设检验分析基线期和压力期的系数差异;3) 提出基于Transformer的时序建模框架,评估单模态、早期融合和跨模态注意力三种融合策略;4) 将EMOCA特征与生理信号、注视信号进行跨模态融合。
- Result: 1) 56个系数中有41个在压力期表现出显著一致的变化;2) EMOCA与生理信号的跨模态注意力融合取得最佳性能(AUROC 92%,准确率86.7%);3) EMOCA与注视信号的融合也表现优异(AUROC 91.8%);4) 3D面部几何特征的压力响应与生理标记物相当。
- Conclusion: 3D面部几何特征是有效的压力识别指标,时序建模和跨模态注意力融合策略能显著提升压力识别性能,为可靠的压力监测提供了新方法。
[9] Few-Shot LoRA Adaptation of a Flow-Matching Foundation Model for Cross-Spectral Object Detection
Maxim Clouser,Kia Khezeli,John Kalantari
Main category: cs.CV
TL;DR: 研究探讨如何通过少量配对数据,使用LoRA微调FLUX.1 Kontext视觉基础模型,实现RGB到红外(IR)和合成孔径雷达(SAR)的跨光谱图像翻译,并验证合成数据能提升下游目标检测性能。
- Motivation: 当前视觉基础模型主要基于RGB数据训练,但许多安全关键应用依赖红外和SAR等非可见光模态。研究探索是否能用少量配对数据,将RGB预训练的基础模型重新用于跨光谱翻译,并验证合成数据对下游检测任务的增强效果。
- Method: 使用FLUX.1 Kontext作为基础模型,插入LoRA模块进行微调。仅用每个域100张配对图像:KAIST数据集上RGB到IR翻译,M4-SAR数据集上RGB到SAR翻译。通过LPIPS指标评估翻译质量,并验证其与下游检测性能的相关性。
- Result: LPIPS在50张保留配对图像上的计算结果是下游性能的强代理指标:较低的LPIPS一致预测较高的mAP。最佳LPIPS选择的LoRA适配器生成的合成IR能提升KAIST行人检测,合成SAR结合有限真实SAR能显著提升M4-SAR基础设施检测。
- Conclusion: 少量样本的LoRA适配流匹配基础模型是实现非可见光模态基础模型支持的有前景路径。该方法能生成像素对齐的跨模态翻译,重用现有标注,在目标模态中训练检测模型。
[10] Performance Analysis of Image Classification on Bangladeshi Datasets
Mohammed Sami Khan,Fabiha Muniat,Rowzatul Zannat
Main category: cs.CV
TL;DR: 比较自定义CNN与预训练架构(VGG-16、ResNet-50、MobileNet)在图像分类任务中的表现,发现预训练模型在准确率和收敛速度上更优,但自定义CNN在参数数量和计算复杂度方面更具优势。
- Motivation: 在图像分类任务中,选择自定义CNN还是使用预训练架构是一个重要的实际问题。本文旨在通过比较分析,为实际应用中的架构选择提供指导。
- Method: 设计并从头训练一个自定义CNN,同时使用VGG-16、ResNet-50和MobileNet等预训练架构进行迁移学习。所有模型在相同的实验设置下进行评估,使用准确率、精确率、召回率和F1分数等标准性能指标。
- Result: 预训练CNN架构在分类准确率和收敛速度上始终优于自定义CNN,特别是在训练数据有限的情况下。然而,自定义CNN以显著更少的参数和降低的计算复杂度实现了竞争性的性能。
- Conclusion: 研究揭示了模型复杂性、性能和计算效率之间的权衡关系,为图像分类问题中选择合适的CNN架构提供了实用见解。预训练模型在性能上占优,而自定义CNN在资源受限场景下更具优势。
[11] 3D-Agent:Tri-Modal Multi-Agent Collaboration for Scalable 3D Object Annotation
Jusheng Zhang,Yijia Fan,Zimo Wen,Jian Wang,Keze Wang
Main category: cs.CV
TL;DR: Tri MARF是一个用于大规模3D物体标注的新框架,通过整合三模态输入(2D多视角图像、文本描述、3D点云)和多智能体协作架构,显著提升了标注性能。
- Motivation: 3D物体标注在自动驾驶、机器人和增强现实等应用中面临空间复杂性、遮挡和视角不一致等挑战,现有基于单一模型的方法难以有效解决这些问题。
- Method: 提出Tri MARF框架,包含三个专门智能体:视觉语言模型智能体生成多视角描述,信息聚合智能体选择最优描述,门控智能体将文本语义与3D几何对齐以进行精细化标注。
- Result: 在Objaverse、LVIS、Objaverse XL和ABO数据集上的实验表明,Tri MARF显著优于现有方法:CLIPScore达到88.7,ViLT R@5检索准确率达到45.2和43.8,在单张NVIDIA A100 GPU上吞吐量高达每小时12000个物体。
- Conclusion: Tri MARF通过多模态输入和多智能体协作有效解决了3D标注的挑战,为大规模3D物体标注提供了高效准确的解决方案。
[12] From Preoperative CT to Postmastoidectomy Mesh Construction:1Mastoidectomy Shape Prediction for Cochlear Implant Surgery
Yike Zhang,Eduardo Davalos,Dingjie Su,Ange Lou,Jack Noble
Main category: cs.CV
TL;DR: 提出混合自监督与弱监督学习框架,从术前CT预测乳突切除术区域,无需人工标注,为人工耳蜗手术规划提供新方案。
- Motivation: 人工耳蜗手术中乳突切除术是重要步骤,准确预测切除区域能改善术前规划、降低风险。现有研究因缺乏标注数据而受限,需要无需人工标注的解决方案。
- Method: 提出混合自监督与弱监督学习框架,直接从术前完整乳突CT预测切除区域。结合自监督学习特征提取和弱监督学习,使用3D T分布损失函数处理医学图像。
- Result: 在预测复杂无边界乳突切除术形状时达到平均Dice分数0.72,超越现有方法,为从术前CT构建术后3D表面奠定基础。
- Conclusion: 首次将自监督与弱监督学习结合用于乳突切除术形状预测,为人工耳蜗手术规划提供鲁棒高效解决方案,展示了3D T分布损失在弱监督医学图像分析中的价值。
[13] CRUNet-MR-Univ: A Foundation Model for Diverse Cardiac MRI Reconstruction
Donghang Lyu,Marius Staring,Hildo Lamb,Mariya Doneva
Main category: cs.CV
TL;DR: 提出CRUNet-MR-Univ基础模型,利用时空相关性和提示先验处理心脏MRI重建中的多样性问题,在多种设置下优于基线方法。
- Motivation: 深度学习在心脏MRI重建中表现出色,但现有方法泛化性有限。心脏MRI扫描在图像对比度、采样模式、扫描仪厂商、解剖结构和疾病类型等方面存在广泛差异,现有模型只能处理单一或狭窄子集的变化,面对分布偏移时性能下降。
- Method: 提出CRUNet-MR-Univ基础模型,该模型利用时空相关性和提示先验(prompt-based priors)来有效处理心脏MRI扫描的完整多样性。
- Result: 该方法在广泛的设置中一致优于基线方法,证明了其有效性和前景。
- Conclusion: CRUNet-MR-Univ作为基础模型,能够泛化到多样化的心脏MRI场景,解决了现有深度学习方法的泛化性限制问题。
[14] Addressing Overthinking in Large Vision-Language Models via Gated Perception-Reasoning Optimization
Xingjian Diao,Zheyuan Liu,Chunhui Zhang,Weiyi Wu,Keyi Kong,Lin Shi,Kaize Ding,Soroush Vosoughi,Jiang Gui
Main category: cs.CV
TL;DR: GPRO提出一个元推理控制器,通过动态路由计算路径(快速路径、慢感知路径、慢推理路径)来解决LVLM中的过度思考问题,在提升准确率的同时减少计算成本。
- Motivation: 现有大型视觉语言模型使用链式思维机制时容易产生过度思考,导致响应冗长、测试效率低下甚至准确率下降。先前工作主要关注自适应推理策略,但忽视了视觉感知失败这一根本瓶颈。作者认为稳定推理关键依赖于低层视觉基础,推理错误往往源于不完美的感知而非推理不足。
- Method: 提出Gated Perception-Reasoning Optimization (GPRO),一个元推理控制器,在每个生成步骤动态路由计算到三个决策路径:1) 轻量快速路径,2) 慢感知路径(重新检查视觉输入),3) 慢推理路径(内部自反思)。从约79万样本中获取大规模失败归因监督,使用教师模型区分感知幻觉和推理错误。通过多目标强化学习训练控制器,在不确定性下优化任务准确率和计算成本之间的权衡。
- Result: 在五个基准测试上的实验表明,GPRO显著提高了准确率和效率,优于最近的慢思考方法,同时生成显著更短的响应。
- Conclusion: GPRO通过动态路由计算路径有效解决了LVLM中的过度思考问题,证明了视觉感知失败是推理错误的重要来源,通过区分感知和推理路径可以同时提升模型准确率和计算效率。
[15] UniDrive-WM: Unified Understanding, Planning and Generation World Model For Autonomous Driving
Zhexiao Xiong,Xin Ye,Burhan Yaman,Sheng Cheng,Yiren Lu,Jingru Luo,Nathan Jacobs,Liu Ren
Main category: cs.CV
TL;DR: UniDrive-WM:统一的VLM世界模型,联合执行驾驶场景理解、轨迹规划和轨迹条件未来图像生成,在Bench2Drive基准测试中显著提升规划性能。
- Motivation: 现有自动驾驶方法通常将感知、预测和规划作为独立模块处理,缺乏紧密集成。本文旨在探索统一的视觉语言模型世界模型,将驾驶场景理解、轨迹规划和未来图像生成整合到单一架构中。
- Method: 提出UniDrive-WM统一架构:1)轨迹规划器预测未来轨迹;2)VLM图像生成器基于轨迹条件生成未来帧;3)预测提供额外监督信号,增强场景理解并迭代优化轨迹生成;4)比较离散和连续输出表示对未来图像预测的影响。
- Result: 在Bench2Drive基准测试中:1)生成高保真未来图像;2)L2轨迹误差降低5.9%;3)碰撞率降低9.2%;4)优于先前最佳方法。
- Conclusion: 紧密集成VLM驱动推理、规划和生成式世界建模对自动驾驶具有显著优势,证明了统一世界模型在提升自动驾驶性能方面的有效性。
[16] Vision-Language Agents for Interactive Forest Change Analysis
James Brock,Ce Zhang,Nantheera Anantrasirichai
Main category: cs.CV
TL;DR: 提出一个基于LLM的森林变化分析智能体,整合视觉语言模型进行遥感图像变化解释,支持自然语言查询,并在新构建的Forest-Change数据集上验证了性能。
- Motivation: 当前森林监测面临像素级变化检测和语义变化描述的挑战,虽然LLM已用于交互式数据探索,但其与视觉语言模型在遥感图像变化解释中的整合仍不足。
- Method: 构建LLM驱动的智能体系统,采用多级变化解释视觉语言骨干网络,结合LLM进行任务编排,并创建包含双时相卫星影像、像素级变化掩码和多粒度语义变化描述的Forest-Change数据集。
- Result: 在Forest-Change数据集上达到67.10% mIoU和40.17% BLEU-4分数,在LEVIR-MCI-Trees子集上达到88.13% mIoU和34.41% BLEU-4分数,展示了交互式LLM驱动系统的潜力。
- Conclusion: LLM驱动的遥感图像变化解释系统能显著提升森林变化分析的可访问性、可解释性和效率,所有数据和代码已开源。
[17] TokenSeg: Efficient 3D Medical Image Segmentation via Hierarchical Visual Token Compression
Sen Zeng,Hong Zhou,Zheng Zhu,Yang Liu
Main category: cs.CV
TL;DR: TokenSeg是一个用于高效3D医学图像分割的边界感知稀疏令牌表示框架,通过多尺度分层编码器、边界感知令牌化和稀疏到密集解码器,在保持高精度的同时显著降低计算资源消耗。
- Motivation: 三维医学图像分割计算需求大,存在体素处理的立方增长和同质区域冗余计算的问题。需要开发既能保持分割精度又能显著降低计算成本的高效方法。
- Method: 1) 多尺度分层编码器:在四个分辨率级别提取400个候选令牌,捕获全局解剖上下文和精细边界细节;2) 边界感知令牌化器:结合VQ-VAE量化和重要性评分选择100个显著令牌,其中60%以上位于肿瘤边界附近;3) 稀疏到密集解码器:通过令牌重投影、渐进上采样和跳跃连接重建全分辨率掩码。
- Result: 在包含960个病例的3D乳腺DCE-MRI数据集上,TokenSeg达到94.49% Dice和89.61% IoU的SOTA性能,同时将GPU内存和推理延迟分别降低64%和68%。在MSD心脏和脑部MRI基准数据集上的评估验证了其跨异质解剖结构的一致最优性能。
- Conclusion: TokenSeg证明了基于解剖信息的稀疏表示在实现准确高效的3D医学图像分割方面的有效性,为解决计算密集型分割任务提供了有前景的解决方案。
[18] FaceRefiner: High-Fidelity Facial Texture Refinement with Differentiable Rendering-based Style Transfer
Chengyang Li,Baoping Cheng,Yao Cheng,Haocheng Zhang,Renshuai Liu,Yinglin Zheng,Jing Liao,Xuan Cheng
Main category: cs.CV
TL;DR: FaceRefiner:一种基于风格迁移的面部纹理细化方法,通过多级信息传递和可微分渲染,提升纹理质量并保持输入图像的身份特征
- Motivation: 现有面部纹理生成方法通常通过深度网络合成图像内容并填充UV贴图,但生成的纹理UV贴图受限于训练数据或2D人脸生成器的空间,导致对野外输入图像的泛化能力不足,面部细节、结构和身份可能与输入不一致
- Method: 提出FaceRefiner方法,将3D采样纹理视为风格,纹理生成方法的输出视为内容,通过风格迁移将照片级真实感从风格图像转移到内容图像。不同于现有风格迁移方法只传递高中层信息,该方法集成可微分渲染来传递可见面部区域的低层(像素级)信息,实现多级信息传递
- Result: 在Multi-PIE、CelebA和FFHQ数据集上的广泛实验表明,该方法相比现有技术能提升纹理质量和面部身份保持能力
- Conclusion: FaceRefiner通过多级风格迁移和可微分渲染,有效解决了现有纹理生成方法在细节、结构和身份一致性方面的问题,提高了纹理质量和身份保持能力
[19] All Changes May Have Invariant Principles: Improving Ever-Shifting Harmful Meme Detection via Design Concept Reproduction
Ziyou Jiang,Mingyang Li,Junjie Wang,Yuekai Huang,Jie Huang,Zhiyuan Chang,Zhaoyang Li,Qing Wang
Main category: cs.CV
TL;DR: RepMD:基于设计概念复现的时变有害梗图检测方法,通过构建设计概念图(DCG)指导多模态大语言模型检测有害梗图,准确率达81.1%
- Motivation: 互联网社区中的有害梗图不断演变,具有类型转移和时间演化的特性,难以分析。研究发现不同梗图可能共享不变的设计原则(恶意用户的设计理念),这有助于分析梗图为何有害
- Method: 1. 参考攻击树定义设计概念图(DCG),描述设计有害梗图的步骤;2. 通过设计步骤复现和图剪枝从历史梗图中推导DCG;3. 使用DCG指导多模态大语言模型(MLLM)检测有害梗图
- Result: RepMD达到最高准确率81.1%,在泛化到类型转移和时间演化的梗图时准确率略有下降。人工评估显示RepMD能提高人工发现有害梗图的效率,每张梗图约15-30秒
- Conclusion: 通过捕捉恶意用户的设计概念,RepMD能有效检测时变有害梗图,为有害内容分析提供了新视角
[20] 3D Conditional Image Synthesis of Left Atrial LGE MRI from Composite Semantic Masks
Yusri Al-Sanaani,Rebecca Thornhill,Sreeraman Rajan
Main category: cs.CV
TL;DR: 使用3D条件生成模型(Pix2Pix GAN、SPADE-GAN、SPADE-LDM)合成LGE MRI数据增强左心房分割性能,SPADE-LDM效果最佳,显著提升分割Dice分数。
- Motivation: 左心房壁和心内膜的LGE MRI分割对量化房颤患者心房纤维化至关重要,但机器学习分割模型面临数据稀缺和解剖结构复杂的挑战。
- Method: 开发管道从复合语义标签图合成高保真3D LGE MRI体积,结合解剖专家标注和无监督组织聚类,使用三种3D条件生成器(Pix2Pix GAN、SPADE-GAN、SPADE-LDM)。
- Result: SPADE-LDM生成最真实和结构准确的图像(FID=4.063),优于Pix2Pix GAN(40.821)和SPADE-GAN(7.652)。使用合成数据增强后,3D U-Net的左心房腔分割Dice分数从0.908提升到0.936,统计显著改善(p<0.05)。
- Conclusion: 标签条件3D合成能有效增强对代表性不足的心脏结构的分割,为解决医学影像数据稀缺问题提供了有前景的解决方案。
[21] MiLDEdit: Reasoning-Based Multi-Layer Design Document Editing
Zihao Lin,Wanrong Zhu,Jiuxiang Gu,Jihyung Kil,Christopher Tensmeyer,Lin Zhang,Shilong Liu,Ruiyi Zhang,Lifu Huang,Vlad I. Morariu,Tong Sun
Main category: cs.CV
TL;DR: 提出了MiLDEAgent框架,专门用于多层设计文档(如海报)的编辑,结合了RL训练的多模态推理器和图像编辑器,在MiLDEBench基准上显著优于现有方法。
- Motivation: 现实世界中的设计文档(如海报)本质上是多层的,包含装饰、文本和图像。从自然语言指令编辑这些文档需要细粒度的、层感知的推理来识别相关层并协调修改。先前的工作大多忽视了多层设计文档编辑,专注于单层图像编辑或多层生成,这些方法假设平面画布,缺乏确定修改内容和位置的推理能力。
- Method: 提出了MiLDEAgent框架,结合了RL训练的多模态推理器(用于层级理解)和图像编辑器(用于针对性修改)。同时构建了MiLDEBench基准,包含超过20K设计文档和多样化编辑指令,并设计了MiLDEEval评估协议,涵盖指令遵循、布局一致性、美学和文本渲染四个维度。
- Result: 在14个开源和2个闭源模型上的实验表明,现有方法无法泛化:开源模型通常无法完成多层文档编辑任务,而闭源模型存在格式违规问题。相比之下,MiLDEAgent实现了强大的层感知推理和精确编辑,显著优于所有开源基线,性能与闭源模型相当,为多层文档编辑建立了第一个强基线。
- Conclusion: MiLDEAgent框架成功解决了多层设计文档编辑的挑战,通过结合推理和编辑能力,在新建的基准上表现出色,为这一重要但被忽视的任务建立了首个有效解决方案。
[22] Detection of Deployment Operational Deviations for Safety and Security of AI-Enabled Human-Centric Cyber Physical Systems
Bernard Ngabonziza,Ayan Banerjee,Sandeep K. S. Gupta
Main category: cs.CV
TL;DR: 该论文提出一个框架来评估AI赋能人机协同信息物理系统在不确定条件下的安全策略,并以糖尿病患者的未进食检测为例进行验证。
- Motivation: AI赋能的人机协同信息物理系统(如医疗监控、自动驾驶)在运行中可能遇到不确定条件,这些情况可能违反系统的安全和安保要求,需要有效应对策略。
- Method: 首先讨论可能导致系统在未知条件下运行的操作偏差,然后创建一个框架来评估不同安全策略,最后以1型糖尿病闭环血糖控制中的未进食检测为例展示个性化图像识别技术。
- Result: 提出了一个评估AI赋能人机协同信息物理系统安全策略的框架,并展示了通过个性化图像识别技术检测糖尿病患者未进食情况的具体应用。
- Conclusion: 需要系统化的方法来确保AI赋能人机协同信息物理系统在不确定条件下的安全和安保,提出的框架和示例技术为此类系统的安全部署提供了解决方案。
[23] HUR-MACL: High-Uncertainty Region-Guided Multi-Architecture Collaborative Learning for Head and Neck Multi-Organ Segmentation
Xiaoyu Liu,Siwen Wei,Linhao Qu,Mingyuan Pan,Chengsheng Zhang,Yonghong Shi,Zhijian Song
Main category: cs.CV
TL;DR: 提出HUR-MACL模型,通过识别高不确定性区域并让Vision Mamba和Deformable CNN协同学习,提升头颈部多器官分割精度
- Motivation: 头颈部放疗中危及器官的准确分割至关重要,但深度学习模型在小而复杂形状的器官上表现不佳。现有混合架构通常只是简单拼接特征,未能充分利用各组件优势,导致功能重叠和分割精度有限。
- Method: 提出高不确定性区域引导的多架构协同学习(HUR-MACL)模型:1) 使用CNN自适应识别高不确定性区域;2) 对这些区域同时使用Vision Mamba和Deformable CNN联合提升分割精度;3) 提出异质特征蒸馏损失促进两个架构在高不确定性区域的协同学习。
- Result: 在两个公共数据集和一个私有数据集上取得了最先进(SOTA)的结果。
- Conclusion: HUR-MACL模型通过有效识别和处理高不确定性区域,结合Vision Mamba和Deformable CNN的优势,显著提升了头颈部多器官分割的准确性。
[24] HyperAlign: Hyperbolic Entailment Cones for Adaptive Text-to-Image Alignment Assessment
Wenzhi Chen,Bo Hu,Leida Li,Lihuo He,Wen Lu,Xinbo Gao
Main category: cs.CV
TL;DR: 提出HyperAlign框架,基于双曲蕴含几何进行自适应文本-图像对齐评估,通过双曲空间映射、动态监督蕴含建模和自适应调制回归器,显著提升评估性能
- Motivation: 现有文本到图像生成技术快速发展,但准确评估生成图像与文本提示的对齐性仍面临挑战。现有方法依赖欧几里得空间度量,忽略了语义对齐的结构化特性,且缺乏对不同样本的自适应能力
- Method: 1) 使用CLIP提取欧几里得特征并映射到双曲空间;2) 设计动态监督蕴含建模机制,将离散蕴含逻辑转化为连续几何结构监督;3) 提出自适应调制回归器,利用双曲几何特征生成样本级调制参数,自适应校准欧几里得余弦相似度来预测最终分数
- Result: HyperAlign在单数据库评估和跨数据库泛化任务上都取得了极具竞争力的性能,充分验证了双曲几何建模在图像-文本对齐评估中的有效性
- Conclusion: 基于双曲蕴含几何的自适应文本-图像对齐评估框架HyperAlign能够有效解决现有方法的局限性,通过几何结构建模和自适应校准机制显著提升评估性能,为文本到图像生成的质量评估提供了新思路
[25] Agri-R1: Empowering Generalizable Agricultural Reasoning in Vision-Language Models with Reinforcement Learning
Wentao Zhang,Lifei Wang,Lina Lu,MingKun Xu,Shangyang Li,Yanchao Yang,Tao Fang
Main category: cs.CV
TL;DR: Agri-R1:通过自动生成高质量推理数据和GRPO训练,提升农业疾病诊断的3B参数模型,在多项指标上超越更大规模基线模型
- Motivation: 农业疾病诊断面临三大挑战:传统微调需要大量标注、缺乏可解释性、泛化能力差。现有推理方法依赖昂贵专家标注,且难以处理农业查询的开放性和多样性。
- Method: 提出Agri-R1框架:1)通过视觉语言合成和LLM过滤自动生成高质量推理数据(仅需19%样本);2)使用Group Relative Policy Optimization(GRPO)训练,结合领域特定词典和模糊匹配的新奖励函数,评估开放回答的正确性和语言灵活性。
- Result: 在CDDMBench评估中,3B参数模型性能与7B-13B基线竞争:疾病识别准确率相对提升23.2%,农业知识QA提升33.3%,跨域泛化比标准微调提高26.10分。消融研究证实结构化推理数据与GRPO探索的协同效应,问题复杂度越高收益越大。
- Conclusion: Agri-R1通过自动化推理数据生成和GRPO优化,有效解决了农业疾病诊断的标注成本、可解释性和泛化问题,为农业视觉语言模型提供了高效解决方案。
[26] DB-MSMUNet:Dual Branch Multi-scale Mamba UNet for Pancreatic CT Scans Segmentation
Qiu Guan,Zhiqiang Yang,Dezhang Ye,Yang Chen,Xinli Xu,Ying Tang
Main category: cs.CV
TL;DR: 提出DB-MSMUNet用于胰腺CT分割,结合多尺度状态空间建模和双解码器设计,在多个数据集上优于现有方法。
- Motivation: 胰腺CT分割面临组织对比度低、边界模糊、形状不规则、病灶小等挑战,需要更鲁棒的解决方案。
- Method: DB-MSMUNet采用编码器-解码器架构:编码器使用多尺度Mamba模块结合可变形卷积;双解码器设计包括边缘解码器(边缘增强路径)和区域解码器(多层解码器);添加辅助深度监督头。
- Result: 在NIH、MSD和临床胰腺肿瘤数据集上分别达到89.47%、87.59%和89.02%的Dice系数,在分割精度、边缘保留和鲁棒性方面优于现有方法。
- Conclusion: DB-MSMUNet在胰腺CT分割任务中表现出有效性和泛化能力,适用于实际临床应用。
[27] HATIR: Heat-Aware Diffusion for Turbulent Infrared Video Super-Resolution
Yang Zou,Xingyue Zhu,Kaiqi Han,Jun Ma,Xingyuan Li,Zhiying Jiang,Jinyuan Liu
Main category: cs.CV
TL;DR: HATIR提出了一种基于热感知扩散的红外视频超分辨率方法,通过联合建模湍流退化和分辨率损失,解决了现有方法在处理湍流红外视频时的局限性。
- Motivation: 红外视频在恶劣环境下有重要应用,但常受大气湍流和压缩退化影响。现有VSR方法要么忽略了红外与可见光图像之间的模态差异,要么无法恢复湍流引起的失真。将湍流缓解算法与VSR方法级联会导致误差传播和累积。
- Method: HATIR通过将热感知变形先验注入扩散采样路径,联合建模湍流退化和结构细节损失的逆过程。具体包括:1) 基于热活跃区域具有一致相位响应的物理原理,构建相位引导流估计器;2) 提出湍流感知解码器,通过湍流门控和结构感知注意力选择性抑制不稳定时间线索并增强边缘感知特征聚合。
- Result: 构建了首个湍流红外VSR数据集FLIR-IVSR,包含640个不同场景的LR-HR序列对。该方法能有效恢复湍流引起的失真并提升红外视频超分辨率质量。
- Conclusion: HATIR通过联合建模湍流退化和分辨率损失,解决了红外视频超分辨率中的关键挑战,为未来红外VSR研究提供了新方法和基准数据集。
[28] WebCryptoAgent: Agentic Crypto Trading with Web Informatics
Ali Kurban,Wei Luo,Liangyu Zuo,Zeyu Zhang,Renda Han,Zhaolu Kang,Hao Tang
Main category: cs.CV
TL;DR: WebCryptoAgent:一个代理交易框架,通过分解多模态代理和分离控制架构,解决加密货币交易中多源网络信息整合与实时风险控制的挑战。
- Motivation: 现有交易系统难以同时处理多源网络证据的噪声整合和应对极端价格波动的实时风险控制,需要既能综合异构信息又能快速响应市场冲击的解决方案。
- Method: 提出WebCryptoAgent框架:1)使用模态特定代理处理网络内容、社交情绪和OHLCV信号,生成统一证据文档进行置信度校准推理;2)采用解耦控制架构,分离小时级战略推理和秒级实时风险模型,实现快速冲击检测和独立保护干预。
- Result: 在真实加密货币市场的广泛实验表明,WebCryptoAgent相比现有基线提高了交易稳定性、减少了虚假活动,并增强了尾部风险处理能力。
- Conclusion: WebCryptoAgent通过代理化决策架构和解耦控制设计,有效解决了加密货币交易中的多源信息整合和实时风险控制问题,为高频波动环境下的智能交易提供了新方案。
[29] Forge-and-Quench: Enhancing Image Generation for Higher Fidelity in Unified Multimodal Models
Yanbing Zeng,Jia Wang,Hanghang Ma,Junqiang Wu,Jie Zhu,Xiaoming Wei,Jie Hu
Main category: cs.CV
TL;DR: 提出Forge-and-Quench统一框架,通过理解模型增强图像生成的保真度和细节丰富度,使用Bridge Feature作为视觉引导信号连接理解与生成
- Motivation: 虽然多模态领域将图像生成和理解整合到单一框架是重要目标,但理解如何有效辅助生成尚未充分探索。现有工作主要关注利用理解模型的推理能力和世界知识,而本文提出新视角:利用理解来增强生成图像的保真度和细节丰富度
- Method: 提出Forge-and-Quench框架:1) MLLM分析整个对话上下文(包括文本指令)生成增强文本指令;2) 通过Bridge Adapter将增强指令映射到虚拟视觉表示Bridge Feature;3) Bridge Feature作为视觉引导信号注入T2I骨干网络,同时用增强指令替换原始输入
- Result: 框架展示出卓越的扩展性和灵活性,可在不同MLLM和T2I模型间高效迁移,显著减少训练开销,同时不损害MLLM的多模态理解能力。实验表明显著提升多个模型的图像保真度和细节,同时保持指令跟随准确性并增强世界知识应用
- Conclusion: Forge-and-Quench框架成功实现了通过理解模型增强图像生成质量的目标,为多模态理解与生成整合提供了新范式,在保真度、细节丰富度和知识应用方面均有显著提升
[30] On the Holistic Approach for Detecting Human Image Forgery
Xiao Guo,Jie Zhu,Anil Jain,Xiaoming Liu
Main category: cs.CV
TL;DR: HuForDet是一个用于人类图像伪造检测的统一框架,采用双分支架构:面部伪造检测分支(RGB+频域专家)和上下文伪造检测分支(MLLM分析全身语义一致性),在统一的人类图像伪造数据集上实现SOTA性能。
- Motivation: 当前AI生成内容(AIGC)快速发展,深度伪造威胁日益严重,从面部操纵到全身逼真人体合成。现有检测方法存在碎片化问题,要么专注于面部区域伪造,要么专注于全身合成图像,无法泛化到完整的人类图像操纵谱系。
- Method: 提出HuForDet整体框架,包含:1)面部伪造检测分支:采用RGB和频域异构专家,包括自适应LoG模块捕获从细粒度融合边界到粗尺度纹理异常的伪影;2)上下文伪造检测分支:利用多模态大语言模型(MLLM)分析全身语义一致性,配备置信度估计机制动态加权特征融合贡献。
- Result: 构建了统一的人类图像伪造(HuFor)数据集,整合现有面部伪造数据和新收集的全身合成人体数据。大量实验表明,HuForDet在各种人类图像伪造检测中实现了最先进的性能,并展现出卓越的鲁棒性。
- Conclusion: HuForDet通过双分支架构有效解决了人类图像伪造检测的碎片化问题,实现了跨面部和全身伪造的统一检测,为应对日益复杂的AIGC威胁提供了全面解决方案。
[31] Training a Custom CNN on Five Heterogeneous Image Datasets
Anika Tabassum,Tasnuva Mahazabin Tuba,Nafisa Naznin
Main category: cs.CV
TL;DR: 该研究评估了CNN架构在五个异构数据集上的性能,包括自定义轻量CNN与ResNet-18、VGG-16的比较,分析了架构复杂度、模型深度和迁移学习在不同数据条件下的影响。
- Motivation: 深度学习已改变视觉数据分析,CNN能自动提取层次化视觉特征。但实际应用中面临光照、分辨率、环境复杂性和类别不平衡等挑战,需要评估不同CNN架构在异构数据集上的适应性和鲁棒性。
- Method: 使用五个异构数据集(芒果品种分类、水稻品种识别、路面状况评估、三轮车检测、人行道侵占监测),评估自定义轻量CNN与ResNet-18、VGG-16等成熟架构。采用系统预处理、数据增强,比较从头训练和迁移学习两种策略。
- Result: 自定义CNN在多个应用领域达到竞争性性能;迁移学习和深度架构在数据受限环境中优势明显;不同数据集对模型复杂度和训练策略的需求各异。
- Conclusion: 研究为资源有限但高影响的现实世界视觉分类任务提供了实用见解,展示了轻量CNN的竞争力,并明确了迁移学习在数据约束环境中的价值。
[32] AIVD: Adaptive Edge-Cloud Collaboration for Accurate and Efficient Industrial Visual Detection
Yunqing Hu,Zheming Yang,Chang Zhao,Qi Guo,Meng Gao,Pengcheng Li,Wen Ji
Main category: cs.CV
TL;DR: AIVD框架通过轻量级边缘检测器与云端MLLM协作,实现精确目标定位和高质量语义生成,同时通过异构资源感知动态调度算法优化边缘部署性能。
- Motivation: 多模态大语言模型在语义理解和视觉推理方面表现出色,但在精确目标定位和资源受限的边缘-云端部署方面仍面临挑战。
- Method: 提出AIVD框架:1) 轻量级边缘检测器与云端MLLM协作实现统一精确定位和语义生成;2) 设计视觉-语义协同增强的高效微调策略,提升对边缘裁剪框噪声和场景变化的鲁棒性;3) 提出异构资源感知动态调度算法,适应不同边缘设备和动态网络条件。
- Result: AIVD显著降低了资源消耗,同时提高了MLLM分类性能和语义生成质量;提出的调度策略在多样化场景中实现了更高的吞吐量和更低的延迟。
- Conclusion: AIVD框架有效解决了MLLM在精确目标定位和边缘部署中的挑战,通过边缘-云端协同和智能调度实现了高效、鲁棒的多模态理解系统。
[33] Skeletonization-Based Adversarial Perturbations on Large Vision Language Model's Mathematical Text Recognition
Masatomo Yoshida,Haruto Namura,Nicola Adami,Masahiro Okuda
Main category: cs.CV
TL;DR: 提出一种利用骨架化的新型对抗攻击方法,针对包含文本(特别是数学公式)的图像,有效减少搜索空间,评估模型视觉解释和推理能力
- Motivation: 探索基础模型的视觉能力和局限性,特别是针对包含文本的图像(如数学公式),这些图像由于LaTeX转换和复杂结构更具挑战性
- Method: 引入基于骨架化的对抗攻击方法,通过减少搜索空间有效生成对抗样本,特别针对文本图像和数学公式,评估字符和语义变化
- Result: 方法有效减少了对抗攻击的搜索空间,在ChatGPT等模型上展示了实际应用价值,揭示了模型在视觉解释和推理方面的局限性
- Conclusion: 骨架化方法为对抗攻击提供了有效途径,特别适用于文本和数学公式图像,有助于深入理解基础模型的视觉能力和脆弱性
[34] ProFuse: Efficient Cross-View Context Fusion for Open-Vocabulary 3D Gaussian Splatting
Yen-Jen Chiou,Wei-Tse Cheng,Yuan-Fu Yang
Main category: cs.CV
TL;DR: ProFuse是一个高效的上下文感知框架,用于基于3D高斯泼溅的开放词汇3D场景理解,通过直接注册增强跨视图一致性和掩码内聚性,无需渲染监督微调,比现有技术快两倍。
- Motivation: 现有开放词汇3D场景理解方法通常依赖预训练的3DGS场景,存在跨视图一致性差、掩码内聚性不足的问题,且需要大量计算资源进行渲染监督微调。
- Method: 1) 引入密集对应引导的预注册阶段,初始化具有准确几何的高斯分布;2) 通过跨视图聚类联合构建3D上下文提案;3) 每个提案通过加权聚合成员嵌入获得全局特征;4) 在直接注册期间将特征融合到高斯分布上,保持跨视图的语言一致性;5) 无需额外优化,保留几何细化而无需密集化。
- Result: ProFuse实现了强大的开放词汇3DGS理解能力,每个场景的语义附加完成时间约为5分钟,比现有最先进技术快两倍。
- Conclusion: ProFuse提供了一种高效、上下文感知的开放词汇3D场景理解框架,通过直接注册和预建立的关联,在保持几何精度的同时显著加速语义融合过程。
[35] Segmentation-Driven Monocular Shape from Polarization based on Physical Model
Jinyu Zhang,Xu Ma,Weili Chen,Gonzalo R. Arce
Main category: cs.CV
TL;DR: 提出基于分割的单目偏振三维重建框架,通过自适应区域分割将全局凸性假设分解为局部凸区域,有效抑制方位角歧义,提升重建精度。
- Motivation: 现有单目偏振三维重建方法存在方位角歧义问题,这是偏振分析固有的局限性,严重影响了重建的准确性和稳定性。
- Method: 提出分割驱动的单目偏振三维重建框架:1) 偏振辅助自适应区域生长分割策略,将全局凸性假设分解为局部凸区域;2) 多尺度融合凸性先验约束,确保局部表面一致性并增强细节恢复。
- Result: 在合成和真实数据集上的实验验证了该方法在消除歧义准确性和几何保真度方面相比现有物理基单目偏振三维重建技术有显著改进。
- Conclusion: 通过将全局形状恢复转化为局部凸区域的重建,提出的分割驱动框架有效解决了单目偏振三维重建中的方位角歧义问题,提高了重建精度和稳定性。
[36] GeM-VG: Towards Generalized Multi-image Visual Grounding with Multimodal Large Language Models
Shurong Zheng,Yousong Zhu,Hongyin Zhao,Fan Yang,Yufei Zhan,Ming Tang,Jinqiao Wang
Main category: cs.CV
TL;DR: GeM-VG是一个多模态大语言模型,专门用于广义多图像视觉定位,通过混合强化微调策略和新的数据集MG-Data-240K,在单图像和多图像定位任务上都取得了显著提升。
- Motivation: 现有MLLM在多图像定位方面存在局限:只能处理单目标定位,任务类型有限,缺乏对广义定位任务的统一建模。需要开发一个能够处理多样化多图像定位任务的通用模型。
- Method: 1) 系统分类现有多图像定位任务,构建MG-Data-240K数据集;2) 提出混合强化微调策略,结合思维链推理和直接回答;3) 使用基于规则的奖励引导的R1-like算法增强模型感知和推理能力。
- Result: 在多图像定位方面,在MIG-Bench和MC-Bench上分别比先前领先的MLLM提升2.0%和9.7%;在单图像定位方面,在ODINW上比基础模型提升9.1%;同时保持强大的通用多图像理解能力。
- Conclusion: GeM-VG成功实现了广义多图像视觉定位,通过统一建模和混合强化微调策略,在多样化定位任务上表现出色,为多图像定位领域提供了有效的解决方案。
[37] CounterVid: Counterfactual Video Generation for Mitigating Action and Temporal Hallucinations in Video-Language Models
Tobia Poppi,Burak Uzkent,Amanmeet Garg,Lucas Porto,Garin Kessler,Yezhou Yang,Marcella Cornia,Lorenzo Baraldi,Rita Cucchiara,Florian Schiffers
Main category: cs.CV
TL;DR: 提出CounterVid框架,通过生成反事实视频来缓解视频语言模型的幻觉问题,特别是针对动作识别和时间顺序推理,并引入MixDPO方法进行联合优化。
- Motivation: 现有视频语言模型容易产生幻觉,尤其是在动作和时间顺序推理方面。现有的缓解策略(如文本过滤或随机视频扰动)未能解决根本原因:过度依赖语言先验而非细粒度视觉动态。
- Method: 提出可扩展的反事实视频生成框架,结合多模态LLM进行动作提案和编辑指导,使用基于扩散的图像和视频模型大规模生成语义硬负样本。构建CounterVid数据集(约26k偏好对),并引入MixDPO统一直接偏好优化方法,联合利用文本和视觉偏好。
- Result: 使用MixDPO微调Qwen2.5-VL模型在时间排序等方面取得一致改进,并能有效迁移到标准视频幻觉基准测试中。
- Conclusion: 通过反事实视频生成和混合偏好优化,能够有效缓解视频语言模型在动作和时间推理方面的幻觉问题,为多模态理解提供了新的解决方案。
[38] Defocus Aberration Theory Confirms Gaussian Model in Most Imaging Devices
Akbar Saadat
Main category: cs.CV
TL;DR: 该论文证明了高斯模型在大多数成像设备中适用于散焦操作,最大平均绝对误差小于1%,验证了高斯模型在实时深度估计应用中的准确性和可靠性。
- Motivation: 从2D图像准确估计深度是3D恢复领域的基本挑战。传统启发式方法面临空间变异散焦模糊的ill-posed问题,因为期望的模糊无法与固有模糊区分。需要找到一种既能用于单图像绝对模糊又能用于双图像相对模糊的数学模型。
- Method: 在几何光学框架内进行散焦分析,并通过衍射极限光学中的散焦像差理论来评估实际模型与其高斯近似的拟合精度。为传统成像设备引入设置以确保散焦操作符遵循高斯模型。
- Result: 对于典型的聚焦深度范围(1-100米),最大深度变化为聚焦深度的10%,验证了高斯模型在大多数成像设备中的适用性。结果显示最大平均绝对误差小于1%,证明了模型的准确性和可靠性。
- Conclusion: 高斯模型是实时深度估计应用的最佳选择,因其数学简单性和计算效率,且是唯一能同时应用于单图像绝对模糊和双图像相对模糊的模型。研究为传统成像设备提供了确保散焦操作符遵循高斯模型的具体设置。
[39] SRU-Pix2Pix: A Fusion-Driven Generator Network for Medical Image Translation with Few-Shot Learning
Xihe Qiu,Yang Dai,Xiaoyu Tan,Sijia Li,Fenghao Sun,Lu Gan,Liang Liu
Main category: cs.CV
TL;DR: 提出增强版Pix2Pix框架,结合SEResNet和U-Net++,用于医学MRI图像翻译,在少样本条件下提升图像质量和结构保真度。
- Motivation: MRI临床应用受限于采集时间长、成本高和分辨率受限。图像翻译技术可解决这些限制,但现有Pix2Pix方法在医学图像翻译中的潜力尚未充分挖掘。
- Method: 增强版Pix2Pix框架:1) 集成Squeeze-and-Excitation Residual Networks (SEResNet)通过通道注意力增强关键特征表示;2) 结合U-Net++改进多尺度特征融合;3) 使用简化的PatchGAN判别器稳定训练并提升局部解剖真实性。
- Result: 在少于500张图像的少样本条件下,该方法在多个模态内MRI翻译任务中实现了稳定的结构保真度和优越的图像质量,展现出强大的泛化能力。
- Conclusion: 该方法为医学图像翻译提供了Pix2Pix的有效扩展,在少样本条件下仍能保持高质量图像生成,具有临床应用潜力。
[40] Measurement-Consistent Langevin Corrector: A Remedy for Latent Diffusion Inverse Solvers
Lee Hyoseok,Sohwi Lim,Eunju Cha,Tae-Hyun Oh
Main category: cs.CV
TL;DR: 提出MCLC方法,通过测量一致的Langevin更新稳定基于潜在扩散模型的逆问题求解器,解决现有方法的不稳定性和伪影问题。
- Motivation: 现有基于潜在扩散模型的零样本逆问题求解器存在不稳定问题,产生不希望的伪影和质量下降,需要更稳健的解决方案。
- Method: 提出测量一致的Langevin校正器(MCLC),这是一个理论基础的即插即用校正模块,通过测量一致的Langevin更新来修正基于LDM的逆问题求解器,无需线性流形假设。
- Result: MCLC在多种图像恢复任务中表现出有效性,与现有求解器兼容,能稳定求解过程并减少伪影,是迈向更稳健零样本逆问题求解器的关键步骤。
- Conclusion: MCLC通过减少求解器与真实反向扩散动态之间的差异来稳定逆问题求解,无需线性流形假设,提供更稳定可靠的性能,为基于扩散模型的逆问题求解提供了重要改进。
[41] PyramidalWan: On Making Pretrained Video Model Pyramidal for Efficient Inference
Denis Korzhenkov,Adil Karjauv,Animesh Karnewar,Mohsen Ghafoorian,Amirhossein Habibian
Main category: cs.CV
TL;DR: 提出一个将预训练扩散模型转换为金字塔模型的低成本微调流程,保持视频质量的同时显著降低计算成本,并探索步数蒸馏策略进一步提升推理效率。
- Motivation: 现有开源金字塔视频模型从头训练,在视觉合理性上落后于最先进系统,且计算成本较高。需要一种方法能将预训练扩散模型高效转换为金字塔架构,保持质量的同时降低推理成本。
- Method: 开发了一个将预训练扩散模型转换为金字塔模型的管道,通过低成本微调实现转换。金字塔模型将前向和后向扩散过程分解为多个分辨率阶段,高噪声输入在低分辨率处理,低噪声输入在高分辨率处理。同时研究了金字塔模型中的步数蒸馏策略。
- Result: 成功将预训练扩散模型转换为金字塔模型,输出视频质量没有下降。金字塔架构显著降低了多步去噪模型的推理计算成本。步数蒸馏策略进一步提升了推理效率。
- Conclusion: 提出的转换管道能够有效将现有预训练扩散模型升级为金字塔架构,在保持视频质量的同时显著降低计算成本,为高效视频生成提供了实用解决方案。
[42] Detector-Augmented SAMURAI for Long-Duration Drone Tracking
Tamara R. Lenhard,Andreas Weinmann,Hichem Snoussi,Tobias Koch
Main category: cs.CV
TL;DR: 本文首次系统评估了SAMURAI基础模型在无人机跟踪中的潜力,并提出了检测器增强扩展以提升鲁棒性,在复杂城市环境中显著改善了长期跟踪性能。
- Motivation: 无人机威胁日益增加,需要鲁棒的长期跟踪系统。基于检测器的方法存在时间不一致性问题,而RGB无人机跟踪研究有限且依赖传统运动模型。SAMURAI等基础模型在其他领域表现出强大的类别无关跟踪能力,但在无人机特定场景中的应用尚未研究。
- Method: 提出检测器增强的SAMURAI扩展,通过结合检测器线索来减轻对边界框初始化和序列长度的敏感性,提高在复杂城市环境中的鲁棒性。
- Result: 提出的扩展在复杂城市环境中显著提升了鲁棒性,尤其在长时序列和无人机离开-重新进入场景中效果明显。相比SAMURAI的零样本性能,在数据集和指标上获得一致提升,成功率最高提升+0.393,误报率最高降低-0.475。
- Conclusion: 这是首次系统评估SAMURAI在无人机跟踪中的潜力,提出的检测器增强扩展有效解决了基础模型在无人机特定场景中的局限性,为城市监控系统中的鲁棒无人机跟踪提供了新方案。
[43] Integrated Framework for Selecting and Enhancing Ancient Marathi Inscription Images from Stone, Metal Plate, and Paper Documents
Bapu D. Chendage,Rajivkumar S. Mente
Main category: cs.CV
TL;DR: 提出基于二值化和互补预处理技术的古代文字图像增强方法,有效提升石刻、金属板和文献等不同材质上古代马拉地语铭文的可读性。
- Motivation: 古代文字图像常受背景噪声、低对比度、老化等退化影响,前景文字与背景视觉特征相似,导致铭文难以阅读。需要专门方法增强此类退化图像的可读性。
- Method: 基于二值化和互补预处理技术的方法,包括去除污渍和增强模糊古代文字的预处理步骤,应用于石刻、金属板和文献等不同类型的古代文字。
- Result: 使用K-NN分类器在石刻、金属板和文献上的分类准确率分别为55.7%、62%和65.6%;使用SVM分类器分别为53.2%、59.5%和67.8%,证明增强方法能有效提升古代马拉地语铭文图像的可读性。
- Conclusion: 提出的图像增强方法能有效改善退化古代文字图像的可读性,为古代马拉地语铭文的识别和分析提供了实用工具。
[44] SOVABench: A Vehicle Surveillance Action Retrieval Benchmark for Multimodal Large Language Models
Oriol Rabasseda,Zenjie Li,Kamal Nasrollahi,Sergio Escalera
Main category: cs.CV
TL;DR: SOVABench:一个专注于车辆动作识别的监控视频检索基准,通过MLLM生成描述来创建可解释的嵌入,在动作区分任务上表现出色。
- Motivation: 现有视频检索基准主要关注场景级相似性,缺乏对监控场景中动作区分的评估。需要专门针对车辆相关动作的监控视频基准来评估模型的跨动作区分和时间方向理解能力。
- Method: 1. 构建SOVABench基准,包含两种评估协议(inter-pair和intra-pair);2. 提出基于MLLM的无训练框架,利用MLLM的视觉推理和指令跟随能力为图像和视频生成描述;3. 从MLLM生成的描述中提取可解释的嵌入。
- Result: 1. SOVABench显示现有最先进的视觉和多模态模型在动作区分上仍有挑战;2. 提出的MLLM框架在SOVABench上表现强劲;3. 在对比视觉语言模型常失败的空间和计数基准上也取得良好性能。
- Conclusion: SOVABench填补了监控视频动作评估的空白,提出的MLLM框架能够有效生成可解释的嵌入,在动作区分任务上优于现有方法,为监控视频分析提供了新思路。
[45] Character Detection using YOLO for Writer Identification in multiple Medieval books
Alessandra Scotto di Freca,Tiziana D Alessandro,Francesco Fontanella,Filippo Sarria,Claudio De Stefano
Main category: cs.CV
TL;DR: 使用YOLO目标检测模型替代模板匹配和CNN,更有效地提取中世纪手稿中的字母"a",提高抄写员识别准确率
- Motivation: 古文书学中识别抄写员对于确定手稿年代和理解书写演变很重要。现有数字技术虽有进展,但模板匹配方法需要适当阈值且存在局限性,需要更有效的解决方案
- Method: 采用YOLO v5目标检测模型替代之前的模板匹配+CNN方法,自动检测手稿中的字母"a"实例,然后进行抄写员分类。YOLO置信度分数可用于设置拒绝阈值
- Result: YOLO能提取更多字母实例,提高第二阶段的分类准确性。置信度分数支持开发拒绝阈值系统,即使在未见手稿中也能实现可靠的抄写员识别
- Conclusion: YOLO目标检测模型在古文书学抄写员识别任务中优于传统模板匹配方法,能更有效地提取特征字母,为可靠的手稿分析和年代确定提供更好的基础
[46] DivAS: Interactive 3D Segmentation of NeRFs via Depth-Weighted Voxel Aggregation
Ayush Pande
Main category: cs.CV
TL;DR: DivAS是一种无需优化的交互式NeRF分割框架,通过深度引导的2D SAM掩码聚合到3D体素网格,实现实时分割,比优化方法快2-2.5倍。
- Motivation: 现有NeRF分割方法多为基于优化的,需要缓慢的逐场景训练,牺牲了2D基础模型的零样本能力。需要一种无需优化、完全交互式的框架来解决这些限制。
- Method: DivAS采用基于GUI的快速工作流程:1) 从用户点提示生成2D SAM掩码;2) 使用NeRF深度先验优化掩码的几何精度和前景-背景分离;3) 通过自定义CUDA内核将多视角掩码聚合到统一的3D体素网格中(<200ms)。
- Result: 在Mip-NeRF 360°和LLFF数据集上的实验表明,DivAS的分割质量与基于优化的方法相当,端到端速度快2-2.5倍,排除用户提示时间后快一个数量级。
- Conclusion: DivAS提供了一种无需优化的交互式NeRF分割框架,结合了2D基础模型的零样本能力和NeRF的几何先验,实现了实时分割反馈,显著提升了效率和实用性。
[47] Scaling Vision Language Models for Pharmaceutical Long Form Video Reasoning on Industrial GenAI Platform
Suyash Mishra,Qiang Li,Srikanth Patil,Satyanarayan Pati,Baddu Narendra
Main category: cs.CV
TL;DR: 工业级GenAI框架处理大规模多模态医药数据,分析40+VLMs在长视频推理中的性能瓶颈与效率权衡
- Motivation: 现有VLM评估多关注短视频且假设无限计算资源,而工业场景(如医药内容理解)需要在严格GPU、延迟和成本约束下处理长视频,现有方法难以扩展
- Method: 提出工业级大规模多模态推理架构,处理20万+PDF、2.5万+视频和888多语言音频文件;在Video-MME、MMBench和专有数据集上实证分析40+VLMs
- Result: SDPA注意力在商用GPU上实现3-8倍效率提升;多模态在8/12任务领域提升性能(特别是长度依赖任务);发现时间对齐和关键帧检测瓶颈
- Conclusion: 本文不提出新模型,而是刻画当前VLMs在实际部署约束下的实用限制、权衡和失败模式,为工业领域长视频理解提供可操作指导
[48] Rotation-Robust Regression with Convolutional Model Trees
Hongyi Li,William Ward Armstrong,Jun Xu
Main category: cs.CV
TL;DR: 研究使用卷积模型树进行旋转鲁棒学习,通过几何感知的归纳偏置和部署时的方向搜索来提高模型对平面内旋转的鲁棒性。
- Motivation: 研究如何在图像输入中实现旋转鲁棒学习,特别是在面对平面内旋转时保持模型性能。卷积模型树具有在图像网格上结构化分割和叶系数的特性,可以在部署时进行几何变换。
- Method: 使用卷积模型树,引入三种几何感知的归纳偏置:卷积平滑、倾斜优势约束和基于重要性的剪枝。在MNIST数据集上评估部署时的方向搜索策略,该策略选择最大化森林级置信度代理的离散旋转而不更新模型参数。
- Result: 在受控的MNIST设置中,几何感知偏置对旋转鲁棒性有积极影响。方向搜索在严重旋转情况下能提高鲁棒性,但在接近规范方向时,当置信度与正确性不一致时可能有害。在MNIST数字识别任务中观察到一致趋势。
- Conclusion: 基于置信度的方向选择对模型树集成既有潜力也有局限性。几何感知的归纳偏置和部署时方向搜索是提高旋转鲁棒性的有效方法,但需要谨慎处理置信度与正确性的对齐问题。
[49] Prototypicality Bias Reveals Blindspots in Multimodal Evaluation Metrics
Subhadeep Roy,Gagan Bhatia,Steffen Eger
Main category: cs.CV
TL;DR: 论文发现当前文本到图像评估指标存在"原型性偏差",即倾向于选择视觉/社会原型图像而非语义正确的图像,并提出了ProtoBias基准和ProtoScore新指标来解决这一问题。
- Motivation: 当前文本到图像模型的自动评估指标常替代人类判断,但不确定这些指标是否真正关注语义正确性,还是偏向从有偏见数据分布中学到的视觉和社会原型图像。
- Method: 提出ProtoBias基准,包含动物、物体和人口统计图像,将语义正确但非原型的图像与语义错误但原型的对抗图像配对,进行定向评估。然后提出ProtoScore,一个7B参数的鲁棒性评估指标。
- Result: 广泛使用的指标(CLIPScore、PickScore、VQA-based scores)经常错误排名这些配对,LLM-as-Judge系统在社会基础案例中表现出不均匀的鲁棒性。人类评估始终更偏好语义正确性。ProtoScore显著降低了失败率,抑制了错误排名,运行速度比GPT-5推理快几个数量级。
- Conclusion: 当前评估指标存在原型性偏差,需要更鲁棒的评估方法。ProtoScore在减少偏差方面表现出色,接近更大规模闭源评估系统的鲁棒性,为文本到图像评估提供了更可靠的解决方案。
[50] TEA: Temporal Adaptive Satellite Image Semantic Segmentation
Juyuan Kang,Hao Zhu,Yan Zhu,Wei Zhang,Jianing Chen,Tianxiang Xiao,Yike Ma,Hao Jiang,Feng Dai
Main category: cs.CV
TL;DR: TEA:一种时间自适应卫星图像时间序列语义分割方法,通过教师-学生框架增强模型在不同时间序列长度下的泛化能力
- Motivation: 现有卫星图像时间序列分割方法在固定时间长度下表现良好,但忽略了模型在不同时间序列长度场景下的泛化能力,导致在变化时间长度情况下分割结果显著下降
- Method: 提出TEA方法,采用教师-学生框架:教师模型封装全局序列知识,指导学生模型适应不同时间输入长度;通过中间嵌入、原型和软标签视角进行知识传递;动态聚合学生模型防止知识遗忘;引入全序列重建作为辅助任务提升表示质量
- Result: 通过大量实验证明,该方法在不同时间长度输入下在常见基准测试中带来显著改进
- Conclusion: TEA方法有效增强了卫星图像时间序列分割模型在变化时间序列长度下的鲁棒性和泛化能力,解决了现有方法在时间长度变化场景下的性能下降问题
[51] SparseLaneSTP: Leveraging Spatio-Temporal Priors with Sparse Transformers for 3D Lane Detection
Maximilian Pittner,Joel Janai,Mario Faigle,Alexandru Paul Condurache
Main category: cs.CV
TL;DR: SparseLaneSTP:一种集成车道几何先验和时序信息的稀疏车道检测方法,在3D车道检测任务中实现SOTA性能
- Motivation: 现有3D车道检测方法存在三个主要问题:1)密集BEV特征转换导致特征表示与真实3D路面不对齐;2)稀疏车道检测器完全忽略了有价值的车道特定先验;3)现有方法未能利用历史车道观测来解决能见度差情况下的歧义问题
- Method: 提出SparseLaneSTP方法:1)引入车道特定的时空注意力机制;2)为稀疏架构设计连续车道表示;3)加入时序正则化;4)提出简单有效的自动标注策略创建新的3D车道数据集
- Result: 在所有检测和误差指标上,在现有3D车道检测基准和新数据集上都实现了最先进的性能
- Conclusion: 通过集成车道几何先验和时序信息,SparseLaneSTP有效解决了现有3D车道检测方法的局限性,并在多个基准上取得了SOTA结果,同时创建的新数据集解决了现有数据集的弱点
[52] OceanSplat: Object-aware Gaussian Splatting with Trinocular View Consistency for Underwater Scene Reconstruction
Minseong Kweon,Jinsun Park
Main category: cs.CV
TL;DR: OceanSplat:一种基于3D高斯泼溅的水下场景重建方法,通过三目视图一致性和自监督深度先验解决水下光学退化问题,显著减少漂浮伪影
- Motivation: 水下场景重建面临多视图不一致问题,主要由于水下光学退化(如散射、吸收)导致,传统方法难以准确恢复3D几何结构
- Method: 1. 三目视图一致性:通过水平/垂直平移相机视图并利用逆变形对齐;2. 合成极线深度先验:通过三角测量获得自监督深度正则化;3. 深度感知alpha调整:基于z分量和视角方向调制3D高斯不透明度,防止介质诱导基元形成
- Result: 在真实水下和模拟场景实验中,OceanSplat在场景重建和散射介质恢复方面显著优于现有方法,成功将3D高斯从散射介质中解耦,减少漂浮伪影
- Conclusion: OceanSplat通过几何约束和深度感知调整,有效解决了水下场景重建中的多视图不一致问题,实现了对物体几何结构的鲁棒表示
[53] Higher-Order Adversarial Patches for Real-Time Object Detectors
Jens Bayer,Stefan Becker,David Münch,Michael Arens,Jürgen Beyerer
Main category: cs.CV
TL;DR: 高阶对抗攻击在目标检测器上的影响研究:通过连续训练攻击模式和使用对抗训练硬化YOLOv10,发现高阶对抗补丁具有更强的泛化能力,仅靠对抗训练不足以有效防御此类攻击。
- Motivation: 研究高阶对抗攻击对目标检测器的影响,探索对抗攻击与对抗训练之间的"猫鼠游戏"动态,了解连续攻击训练如何影响检测器的鲁棒性。
- Method: 使用YOLOv10作为代表性目标检测器,采用对抗补丁进行规避攻击,通过连续训练攻击模式和对抗训练硬化检测器,研究高阶对抗攻击的影响。
- Result: 高阶对抗补丁不仅影响直接训练的检测器,相比低阶对抗补丁具有更强的泛化能力;仅靠对抗训练不足以有效硬化目标检测器抵御此类攻击。
- Conclusion: 高阶对抗攻击对目标检测器构成严重威胁,需要更有效的防御策略,仅依赖对抗训练是不够的,需要开发更强大的鲁棒性增强方法。
[54] Patch-based Representation and Learning for Efficient Deformation Modeling
Ruochen Chen,Thuy Tran,Shaifali Parashar
Main category: cs.CV
TL;DR: PolyFit:基于局部曲面块拟合jet函数的曲面表示方法,可用于高效曲面变形,在形状模板和服装悬垂应用中表现出色
- Motivation: 传统曲面变形方法需要优化每个顶点的自由度,计算成本高。需要一种更紧凑、高效的曲面表示方法,能够支持各种下游计算机视觉和图形学任务。
- Method: 提出PolyFit表示方法,通过在局部曲面块上拟合jet函数来学习曲面表示。该方法可以从解析函数和真实数据中监督学习,学习后能泛化到各种曲面类型。通过更新紧凑的jet系数集而非优化每个顶点自由度来实现高效曲面变形。
- Result: 在形状模板应用中,采用测试时优化方法,比离线物理求解器显著更快,同时保持竞争力精度;比最近物理引导的神经模拟器在精度上更优,仅需适度增加运行时间。在服装悬垂应用中,训练了自监督、网格和服装无关的模型,能泛化到不同分辨率和服装类型,推理速度比强基线快一个数量级。
- Conclusion: PolyFit提供了一种高效、紧凑的曲面表示方法,通过局部jet函数拟合实现快速曲面变形。在两个实际应用中展示了其优越性能:形状模板变形中实现快速准确的优化,服装悬垂中实现高效泛化的推理。
[55] From Understanding to Engagement: Personalized pharmacy Video Clips via Vision Language Models (VLMs)
Suyash Mishra,Qiang Li,Srikanth Patil,Anubhav Girdhar
Main category: cs.CV
TL;DR: 提出一个面向制药行业的视频高光片段生成框架,结合音频语言模型和视觉语言模型,实现高效、低成本、可定制的视频内容处理
- Motivation: 制药行业面临多模态数据(文本、图像、视频、音频、网页链接)人工标注的挑战:不一致性、质量下降、效率低下,特别是长视频和音频数据(如临床试验访谈和教育研讨会)的处理问题更加突出
- Method: 提出领域适应的视频到视频片段生成框架,整合音频语言模型和视觉语言模型。包含三个核心贡献:1) 可复现的Cut & Merge算法,带淡入淡出和时间戳标准化;2) 基于角色定义和提示注入的个性化机制;3) 成本高效的端到端流水线策略
- Result: 在Video MME基准测试(900个视频)和专有数据集(16,159个制药视频,涵盖14个疾病领域)上评估,显示3-4倍速度提升,4倍成本降低,片段质量具有竞争力。片段连贯性得分(0.348)和信息性得分(0.721)优于最先进的VLM基线
- Conclusion: 该框架展示了透明、可定制提取且支持合规的视频摘要方法在生命科学领域的潜力,能够显著提升制药行业多模态内容处理的效率和效果
[56] Driving on Registers
Ellington Kirby,Alexandre Boulch,Yihong Xu,Yuan Yin,Gilles Puy,Éloi Zablocki,Andrei Bursuc,Spyros Gidaris,Renaud Marlet,Florent Bartoccioni,Anh-Quan Cao,Nermin Samet,Tuan-Hung VU,Matthieu Cord
Main category: cs.CV
TL;DR: DrivoR是一个基于Transformer的端到端自动驾驶架构,使用预训练的Vision Transformers和相机感知寄存器令牌压缩多摄像头特征,通过两个轻量级解码器生成和评分候选轨迹,实现高效准确的自动驾驶。
- Motivation: 开发一个简单高效的纯Transformer架构用于端到端自动驾驶,通过令牌压缩减少计算量而不牺牲准确性,并实现可解释的行为条件驾驶。
- Method: 基于预训练Vision Transformers,引入相机感知寄存器令牌压缩多摄像头特征,使用两个轻量级Transformer解码器:一个生成候选轨迹,另一个模仿oracle进行评分并预测可解释的子分数(安全性、舒适性、效率等)。
- Result: 在NAVSIM-v1、NAVSIM-v2和HUGSIM基准测试中优于或匹配现有强基线,证明纯Transformer架构结合令牌压缩能够实现准确、高效和自适应的端到端驾驶。
- Conclusion: 纯Transformer架构配合针对性的令牌压缩足以实现准确、高效和自适应的端到端自动驾驶,DrivoR展示了这种方法的有效性。
[57] UniLiPs: Unified LiDAR Pseudo-Labeling with Geometry-Grounded Dynamic Scene Decomposition
Filippo Ghilotti,Samuel Brucker,Nahku Saidy,Matteo Matteucci,Mario Bijelic,Felix Heide
Main category: cs.CV
TL;DR: 提出一种无监督多模态伪标签方法,利用激光雷达扫描的时间几何一致性,将文本和2D视觉基础模型的线索提升到3D空间,无需人工标注,生成3D语义标签、3D边界框和密集激光雷达扫描。
- Motivation: 自动驾驶应用中未标注的激光雷达数据蕴含丰富的3D几何信息,但缺乏人工标注使其难以利用,成为感知研究的主要成本障碍。需要一种无需人工输入的方法来挖掘这些数据的价值。
- Method: 基于时间累积激光雷达地图学习强几何先验,利用激光雷达扫描间的时间几何一致性,将文本和2D视觉基础模型的线索融合到3D空间。提出新颖的迭代更新规则,强制联合几何-语义一致性,并通过不一致性检测运动物体。
- Result: 方法在三个数据集上展示鲁棒泛化能力,优于现有需要额外人工监督的语义分割和物体检测伪标签方法。即使使用少量几何一致的密集激光雷达数据,也能在80-150米和150-250米范围内分别提升深度预测51.5%和22.0% MAE。
- Conclusion: 通过利用激光雷达的时间几何一致性,成功开发出无监督多模态伪标签方法,能够有效挖掘未标注激光雷达数据的3D几何信息,显著降低自动驾驶感知研究的标注成本。
[58] From Rays to Projections: Better Inputs for Feed-Forward View Synthesis
Zirui Wu,Zeren Jiang,Martin R. Oswald,Jie Song
Main category: cs.CV
TL;DR: 提出投影条件化方法,用目标视图投影线索替代原始相机参数,将视图合成从脆弱的射线空间几何回归问题转化为条件良好的图像到图像翻译问题,并通过掩码自编码预训练策略提升性能。
- Motivation: 现有前馈视图合成模型使用Plücker射线图编码相机参数,这种方法将预测与任意世界坐标系绑定,对微小相机变换敏感,破坏了几何一致性。需要寻找更好的输入条件来实现鲁棒且一致的视图合成。
- Method: 提出投影条件化方法,用目标视图投影线索替代原始相机参数;引入针对该线索的掩码自编码预训练策略,可利用大规模未标定数据进行预训练。
- Result: 在视图一致性基准测试中,相比射线条件化基线方法,本方法显示出更好的保真度和更强的跨视图一致性;在标准新视图合成基准测试中达到最先进的质量。
- Conclusion: 投影条件化方法通过将视图合成任务重新定义为条件良好的目标视图图像到图像翻译问题,显著提升了模型的鲁棒性和几何一致性,同时通过掩码自编码预训练策略实现了大规模未标定数据的有效利用。
[59] Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing
Runze He,Yiji Cheng,Tiankai Hang,Zhimin Li,Yu Xu,Zijin Yin,Shiyi Zhang,Wenxun Dai,Penghui Du,Ao Ma,Chunyu Wang,Qinglin Lu,Jizhong Han,Jiao Dai
Main category: cs.CV
TL;DR: Re-Align是一个统一的框架,通过结构化推理引导的对齐来弥合理解和生成之间的差距,在上下文图像生成和编辑任务上表现出色。
- Motivation: 上下文图像生成和编辑需要精确理解用户意图并忠实执行,但现有的统一多模态模型虽然具有良好的理解能力,却难以有效转移到图像生成任务上。
- Method: 1. 引入In-Context Chain-of-Thought (IC-CoT)结构化推理范式,将语义引导和参考关联解耦,提供清晰的文本目标并减少参考图像之间的混淆;2. 提出有效的强化学习训练方案,利用代理奖励来衡量结构化推理文本与生成图像之间的对齐度。
- Result: Re-Align在上下文图像生成和编辑任务上,在可比模型规模和资源条件下,优于竞争方法。
- Conclusion: Re-Align通过结构化推理引导的对齐成功弥合了理解和生成之间的差距,为上下文图像生成和编辑提供了有效的解决方案。
[60] VERSE: Visual Embedding Reduction and Space Exploration. Clustering-Guided Insights for Training Data Enhancement in Visually-Rich Document Understanding
Ignacio de Rodrigo,Alvaro J. Lopez-Lopez,Jaime Boal
Main category: cs.CV
TL;DR: VERSE是一种分析和改进视觉语言模型在文档理解中应用的方法,通过探索视觉嵌入空间来可视化潜在表示、识别问题区域并生成合成数据以提升性能。
- Motivation: 当前视觉语言模型在视觉丰富文档理解任务中存在性能瓶颈,需要一种系统方法来分析模型在视觉特征上的表现,识别错误模式并针对性改进。
- Method: VERSE通过探索视觉嵌入空间来可视化潜在表示,支持模型可行性评估;识别问题区域并指导生成包含特定视觉特征的合成数据;在合成数据集上训练并在真实数据集上验证。
- Result: VERSE成功揭示了与错误易发簇相关的视觉特征,使用这些特征重新训练模型显著提升了F1性能而不损害泛化能力;优化后的本地模型性能达到或超过SaaS解决方案。
- Conclusion: VERSE为视觉语言模型的诊断和优化提供了有效框架,能够系统性识别和解决视觉特征相关的性能瓶颈,使本地模型在文档理解任务中达到商业级SaaS模型的性能水平。
[61] VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control
Sixiao Zheng,Minghao Yin,Wenbo Hu,Xiaoyu Li,Ying Shan,Yanwei Fu
Main category: cs.CV
TL;DR: VerseCrafter是一个4D感知的视频世界模型,通过4D几何控制表示实现对相机和物体动态的统一精确控制,解决了现有方法在投影2D图像平面上难以统一控制的问题。
- Motivation: 现有视频世界模型难以提供对相机和多物体运动的统一精确控制,因为视频本质上是2D投影平面上的动态。需要一种能够桥接2D视频和4D几何世界状态的方法。
- Method: 提出4D几何控制表示,通过静态背景点云和每物体3D高斯轨迹编码世界状态,捕捉物体路径和概率3D占用。使用自动数据引擎从野外视频提取4D控制数据,训练预训练视频扩散模型。
- Result: 能够生成高保真、视角一致的视频,精确遵循指定的相机和物体动态。通过大规模多样化数据集训练,解决了4D标注数据稀缺的问题。
- Conclusion: VerseCrafter通过统一的4D几何世界状态表示,实现了对相机和物体动态的显式连贯控制,为视频世界建模提供了新的解决方案。
[62] A Lightweight and Explainable Vision-Language Framework for Crop Disease Visual Question Answering
Md. Zahid Hossain,Most. Sharmin Sultana Samu,Md. Rakibul Islam,Md. Siam Ansary
Main category: cs.CV
TL;DR: 本文提出一个轻量级视觉语言框架,用于从叶片图像进行作物和病害识别,结合Swin Transformer视觉编码器和序列到序列语言解码器,在减少参数量的情况下超越大型视觉语言基线模型。
- Motivation: 作物病害分析的视觉问答需要准确的视觉理解和可靠的语言生成,现有大型视觉语言模型参数量大,需要更轻量高效的解决方案。
- Method: 采用Swin Transformer视觉编码器与序列到序列语言解码器结合的两阶段训练策略,先改进视觉表示学习,再进行跨模态对齐。
- Result: 在大规模作物病害数据集上评估,在分类和自然语言生成指标(BLEU、ROUGE、BERTScore)上表现优异,参数量显著减少的情况下超越大型基线模型。
- Conclusion: 任务特定的视觉预训练对作物病害视觉问答非常有效,轻量级框架在保持高性能的同时降低了计算成本。
[63] Atlas 2 -- Foundation models for clinical deployment
Maximilian Alber,Timo Milbich,Alexandra Carpen-Amarie,Stephan Tietz,Jonas Dippel,Lukas Muttenthaler,Beatriz Perez Cancer,Alessandro Benetti,Panos Korfiatis,Elias Eulig,Jérôme Lüscher,Jiasen Wu,Sayed Abid Hashimi,Gabriel Dernbach,Simon Schallenberg,Neelay Shah,Moritz Krügener,Aniruddh Jammoria,Jake Matras,Patrick Duffy,Matt Redlon,Philipp Jurmeister,David Horst,Lukas Ruff,Klaus-Robert Müller,Frederick Klauschen,Andrew Norgan
Main category: cs.CV
TL;DR: Atlas 2系列病理学基础模型在性能、鲁棒性和计算效率方面取得突破,在80个公开基准测试中表现优异,使用550万张病理切片图像训练
- Motivation: 现有的病理学基础模型在性能、鲁棒性和计算需求方面存在权衡,限制了临床部署。需要开发能同时满足高性能、强鲁棒性和资源效率的模型。
- Method: 开发了Atlas 2、Atlas 2-B和Atlas 2-S三个病理视觉基础模型,使用迄今为止最大的病理基础模型数据集训练,包含来自柏林夏里特医学院、慕尼黑大学和梅奥诊所的550万张组织病理学全切片图像。
- Result: 在80个公开基准测试的综合评估中,模型在预测性能、鲁棒性和资源效率方面达到最先进水平。
- Conclusion: Atlas 2系列模型解决了现有病理基础模型的局限性,为临床部署提供了更实用的解决方案。
[64] Multi-Scale Local Speculative Decoding for Image Generation
Elia Peruzzo,Guillaume Sautière,Amirhossein Habibian
Main category: cs.CV
TL;DR: MuLo-SD提出了一种多尺度局部推测解码框架,通过低分辨率草稿生成和高分辨率并行验证,结合局部拒绝与重采样机制,将自回归图像生成速度提升1.7倍。
- Motivation: 自回归模型在图像合成中表现出色,但其顺序性导致显著的延迟问题。现有的推测解码方法受限于token级模糊性和缺乏空间感知能力,需要更高效的加速方案。
- Method: 提出多尺度局部推测解码框架:1) 使用低分辨率草稿器配合学习的上采样器生成候选图像token;2) 通过高分辨率目标模型并行验证;3) 引入局部拒绝与重采样机制,在空间邻域内纠正草稿错误而非全图重采样。
- Result: 在MS-COCO 5k验证集上,MuLo-SD实现了高达1.7倍的加速,超越了EAGLE-2和LANTERN等强基线方法,同时在语义对齐和感知质量方面保持可比性能。
- Conclusion: MuLo-SD为图像合成的推测解码设定了新的技术标杆,在效率和保真度之间取得了良好平衡,通过多分辨率草稿和空间感知验证显著提升了自回归图像生成速度。
[65] Vision-Language Introspection: Mitigating Overconfident Hallucinations in MLLMs via Interpretable Bi-Causal Steering
Shuliang Liu,Songbo Yang,Dong Fang,Sihang Jia,Yuqi Tang,Lingfeng Su,Ruoshui Peng,Yibo Yan,Xin Zou,Xuming Hu
Main category: cs.CV
TL;DR: VLI是一个无需训练的多模态大语言模型推理框架,通过模拟元认知自我纠正过程,有效减少物体幻觉问题。
- Motivation: 多模态大语言模型中的物体幻觉严重损害了模型可靠性,这源于认知内省的失败——模型盲目信任语言先验而非具体视觉证据。现有方法存在局限:对比解码方法操作表面化,未能纠正内部语义错位;而当前潜在引导方法依赖静态向量,缺乏实例特定的精确性。
- Method: VLI包含两个核心组件:1) 属性内省:通过概率冲突检测诊断幻觉风险,并定位因果视觉锚点;2) 可解释的双因果引导:主动调节推理过程,动态隔离视觉证据与背景噪声,同时通过自适应校准消除盲目置信。
- Result: 在先进模型上实现了最先进性能:在MMHal-Bench上将物体幻觉率降低了12.67%,在POPE上将准确率提高了5.8%。
- Conclusion: VLI通过模拟元认知自我纠正过程,提供了一种无需训练的有效框架,显著减少了多模态大语言模型中的物体幻觉问题。
[66] CoV: Chain-of-View Prompting for Spatial Reasoning
Haoyu Zhao,Akide Liu,Zeyu Zhang,Weijie Wang,Feng Chen,Ruihan Zhu,Gholamreza Haffari,Bohan Zhuang
Main category: cs.CV
TL;DR: CoV提示框架:无需训练,通过粗到细的视角探索将视觉语言模型转化为主动视角推理器,显著提升3D环境中的具身问答性能。
- Motivation: 现有视觉语言模型在3D具身问答中存在限制:它们只能处理固定有限的输入视角,无法在推理时获取问题相关的上下文信息,这阻碍了复杂的空间推理能力。
- Method: 提出Chain-of-View提示框架:1) 视图选择代理筛选冗余帧并识别问题对齐的锚点视图;2) 通过离散相机动作进行细粒度视图调整,迭代推理从3D场景获取新观察,直到收集足够上下文或达到步数限制。
- Result: 在OpenEQA上,CoV在四个主流VLM上平均提升11.56%的LLM-Match,Qwen3-VL-Flash最大提升13.62%。增加动作预算可带来额外2.51%平均提升。在ScanQA和SQA3D上也表现优异。
- Conclusion: 问题对齐的视图选择结合开放视图搜索是一种有效、模型无关的策略,无需额外训练即可显著提升3D具身问答中的空间推理能力。
[67] VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice
Shuming Liu,Mingchen Zhuge,Changsheng Zhao,Jun Chen,Lemeng Wu,Zechun Liu,Chenchen Zhu,Zhipeng Cai,Chong Zhou,Haozhe Liu,Ernie Chang,Saksham Suri,Hongyu Xu,Qi Qian,Wei Wen,Balakrishnan Varadarajan,Zhuang Liu,Hu Xu,Florian Bordes,Raghuraman Krishnamoorthi,Bernard Ghanem,Vikas Chandra,Yunyang Xiong
Main category: cs.CV
TL;DR: VideoAuto-R1:一个"按需推理"的视频理解框架,通过初始答案置信度决定是否进行CoT推理,显著提升效率(响应长度减少3.3倍)的同时保持SOTA性能
- Motivation: 研究发现对于RL训练的视频模型,直接回答通常能达到甚至超越CoT推理的性能,但CoT需要更高的计算成本。因此需要探索何时需要CoT推理,何时可以直接回答
- Method: 提出VideoAuto-R1框架,采用"思考一次,回答两次"的训练范式:模型首先生成初始答案,然后进行推理,最后输出审查后的答案。推理阶段使用初始答案的置信度来决定是否进行推理
- Result: 在视频QA和grounding基准测试中达到SOTA准确率,同时显著提升效率(平均响应长度从149个token减少到44个token)。感知型任务中思维模式激活率低,而推理密集型任务中激活率高
- Conclusion: 显式的基于语言的推理通常有益,但并非总是必要。VideoAuto-R1通过按需推理策略,在保持性能的同时大幅提升效率,为视频理解任务提供了更高效的解决方案
[68] Cutting AI Research Costs: How Task-Aware Compression Makes Large Language Model Agents Affordable
Zuhair Ahmed Khan Taha,Mohammed Mudassir Uddin,Shahnawaz Alam
Main category: cs.CV
TL;DR: AgentCompress通过智能路由系统,根据任务难度将请求分配到不同压缩程度的模型变体,在保持96.2%成功率的同时降低68.3%计算成本
- Motivation: 大型语言模型在自主研究任务中成本高昂(如70B参数模型单次会话约127美元),限制了学术实验室的使用。不同任务对模型精度需求不同,但现有系统对所有任务都使用全精度模型,造成资源浪费
- Method: 开发AgentCompress系统:1)使用小型神经网络仅基于任务开头词语评估任务难度;2)根据难度将任务路由到适当压缩程度的模型变体;3)决策时间低于1毫秒
- Result: 在四个科学领域的500个研究工作流测试中,计算成本降低68.3%,同时保持96.2%的原始成功率
- Conclusion: AgentCompress显著降低了大型语言模型在学术研究中的使用成本,使预算有限的实验室能够负担得起这些工具,从而促进科学研究
[69] Mechanisms of Prompt-Induced Hallucination in Vision-Language Models
William Rudman,Michal Golovanevsky,Dana Arad,Yonatan Belinkov,Ritambhara Singh,Carsten Eickhoff,Kyle Mahowald
Main category: cs.CV
TL;DR: 论文研究大型视觉语言模型中的提示诱导幻觉现象,发现在物体计数任务中,当文本提示高估物体数量时,模型会倾向于服从文本提示而非视觉证据,尤其是在物体数量较多时。通过机制分析识别出少量注意力头,其消融可显著减少幻觉。
- Motivation: 大型视觉语言模型虽然能力强大,但经常出现幻觉现象,倾向于依赖文本提示而非视觉证据。本研究旨在系统研究这种失败模式,特别是在物体计数任务中,当文本提示与视觉证据不一致时模型的反应。
- Method: 在受控的物体计数设置中,使用文本提示高估图像中物体数量的实验范式。对三个视觉语言模型进行机制分析,识别导致提示诱导幻觉的特定注意力头,并通过消融实验验证其作用。
- Result: 在低物体数量时,模型通常能纠正高估;但随着物体数量增加,模型越来越倾向于服从文本提示。识别出一小部分注意力头,其消融可将提示诱导幻觉减少至少40%,无需额外训练。不同模型中的PIH头以模型特定的方式介导提示复制。
- Conclusion: 研究揭示了视觉语言模型中提示诱导幻觉的内部机制,展示了不同模型在实现这些行为时的特定差异。通过机制分析识别出的注意力头消融能有效减少幻觉,增加对视觉证据的校正,为理解模型幻觉提供了新见解。
[70] MoE3D: A Mixture-of-Experts Module for 3D Reconstruction
Zichen Wang,Ang Cao,Liam J. Wang,Jeong Joon Park
Main category: cs.CV
TL;DR: MoE3D是一种混合专家模块,通过预测多个候选深度图并进行动态加权融合,来锐化深度边界并减少现有前馈3D重建模型中的飞点伪影
- Motivation: 现有前馈3D重建模型存在深度边界模糊和飞点伪影问题,需要一种高效的方法来提升重建质量
- Method: 设计MoE3D混合专家模块,预测多个候选深度图,通过动态加权机制融合这些深度图,可集成到预训练的3D重建骨干网络中
- Result: 集成到VGGT等预训练骨干网络后,显著提升了重建质量,同时计算开销增加很小
- Conclusion: MoE3D是一种有效的3D重建增强模块,能够锐化深度边界、减少伪影,且计算效率高
[71] FlowLet: Conditional 3D Brain MRI Synthesis using Wavelet Flow Matching
Danilo Danese,Angela Lombardi,Matteo Attimonelli,Giuseppe Fasano,Tommaso Di Noia
Main category: cs.CV
TL;DR: FlowLet:基于可逆3D小波域流匹配的条件生成框架,用于合成年龄条件化的3D MRI,改善脑年龄预测模型在少数年龄组的性能
- Motivation: 现有3D MRI数据集存在人口统计学偏差,限制了脑年龄预测模型的公平性和泛化能力。获取新数据成本高且受伦理约束,而现有生成方法(如潜在扩散模型)推理速度慢、可能引入压缩伪影,且很少考虑年龄条件化
- Method: 提出FlowLet框架,在可逆3D小波域中利用流匹配技术合成年龄条件化的3D MRI,避免重建伪影并降低计算需求
- Result: FlowLet能以较少采样步骤生成高保真度的脑部体积数据;使用FlowLet生成的数据训练脑年龄预测模型,能显著改善在少数年龄组上的性能;区域分析证实了生成数据中解剖结构的保持
- Conclusion: FlowLet是一种高效的条件生成框架,能合成高质量的年龄条件化3D MRI数据,有效解决脑年龄预测中数据不平衡问题,提升模型公平性和性能
[72] ObjectForesight: Predicting Future 3D Object Trajectories from Human Videos
Rustin Soraki,Homanga Bharadhwaj,Ali Farhadi,Roozbeh Mottaghi
Main category: cs.CV
TL;DR: ObjectForesight:一个从短时第一人称视频预测刚体物体未来6自由度位姿和轨迹的3D物体中心动力学模型
- Motivation: 人类能够轻松预测物体通过交互可能如何移动或变化,但现有计算系统缺乏这种能力。作者希望让计算系统能够从被动视觉观察中直接预测合理的未来物体运动。
- Method: 提出ObjectForesight模型,在3D物体层面显式表示世界,预测未来6-DoF位姿和轨迹。利用分割、网格重建和3D位姿估计的最新进展,构建包含200多万个短片段的数据集,带有伪真实3D物体轨迹。
- Result: ObjectForesight在准确性、几何一致性和泛化到未见过的物体和场景方面取得显著提升,为从观察中学习物理基础的物体中心动力学模型建立了可扩展框架。
- Conclusion: 该研究展示了一个可扩展的框架,能够直接从观察中学习物理基础的物体中心动力学模型,实现了在3D物体层面进行几何基础和时序一致的预测。
[73] Plenoptic Video Generation
Xiao Fu,Shitao Tang,Min Shi,Xian Liu,Jinwei Gu,Ming-Yu Liu,Dahua Lin,Chen-Hsuan Lin
Main category: cs.CV
TL;DR: PlenopticDreamer是一个多视角视频重渲染框架,通过同步生成幻觉来保持时空一致性,解决了现有方法在多视角场景中的一致性问题。
- Motivation: 现有的相机控制生成视频重渲染方法(如ReCamMaster)在单视角设置中取得了显著进展,但在多视角场景中难以保持一致性。由于生成模型的固有随机性,确保幻觉区域的时空连贯性仍然具有挑战性。
- Method: 提出PlenopticDreamer框架,核心思想是以自回归方式训练多输入单输出的视频条件模型,辅以相机引导的视频检索策略,自适应地从先前生成中选择显著视频作为条件输入。训练还包含渐进上下文缩放以改善收敛,自条件以增强对误差累积引起的长程视觉退化的鲁棒性,以及长视频条件机制以支持扩展视频生成。
- Result: 在Basic和Agibot基准测试上的大量实验表明,PlenopticDreamer实现了最先进的视频重渲染,提供了卓越的视角同步、高保真视觉效果、准确的相机控制和多样化的视角转换(例如,第三人称到第三人称,以及机器人操作中的头部视角到夹爪视角)。
- Conclusion: PlenopticDreamer通过同步生成幻觉来保持时空记忆,有效解决了多视角视频重渲染中的一致性问题,在多个基准测试中达到了最先进水平。
[74] RoboVIP: Multi-View Video Generation with Visual Identity Prompting Augments Robot Manipulation
Boyang Wang,Haoran Zhang,Shujie Zhang,Jinkun Hao,Mingda Jia,Qi Lv,Yucheng Mao,Zhaoyang Lyu,Jia Zeng,Xudong Xu,Jiangmiao Pang
Main category: cs.CV
TL;DR: 本文提出视觉身份提示方法,通过提供示例图像作为条件输入来指导扩散模型生成所需场景设置,从而增强机器人操作数据,提升下游策略模型性能。
- Motivation: 由于硬件和物理设置限制,收集大规模真实世界操作数据难以在不同环境中扩展。现有基于文本提示的图像扩散方法常忽略多视角和时间一致性需求,且文本提示无法可靠指定场景设置。
- Method: 引入视觉身份提示方法,提供示例图像作为条件输入来指导扩散模型生成所需场景设置;构建可扩展管道从大型机器人数据集中筛选视觉身份池。
- Result: 使用增强的操作数据训练下游视觉-语言-动作和视觉运动策略模型,在仿真和真实机器人设置中均获得一致的性能提升。
- Conclusion: 视觉身份提示方法能有效增强机器人操作数据,解决现有文本提示方法的局限性,为训练更有效的机器人策略提供高质量数据支持。
[75] GREx: Generalized Referring Expression Segmentation, Comprehension, and Generation
Henghui Ding,Chang Liu,Shuting He,Xudong Jiang,Yu-Gang Jiang
Main category: cs.CV
TL;DR: 论文提出GREx(广义指代表达式分割/理解/生成)框架,扩展传统单目标RES/REC/REG任务,支持多目标和无目标表达,并构建首个大规模数据集gRefCOCO。
- Motivation: 现有指代表达式任务(RES/REC/REG)仅支持单目标表达,即一个表达式对应一个对象,忽略了多目标和无目标表达,这严重限制了实际应用。需要扩展传统任务以处理任意数量对象的表达。
- Method: 1) 提出GREx框架(GRES/GREC/GREG)扩展传统REx任务;2) 构建首个大规模数据集gRefCOCO,包含多目标、无目标和单目标表达;3) 针对GRES/GREC的复杂关系建模挑战,提出基线方法ReLA,自适应划分图像区域并显式建模区域-区域和区域-语言依赖关系。
- Result: 提出的ReLA方法在GRES和GREC任务上取得了最先进的结果。GREx和gRefCOCO设计为向后兼容传统REx,便于研究现有方法在新任务上的性能差距。
- Conclusion: 论文成功扩展了指代表达式任务,使其能够处理任意数量对象的表达,填补了多目标和无目标表达的研究空白,为实际应用提供了更全面的解决方案。
[76] Pixel-Perfect Visual Geometry Estimation
Gangwei Xu,Haotong Lin,Hongcheng Luo,Haiyang Sun,Bing Wang,Guang Chen,Sida Peng,Hangjun Ye,Xin Yang
Main category: cs.CV
TL;DR: 提出像素级完美视觉几何模型PPD和PPVD,通过像素空间扩散变换器实现高质量、无飞点的点云重建,在单目和视频深度估计中达到最佳性能。
- Motivation: 现有几何基础模型存在飞点问题和细节丢失,需要从图像中恢复干净准确的几何结构用于机器人和增强现实应用。
- Method: 1) 基于像素空间扩散变换器(DiT)构建PPD单目深度模型;2) 提出语义提示DiT,利用视觉基础模型的语义表示指导扩散过程;3) 级联DiT架构逐步增加图像token数量;4) 扩展至视频的PPVD采用语义一致DiT,通过多视图几何基础模型提取时序一致语义,并进行参考引导的token传播。
- Result: 在所有生成式单目和视频深度估计模型中达到最佳性能,生成的点云比其他模型显著更干净。
- Conclusion: 提出的像素级完美视觉几何模型通过像素空间生成建模有效解决了飞点问题和细节丢失,为机器人和增强现实应用提供了高质量的几何重建方案。
[77] RL-AWB: Deep Reinforcement Learning for Auto White Balance Correction in Low-Light Night-time Scenes
Yuan-Kang Lee,Kuan-Lin Chen,Chia-Che Chang,Yu-Lun Liu
Main category: cs.CV
TL;DR: 提出RL-AWB框架,结合统计方法与深度强化学习解决夜间白平衡问题,引入首个多传感器夜间数据集,在低光和正常光照图像上展现优异泛化能力。
- Motivation: 夜间色彩恒常性因低光噪声和复杂光照条件而具有挑战性,现有方法难以处理夜间场景的白平衡问题。
- Method: 首先开发针对夜间场景的统计算法,结合显著灰色像素检测和新颖的光照估计;然后基于此构建首个深度强化学习色彩恒常性方法,模仿专业AWB调优专家动态优化每张图像的参数。
- Result: 方法在低光和正常光照图像上都表现出优异的泛化能力,并引入了首个多传感器夜间数据集用于跨传感器评估。
- Conclusion: RL-AWB框架成功结合统计方法与深度强化学习,为夜间白平衡问题提供了有效的解决方案,具有很好的实际应用价值。
[78] QNeRF: Neural Radiance Fields on a Simulated Gate-Based Quantum Computer
Daniele Lizzio Bosco,Shuteng Wang,Giuseppe Serra,Vladislav Golyanik
Main category: cs.CV
TL;DR: QNeRF是首个用于2D图像新视角合成的混合量子-经典模型,通过参数化量子电路编码空间和视角信息,相比经典NeRF使用更少参数达到相当或更好的性能。
- Motivation: 经典NeRF在3D场景表示方面取得重大进展,但存在模型大、训练密集的问题。量子视觉场(QVFs)在模型紧凑性和收敛速度方面显示出优势,因此希望将量子方法扩展到新视角合成任务。
- Method: 提出QNeRF混合量子-经典模型,利用参数化量子电路通过量子叠加和纠缠编码空间和视角相关信息。提出两种架构变体:Full QNeRF最大化利用所有量子振幅增强表示能力;Dual-Branch QNeRF引入任务特定的归纳偏置,分支处理空间和视角相关的量子态准备,降低复杂度并确保可扩展性。
- Result: 在中等分辨率图像上训练时,QNeRF匹配或优于经典NeRF基线,同时使用不到一半的参数数量。这表明量子机器学习可以作为计算机视觉中连续信号表示的有竞争力替代方案。
- Conclusion: 量子机器学习在计算机视觉的中层任务(如从2D观察学习3D表示)中具有潜力,QNeRF展示了量子方法在模型紧凑性和性能方面的优势,为量子-经典混合模型在视觉任务中的应用开辟了新方向。
[79] Mesh4D: 4D Mesh Reconstruction and Tracking from Monocular Video
Zeren Jiang,Chuanxia Zheng,Iro Laina,Diane Larlus,Andrea Vedaldi
Main category: cs.CV
TL;DR: Mesh4D:基于前馈网络的单目4D网格重建模型,通过紧凑的隐空间编码完整动画序列,无需推理时的骨骼信息,在重建和新视角合成任务上优于现有方法。
- Motivation: 从单目视频中重建动态物体的完整3D形状和运动(表示为变形场)是一个具有挑战性的问题。现有方法通常需要复杂的优化过程或依赖骨骼信息,限制了效率和通用性。
- Method: 1. 构建紧凑的隐空间编码整个动画序列;2. 使用由训练对象骨骼结构引导的自编码器学习隐空间(推理时无需骨骼信息);3. 编码器采用时空注意力机制获得稳定的变形表示;4. 基于此表示训练条件隐扩散模型,一次性预测完整动画。
- Result: 在重建和新视角合成基准测试中,Mesh4D在恢复准确的3D形状和变形方面优于先前方法。
- Conclusion: Mesh4D通过紧凑的隐空间表示和条件扩散模型,实现了高效的单目4D网格重建,无需推理时的骨骼信息,在多个任务上表现出优越性能。
cs.CR
[80] Decentralized Privacy-Preserving Federal Learning of Computer Vision Models on Edge Devices
Damian Harenčák,Lukáš Gajdošech,Martin Madaras
Main category: cs.CR
TL;DR: 该论文分析了联邦学习中客户端数据的隐私保护方法,包括同态加密、梯度压缩、梯度噪声等技术,并评估了这些方法对卷积神经网络分类准确性的负面影响,同时展示了分割网络中数据重构的难度。
- Motivation: 联邦学习虽然不需要共享原始数据,但研究表明仅通过模型参数信息仍可能重构私人数据。现有隐私保护方法主要关注服务器端风险,假设其他客户端不会恶意行为,但实际需要同时保护客户端数据免受服务器和其他客户端的威胁。
- Method: 分析了多种隐私保护方法:同态加密、梯度压缩、梯度噪声,并讨论了修改联邦学习系统(如分割学习、群体学习或完全加密模型)的可能性。评估了梯度压缩和梯度噪声对卷积神经网络分类准确性的影响,展示了分割网络中数据重构的难度,并在NVIDIA Jetson TX2边缘设备上实现了概念验证。
- Result: 研究发现梯度压缩和梯度噪声会对卷积神经网络分类准确性产生负面影响,同时证明了在分割网络中数据重构的难度较大。在边缘设备上成功模拟了联邦学习过程,验证了隐私保护方法的可行性。
- Conclusion: 联邦学习中的隐私保护需要综合考虑服务器端和客户端的安全威胁,多种隐私保护技术可以结合使用,但需要在隐私保护和模型准确性之间找到平衡。边缘设备上的实现证明了这些方法的实际可行性。
eess.IV
[81] Scalable neural pushbroom architectures for real-time denoising of hyperspectral images onboard satellites
Ziyao Yi,Davide Piccinini,Diego Valsesia,Tiziano Bianchi,Enrico Magli
Main category: eess.IV
TL;DR: 提出用于星载高光谱成像仪实时去噪的神经网络架构,满足高质量推理、动态功耗可扩展性和容错性三大竞争目标
- Motivation: 下一代地球观测卫星需要在星载有效载荷上直接部署智能模型,以减少地面段传输和处理链的延迟,满足时间关键应用的需求。为星载高光谱成像仪设计神经网络架构面临独特挑战,这些挑战在传统计算机视觉文献中很少被探索。
- Method: 提出一种混合去噪器架构,具有辐射诱导故障容错能力和时变功耗调节能力。每个去噪器采用创新架构,以因果方式逐行处理图像,保留过去行的记忆,匹配推扫式高光谱传感器的采集过程,并极大限制内存需求。
- Result: 所提架构可在低功耗硬件上实时运行(处理一行的时间等于采集下一行的时间),并提供与更复杂的最先进模型相竞争的降噪质量。功耗可扩展性和容错性目标提供了在这些属性与降噪质量之间进行权衡的设计空间。
- Conclusion: 该研究为星载高光谱图像处理提供了一种实用的神经网络解决方案,解决了星载环境特有的约束条件,实现了高质量推理、功耗可扩展性和容错性之间的平衡,为实时星载智能处理奠定了基础。
physics.med-ph
[82] Quantitative mapping from conventional MRI using self-supervised physics-guided deep learning: applications to a large-scale, clinically heterogeneous dataset
Jelmer van Lune,Stefano Mandija,Oscar van der Heide,Matteo Maspero,Martin B. Schilder,Jan Willem Dankbaar,Cornelis A. T. van den Berg,Alessandro Sbrizzi
Main category: physics.med-ph
TL;DR: 提出自监督物理引导深度学习框架,从常规临床MRI生成定量T1、T2和PD图谱
- Motivation: 常规MRI提供定性信息且依赖硬件设置,定量MRI虽有优势但需要专门协议,限制了大规模生物标志物研究
- Method: 自监督物理引导深度学习框架,将Bloch信号模型集成到训练目标中,从常规T1加权、T2加权和FLAIR MRI推断定量图谱
- Result: 在4,121个扫描会话的大规模数据集上验证,生成的图谱与文献值一致,对扫描仪硬件和协议具有不变性,重现性良好(Pearson r > 0.82)
- Conclusion: 该框架能稳健地将多样临床常规MRI数据转化为定量图谱,为大规模定量生物标志物研究铺平道路
cs.AI
[83] Learning Latent Action World Models In The Wild
Quentin Garrido,Tushar Nagarajan,Basile Terver,Nicolas Ballas,Yann LeCun,Michael Rabbat
Main category: cs.AI
TL;DR: 该研究提出从野外视频中学习潜在动作世界模型的方法,以解决真实世界智能体预测动作后果的需求,克服了传统方法需要动作标签和局限于简单环境的限制。
- Motivation: 真实世界中的智能体需要预测动作后果的能力,但传统世界模型通常需要动作标签,这在规模化应用中难以获取。现有研究主要关注简单的机器人模拟、视频游戏或操作数据,缺乏对多样化野外视频的处理能力。
- Method: 提出学习潜在动作世界模型的方法,使用连续但受约束的潜在动作表示(而非常见的向量量化),讨论动作应遵循的属性、相关架构选择和评估方法。训练控制器将已知动作映射到潜在动作,使潜在动作成为通用接口。
- Result: 连续约束的潜在动作能够捕捉野外视频中动作的复杂性,而向量量化方法则不能。学习到的动作能够跨视频转移环境变化(如人类进入房间)。在缺乏共同体现的情况下,潜在动作主要在空间上相对于相机定位。控制器能够使用潜在动作作为通用接口,在规划任务中达到与动作条件基线相似的性能。
- Conclusion: 该研究为将潜在动作模型扩展到真实世界迈出了一步,展示了从野外视频中学习动作表示的可行性,为构建更通用的世界模型提供了基础。
cs.LG
[84] ArtCognition: A Multimodal AI Framework for Affective State Sensing from Visual and Kinematic Drawing Cues
Behrad Binaei-Haghighi,Nafiseh Sadat Sajadi,Mehrad Liviyan,Reyhane Akhavan Kharazi,Fatemeh Amirkhani,Behnam Bahrak
Main category: cs.LG
TL;DR: 提出ArtCognition多模态框架,通过分析数字绘画的静态视觉特征和动态行为运动学线索,自动评估HTP心理测试,结合RAG架构增强可解释性。
- Motivation: 人类情感和心理状态的客观评估面临挑战,尤其是通过非语言渠道。数字绘画作为一种丰富但未被充分探索的情感感知模态,具有潜力。
- Method: 提出ArtCognition多模态框架,融合两种数据流:1) 计算机视觉模型提取的最终艺术品的静态视觉特征;2) 绘画过程本身的动态行为运动学线索(笔画速度、停顿、流畅度)。采用检索增强生成(RAG)架构,将低层特征与高层心理解释联系起来。
- Result: 视觉和行为运动学线索的融合比单一模态提供更细致的评估。提取的多模态特征与标准化心理指标存在显著相关性,验证了该框架作为可扩展临床支持工具的潜力。
- Conclusion: 这项工作为非侵入性情感状态评估提供了新方法,为技术辅助心理健康护理开辟了新途径。
[85] Aligned explanations in neural networks
Corentin Lobet,Francesca Chiaromonte
Main category: cs.LG
TL;DR: 提出PiNets作为可解释深度学习的建模框架,通过伪线性网络实现线性可读性,确保解释与预测直接对齐
- Motivation: 现有特征归因方法大多只是对黑盒模型的表面解释,未能真正反映模型的预测过程。作者认为解释对齐是预测任务可信度的关键方面,解释必须直接与预测相关联,而不是作为事后合理化
- Method: 提出PiNets(伪线性网络)作为建模框架,这些网络在任意特征空间中产生实例级线性预测,使其具有线性可读性。模型可读性被作为实现对齐的设计原则
- Result: 在图像分类和分割任务上展示了PiNets的应用,证明其产生的解释在多个标准下都具有忠实性,并且实现了对齐
- Conclusion: PiNets提供了一种实现解释与预测对齐的深度学习框架,通过线性可读性确保解释的忠实性和可信度,超越了传统的事后特征归因方法
[86] IGenBench: Benchmarking the Reliability of Text-to-Infographic Generation
Yinghao Tang,Xueding Liu,Boyuan Zhang,Tingfeng Lan,Yupeng Xie,Jiale Lao,Yiyao Wang,Haoxuan Li,Tingting Gao,Bo Pan,Luoxuan Weng,Xiuqi Huang,Minfeng Zhu,Yingchaojie Feng,Yuyu Luo,Wei Chen
Main category: cs.LG
TL;DR: IGENBENCH是首个评估文本到信息图生成可靠性的基准,包含600个测试用例和10个问题类型,通过MLLMs自动评估发现现有模型在数据完整性等方面存在显著瓶颈。
- Motivation: 虽然现有的文本到图像模型能生成美观的图像,但它们在生成信息图方面的可靠性尚不明确。生成的信息图可能表面正确但包含容易被忽视的问题,如扭曲的数据编码或不正确的文本内容。
- Method: 提出了IGENBENCH基准,包含600个精心策划的测试用例,涵盖30种信息图类型。设计了自动化评估框架,将可靠性验证分解为基于10个问题类型的原子是/否问题,并使用多模态大语言模型来验证每个问题。
- Result: 评估了10个最先进的T2I模型,发现:(1)三层性能层次结构,最佳模型的Q-ACC为0.90但I-ACC仅为0.49;(2)数据相关维度成为普遍瓶颈(如数据完整性:0.21);(3)所有模型都难以实现端到端正确性。
- Conclusion: IGENBENCH是首个评估文本到信息图生成可靠性的基准,揭示了现有模型在数据准确性方面的显著局限性,为未来模型开发提供了关键见解。
[87] A Vision for Multisensory Intelligence: Sensing, Synergy, and Science
Paul Pu Liang
Main category: cs.LG
TL;DR: 该论文提出了未来十年多感官人工智能的研究愿景,旨在将AI从数字模态扩展到人类所有感官体验,通过传感、科学和协同三大主题推动多感官AI发展。
- Motivation: 当前人工智能主要局限于文本、视觉和音频等数字模态,而人类对世界的体验是多感官的。为了让人工智能更接近人类体验并实现更自然的人机交互,需要将AI扩展到包括触觉、味觉、嗅觉以及生理信号等更丰富的感官维度。
- Method: 提出通过三个相互关联的主题推进多感官AI:1) 传感研究:扩展AI捕捉世界的方式,超越数字媒介;2) 科学原理:量化多模态异质性和交互,开发统一建模架构和表示,理解跨模态迁移;3) 协同技术:学习模态之间以及人与AI之间的协同,涵盖多感官整合、对齐、推理、生成、泛化和体验。
- Result: 论文提出了一个完整的研究框架和愿景,并附带了MIT媒体实验室多感官智能小组的最新项目、资源和演示,展示了该领域的最新进展。
- Conclusion: 多感官人工智能是AI发展的下一个前沿,通过连接AI与人类感官及丰富的生理、物理和社会信号,将改变人类与AI的体验和交互方式,需要系统性地推进传感、科学和协同三个方面的研究。
physics.optics
[88] End-to-end differentiable design of geometric waveguide displays
Xinge Yang,Zhaocheng Liu,Zhaoyu Nie,Qingyuan Fan,Zhimin Shi,Jim Bonar,Wolfgang Heidrich
Main category: physics.optics
TL;DR: 首个端到端可微分优化框架,用于几何波导AR显示,通过耦合非序列蒙特卡洛偏振光线追踪与可微分薄膜求解器,显著提升光效率和均匀性。
- Motivation: 几何波导是AR显示的有前途架构,但其性能受到非序列光传输和偏振依赖多层薄膜涂层联合优化的困难严重制约。
- Method: 提出端到端可微分优化框架,耦合非序列蒙特卡洛偏振光线追踪与可微分传输矩阵薄膜求解器,采用内存节省策略,支持自动化层剪枝和拓扑优化。
- Result: 代表性设计中,光效率从4.1%提升至33.5%,眼盒和视场均匀性分别提高约17倍和11倍,并能联合优化波导和图像预处理网络提升感知图像质量。
- Conclusion: 该框架不仅实现了波导内系统级、高维涂层优化,还扩展了可微分光学在下一代光学设计中的应用范围。
[89] Illumination Angular Spectrum Encoding for Controlling the Functionality of Diffractive Networks
Matan Kleiner,Lior Michaeli,Tomer Michaeli
Main category: physics.optics
TL;DR: 提出基于照明角度谱控制的新机制,使用振幅掩模选择性控制角度谱,实现单个衍射网络执行多个图像转换任务。
- Motivation: 现有衍射神经网络通常针对单一任务训练,限制了其在需要多功能系统中的应用。现有实现多任务功能的方法要么需要为每个任务修改网络机械配置,要么使用不同波长或偏振态,这些方法不够灵活。
- Method: 提出基于照明角度谱的控制机制,使用振幅掩模选择性控制照明的角度谱。不同任务使用不同的照明掩模,掩模作为独特的任务编码器。该方法可在近轴范围内非常窄的角度范围内实现有效控制。
- Result: 通过数值模拟展示了该方法:训练单个衍射网络执行多个图像到图像转换任务,包括将手写数字转换为不同值的印刷数字,将手写英文字母转换为印刷数字和希腊字母。输出类型由照明的角度分量决定。
- Conclusion: 照明角度谱成为控制衍射网络的强大自由度,为多任务全光计算提供了可扩展且通用的框架。该方法可在不同相干条件下工作,并能与现有控制策略(如不同波长)结合使用。
cs.GR
[90] In-SRAM Radiant Foam Rendering on a Graph Processor
Zulkhuu Tuya,Ignacio Alzugaray,Nicholas Fry,Andrew J. Davison
Main category: cs.GR
TL;DR: 在Graphcore IPU多核加速器上实现完全在SRAM中的分布式体积渲染器,通过分片场景和层次化路由转发光线,实现近交互式渲染性能。
- Motivation: 新兴多核加速器采用分布式内存架构(每个核心只有小容量本地SRAM),打破了传统体积渲染技术依赖大容量统一内存进行随机访问的假设,需要新的渲染方法。
- Method: 基于Radiant Foam Voronoi-cell体积表示,在Graphcore Mk2 IPU上实现完全在SRAM中的分布式渲染器:1)将场景分片到不同tile;2)通过层次化路由覆盖网络在分片间转发光线;3)完全在片上SRAM中进行光线行进。
- Result: 在Mip-NeRF 360场景上,系统达到近交互式吞吐量(约1fps@640×480),图像和深度质量接近原始GPU实现,同时将所有场景数据和光线状态保持在片上SRAM中。
- Conclusion: 证明了在分布式内存加速器上实现高效体积渲染的可行性,分析了路由、内存和调度瓶颈,为未来支持不规则、数据移动密集型渲染工作负载的硬件设计提供了指导。
[91] GenAI-DrawIO-Creator: A Framework for Automated Diagram Generation
Jinze Yu,Dayuan Jiang
Main category: cs.GR
TL;DR: GenAI-DrawIO-Creator是一个利用Claude 3.7 LLM自动化生成和修改draw.io图表的框架,通过自然语言或代码输入生成结构化XML格式的图表。
- Motivation: 图表对于传达复杂信息至关重要,但创建和修改图表仍然是一项劳动密集型任务。当前需要更高效的自动化解决方案来简化图表制作过程。
- Method: 开发了一个集成Claude 3.7的框架,利用LLM进行结构化视觉数据推理,生成有效的draw.io XML格式图表。包括高层系统设计、专门的提示工程和错误检查机制,确保格式良好的XML输出。
- Result: 原型系统能够从自然语言或代码生成准确的图表(如网络架构和流程图),甚至可以从图像复制图表。模拟评估显示该方法显著减少了图表创建时间,并产生具有高结构保真度的输出。
- Conclusion: 该方法展示了Claude 3.7在处理结构化视觉推理任务方面的潜力,为未来AI辅助图表应用研究奠定了基础。
cs.RO
[92] UNIC: Learning Unified Multimodal Extrinsic Contact Estimation
Zhengtong Xu,Yuki Shirai
Main category: cs.RO
TL;DR: UNIC是一个无需先验知识或相机标定的统一多模态框架,用于估计外部接触,通过场景可供性地图和随机掩码多模态融合实现鲁棒学习。
- Motivation: 接触丰富的操作需要可靠的外部接触估计,但现有方法依赖预定义接触类型、固定抓取配置或相机标定等限制性假设,难以泛化到新物体和非结构化环境。
- Method: UNIC直接在相机坐标系中编码视觉观察,与本体感知和触觉模态集成,采用基于场景可供性地图的统一接触表示,并使用随机掩码的多模态融合机制进行鲁棒表示学习。
- Result: 在未见过的接触位置实现9.6毫米平均Chamfer距离误差,在未见物体上表现良好,对缺失模态保持鲁棒,并能适应动态相机视角。
- Conclusion: UNIC将外部接触估计确立为接触丰富操作中实用且多功能的能⼒,无需先验知识或相机标定。
[93] Generate, Transfer, Adapt: Learning Functional Dexterous Grasping from a Single Human Demonstration
Xingyi He,Adhitya Polavaram,Yunhao Cao,Om Deshmukh,Tianrui Wang,Xiaowei Zhou,Kuan Fang
Main category: cs.RO
TL;DR: CorDex框架通过基于对应关系的数据引擎从单个人类演示生成合成数据,结合多模态预测网络,实现了对未见物体实例的灵巧功能抓取泛化,显著优于现有方法。
- Motivation: 灵巧机器人手的功能抓取是实现工具使用和复杂操作的关键能力,但受到两大瓶颈限制:大规模数据集的稀缺性,以及学习模型中缺乏语义和几何推理的集成。
- Method: 1) 基于对应关系的数据引擎:从单个人类演示生成多样化高质量训练数据,包括生成同类物体实例、通过对应估计传递专家抓取、优化调整抓取;2) 多模态预测网络:集成视觉和几何信息,设计局部-全局融合模块和重要性感知采样机制。
- Result: CorDex在多个物体类别上表现出色,能够很好地泛化到未见物体实例,并显著优于最先进的基线方法。
- Conclusion: CorDex框架通过创新的数据生成方法和多模态网络设计,有效解决了灵巧功能抓取的数据稀缺和推理集成问题,为机器人工具使用和复杂操作提供了有力支持。
cs.CE
[94] Towards Spatio-Temporal Extrapolation of Phase-Field Simulations with Convolution-Only Neural Networks
Christophe Bonneville,Nathan Bieberdorf,Pieterjan Robbe,Mark Asta,Habib Najm,Laurent Capolungo,Cosmin Safta
Main category: cs.CE
TL;DR: 提出一个基于条件参数化U-Net的代理模型,用于液态金属脱合金相场模拟的时空外推,实现高达36,000倍的加速比。
- Motivation: 液态金属脱合金的相场模拟能捕捉复杂微观结构演化,但对大域和长时间尺度计算成本过高,需要开发高效代理模型。
- Method: 采用全卷积条件参数化U-Net架构,集成卷积自注意力、物理感知填充和洪水填充校正方法,结合条件扩散模型生成物理一致的初始条件。
- Result: 在训练区域内相对误差低于5%,大规模长时间外推下误差低于15%,实现高达36,000倍的加速,将数周模拟缩短至数秒。
- Conclusion: 该框架是液态金属脱合金相场模拟高保真时空外推的重要进展,为大规模长时间尺度模拟提供了高效解决方案。
cs.CL
[95] FronTalk: Benchmarking Front-End Development as Conversational Code Generation with Multi-Modal Feedback
Xueqing Wu,Zihan Xue,Da Yin,Shuyan Zhou,Kai-Wei Chang,Nanyun Peng,Yeming Wen
Main category: cs.CL
TL;DR: FronTalk是一个前端代码生成基准测试,专注于研究多模态反馈的对话式代码生成,包含100个多轮对话,并提出基于代理的评估框架来评估功能正确性和用户体验。
- Motivation: 前端开发中,草图、线框图和标注截图等视觉工件对于传达设计意图至关重要,但它们在多轮代码生成中的作用尚未得到充分探索。现有研究缺乏对视觉反馈在多轮对话中作用的系统性研究。
- Method: 创建FronTalk基准测试,包含100个从真实网站收集的多轮对话,每轮都包含文本指令和等效的视觉指令。提出基于代理的评估框架,使用Web代理模拟用户浏览网站来评估功能正确性和用户体验。针对遗忘问题提出AceCoder方法,通过自主Web代理批判性评估过去指令的实现。
- Result: 评估20个模型发现两个关键挑战:1)显著遗忘问题,模型会覆盖先前实现的功能;2)视觉反馈解释的持续挑战,特别是开源视觉语言模型。AceCoder方法将遗忘问题减少到接近零,性能提升高达9.3%(从56.0%到65.3%)。
- Conclusion: FronTalk为前端开发和多轮多模态代码生成的一般交互动态提供了坚实基础,揭示了现有模型在视觉反馈理解和上下文保持方面的系统性挑战,并提出了有效的解决方案。
[96] See, Explain, and Intervene: A Few-Shot Multimodal Agent Framework for Hateful Meme Moderation
Naquee Rizwan,Subhankar Swain,Paramananda Bhaskar,Gagan Aryan,Shehryaar Shah Khan,Animesh Mukherjee
Main category: cs.CL
TL;DR: 提出基于生成式AI的多模态框架,在有限数据条件下检测、解释和干预仇恨表情包
- Motivation: 仇恨表情包检测通常与解释和干预分开研究,不符合现实需求;标注大规模数据集成本高昂,需要能在有限数据条件下工作的通用解决方案
- Method: 利用任务特定的生成式多模态智能体和大型多模态模型的少样本适应能力,构建能处理不同类型表情包的统一框架
- Result: 这是首个专注于有限数据条件下通用仇恨表情包审核的工作,具有在实际生产场景部署的潜力
- Conclusion: 提出的生成式AI框架能够同时处理仇恨表情包的检测、解释和干预,解决了传统方法分离研究和数据稀缺的问题
[97] V-FAT: Benchmarking Visual Fidelity Against Text-bias
Ziteng Wang,Yujie He,Guanliang Li,Siqi Yang,Jiaqi Xiong,Songxiang Liu
Main category: cs.CL
TL;DR: 该论文研究了多模态大语言模型中的文本偏见问题,提出了V-FAT基准来量化模型对视觉证据的忠实度,发现前沿模型在现有基准上表现优异但在高语言主导下会出现视觉崩溃。
- Motivation: 多模态大语言模型在标准视觉推理基准上表现出色,但存在过度依赖语言捷径而非真正视觉基础的问题(文本偏见)。研究者关注视觉感知与语言先验之间的基本张力,需要量化这种偏见效应。
- Method: 1. 将文本偏见解耦为两个维度:内部语料偏见(预训练中的统计相关性)和外部指令偏见(对齐导致的迎合倾向)
- 提出V-FAT诊断基准,包含4,026个VQA实例,覆盖六个语义领域
- 采用三级评估框架:L1(非典型图像的内部偏见)、L2(误导性指令的外部偏见)、L3(两者协同的偏见)
- 引入视觉鲁棒性评分(VRS)来惩罚"幸运"的语言猜测并奖励真正的视觉忠实度
- Result: 评估了12个前沿MLLMs,发现虽然模型在现有基准上表现出色,但在高语言主导下会出现显著的视觉崩溃。V-FAT基准有效揭示了模型对视觉证据的忠实度问题。
- Conclusion: 多模态大语言模型存在严重的文本偏见问题,过度依赖语言信息而忽视视觉证据。需要开发更鲁棒的评估方法和模型架构来确保真正的视觉基础,V-FAT基准为此提供了有效的诊断工具。
Powered by Deepseek & arXiv Daily AI Enhanced