Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Preventing Shortcuts in Adapter Training via Providing the Shortcuts
Anujraaj Argo Goyal,Guocheng Gordon Qian,Huseyin Coskun,Aarush Gupta,Himmy Tam,Daniil Ostashev,Ju Hu,Dhritiman Sagar,Sergey Tulyakov,Kfir Aberman,Kuan-Chieh Jackson Wang
Main category: cs.CV
TL;DR: 提出Shortcut-Rerouted Adapter Training方法,通过为干扰因素建立辅助模块来防止适配器学习到虚假相关性,从而提高生成质量和提示遵循能力。
- Motivation: 现有的适配器训练方法容易将目标属性与姿势、表情、光照等干扰因素纠缠在一起,限制了模型的泛化能力和对文本提示的遵循能力。
- Method: 在适配器训练期间为干扰因素建立辅助模块(如ControlNet或LoRA),让这些因素通过这些模块处理,从而防止适配器内部化这些干扰因素,并在推理时移除辅助模块。
- Result: 在人脸和全身身份注入任务中,该方法提高了生成质量、多样性和提示遵循能力。
- Conclusion: 在大模型时代,寻求解耦表示的最有效途径可能是为不应该学习的内容建立捷径。
[2] Video-As-Prompt: Unified Semantic Control for Video Generation
Yuxuan Bian,Xin Chen,Zenan Li,Tiancheng Zhi,Shen Sang,Linjie Luo,Qiang Xu
Main category: cs.CV
TL;DR: Video-As-Prompt (VAP) 是一种新的视频生成范式,通过参考视频作为语义提示,使用冻结的Video Diffusion Transformer和可插拔的Mixture-of-Transformers专家来实现统一、可泛化的语义控制。
- Motivation: 解决视频生成中统一、可泛化语义控制的挑战,现有方法要么引入伪影,要么依赖不可泛化的条件特定微调或任务特定架构。
- Method: VAP将问题重新定义为上下文生成,利用参考视频作为直接语义提示,通过冻结的Video Diffusion Transformer和可插拔的Mixture-of-Transformers专家进行引导,采用时间偏置位置嵌入消除虚假映射先验。
- Result: VAP在开源方法中达到新的最先进水平,获得38.7%的用户偏好率,可与领先的条件特定商业模型相媲美,并展示了强大的零样本泛化能力。
- Conclusion: VAP在统一可泛化语义控制视频生成方面取得显著进展,支持各种下游应用,标志着向通用可控视频生成的重要进步。
[3] Focal Modulation and Bidirectional Feature Fusion Network for Medical Image Segmentation
Moin Safdar,Shahzaib Iqbal,Mehwish Mehmood,Mubeen Ghafoor,Tariq M. Khan,Imran Razzak
Main category: cs.CV
TL;DR: 提出FM-BFF-Net网络,结合CNN和Transformer,使用焦点调制注意力机制和双向特征融合模块,提升医学图像分割的边界精度和对病变变化的鲁棒性。
- Motivation: 医学图像分割对临床诊断和治疗至关重要,但传统CNN难以捕捉全局上下文信息和长距离依赖关系,影响对复杂边界和多样化尺寸结构的精确分割。
- Method: 结合卷积和Transformer组件,采用焦点调制注意力机制增强上下文感知,引入双向特征融合模块实现编码器和解码器跨尺度表示的高效交互。
- Result: 在8个公开数据集上的实验表明,FM-BFF-Net在Jaccard指数和Dice系数上持续超越现有最优方法,验证了其有效性和适应性。
- Conclusion: FM-BFF-Net通过融合CNN和Transformer的优势,有效解决了医学图像分割中的全局上下文捕捉和边界精度问题,在多种医学成像场景中表现出色。
[4] Generative Point Tracking with Flow Matching
Mattie Tesfaldet,Adam W. Harley,Konstantinos G. Derpanis,Derek Nowrouzezahrai,Christopher Pal
Main category: cs.CV
TL;DR: GenPT是一个生成式点跟踪框架,通过流匹配建模多模态轨迹,在遮挡点跟踪上达到最先进精度,同时在可见点跟踪上保持竞争力。
- Motivation: 当前判别式模型在存在不确定性时只能回归到均值或众数,无法捕捉多模态轨迹,限制了在视觉遮挡情况下的跟踪性能。
- Method: 采用生成式框架和流匹配公式,结合判别式跟踪器的迭代细化、窗口相关先验和点坐标专用方差调度,在推理时使用最佳优先搜索策略。
- Result: 在PointOdyssey、Dynamic Replica和TAP-Vid基准测试中表现优异,特别是在遮挡点跟踪上达到最先进水平,同时保持可见点跟踪的竞争力。
- Conclusion: GenPT能够有效捕捉点轨迹的多模态特性,显著提升遮挡情况下的跟踪性能,为点跟踪任务提供了新的生成式解决方案。
[5] 3DReasonKnee: Advancing Grounded Reasoning in Medical Vision Language Models
Sraavya Sambara,Sung Eun Kim,Xiaoman Zhang,Luyang Luo,Shreya Johri,Mohammed Baharoon,Du Hyun Ro,Pranav Rajpurkar
Main category: cs.CV
TL;DR: 提出了3DReasonKnee数据集,这是首个用于医学图像的3D基础推理数据集,包含494k个高质量五元组,支持视觉语言模型在3D医学图像中进行解剖区域定位和逐步推理。
- Motivation: 当前视觉语言模型在3D医学图像中难以对解剖区域进行定位和逐步推理,这与临床医生的实际诊断工作流程不符,影响了可信的临床AI协作。
- Method: 创建了3DReasonKnee数据集,包含7,970个3D膝关节MRI体积,每个样本包含MRI体积、诊断问题、3D边界框定位、临床医生生成的诊断推理步骤和结构化严重程度评估。
- Result: 建立了ReasonKnee-Bench评估基准,对五种最先进的视觉语言模型进行了基准测试,提供了基础性能数据。
- Conclusion: 3DReasonKnee作为骨科医生诊断专业知识的存储库,为推进多模态医学AI系统向3D、临床对齐的定位决策能力提供了重要测试平台。
[6] Thermal Polarimetric Multi-view Stereo
Takahiro Kushida,Kenichiro Tanaka
Main category: cs.CV
TL;DR: 提出了一种利用热偏振线索进行详细3D形状重建的新方法,该方法不依赖光照和材料属性,通过多视角热偏振图像有效重建透明、半透明和异质物体的精细细节。
- Motivation: 现有3D重建方法依赖光照和材料属性,存在局限性。热偏振成像可以避免可见光偏振分析中的模糊性,为不受光照和材料影响的3D重建提供新途径。
- Method: 建立偏振观测的一般理论,证明长波红外偏振成像不受可见光偏振模糊性影响,提出基于多视角热偏振图像的3D形状恢复方法。
- Result: 实验结果表明该方法能有效重建透明、半透明和异质物体的精细细节,性能优于现有技术。
- Conclusion: 热偏振成像为3D形状重建提供了独立于光照和材料属性的有效解决方案,特别适用于传统方法难以处理的物体类型。
[7] VESSA: Video-based objEct-centric Self-Supervised Adaptation for Visual Foundation Models
Jesimon Barreto,Carlos Caetano,André Araujo,William Robson Schwartz
Main category: cs.CV
TL;DR: 提出了VESSA方法,一种基于视频的对象中心自监督适应框架,用于视觉基础模型在无标注情况下的领域适应。
- Motivation: 解决视觉基础模型在分布偏移和标注稀缺领域表现不佳的问题,传统监督微调不可行,而生成语言模型的自监督适应策略在视觉编码器模型中效果不佳。
- Method: 基于自蒸馏范式,利用短多视角对象中心视频进行自监督微调,精心调整预测头并部署参数高效适应技术,防止模型遗忘预训练知识。
- Result: 在3个视觉基础模型和2个数据集上的综合实验表明,VESSA在下游分类任务中相比基础模型和先前适应方法实现了持续改进。
- Conclusion: VESSA能够有效利用多视角对象观察学习对多种捕获条件的鲁棒性,无需标注即可实现视觉基础模型的领域适应。
[8] BioDet: Boosting Industrial Object Detection with Image Preprocessing Strategies
Jiaqi Hu,Hongli Xu,Junwen Huang,Peter KT Yu,Slobodan Ilic,Benjamin Busam
Main category: cs.CV
TL;DR: 提出了一种用于工业环境中未见物体2D检测的标准化插件式流程,通过低光图像增强和基于基础模型的背景去除来减少域偏移和背景干扰,显著提升了检测精度。
- Motivation: 现有6D姿态估计流程在复杂工业环境下(如杂乱、光照差、复杂背景)性能下降,检测成为关键瓶颈,需要解决域偏移和背景干扰问题。
- Method: 基于当前SOTA基线,结合低光图像增强和基于开放词汇检测的背景去除,抑制原始SAM输出的假阳性,为下游姿态估计提供更可靠的检测结果。
- Result: 在真实工业bin-picking基准测试上的广泛实验表明,该方法显著提升了检测精度,同时推理开销可忽略不计。
- Conclusion: 该方法在提升检测精度的同时保持了高效性,证明了其在工业应用中的有效性和实用性。
[9] Deep learning-based automated damage detection in concrete structures using images from earthquake events
Abdullah Turer,Yongsheng Bai,Halil Sezen,Alper Yilmaz
Main category: cs.CV
TL;DR: 使用深度学习自动检测地震后混凝土结构中暴露的钢筋,通过YOLOv11模型识别裂缝、剥落和钢筋暴露,开发混合框架评估结构损伤等级。
- Motivation: 地震后及时评估结构完整性对公共安全和应急响应至关重要,暴露钢筋的数量和分布是结构损伤的重要指标。
- Method: 基于深度学习框架,使用精细调优和数据增强,训练YOLOv11模型检测裂缝、剥落和暴露钢筋,开发自动分类框架识别建筑物内外和结构构件。
- Result: 在2023年土耳其地震图像数据集上训练模型,能够可靠自动确定损伤等级,证明利用图像数据和深度学习方法可实现快速自动损伤检测。
- Conclusion: 研究表明通过图像数据收集、标注和深度学习,可在各种损伤情境下实现快速自动的灾后损伤检测。
[10] ZING-3D: Zero-shot Incremental 3D Scene Graphs via Vision-Language Models
Pranav Saxena,Jimmy Chiun
Main category: cs.CV
TL;DR: ZING-3D是一个零样本3D场景图生成框架,利用预训练基础模型实现开放词汇识别,生成丰富的语义场景表示,支持增量更新和3D几何接地,适用于机器人应用。
- Motivation: 现有3D场景图生成方法局限于单视角设置,不支持增量更新,缺乏3D空间中的显式几何接地,这些对于具身场景至关重要。
- Method: 利用VLM推理生成丰富的2D场景图,通过深度信息将其接地到3D空间。节点表示具有特征、3D位置和语义上下文的开放词汇对象,边捕获空间和语义关系及对象间距离。
- Result: 在Replica和HM3D数据集上的实验表明,ZING-3D无需任务特定训练即可有效捕获空间和关系知识。
- Conclusion: ZING-3D框架能够零样本生成几何接地的3D场景图,支持增量更新,适用于下游机器人应用。
[11] WaveSeg: Enhancing Segmentation Precision via High-Frequency Prior and Mamba-Driven Spectrum Decomposition
Guoan Xu,Yang Xiao,Wenjing Jia,Guangwei Gao,Guo-Jun Qi,Chia-Wen Lin
Main category: cs.CV
TL;DR: WaveSeg是一种新颖的解码器架构,通过联合优化空间域和小波域的特征细化,结合Mamba的线性复杂度长程建模来增强高频结构细节,在语义分割任务中实现了优于现有方法的性能。
- Motivation: 现有语义分割网络过于依赖强大的预训练编码器,但使用简化的解码器,导致语义上下文和细粒度细节保留之间的权衡不理想。
- Method: 提出WaveSeg解码器:1)从输入图像学习高频分量作为显式先验;2)应用双域操作(DDO)进行多尺度融合;3)提出频谱分解注意力(SDA)块,利用Mamba的线性复杂度长程建模;4)使用重参数化卷积在小波域保留低频语义完整性;5)残差引导融合整合多尺度特征。
- Result: 在标准基准测试上的广泛实验表明,WaveSeg在定量和定性评估中都一致优于最先进的方法,实现了高效精确的分割。
- Conclusion: WaveSeg通过结合小波域频率先验和基于Mamba的注意力机制,能够产生语义和结构丰富的特征图,为语义分割任务提供了有效的解决方案。
[12] Knowledge-Driven Vision-Language Model for Plexus Detection in Hirschsprung's Disease
Youssef Megahed,Atallah Madi,Dina El Demellawy,Adrian D. C. Chan
Main category: cs.CV
TL;DR: 提出了一种结合专家文本概念和视觉语言模型的新框架,用于先天性巨结肠症中神经丛分类,通过多模态学习提升分类性能。
- Motivation: 传统深度学习模型在神经丛分类任务中表现良好但缺乏可解释性,且不符合医生的决策方式,需要整合专家知识来提升模型的临床相关性。
- Method: 使用基于对比语言-图像预训练的视觉语言模型,整合从医学教科书和论文中提取的专家文本概念,通过QuiltNet编码提示来对齐临床语义线索与视觉特征。
- Result: 提出的模型在各项分类指标上均优于CNN模型(VGG-19、ResNet-18、ResNet-50),准确率达到83.9%,精确率86.6%,特异性87.6%。
- Conclusion: 多模态学习在组织病理学中具有潜力,整合专家知识能够产生更具临床相关性的模型输出。
[13] HistRetinex: Optimizing Retinex model in Histogram Domain for Efficient Low-Light Image Enhancement
Jingtian Zhao,Xueli Xie,Jianxiang Xi,Xiaogang Yang,Haoxuan Sun
Main category: cs.CV
TL;DR: 提出了一种基于直方图的Retinex模型(HistRetinex),用于快速低光照图像增强,通过将Retinex模型从空间域扩展到直方图域,显著提升了处理速度。
- Motivation: 现有的Retinex低光照图像增强方法在处理大尺寸图像时耗时较长,需要一种更高效的解决方案。
- Method: 定义直方图位置矩阵和直方图计数矩阵,建立光照、反射率和低光照图像直方图之间的关系,构建两级优化模型,通过求解优化模型得到光照和反射率直方图的迭代公式,最后通过直方图匹配增强图像。
- Result: HistRetinex在可见性和性能指标上优于现有增强方法,在1000*664分辨率图像上仅需1.86秒执行时间,比现有方法至少节省6.67秒。
- Conclusion: HistRetinex是一种高效的低光照图像增强方法,在保持优异增强效果的同时显著提升了处理速度。
[14] PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments
Weijie Zhou,Xuantang Xiong,Yi Peng,Manli Tao,Chaoyang Zhao,Honghui Dong,Ming Tang,Jinqiao Wang
Main category: cs.CV
TL;DR: 提出了主动视觉推理(AVR)任务,将视觉推理扩展到部分可观察的交互环境中,要求智能体通过物理动作主动获取信息、整合多步观察并进行动态决策。
- Motivation: 当前多模态大语言模型的视觉推理主要研究静态、完全可观察的场景,无法有效处理现实世界中因遮挡或视野限制导致的信息不完整问题。
- Method: 引入CLEVR-AVR模拟基准和AVR-152k大规模数据集,包含丰富的思维链标注,用于训练在更高阶马尔可夫决策过程中的智能体。开发了PhysVLM-AVR模型。
- Result: PhysVLM-AVR在CLEVR-AVR、具身推理(OpenEQA、RoboVQA)和被动视觉推理(GeoMath、Geometry30K)上达到最先进性能。
- Conclusion: 当前具身MLLM虽然能检测信息不完整性,但在通过交互主动获取和整合新信息方面存在困难,揭示了主动推理能力的根本差距。
[15] Urban 3D Change Detection Using LiDAR Sensor for HD Map Maintenance and Smart Mobility
Hezam Albagami,Haitian Wang,Xinyu Wang,Muhammad Ibrahim,Zainy M. Malakan,Abdullah M. Alqamdi,Mohammed H. Alghamdi,Ajmal Mian
Main category: cs.CV
TL;DR: 提出了一种面向城市规模LiDAR数据的对象级变化检测方法,通过多分辨率NDT和点对平面ICP配准、高度归一化、不确定性感知检测阈值,以及基于几何、语义和实例分割的跨时期关联,实现了对分割和合并情况的处理。
- Motivation: 现有方法对垂直偏差、地面坡度和视点不匹配敏感,且缺乏对象身份信息;基于点或体素的神经网络方法需要大量内存、假设完美预配准、会削弱薄结构,且很少强制执行类别一致关联,导致分割或合并情况无法解决并忽略不确定性。
- Method: 使用多分辨率NDT和点对平面ICP进行时期配准,高度归一化,基于配准协方差和表面粗糙度计算检测阈值;通过几何代理种子跨时期关联,结合语义和实例分割,使用类别约束二分分配处理分割和合并;分块处理限制内存,实例级决策结合3D重叠、法向位移、高度和体积差异。
- Result: 在15个代表性Subiaco区块上达到95.2%准确率、90.4% mF1和82.6% mIoU,超过Triplet KPConv方法,在Decreased类别上IoU达到74.8%,提升7.6个百分点。
- Conclusion: 提出的对象中心、不确定性感知的流水线能够有效处理城市规模LiDAR数据的变化检测,特别是在处理分割和合并情况以及保持部分重叠和采样变化下的稳定性方面表现出色。
[16] Controllable-LPMoE: Adapting to Challenging Object Segmentation via Dynamic Local Priors from Mixture-of-Experts
Yanguang Sun,Jiawei Lian,Jian Yang,Lei Luo
Main category: cs.CV
TL;DR: 提出Controllable-LPMoE方法,通过动态控制局部先验来适配冻结的基础模型,实现高效微调,在多个二值对象分割任务上表现优异。
- Motivation: 现有方法通过嵌入可训练提示来微调冻结模型,但这些提示缺乏内在语义先验,限制了大模型的适应性。同时全参数微调会导致显著计算开销。
- Method: 构建轻量级动态混合局部先验提取器,通过异构卷积捕获多样局部先验,使用门控网络动态输出专家先验。设计双向交互适配器,采用余弦对齐可变形注意力和通道导向自适应尺度增强来交互和重构冻结与可训练特征。
- Result: 在31个最先进方法中表现出卓越的分割性能,验证了方法的优越性。
- Conclusion: Controllable-LPMoE方法通过动态先验微调范式,以较少的可训练参数实现了高效微调,在多个二值对象分割任务上展现了优异的适应性和性能。
[17] SafetyPairs: Isolating Safety Critical Image Features with Counterfactual Image Generation
Alec Helbling,Shruti Palaskar,Kundan Krishna,Polo Chau,Leon Gatys,Joseph Yitan Cheng
Main category: cs.CV
TL;DR: 提出了SafetyPairs框架,通过生成仅安全相关特征不同的图像对来系统研究图像安全性,构建了包含3020个图像对的基准数据集,用于评估和改进视觉语言模型的安全识别能力。
- Motivation: 现有图像安全数据集标注粗糙模糊,无法区分导致安全问题的具体特征。需要系统方法识别图像中细微但关键的安全相关特征变化。
- Method: 利用图像编辑模型生成反事实图像对,仅改变与安全策略相关的特征来翻转安全标签,同时保持安全无关细节不变。
- Result: 构建了包含3020个SafetyPair图像的基准数据集,涵盖9个安全类别。该框架能有效评估视觉语言模型的弱点,并作为数据增强策略提升轻量级防护模型的训练效率。
- Conclusion: SafetyPairs提供了首个系统研究细粒度图像安全差异的资源,为理解和改进图像安全识别能力提供了重要工具。
[18] NoisyGRPO: Incentivizing Multimodal CoT Reasoning via Noise Injection and Bayesian Estimation
Longtian Qiu,Shan Ning,Jiaxuan Sun,Xuming He
Main category: cs.CV
TL;DR: 提出了NoisyGRPO框架,通过注入可控噪声到视觉输入来增强多模态大语言模型的推理能力,使用贝叶斯优势估计来提升强化学习训练的泛化性。
- Motivation: 现有的强化学习框架在提升通用链式思维推理能力时,往往难以泛化到训练分布之外,需要更好的探索策略和优势估计方法。
- Method: NoisyGRPO包含两个核心组件:1)噪声注入探索策略,通过高斯噪声扰动视觉输入;2)贝叶斯优势估计,将优势估计建模为贝叶斯推理问题。
- Result: 在标准CoT质量、通用能力和幻觉基准测试中,NoisyGRPO显著提升了泛化性和鲁棒性,特别是在小规模MLLMs如Qwen2.5-VL 3B上。
- Conclusion: NoisyGRPO通过系统性的多模态RL框架有效解决了MLLMs在通用CoT推理中的泛化问题,为小规模模型提供了更好的性能提升。
[19] Digital Contrast CT Pulmonary Angiography Synthesis from Non-contrast CT for Pulmonary Vascular Disease
Ying Ming,Yue Lin,Longfei Zhao,Gengwan Li,Zuopeng Tan,Bing Li,Sheng Xie,Wei Song,Qiqi Xu
Main category: cs.CV
TL;DR: 提出了一种基于CycleGAN的级联合成器方法,从非对比CT扫描生成数字对比CTPA,避免了碘对比剂的风险,在血管增强和图像保真度方面表现优异。
- Motivation: 传统CTPA依赖碘对比剂,存在肾毒性和过敏反应风险,特别是对高危患者。需要开发不依赖对比剂的替代方法。
- Method: 使用基于CycleGAN的级联合成器,从非对比CT扫描生成数字对比CTPA。使用410对CTPA和NCCT扫描进行训练和验证。
- Result: 在验证集上MAE:156.28,PSNR:20.71,SSIM:0.98;测试集上MAE:165.12,PSNR:20.27,SSIM:0.98。下游任务中肺动脉分割Dice为0.70,血管体积ICC为0.81,显著优于NCCT。
- Conclusion: 该方法能有效生成高质量的数字对比CTPA,提供可靠的血管增强效果,特别对小血管效果显著,有望成为传统CTPA的安全替代方案。
[20] Towards Physics-informed Spatial Intelligence with Human Priors: An Autonomous Driving Pilot Study
Guanlin Wu,Boyan Su,Yang Zhao,Pu Wang,Yichen Lin,Hao Frank Yang
Main category: cs.CV
TL;DR: 提出了Spatial Intelligence Grid (SIG)框架,用于在基础模型中显式编码空间关系和几何信息,解决当前视觉空间智能评估中的语言捷径问题。
- Motivation: 当前基础模型中的视觉空间智能评估主要依赖文本提示和VQA式评分,这掩盖了几何信息、引入了语言捷径,并削弱了对真正空间技能的归因。
- Method: 引入结构化、基于网格的SIG模式,显式编码对象布局、对象间关系和物理基础先验,作为文本的补充通道提供场景结构的忠实组合表示。
- Result: 在少样本上下文学习中,SIG相比纯VQA表示在所有VSI指标上都获得了更大、更稳定和更全面的提升。发布了包含1.4K驾驶帧的SIGBench基准数据集。
- Conclusion: SIG作为数据标注和训练模式,在学习和评估基础模型的视觉空间智能方面具有前景,能够分离空间能力与语言先验。
[21] Blockwise Flow Matching: Improving Flow Matching Models For Efficient High-Quality Generation
Dogyun Park,Taehoon Lee,Minseok Joo,Hyunwoo J. Kim
Main category: cs.CV
TL;DR: 提出了Blockwise Flow Matching (BFM)框架,通过将生成轨迹划分为多个时间段,每个段由专门的较小速度块建模,提高了推理效率和样本质量。
- Motivation: 传统的Flow Matching模型使用单一大型网络学习从噪声到数据的整个生成轨迹,难以同时捕捉不同时间步的独特信号特征,且推理成本高昂。
- Method: BFM将生成轨迹划分为多个时间段,每个段由专门的小型速度块建模;引入语义特征引导模块,使速度块能够基于预训练表示的语义丰富特征进行条件生成;提出轻量级特征残差近似策略来保持语义质量并降低推理成本。
- Result: 在ImageNet 256x256上的实验表明,BFM相比现有Flow Matching方法建立了显著改进的帕累托前沿,在保持相似生成性能的同时实现了2.1倍到4.9倍的推理复杂度加速。
- Conclusion: BFM通过块状设计和语义特征引导,有效解决了传统Flow Matching模型的局限性,在提高生成质量的同时大幅降低了推理成本。
[22] TokenCLIP: Token-wise Prompt Learning for Zero-shot Anomaly Detection
Qihang Zhou,Binbin Gao,Guansong Pang,Xin Wang,Jiming Chen,Shibo He
Main category: cs.CV
TL;DR: TokenCLIP是一个基于CLIP的token级自适应框架,通过动态对齐视觉token和可学习文本子空间来实现细粒度异常检测,解决了现有方法在单一文本空间中无法准确捕捉多样化异常语义的问题。
- Motivation: 现有基于CLIP的异常检测方法通常依赖单一文本空间来对齐不同对象和领域的视觉语义,这种不加区分的对齐方式阻碍了模型准确捕捉多样化的异常语义。
- Method: 提出TokenCLIP框架,将token无关的文本空间扩展为一组正交子空间,通过最优传输问题动态分配每个token到语义相关的子空间组合,并使用top-k掩码稀疏化传输计划以专门化不同视觉区域的子空间。
- Result: 大量实验证明了TokenCLIP的优越性,在零样本异常检测任务中表现出色。
- Conclusion: TokenCLIP通过token级的动态对齐机制,实现了更精细的异常语义学习,为基于CLIP的异常检测提供了新的有效解决方案。
[23] KBE-DME: Dynamic Multimodal Evaluation via Knowledge Enhanced Benchmark Evolution
Junzhe Zhang,Huixuan Zhang,Xiaojun Wan
Main category: cs.CV
TL;DR: 提出KBE框架,通过图表示和知识增强将静态多模态基准转化为可控的动态演进版本,解决数据污染和饱和问题。
- Motivation: 现有静态基准存在数据污染和饱和风险,导致性能评估失真,需要更可靠的评估协议。
- Method: 使用图表示VQA样本,通过知识增强基准演进(KBE)框架,集成多模态知识重构和扩展问题,实现难度可控的评估。
- Result: 实验表明KBE缓解了数据污染和饱和风险,提供了更全面的MLLM能力评估。
- Conclusion: KBE框架为多模态大语言模型提供了更可靠、动态的评估方法,解决了静态基准的局限性。
[24] 3rd Place Solution to ICCV LargeFineFoodAI Retrieval
Yang Zhong,Zhiming Wang,Zhaoyang Li,Jinyu Ma,Xiang Li
Main category: cs.CV
TL;DR: 本文介绍了ICCV LargeFineFoodAI检索竞赛第三名的解决方案,通过组合ArcFace和Circle损失训练四个基础模型,并应用TTA和集成学习提升特征表示能力,同时提出基于扩散和k-互惠重排序的新重排序方法。
- Motivation: 提升食品图像检索的性能,在ICCV竞赛中取得优异成绩。
- Method: 训练四个基础模型(ArcFace+Circle损失加权和),应用TTA和集成学习,提出基于扩散和k-互惠重排序的新重排序方法。
- Result: 在公开和私有排行榜上分别获得0.81219和0.81191的mAP@100分数。
- Conclusion: 提出的方法在食品图像检索任务中表现出色,获得了竞赛第三名的成绩。
[25] 3rd Place Solution to Large-scale Fine-grained Food Recognition
Yang Zhong,Yifan Yao,Tong Luo,Youcai Zhang,Yaqian Li
Main category: cs.CV
TL;DR: 本文提出了一种结合Arcface损失和Circle损失的细粒度食品识别方法,在Kaggle竞赛中获得第三名。
- Motivation: 食品分析在健康领域日益重要,细粒度食品识别是其中的关键任务。本文旨在解决LargeFineFoodAI-ICCV Workshop-Recognition挑战赛中的食品识别问题。
- Method: 采用Arcface损失和Circle损失的组合策略,通过精心调优的配置训练模型,并使用模型集成方法获得最终结果。
- Result: 该方法在竞赛中获得了第三名的成绩,证明了损失函数组合策略的有效性。
- Conclusion: Arcface损失和Circle损失的适当组合能够提升细粒度食品识别任务的性能,模型集成进一步优化了最终结果。
[26] Improved Training Technique for Shortcut Models
Anh Nguyen,Viet Nguyen,Duc Vu,Trung Dao,Chi Tran,Toan Tran,Anh Tran
Main category: cs.CV
TL;DR: 本文提出了iSM框架,系统解决了捷径模型的五个核心问题:复合引导缺陷、固定引导不灵活、频率偏差、自一致性冲突和弯曲流轨迹,显著提升了生成性能。
- Motivation: 捷径模型作为一种非对抗性生成模型范式,支持单步、少步和多步采样,但其广泛应用受到性能瓶颈的限制。本文旨在解决阻碍捷径模型发展的五个关键问题。
- Method: 提出iSM统一训练框架,包含四个核心改进:内在引导提供动态控制、多级小波损失缓解频率偏差、缩放最优传输减少训练方差、双EMA策略平衡训练稳定性与自一致性。
- Result: 在ImageNet 256×256上的广泛实验表明,该方法在单步、少步和多步生成方面均显著优于基线捷径模型,FID指标大幅提升。
- Conclusion: iSM框架使捷径模型成为一类可行且具有竞争力的生成模型,解决了长期存在的性能瓶颈问题。
[27] Topology Sculptor, Shape Refiner: Discrete Diffusion Model for High-Fidelity 3D Meshes Generation
Kaiyu Song,Hanjiang Lai,Yaqing Zhang,Chuangjian Cai,Yan Pan Kun Yue,Jian Yin
Main category: cs.CV
TL;DR: TSSR是一种基于离散扩散模型的高质量3D网格生成方法,通过并行生成和拓扑约束实现艺术家风格的3D建模。
- Motivation: 实现高精度的token预测和并行生成,相比顺序自回归方法具有显著优势,通过同时查看所有网格token来提升效率和可控性。
- Method: 采用解耦训练和混合推理策略,将生成过程分为拓扑雕刻和形状细化两个阶段;改进的沙漏架构结合双向注意力和旋转位置嵌入;引入连接损失作为拓扑约束。
- Result: 在复杂数据集上的实验表明,TSSR能够生成高质量的3D艺术家风格网格,支持高达10,000个面片和1024^3的空间分辨率。
- Conclusion: TSSR通过并行生成和拓扑约束成功实现了高质量3D网格生成,在效率和保真度方面表现出色。
[28] Towards Physically Executable 3D Gaussian for Embodied Navigation
Bingchen Miao,Rong Wei,Zhiqi Ge,Xiaoquan sun,Shiqi Gao,Jingzhe Zhu,Renhan Wang,Siliang Tang,Jun Xiao,Rui Tang,Juncheng Li
Main category: cs.CV
TL;DR: SAGE-3D将3D高斯泼溅(3DGS)升级为可执行的、语义和物理对齐的环境,包含对象中心语义标注和物理感知执行连接,并发布了InteriorGS数据集和SAGE-Bench基准。
- Motivation: 3DGS虽然具有逼真的实时渲染能力,但缺乏细粒度语义和物理可执行性,限制了其在视觉语言导航(VLN)中的应用。
- Method: 提出SAGE-3D方法,包含:(1)对象中心语义标注,为3DGS添加对象级细粒度标注;(2)物理感知执行连接,在3DGS中嵌入碰撞对象并构建丰富的物理接口。
- Result: 发布了包含1K对象标注3DGS室内场景数据的InteriorGS和首个基于3DGS的VLN基准SAGE-Bench(含2M VLN数据)。实验显示3DGS场景数据更难收敛但具有强泛化性,在VLN-CE Unseen任务上将基线性能提升31%。
- Conclusion: SAGE-3D成功将3DGS升级为语义和物理对齐的可执行环境,为VLN任务提供了更真实和实用的3D表示方法。
[29] FineRS: Fine-grained Reasoning and Segmentation of Small Objects with Reinforcement Learning
Lu Zhang,Jiazuo Yu,Haomiao Xiong,Ping Hu,Yunzhi Zhuge,Huchuan Lu,You He
Main category: cs.CV
TL;DR: FineRS是一个两阶段的多模态大语言模型强化学习框架,用于在高分辨率场景中联合推理和分割极小的物体。它采用从粗到精的流程,包含全局语义探索和局部感知细化,并通过定位感知的回顾奖励耦合两个阶段。
- Motivation: 由于输入分辨率受限,多模态大语言模型在理解高分辨率图像中的视觉细节和定位极小物体方面面临挑战,特别是在杂乱背景中的超小物体。
- Method: 采用两阶段框架:1)全局语义探索进行指令引导推理,生成文本响应和粗略目标区域;2)局部感知细化将该区域细化为精确的边界框和分割掩码。通过定位感知的回顾奖励耦合两个阶段。
- Result: 在FineRS-4k和公共数据集上的实验结果表明,该方法在指令引导分割和视觉推理任务上持续优于最先进的多模态大语言模型方法。
- Conclusion: FineRS框架有效解决了多模态大语言模型在高分辨率场景中处理极小物体的挑战,通过两阶段强化学习方法实现了更好的推理和分割性能。
[30] VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set
Shufan Shen,Junshu Sun,Qingming Huang,Shuhui Wang
Main category: cs.CV
TL;DR: VL-SAE是一种稀疏自编码器,通过将视觉-语言表示编码到隐藏激活中,将多模态表示映射到统一概念集,从而解释和增强视觉-语言对齐。
- Motivation: 由于难以将多模态表示的语义映射到统一概念集,视觉-语言对齐的可解释性尚未得到充分研究。
- Method: 提出VL-SAE稀疏自编码器,使用基于距离的编码器和两个模态特定解码器,通过余弦相似度测量多模态表示的语义相似性,确保语义相似表示具有一致的神经元激活。
- Result: 在多个VLM(如CLIP、LLaVA)上的实验表明,VL-SAE在解释和增强视觉-语言对齐方面具有优越能力,能提升零样本图像分类和幻觉消除等下游任务性能。
- Conclusion: VL-SAE通过概念级别的视觉-语言表示对齐,有效增强了多模态表示的可解释性和下游任务性能。
[31] Morphologically Intelligent Perturbation Prediction with FORM
Reed Naidoo,Matt De Vries,Olga Fourkioti,Vicky Bousgouni,Mar Arias-Garcia,Maria Portillo-Malumbres,Chris Bakal
Main category: cs.CV
TL;DR: FORM是一个机器学习框架,用于预测扰动诱导的三维细胞结构变化,通过形态编码器和基于扩散的扰动轨迹模块,支持无条件形态合成和条件模拟扰动细胞状态。
- Motivation: 当前计算框架仅限于二维表示,无法捕捉细胞形态在扰动下的复杂性,这限制了准确虚拟细胞模型的发展。
- Method: FORM包含形态编码器(通过多通道VQGAN端到端训练学习紧凑3D表示)和基于扩散的扰动轨迹模块,在包含65,000多个多荧光3D细胞体积的大规模数据集上训练。
- Result: FORM能够预测下游信号活动、模拟组合扰动效应,并建模未见扰动的状态间形态动态转换,通过MorphoEval评估套件在结构、统计和生物学维度量化性能。
- Conclusion: FORM和MorphoEval通过高分辨率预测模拟连接形态、扰动和功能,推动3D虚拟细胞的实现。
[32] CT-CLIP: A Multi-modal Fusion Framework for Robust Apple Leaf Disease Recognition in Complex Environments
Lemin Liu,Fangchao Hu,Honghua Jiang,Yaru Chen,Limin Liu,Yongliang Qiao
Main category: cs.CV
TL;DR: 提出CNN-Transformer-CLIP(CT-CLIP)框架,结合CNN提取局部病变细节特征和Vision Transformer捕获全局结构关系,通过自适应特征融合模块动态融合特征,解决苹果叶片病害识别中病变形态多样性的挑战。
- Motivation: 传统多尺度特征融合方法在复杂果园环境中,面对苹果叶片病害的表型异质性(病变形态显著变化)时,仅整合CNN提取的多层特征,未能充分考虑局部与全局特征间的关系。
- Method: 采用多分支识别框架CT-CLIP:CNN提取局部病变细节特征,Vision Transformer捕获全局结构关系,自适应特征融合模块(AFFM)动态融合特征,并结合多模态图像-文本学习方法,利用预训练CLIP权重实现视觉特征与病害语义描述的深度对齐。
- Result: 在公开苹果病害数据集和自建数据集上分别达到97.38%和96.12%的准确率,优于多个基线方法。
- Conclusion: CT-CLIP在农业病害识别方面表现出强大能力,显著提高了复杂环境条件下的识别准确率,为农业应用中的自动化病害识别提供了创新实用的解决方案。
[33] Dynamic Semantic-Aware Correlation Modeling for UAV Tracking
Xinyu Zhou,Tongxin Pan,Lingyi Hong,Pinxue Guo,Haijing Guo,Zhaoyu Chen,Kaixun Jiang,Wenqiang Zhang
Main category: cs.CV
TL;DR: 提出了一种动态语义感知相关建模跟踪框架,通过动态语义相关性生成器增强搜索区域从模板中提取重要信息的能力,提高无人机跟踪的准确性和鲁棒性。
- Motivation: 现有无人机跟踪方法主要强调速度,缺乏语义感知探索,导致在相机运动、快速运动和低分辨率等典型挑战下性能不佳。
- Method: 使用动态语义相关性生成器结合Transformer的相关图来探索语义相关性,并设计了剪枝方法来提高跟踪速度。
- Result: 在多个无人机跟踪数据集上实现了有竞争力的性能,提供了多种模型变体以在速度和精度之间进行权衡。
- Conclusion: 该方法有效解决了无人机跟踪中的语义感知问题,提高了在复杂场景下的跟踪性能,同时保持了灵活性部署。
[34] Gaze-VLM:Bridging Gaze and VLMs through Attention Regularization for Egocentric Understanding
Anupam Pani,Yanchao Yang
Main category: cs.CV
TL;DR: 提出了一种仅使用注视数据训练视觉语言模型的方法,通过注视正则化注意力机制提升模型在自我中心理解任务中的性能。
- Motivation: 人类注视提供了关于注意力、短期意图和未来行动的有价值线索,是建模自我中心行为的强大信号。
- Method: 使用注视正则化注意力机制,在训练期间将模型注意力与人类视觉注视对齐,该方法具有灵活性和模块化特点。
- Result: 相比无注视正则化的基线模型,未来事件预测的语义预测分数提升高达11%,当前活动理解提升约7%。
- Conclusion: 这项工作为在辅助机器人和人机协作等现实场景中使用人类注视增强视觉语言模型的预测能力奠定了基础。
[35] Why Registration Quality Matters: Enhancing sCT Synthesis with IMPACT-Based Registration
Valentin Boussot,Cédric Hémon,Jean-Claude Nunes,Jean-Louis Dillenseger
Main category: cs.CV
TL;DR: 本文提出了一种统一的合成CT生成管道,使用2.5D U-Net++架构,结合像素级L1损失和基于SAM与TotalSegmentator的感知损失。评估了两种配准策略,发现基于IMPACT的配准能提供更准确的解剖对齐。
- Motivation: 解决传统基于互信息的配准方法在合成CT生成中可能导致的解剖结构不一致问题,开发更鲁棒和可泛化的合成CT合成模型。
- Method: 使用2.5D U-Net++架构,ResNet-34编码器,联合训练各解剖区域并进行区域微调。损失函数结合L1损失和IMPACT-Synth感知损失。采用AdamW优化器,基于patch的归一化输入。
- Result: 在本地测试集上,基于IMPACT的配准比基于互信息的配准实现了更准确的对齐,降低了MAE并生成更真实的解剖结构。但在公共验证集上,使用Elastix配准数据的模型得分更高,反映了配准偏差。
- Conclusion: 配准误差会传播到监督学习中,影响训练和评估。IMPACT通过促进解剖一致性对齐来减轻这种偏差,支持开发更鲁棒的合成CT合成模型。
[36] BADiff: Bandwidth Adaptive Diffusion Model
Xi Zhang,Hanwei Zhu,Yan Zhong,Jiamang Wang,Weisi Lin
Main category: cs.CV
TL;DR: 提出了一种基于实时网络带宽约束调整扩散模型生成质量的框架,通过端到端训练使模型能够根据可用带宽自适应调整去噪过程,实现早期停止采样。
- Motivation: 传统扩散模型使用固定去噪步骤生成高保真图像,但在云到设备场景中,有限带宽需要重度压缩,导致纹理丢失和计算浪费。需要一种能根据带宽约束自适应调整生成质量的方法。
- Method: 引入联合端到端训练策略,扩散模型以从可用带宽导出的目标质量级别为条件。模型学习自适应调制去噪过程,使用轻量级质量嵌入指导去噪轨迹,实现早期停止采样。
- Result: 实验结果表明,该方法相比简单的早期停止方法显著提高了带宽适应生成的视觉保真度。
- Conclusion: 该方法为带宽受限环境中的高效图像传输提供了有前景的解决方案,只需最小的架构改动。
[37] TerraGen: A Unified Multi-Task Layout Generation Framework for Remote Sensing Data Augmentation
Datao Tang,Hao Wang,Yudeng Xin,Hui Qiao,Dongsheng Jiang,Yin Li,Zhiheng Yu,Xiangyong Cao
Main category: cs.CV
TL;DR: TerraGen是一个统一的布局到图像生成框架,用于遥感图像的多任务数据增强,通过地理空间布局编码器和多尺度注入方案实现空间可控的图像合成。
- Motivation: 当前生成式数据增强框架是任务孤立的,每个视觉任务需要独立训练生成模型,且忽略了地理信息和空间约束的建模。
- Method: 引入地理空间布局编码器统一边界框和分割掩码输入,结合多尺度注入方案和掩码加权损失来显式编码空间约束。
- Result: TerraGen在多样化任务中实现了最佳生成图像质量,并能作为通用数据增强生成器,显著提升下游任务性能。
- Conclusion: TerraGen展示了在完整数据和少样本场景下的强大跨任务泛化能力,为遥感视觉任务提供了灵活、空间可控的数据增强解决方案。
[38] Depth-Supervised Fusion Network for Seamless-Free Image Stitching
Zhiying Jiang,Ruhao Yan,Zengxi Zhang,Bowei Zhang,Jinyuan Liu
Main category: cs.CV
TL;DR: 提出了一种深度一致性约束的无缝图像拼接方法,通过多阶段机制和全局深度正则化约束解决视差引起的对齐问题,使用基于图的低成本计算确定最优拼接缝,并通过重参数化策略优化算法效率。
- Motivation: 图像拼接中物体深度的显著变化会导致大视差,从而在拼接结果中产生重影和错位问题,需要解决多视角对齐困难。
- Method: 1. 多阶段机制结合全局深度正则化约束增强不同深度范围内同一目标的对齐精度;2. 基于图的低成本计算确定最优拼接缝,扩散软缝区域精确定位过渡区域;3. 引入重参数化策略优化结构设计。
- Result: 大量实验证明该方法在现有方法中表现出优越性能,有效减轻视差引起的对齐误差,实现自然无缝的拼接结果。
- Conclusion: 该方法通过深度一致性约束和重参数化策略,在保持最优性能的同时显著提高了算法效率,解决了视差引起的图像拼接问题。
[39] MUVR: A Multi-Modal Untrimmed Video Retrieval Benchmark with Multi-Level Visual Correspondence
Yue Feng,Jinwei Hu,Qijia Lu,Jiawei Niu,Li Tan,Shuo Yuan,Ziyi Yan,Yizhen Jia,Qingzhi He,Shiping Ge,Ethan Q. Chen,Wentong Li,Limin Wang,Jie Qin
Main category: cs.CV
TL;DR: 提出了多模态未剪辑视频检索任务和MUVR基准,专注于长视频平台的实际应用,支持视频中心的多模态查询和一多检索模式。
- Motivation: 现有视频检索方法主要针对短视频和单模态查询,无法满足长视频平台对未剪辑视频和多模态查询的实际需求。
- Method: 构建基于核心视频内容的多层次视觉对应关系(6个级别),开发3个版本的MUVR基准(Base、Filter、QA),包含53K个未剪辑视频和1,050个多模态查询。
- Result: 对3种SOTA视频检索模型、6种基于图像的VLM和10种MLLM进行广泛评估,揭示了这些方法在处理未剪辑视频和多模态查询方面的局限性。
- Conclusion: MUVR基准填补了长视频平台视频检索的空白,为评估多模态查询和未剪辑视频检索提供了全面框架,揭示了现有方法的不足。
[40] Bridging the gap to real-world language-grounded visual concept learning
Whie Jung,Semin Kim,Junee Kim,Seunghoon Hong
Main category: cs.CV
TL;DR: 提出了一种可扩展的语言引导视觉概念学习框架,能够自适应地识别图像相关概念轴并在真实场景中沿这些轴进行视觉概念定位,无需预定义概念类别。
- Motivation: 现有方法局限于预定义的少数语义维度(如颜色、形状),且主要在合成数据集中探索,无法适应真实世界中丰富多样的视觉概念。
- Method: 利用预训练视觉语言模型和通用提示策略识别多样化的图像相关轴,通过通用概念编码器自适应绑定视觉特征,使用组合锚定目标确保各轴可独立操作。
- Result: 在ImageNet、CelebA-HQ和AFHQ数据集上展示了优越的编辑能力,能够处理过于多样化而无法手动预定义的真实世界概念,并表现出强大的组合泛化能力。
- Conclusion: 该方法超越了现有的视觉概念学习和基于文本的编辑方法,为语言引导的视觉概念学习提供了有效的解决方案。
[41] ArtiLatent: Realistic Articulated 3D Object Generation via Structured Latents
Honghua Chen,Yushi Lan,Yongwei Chen,Xingang Pan
Main category: cs.CV
TL;DR: ArtiLatent是一个生成框架,能够合成具有精细几何结构、准确关节连接和真实外观的人造3D物体。该方法通过变分自编码器将稀疏体素表示和关节属性嵌入统一潜在空间,并使用潜在扩散模型进行多样化采样。
- Motivation: 现有的3D生成方法在处理关节物体时,难以同时保证几何一致性、关节准确性和外观真实性,特别是在不同关节状态下处理遮挡区域的外观。
- Method: 联合建模部件几何和关节动力学,将稀疏体素表示和关节属性嵌入统一潜在空间;使用潜在扩散模型进行采样;引入关节感知的高斯解码器,考虑关节相关的可见性变化;基于关节状态调节外观解码。
- Result: 在PartNet-Mobility和ACD数据集上的实验表明,ArtiLatent在几何一致性和外观保真度方面优于现有方法,能够为通常被遮挡的区域分配合理的纹理特征。
- Conclusion: 该框架为关节3D物体的合成和操作提供了可扩展的解决方案,显著提升了跨关节配置的视觉真实感。
[42] Anisotropic Pooling for LUT-realizable CNN Image Restoration
Xi Zhang,Xiaolin Wu
Main category: cs.CV
TL;DR: 本文提出了一种各向异性池化策略,通过广义中值池化和学习数据依赖的池化系数来改进基于查找表的图像恢复CNN方法,相比现有的平均池化方法获得了更好的性能。
- Motivation: 基于查找表的CNN图像恢复方法虽然速度快且资源消耗少,但当前方法使用平均池化融合不同方向的像素块结果,这种各向同性的假设不适用于各向异性的信号结构,导致性能受限。
- Method: 首先引入广义中值池化方法,然后扩展该思想,通过学习每个方向的数据依赖池化系数,自适应地权衡不同方向像素块的贡献。
- Result: 在各种恢复基准测试上的实验结果表明,所提出的各向异性池化策略在感知质量和数值指标上都优于现有的基于查找表的CNN方法。
- Conclusion: 各向异性池化策略能够有效改进基于查找表的CNN图像恢复方法,通过自适应地融合不同方向的像素块信息,实现了更好的恢复效果。
[43] OpenHype: Hyperbolic Embeddings for Hierarchical Open-Vocabulary Radiance Fields
Lisa Weijler,Sebastian Koch,Fabio Poiesi,Timo Ropinski,Pedro Hermosilla
Main category: cs.CV
TL;DR: 提出了OpenHype方法,使用双曲潜在空间表示3D场景层次结构,解决了现有方法需要多次渲染或依赖预定义离散层次的问题。
- Motivation: 现有方法在建模3D对象和场景的层次结构时存在限制:要么需要多次渲染增加推理时间,要么依赖预定义的封闭集层次结构,难以适应现实世界的多样化结构。
- Method: 使用连续双曲潜在空间表示场景层次结构,利用双曲几何特性自然编码多尺度关系,并通过潜在空间中的测地线路径实现层次结构的平滑遍历。
- Result: 在标准基准测试中优于最先进方法,展示了在3D场景理解方面更高的效率和适应性。
- Conclusion: OpenHype通过双曲几何表示有效解决了3D场景层次建模的挑战,为自主代理提供了更全面的环境理解能力。
[44] PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis
Yu Yang,Zhilu Zhang,Xiang Zhang,Yihan Zeng,Hui Li,Wangmeng Zuo
Main category: cs.CV
TL;DR: PhysWorld是一个利用模拟器合成物理演示来学习高效世界模型的框架,用于解决从有限真实视频数据学习物理一致动态模型的挑战,特别适用于具有空间变化物理属性的可变形物体。
- Motivation: 解决从有限真实世界视频数据学习物理一致动态模型的重大挑战,特别是针对具有空间变化物理属性的可变形物体,克服数据稀缺问题。
- Method: 首先在MPM模拟器中通过本构模型选择和全局到局部物理属性优化构建物理一致的数字孪生;然后对物理属性施加部分感知扰动,为数字孪生生成各种运动模式,合成广泛多样的演示;最后使用这些演示训练嵌入物理属性的轻量级GNN世界模型。
- Result: PhysWorld实现了对各种可变形物体的准确快速未来预测,并能很好地泛化到新的交互。实验显示PhysWorld具有竞争力性能,同时推理速度比最先进方法PhysTinn快47倍。
- Conclusion: PhysWorld框架通过利用模拟器合成物理演示,成功解决了从有限真实数据学习物理一致世界模型的挑战,实现了高效准确的可变形物体动态预测。
[45] MoniTor: Exploiting Large Language Models with Instruction for Online Video Anomaly Detection
Shengtian Yang,Yue Feng,Yingshi Liu,Jingrou Zhang,Jie Qin
Main category: cs.CV
TL;DR: 提出了一种基于内存的在线评分队列方案MoniTor,用于无需训练的在线视频异常检测,通过结合视觉语言模型和LSTM机制来有效建模时间依赖关系。
- Motivation: 当前离线视频异常检测研究较多,但受限于实时性和计算强度,在线视频异常检测很少受到关注。
- Method: 使用预训练大规模模型的流式输入,结合LSTM启发的预测机制来建模时间依赖,设计评分队列和异常先验来动态存储最近分数并覆盖所有异常。
- Result: 在UCF-Crime和XD-Violence数据集上的实验表明,MoniTor优于现有方法,且无需训练即可与弱监督方法竞争。
- Conclusion: MoniTor为在线视频异常检测提供了一种有效的无需训练解决方案,能够有效处理实时约束和计算复杂性问题。
[46] VidSplice: Towards Coherent Video Inpainting via Explicit Spaced Frame Guidance
Ming Xie,Junqiu Yu,Qiaole Dong,Xiangyang Xue,Yanwei Fu
Main category: cs.CV
TL;DR: VidSplice是一个新颖的视频修复框架,通过解耦视频修复为两个子任务:多帧一致性图像修复和掩码区域运动传播,引入间隔帧先验来指导修复过程,并设计了CoSpliced模块和上下文控制器来增强时空稳定性。
- Motivation: 现有视频修复方法在严重内容退化情况下表现不佳,且往往忽视时空稳定性,导致对视频后半部分控制不足。
- Method: 将视频修复解耦为多帧一致性图像修复和掩码区域运动传播;引入间隔帧先验;设计CoSpliced模块执行首帧传播策略;添加上下文控制器模块编码连贯先验并注入I2V生成主干。
- Result: 在多样化视频修复场景中实现竞争性性能,显著改善了前景对齐和运动稳定性,优于现有方法。
- Conclusion: VidSplice通过解耦策略和时空引导机制,有效解决了视频修复中的内容退化和稳定性问题,取得了优越的性能表现。
[47] CXR-LanIC: Language-Grounded Interpretable Classifier for Chest X-Ray Diagnosis
Yiming Tang,Wenjia Zhong,Rushi Shah,Dianbo Liu
Main category: cs.CV
TL;DR: CXR-LanIC是一个用于胸部X光诊断的可解释AI框架,通过任务对齐模式发现从BiomedCLIP分类器中提取可解释的视觉模式,在保持竞争力的诊断准确性的同时提供透明解释。
- Motivation: 深度学习模型在胸部X光诊断中准确性高,但由于其黑盒性质限制了临床采用。临床医生需要透明、可验证的解释来信任自动化诊断并识别潜在失败模式。
- Method: 在MIMIC-CXR数据集上训练100个转码器稀疏自编码器,将医学图像表示分解为可解释的视觉模式,发现约5,000个单义模式,涵盖心脏、肺部、胸膜、结构、设备和伪影类别。
- Result: 在五个关键发现上实现竞争力的诊断准确性,每个预测可分解为20-50个可解释模式,并提供可验证的激活图库。
- Conclusion: 医学AI系统可以既准确又可解释,通过透明、临床基础的解释支持更安全的临床部署,关键创新在于从针对特定诊断目标训练的分类器中提取可解释特征。
[48] ITC-RWKV: Interactive Tissue-Cell Modeling with Recurrent Key-Value Aggregation for Histopathological Subtyping
Yating Huang,Qijun Yang,Lintao Xiang,Hujun Yin
Main category: cs.CV
TL;DR: 提出双流架构整合组织宏观特征与细胞级表示,通过循环变换器高效聚合细胞信息,并引入双向组织-细胞交互模块,在四种组织病理学亚型分类基准测试中表现优于现有模型。
- Motivation: 现有病理学基础模型虽然能捕捉全局组织上下文,但缺乏细胞级特征建模,限制了在癌症亚型分类等细粒度任务中的表现。
- Method: 双流架构建模组织宏观特征与聚合细胞表示之间的相互作用;采用接受度加权的键值聚合模型(循环变换器)以线性复杂度捕获细胞间依赖关系;引入双向组织-细胞交互模块实现局部细胞线索与周围组织环境的相互关注。
- Result: 在四种组织病理学亚型分类基准测试中,所提方法优于现有模型。
- Conclusion: 细胞级聚合和组织-细胞交互在细粒度计算病理学中发挥关键作用。
[49] GRAP-MOT: Unsupervised Graph-based Position Weighted Person Multi-camera Multi-object Tracking in a Highly Congested Space
Marek Socha,Michał Marczyk,Aleksander Kempski,Michał Cogiel,Paweł Foszner,Radosław Zawiski,Michał Staniszewski
Main category: cs.CV
TL;DR: GRAP-MOT是一种针对多摄像头重叠视野封闭区域视频的人员多目标跟踪新方法,通过图加权解决方案在线更新人员身份标签,结合轨迹和特征信息,在拥挤场景中表现优异。
- Motivation: 解决封闭区域多摄像头重叠视野下的人员多目标跟踪问题,特别是频繁发生的人员遮挡情况。
- Method: 采用图加权解决方案,基于轨迹和人员特征在线更新身份标签;包含位置估计模块;深入研究了特征提取、跟踪和社区搜索等MOT过程的所有元素。
- Result: 在封闭区域模型记录和满足高度拥挤空间要求的公开真实数据集上测试,显示该方法优于无位置数据的方法;发现IDF1比MOTA更适合此类比较。
- Conclusion: GRAP-MOT在拥挤多摄像头环境中表现出色;代码和数据集已公开;IDF1是更合适的MOT算法比较指标。
[50] An Automatic Detection Method for Hematoma Features in Placental Abruption Ultrasound Images Based on Few-Shot Learning
Xiaoqing Liu,Jitai Han,Hua Yan,Peng Li,Sida Tang,Ying Li,Kaiwen Zhang,Min Yu
Main category: cs.CV
TL;DR: 提出改进的EH-YOLOv11n模型,通过小样本学习实现胎盘超声图像中血肿特征的自动检测,检测准确率达78%,比YOLOv11n提升2.5%,比YOLOv8提升13.7%。
- Motivation: 胎盘早剥是妊娠期严重并发症,传统超声诊断方法依赖医师经验,存在主观偏差和诊断不一致问题,需要自动检测方法。
- Method: 基于小样本学习改进YOLOv11n模型,集成小波卷积和坐标卷积增强频率和空间特征提取;加入级联组注意力机制抑制超声伪影和遮挡干扰,提高边界框定位精度。
- Result: 检测准确率78%,在精确率-召回率曲线、置信度得分和遮挡场景中表现显著优越,兼具高精度和实时处理能力。
- Conclusion: 该模型为胎盘早剥的计算机辅助诊断提供了可靠解决方案,具有重要的临床应用价值。
[51] GranViT: A Fine-Grained Vision Model With Autoregressive Perception For MLLMs
Guanghao Zheng,Bowen Shi,Mingxing Xu,Ruoyu Sun,Peisen Zhao,Zhibo Zhang,Wenrui Dai,Junni Zou,Hongkai Xiong,Xiaopeng Zhang,Qi Tian
Main category: cs.CV
TL;DR: 提出了GranViT,一种结合细粒度特征提取和语义对齐的视觉Transformer,通过区域级自回归训练提升多模态大语言模型的细粒度感知能力。
- Motivation: 现有视觉编码器主要关注全局图像表示,但缺乏细粒度区域分析能力,这限制了多模态大语言模型在视觉语言任务中的表现。
- Method: 构建Gran-29M数据集(包含200万图像和1.8亿区域级标注),提出预训练-适应框架,采用边界框到标题回归和标题到边界框回归,并引入自蒸馏机制增强区域推理能力。
- Result: GranViT在细粒度识别、多模态VQA和OCR理解等任务上取得了最先进的结果,展现出强大的迁移能力。
- Conclusion: GranViT通过大规模细粒度预训练和区域级自回归训练,显著提升了视觉编码器的细粒度感知能力,为多模态大语言模型提供了更强大的视觉理解基础。
[52] Towards a Golden Classifier-Free Guidance Path via Foresight Fixed Point Iterations
Kaibo Wang,Jianda Mao,Tong Wu,Yang Xiang
Main category: cs.CV
TL;DR: 本文提出了一种统一的视角,将条件引导重新定义为固定点迭代,并引入了前瞻引导(FSG)方法,在图像质量和计算效率方面优于现有方法。
- Motivation: 理解并改进无分类器引导(CFG)的操作机制是文本到图像扩散模型研究的核心焦点,现有方法基于不同的理论解释,限制了设计空间并模糊了关键设计选择。
- Method: 将条件引导重新定义为固定点迭代,寻找潜在空间中的黄金路径,使潜在变量在条件生成和无条件生成下产生一致输出。引入前瞻引导(FSG),在早期扩散阶段优先解决长间隔子问题并增加迭代次数。
- Result: 在多种数据集和模型架构上的广泛实验验证了FSG在图像质量和计算效率方面优于最先进方法。
- Conclusion: 这项工作为条件引导提供了新的视角,并释放了自适应设计的潜力。
[53] Head Pursuit: Probing Attention Specialization in Multimodal Transformers
Lorenzo Basile,Valentino Maiorca,Diego Doimo,Francesco Locatello,Alberto Cazzaniga
Main category: cs.CV
TL;DR: 本文提出了一种分析文本生成模型中注意力头专业化的方法,通过信号处理视角重新解释激活探测,能够识别与特定概念相关的注意力头,并通过编辑少量头部来可靠地控制模型输出。
- Motivation: 语言和视觉语言模型在广泛任务中表现出色,但其内部机制仍不完全清楚。本研究旨在理解文本生成模型中个体注意力头如何专门处理特定语义或视觉属性。
- Method: 基于现有可解释性方法,通过信号处理视角重新解释使用最终解码层探测中间激活的实践,以原则性方式分析多个样本,并根据注意力头与目标概念的相关性进行排序。
- Result: 研究发现在单模态和多模态Transformer中,注意力头层面存在一致的专业化模式。仅编辑使用该方法选择的1%头部,就能可靠地抑制或增强模型输出中的目标概念。该方法在语言任务和视觉语言任务上均得到验证。
- Conclusion: 研究揭示了注意力层内存在可解释和可控的结构,为理解和编辑大规模生成模型提供了简单工具。
[54] Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video
Ciara Rowles,Varun Jampani,Simon Donné,Shimon Vainer,Julian Parker,Zach Evans
Main category: cs.CV
TL;DR: Foley Control是一种轻量级视频引导Foley方法,通过冻结预训练单模态模型,仅学习它们之间的小型交叉注意力桥接,实现视频到音频的同步生成。
- Motivation: 现有方法需要端到端重新训练整个多模态系统,计算成本高且缺乏模块化。Foley Control旨在保持预训练模型性能的同时,实现高效的视频-音频同步。
- Method: 连接V-JEPA2视频嵌入到冻结的Stable Audio Open DiT文本到音频模型,在现有文本交叉注意力后插入紧凑的视频交叉注意力,使用视频token池化减少内存消耗。
- Result: 在视频-音频基准测试中,Foley Control在时间和语义对齐方面表现竞争力,参数量远少于现有多模态系统,同时保持提示驱动的可控性和模块化特性。
- Conclusion: 该方法提供了一种高效、模块化的视频到Foley音频生成方案,相同的桥接设计可扩展到其他音频模态如语音生成。
[55] Sample By Step, Optimize By Chunk: Chunk-Level GRPO For Text-to-Image Generation
Yifu Luo,Penghui Du,Bo Li,Sinan Du,Tiantian Zhang,Yongzhe Chang,Kai Wu,Kun Gai,Xueqian Wang
Main category: cs.CV
TL;DR: 提出了Chunk-GRPO方法,将GRPO优化从步骤级提升到块级,通过将连续步骤分组为块来捕捉流匹配的时间动态,解决了优势归因不准确和忽略生成时间动态的问题。
- Motivation: GRPO在基于流匹配的文本到图像生成中表现出潜力,但面临两个关键限制:优势归因不准确,以及忽略生成的时间动态。
- Method: 提出Chunk-GRPO方法,将连续步骤分组为连贯的'块'来捕捉流匹配的内在时间动态,在块级别优化策略,并引入可选的加权采样策略来进一步提升性能。
- Result: 大量实验表明,Chunk-GRPO在偏好对齐和图像质量方面都取得了优越的结果。
- Conclusion: 块级优化为基于GRPO的方法展现了良好前景。
[56] MATrack: Efficient Multiscale Adaptive Tracker for Real-Time Nighttime UAV Operations
Xuzhao Li,Xuchen Li,Shiyu Hu
Main category: cs.CV
TL;DR: MATrack是一个专为夜间无人机跟踪设计的系统,通过多尺度层次混合、自适应关键令牌门和夜间模板校准器三个核心模块,解决了低光照条件下跟踪的挑战,在UAVDark135基准测试中性能显著优于现有方法,达到81 FPS的实时处理速度。
- Motivation: 夜间无人机跟踪面临低光照条件、杂乱背景和频繁视角变化的挑战,现有基于低光增强和域自适应的方法在实际系统中存在视觉伪影、计算成本高和难以充分利用动态对象信息等问题。
- Method: 提出MATrack系统,包含三个核心模块:多尺度层次混合模块增强静态和动态模板间的特征一致性;自适应关键令牌门准确识别复杂背景中的目标信息;夜间模板校准器确保长序列中的稳定跟踪性能。
- Result: 在UAVDark135基准测试中,精度、归一化精度和AUC分别比现有最优方法提升5.9%、5.4%和4.2%,同时保持81 FPS的实时处理速度。真实无人机平台测试验证了系统的可靠性。
- Conclusion: MATrack能够为夜间搜救、边境巡逻等关键机器人应用提供稳定有效的夜间无人机跟踪支持,在性能和效率方面均表现出色。
[57] Restore Text First, Enhance Image Later: Two-Stage Scene Text Image Super-Resolution with Glyph Structure Guidance
Minxing Luo,Linlong Fan,Wang Qiushi,Ge Wu,Yiyan Luo,Yuhang Yu,Jinwei Chen,Yaxing Wang,Qingnan Fan,Jian Yang
Main category: cs.CV
TL;DR: TIGER是一个两阶段文本图像引导超分辨率框架,通过"文本优先,图像后续"的范式,将字形恢复与图像增强解耦,解决了传统方法在图像质量和文本可读性之间的权衡问题。
- Motivation: 当前生成式超分辨率方法在自然图像上表现良好,但会扭曲文本,导致图像质量和文本可读性之间的根本性权衡。
- Method: TIGER采用两阶段框架:首先重建精确的文本结构,然后使用这些结构来指导后续的全图像超分辨率,实现字形到图像的引导。
- Result: 在提出的UltraZoom-ST数据集上,TIGER实现了最先进的性能,在保持整体图像质量的同时显著提高了文本可读性。
- Conclusion: TIGER通过解耦文本和图像处理,打破了图像超分辨率中质量与可读性的权衡,为场景文本超分辨率提供了有效解决方案。
[58] Automated interictal epileptic spike detection from simple and noisy annotations in MEG data
Pauline Mouches,Julien Jung,Armand Demasson,Agnès Guinard,Romain Bouet,Rosalie Marchal,Romain Quentin
Main category: cs.CV
TL;DR: 本文提出两种深度学习模型(ANN和CNN)用于MEG记录中的发作间期棘波自动检测,在仅使用时间标记和单专家标注的现实临床数据上表现优于现有方法,并采用交互式机器学习策略提高标注质量。
- Motivation: 耐药性癫痫术前评估中,MEG记录的发作间期棘波手动检测既繁琐又容易出错,现有自动化方法要么需要大量标注数据,要么在非典型数据上缺乏鲁棒性,难以应用于临床实践。
- Method: 提出两种模型架构:基于特征的人工神经网络(ANN)和卷积神经网络(CNN),在59名患者数据库上训练,并采用交互式机器学习策略迭代改进数据标注质量。
- Result: 两种模型在10名测试患者上的表现均优于现有最优模型(F1分数:CNN=0.46,ANN=0.44),交互式机器学习策略证明模型对噪声标注具有鲁棒性。
- Conclusion: 简单架构的模型在分析复杂且标注不完美的数据时具有鲁棒性,交互式机器学习方法可加速数据标注过程,所提模型是发作间期棘波自动检测的有效工具。
[59] S3OD: Towards Generalizable Salient Object Detection with Synthetic Data
Orest Kupyn,Hirokatsu Kataoka,Christian Rupprecht
Main category: cs.CV
TL;DR: 提出S3OD方法,通过大规模合成数据生成和模糊感知架构显著提升显著目标检测的泛化能力,在DIS和HR-SOD基准测试中达到最先进性能。
- Motivation: 显著目标检测面临数据受限问题,像素级标注成本高昂,导致相关子任务需要分别训练模型。
- Method: 使用多模态扩散管道生成超过139,000张高分辨率图像的S3OD数据集,采用迭代生成框架优先处理困难类别,并提出简化的多掩码解码器处理检测中的固有模糊性。
- Result: 仅使用合成数据训练的模型在跨数据集泛化上实现20-50%的错误率降低,微调版本在DIS和HR-SOD基准测试中达到最先进性能。
- Conclusion: 大规模合成数据和模糊感知架构能有效解决显著目标检测中的数据受限问题,显著提升模型泛化能力。
[60] Modest-Align: Data-Efficient Alignment for Vision-Language Models
Jiaxiang Liu,Yuan Wang,Jiawei Du,Joey Tianyi Zhou,Mingkun Xu,Zuozhu Liu
Main category: cs.CV
TL;DR: 提出了Modest-Align轻量级跨模态对齐框架,通过随机扰动和嵌入平滑策略解决资源受限场景下模型的过度自信问题,在少量数据和计算资源下实现竞争性性能
- Motivation: 解决在资源受限场景下,跨模态对齐模型因数据质量差或相关性弱导致的过度自信和性能下降问题
- Method: 采用随机扰动引入可控噪声模拟不确定性,结合嵌入平滑校准嵌入空间中的相似度分布
- Result: 在多个基准数据集上,仅使用CLIP 1/100的训练数据和1/600的GPU时间,在检索任务中超越现有最优方法
- Conclusion: Modest-Align为现实世界低资源场景下的跨模态对齐提供了实用且可扩展的解决方案
[61] Epipolar Geometry Improves Video Generation Models
Orest Kupyn,Fabian Manhardt,Federico Tombari,Christian Rupprecht
Main category: cs.CV
TL;DR: 本文提出通过极线几何约束改进视频扩散模型,解决几何不一致、不稳定运动和视觉伪影问题,使用基于偏好的优化方法直接处理相机轨迹不稳定和几何伪影。
- Motivation: 当前视频生成模型虽然通过大潜在扩散变换器和整流流技术取得进展,但仍存在几何不一致、不稳定运动和视觉伪影问题,影响3D场景的真实感。3D一致视频生成对生成和重建任务有重要应用价值。
- Method: 使用成对极线几何约束通过基于偏好的优化来对齐扩散模型,直接处理相机轨迹不稳定和几何伪影,无需端到端可微分性。在静态场景和动态相机上训练确保高质量测量,模型能有效泛化到多样化动态内容。
- Result: 评估表明经典几何约束比现代学习度量提供更稳定的优化信号,后者产生噪声目标影响对齐质量。该方法能生成空间一致视频且不损害视觉质量。
- Conclusion: 通过将数据驱动的深度学习与经典几何计算机视觉相结合,提出了一种实用的空间一致视频生成方法,无需在视觉质量上妥协。
[62] DAP-MAE: Domain-Adaptive Point Cloud Masked Autoencoder for Effective Cross-Domain Learning
Ziqi Gao,Qiufu Li,Linlin Shen
Main category: cs.CV
TL;DR: DAP-MAE是一种域自适应点云掩码自编码器预训练方法,通过异质域适配器和域特征生成器,在预训练阶段自适应整合跨域数据集知识,提升点云分析任务的性能。
- Motivation: 不同领域的点云数据训练规模有限,现有方法将不同领域数据混合进行MAE预训练,但学到的先验知识与下游任务不匹配,导致性能下降。
- Method: 设计异质域适配器(预训练时使用适应模式,微调时使用融合模式)和域特征生成器,指导点云特征适应不同下游任务。
- Result: 仅需一次预训练,在四个点云分析任务中表现优异:ScanObjectNN物体分类达到95.18%,Bosphorus面部表情识别达到88.45%。
- Conclusion: DAP-MAE能有效解决跨域点云数据预训练中的知识对齐问题,显著提升下游任务的性能。
[63] A Dynamic Knowledge Distillation Method Based on the Gompertz Curve
Han Yang,Guangjun Qin
Main category: cs.CV
TL;DR: 提出Gompertz-CNN动态知识蒸馏框架,通过Gompertz生长模型调节蒸馏损失权重,结合Wasserstein距离和梯度匹配,在CIFAR数据集上比传统方法提升8%和4%准确率。
- Motivation: 传统知识蒸馏方法无法捕捉学生模型认知能力的动态演变过程,导致知识转移效果不佳。
- Method: 基于Gompertz曲线的阶段感知蒸馏策略,动态调整蒸馏损失权重;使用Wasserstein距离度量特征差异,梯度匹配对齐反向传播行为;多损失目标统一这些组件。
- Result: 在CIFAR-10和CIFAR-100数据集上,使用ResNet50和MobileNet_v2等架构,Gompertz-CNN比传统蒸馏方法分别提升8%和4%准确率。
- Conclusion: Gompertz-CNN通过模拟人类学习过程的动态特性,有效提升了知识蒸馏的性能,为自适应知识转移提供了新思路。
[64] Group Inertial Poser: Multi-Person Pose and Global Translation from Sparse Inertial Sensors and Ultra-Wideband Ranging
Ying Xue,Jiaxi Jiang,Rayan Armani,Dominik Hollidt,Yi-Chi Liao,Christian Holz
Main category: cs.CV
TL;DR: 提出了一种基于稀疏可穿戴IMU和UWB距离测量的多人全身运动跟踪方法,通过融合惯性观测和传感器间距离信息来精确估计3D姿态和全局轨迹。
- Motivation: 解决纯IMU方法在平移估计和多人相对定位方面的局限性,因为惯性线索本质上是自参考的,无法提供他人空间参考。
- Method: 使用超宽带测距(UWB)估计传感器间的绝对距离,将距离信息与惯性观测融合到结构化状态空间模型中,通过两步优化方法跟踪全局轨迹。
- Result: 在合成和真实世界数据评估中,该方法在准确性和鲁棒性方面优于现有最先进方法,展示了IMU+UWB多人运动捕捉的潜力。
- Conclusion: 提出的Group Inertial Poser方法通过结合IMU和UWB技术,实现了在野外环境中多人运动捕捉的精确跟踪,并发布了首个IMU+UWB双人跟踪数据集GIP-DB。
[65] Long-tailed Species Recognition in the NACTI Wildlife Dataset
Zehua Liu,Tilo Burghardt
Main category: cs.CV
TL;DR: 该论文系统研究了长尾识别方法在野生动物物种识别中的应用,在NACTI数据集上通过LTR损失函数和正则化技术显著提升了识别准确率,并在跨域测试中展示了更好的泛化能力。
- Motivation: 处理自然世界数据集中普遍存在的严重长尾类别不平衡问题,特别是在NACTI数据集中,最大的'Head'类别覆盖了超过50%的图像。
- Method: 基于PyTorch Wildlife模型,系统研究各种LTR损失函数和LTR敏感的正则化方法,构建了减少偏差的测试集来评估域偏移。
- Result: 最佳配置在NACTI测试集上达到99.40%的Top-1准确率,显著优于95.51%的基线;在跨域测试中达到52.55%的准确率,展示了更强的泛化能力。
- Conclusion: LTR增强方法在野生动物领域持续改进,特别是在与最先进的LTR损失函数结合时,但仍存在LTR方法无法充分解决的定性定量缺陷,包括在严重域偏移下对'Tail'类别的灾难性失效。
[66] Self-Supervised Learning of Synapse Types from EM Images
Aarav Shetty,Gary B Huang
Main category: cs.CV
TL;DR: 提出一种基于邻近突触相似性的无监督方法,用于在电子显微镜图像中分离突触类型,无需预先知道类型数量。
- Motivation: 传统方法需要监督学习,而该方法仅利用同一神经元中邻近突触比随机选择的突触更相似的观察,无需预先知道突触类型数量。
- Method: 基于邻近突触相似性假设的无监督分类方法,应用于果蝇数据。
- Result: 成功分离出突触类型,为选择涵盖突触结构范围的真实数据提供了原则性方法。
- Conclusion: 该方法提供了一种无需预先知道类型数量的突触分类新途径,并有助于选择更具代表性的真实数据。
[67] Foundation Models in Dermatopathology: Skin Tissue Classification
Riya Gupta,Yiwei Zong,Dennis H. Murphree
Main category: cs.CV
TL;DR: 评估UNI和Virchow2两个基础模型作为特征提取器,用于将全玻片图像分类为三种诊断类别:黑色素细胞性、基底样和鳞状病变。使用均值聚合策略将补丁级嵌入聚合成玻片级特征,并训练多种机器学习分类器。
- Motivation: 皮肤病理学中全玻片图像的快速生成需要自动化方法进行高效处理和准确分类。
- Method: 使用UNI和Virchow2基础模型提取补丁级嵌入,通过均值聚合策略聚合成玻片级特征,训练逻辑回归、梯度提升树和随机森林等分类器。
- Result: Virchow2提取的特征在大多数玻片级分类器中优于UNI,逻辑回归对Virchow2达到最高准确率(90%),但差异无统计学意义。均值聚合方法提供了可靠的玻片级特征表示。
- Conclusion: 基础模型在自动化全玻片图像分类方面具有潜力,为皮肤病理学诊断提供了可扩展且有效的方法,为玻片级表示学习的未来发展铺平了道路。
[68] WorldGrow: Generating Infinite 3D World
Sikuang Li,Chen Yang,Jiemin Fang,Taoran Yi,Jia Lu,Jiazhong Cen,Lingxi Xie,Wei Shen,Qi Tian
Main category: cs.CV
TL;DR: WorldGrow是一个用于无限扩展3D场景合成的分层框架,利用预训练3D模型的生成先验,通过场景块生成实现几何一致和外观逼真的大规模连续环境构建。
- Motivation: 现有方法面临关键挑战:2D提升方法存在跨视图的几何和外观不一致性,3D隐式表示难以扩展,当前3D基础模型多为物体中心,限制了场景级生成的应用。
- Method: 提出三个核心组件:(1)数据筛选管道提取高质量场景块用于训练;(2)3D块修复机制实现上下文感知的场景扩展;(3)从粗到细的生成策略确保全局布局合理性和局部几何/纹理保真度。
- Result: 在大型3D-FRONT数据集上评估,WorldGrow在几何重建方面达到最先进性能,同时独特支持具有照片级真实感和结构一致输出的无限场景生成。
- Conclusion: 该方法展示了构建大规模虚拟环境的能力,并为构建未来世界模型提供了潜力。
[69] On Thin Ice: Towards Explainable Conservation Monitoring via Attribution and Perturbations
Jiayi Zhou,Günel Aghakishiyeva,Saagar Arya,Julian Dale,James David Poling,Holly R. Houliston,Jamie N. Womble,Gregory D. Larsen,David W. Johnston,Brinnae Bent
Main category: cs.CV
TL;DR: 该研究将后解释方法应用于冰川湾国家公园海豹检测的计算机视觉模型,通过多种解释技术评估模型的可信度,揭示了系统错误来源,为生态监测提供了可审计的决策支持工具。
- Motivation: 解决生态学中因缺乏对黑盒神经网络模型的信任而导致的计算机视觉应用滞后问题,通过提供预测证据和记录部署限制来增强模型可信度。
- Method: 使用Faster R-CNN检测海豹,并应用梯度类激活映射(HiResCAM、LayerCAM)、局部可解释模型无关解释(LIME)和基于扰动的解释方法生成解释。
- Result: 解释集中在海豹躯干和轮廓而非周围环境,移除海豹会降低检测置信度;发现系统错误包括海豹与黑冰和岩石的混淆。
- Conclusion: 通过将目标检测与后解释性相结合,可以超越"黑盒"预测,为保护监测提供可审计的决策支持工具,并确定了更有针对性的数据整理和增强等后续开发步骤。
[70] BachVid: Training-Free Video Generation with Consistent Background and Character
Han Yan,Xibin Song,Yifu Wang,Hongdong Li,Pan Ji,Chao Ma
Main category: cs.CV
TL;DR: BachVid是一种无需训练的方法,通过分析DiT注意力机制和中间特征,利用缓存变量注入实现多视频中角色和背景的一致性生成。
- Motivation: 解决现有方法在生成多个视频时难以保持角色和背景一致性的问题,避免依赖参考图像或额外训练。
- Method: 基于对DiT注意力机制的分析,首先生成身份视频并缓存中间变量,然后将这些变量注入到新生成视频的对应位置。
- Result: 实验结果表明BachVid在不需额外训练的情况下实现了生成视频的鲁棒一致性。
- Conclusion: BachVid提供了一种新颖高效的解决方案,无需参考图像或额外训练即可实现一致性视频生成。
[71] Visual Diffusion Models are Geometric Solvers
Nir Goren,Shai Yehezkel,Omer Dahary,Andrey Voynov,Or Patashnik,Daniel Cohen-Or
Main category: cs.CV
TL;DR: 视觉扩散模型可直接在像素空间中解决几何问题,包括内接正方形问题、斯坦纳树问题和简单多边形问题,将几何推理转化为图像生成任务。
- Motivation: 探索视觉扩散模型作为几何求解器的潜力,证明其能够直接处理像素空间中的几何问题,无需专门架构或领域特定适配。
- Method: 将几何问题实例视为图像,训练标准视觉扩散模型将高斯噪声转换为表示有效近似解的图像,学习将噪声几何结构转换为正确配置。
- Result: 模型成功解决了三个著名的困难几何问题,展示了扩散模型在几何推理中的有效性。
- Conclusion: 在图像空间中操作提供了一个通用且实用的框架来近似困难几何问题,为处理更广泛类别的几何任务打开了大门。
[72] Automated Detection of Visual Attribute Reliance with a Self-Reflective Agent
Christy Li,Josep Lopez Camuñas,Jake Thomas Touchet,Jacob Andreas,Agata Lapedriza,Antonio Torralba,Tamar Rott Shaham
Main category: cs.CV
TL;DR: 提出了一种自动化框架,通过自反思代理系统性地生成和测试假设,检测训练好的视觉模型对特定视觉属性的依赖关系。
- Motivation: 检测视觉模型对特定视觉属性的意外依赖对于确保模型鲁棒性、防止过拟合和避免伪相关性至关重要。
- Method: 使用自反思代理迭代生成和测试假设,通过自我评估协议评估发现是否准确解释模型行为,当出现不一致时触发新的实验周期。
- Result: 在包含130个模型的基准测试中,自反思方法相比非反思基线显著提升性能,并能识别CLIP视觉编码器和YOLOv8等先进模型中的真实视觉属性依赖。
- Conclusion: 自反思代理能有效识别视觉模型对视觉属性的依赖,其性能随反思过程持续提升,为模型理解和鲁棒性分析提供了有力工具。
cs.CL
[73] Sparser Block-Sparse Attention via Token Permutation
Xinghao Wang,Pengyu Wang,Dong Zhang,Chenkun Tan,Shaojun Zhou,Zhaoxiang Liu,Shiguo Lian,Fangxu Liu,Kai Song,Xipeng Qiu
Main category: cs.CL
TL;DR: 提出了一种名为PBS-Attn的置换块稀疏注意力方法,通过利用注意力的置换特性来提高块级稀疏性,在保持模型精度的同时显著提升长上下文预填充的计算效率。
- Motivation: 大语言模型扩展上下文长度具有重要价值,但自注意力机制的O(N^2)复杂度成为主要计算瓶颈。虽然注意力矩阵通常稀疏,但现有块稀疏注意力方法在块级稀疏性方面存在不足。
- Method: 提出PBS-Attn方法,通过置换注意力机制来增加块级稀疏性,并开发了自定义的置换FlashAttention内核来实现端到端加速。
- Result: 在真实长上下文数据集上的实验表明,PBS-Attn在模型精度上优于现有块稀疏注意力方法,接近全注意力基线,并在长上下文预填充中实现高达2.75倍的端到端加速。
- Conclusion: PBS-Attn是一种即插即用的高效注意力方法,能够显著提升长上下文处理的计算效率,同时保持模型性能。
[74] Vision Language Models for Dynamic Human Activity Recognition in Healthcare Settings
Abderrazek Abid,Thanh-Cong Ho,Fakhri Karray
Main category: cs.CL
TL;DR: 该论文探讨了视觉语言模型在人类活动识别领域的应用,提出了评估方法和数据集,并与传统深度学习模型进行了比较实验。
- Motivation: 视觉语言模型在医疗健康应用中具有潜力,但在人类活动识别领域尚未充分探索,且缺乏有效的评估方法。
- Method: 引入了描述性字幕数据集,并提出了全面的评估方法来评估视觉语言模型在人类活动识别中的表现。
- Result: 通过比较实验发现,视觉语言模型在准确率方面与传统方法相当,在某些情况下甚至超越传统方法。
- Conclusion: 这项工作为视觉语言模型在智能医疗系统中的集成提供了基准,并开辟了新的可能性。
[75] REMONI: An Autonomous System Integrating Wearables and Multimodal Large Language Models for Enhanced Remote Health Monitoring
Thanh Cong Ho,Farah Kharrat,Abderrazek Abid,Fakhri Karray
Main category: cs.CL
TL;DR: REMONI是一个集成了多模态大语言模型、物联网和可穿戴设备的自主远程健康监测系统,能够自动收集生命体征、加速度计数据和视频数据,通过异常检测模块和自然语言处理组件识别患者紧急状况、活动和情绪。
- Motivation: 随着可穿戴设备的普及,远程患者监测需求增加,但现有研究在人机交互方面存在明显不足,需要更智能的交互方式来改善医疗专业人员的工作负担和医疗成本。
- Method: 系统整合多模态大语言模型、物联网和可穿戴设备,自动收集生命体征、加速度计数据和患者视频,使用异常检测模块(包括跌倒检测模型)和自然语言处理组件,通过提示工程无缝整合患者信息。
- Result: 开发了完整原型系统进行测试,实验表明系统在现实场景中具有可实施性和可扩展性,能够为医生和护士提供实时生命体征和患者状态信息。
- Conclusion: REMONI系统能够有效减少医疗专业人员的工作负担和医疗成本,通过智能代理和用户友好的Web应用实现实时健康监测。
eess.IV
[76] Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets
Jiashi Feng,Xiu Li,Jing Lin,Jiahang Liu,Gaohong Liu,Weiqiang Lou,Su Ma,Guang Shi,Qinlong Wang,Jun Wang,Zhongcong Xu,Xuanyu Yi,Zihao Yu,Jianfeng Zhang,Yifan Zhu,Rui Chen,Jinxin Chi,Zixian Du,Li Han,Lixin Huang,Kaihua Jiang,Yuhan Li,Guan Luo,Shuguang Wang,Qianyi Wu,Fan Yang,Junyang Zhang,Xuanmeng Zhang
Main category: eess.IV
TL;DR: Seed3D 1.0是一个从单张图像生成可直接用于物理仿真的3D资产的基础模型,解决了物理引擎中手动创建资产的可扩展性问题。
- Motivation: 开发具身AI代理需要可扩展的训练环境,平衡内容多样性与物理精度。现有世界模拟器面临限制:基于视频的方法缺乏实时物理反馈,而基于物理的引擎因手动资产创建成本高而面临可扩展性限制。
- Method: 开发了一个基础模型,从单张图像生成具有准确几何、对齐纹理和真实物理材质的三维资产,这些资产可直接集成到物理引擎中,最小化配置需求。
- Result: 系统能够生成具有精确几何形状、对齐纹理和真实物理材质的仿真就绪3D资产,并可扩展到完整的场景生成,通过将对象组装成连贯的环境。
- Conclusion: Seed3D 1.0通过实现可扩展的仿真就绪内容创建,为推进基于物理的世界模拟器提供了基础。
[77] Lightweight Classifier for Detecting Intracranial Hemorrhage in Ultrasound Data
Phat Tran,Enbai Kuang,Fred Xu
Main category: eess.IV
TL;DR: 本研究开发了一种基于机器学习的颅内出血自动检测方法,使用便携式超声组织搏动成像技术,在资源受限环境中替代昂贵的CT和MRI检查。
- Motivation: 创伤性脑损伤导致的颅内出血诊断面临重大挑战,传统CT和MRI检查成本高、可用性有限,特别是在资源匮乏环境中。需要开发便携、低成本的替代诊断方案。
- Method: 使用超声组织搏动成像信号,采用z-score标准化和主成分分析进行预处理,系统评估多种分类算法(概率、核方法、神经网络、集成学习)在三种特征表示空间中的性能。
- Result: 主成分分析显著提升分类器性能,集成学习方法达到98.0%的准确率和0.890的F1分数,在类别不平衡情况下有效平衡了精确率和召回率。
- Conclusion: 基于机器学习的便携式超声设备检测颅内出血在创伤性脑损伤患者中具有可行性,适用于急救医学、农村医疗和军事环境等传统成像不可用的场景。
[78] Eye-Tracking as a Tool to Quantify the Effects of CAD Display on Radiologists' Interpretation of Chest Radiographs
Daisuke Matsumoto,Tomohiro Kikuchi,Yusuke Takagi,Soichiro Kojima,Ryoma Kobayashi,Daiju Ueda,Kohei Yamamoto,Sho Kawabe,Harushi Mori
Main category: eess.IV
TL;DR: 这项试点研究使用眼动追踪技术评估边界框显示对胸部X光片解读过程中视觉搜索行为的影响,发现边界框会延长解读时间、增加病灶注视时间、减少首次注视病灶时间,并改变整体视觉搜索模式。
- Motivation: 计算机辅助检测系统在胸部X光片中广泛使用,其边界框显示可能影响放射科医生的阅读过程,但具体影响尚未量化。
- Method: 从VinDR-CXR数据集中选取180张胸部X光片,3名放射科医生在有无边界框显示条件下分别解读,使用眼动追踪设备记录眼动数据,采用线性混合模型分析各项指标。
- Result: 边界框显示使解读时间延长4.9秒,病灶注视时间增加1.3秒,首次注视病灶时间减少1.3秒,总注视路径长度增加2076像素,肺部区域覆盖率增加10.5%。
- Conclusion: 眼动追踪能够捕捉边界框显示引起的视觉搜索行为改变,证实了该方法的可行性,需要更大规模研究来确认效果并探索跨模态和临床环境的影响。
[79] Efficient Meningioma Tumor Segmentation Using Ensemble Learning
Mohammad Mahdi Danesh Pajouh,Sara Saeedi
Main category: eess.IV
TL;DR: 提出一种基于集成学习的脑膜瘤分割方法,结合三种不同架构的模型,在有限硬件条件下实现竞争性性能。
- Motivation: 脑膜瘤是最常见的原发性脑肿瘤,准确分割对治疗至关重要,但现有深度学习方法计算需求大、训练时间长,限制了在有限硬件条件下的应用。
- Method: 集成三种架构:基础SegResNet、带注意力机制的SegResNet、带注意力门控跳跃连接的双解码器U-Net(DDUNet),每个模型仅训练20个epoch。
- Result: 在BraTS-MEN 2025数据集上,集成模型在测试集上获得平均病灶级Dice分数:增强肿瘤77.30%、肿瘤核心76.37%、全肿瘤73.9%。
- Conclusion: 集成学习在有限硬件约束下仍能实现有效的脑肿瘤分割,为脑膜瘤诊断提供了实用且可访问的工具。
q-bio.NC
[80] This EEG Looks Like These EEGs: Interpretable Interictal Epileptiform Discharge Detection With ProtoEEG-kNN
Dennis Tang,Jon Donnelly,Alina Jade Barnett,Lesia Semenova,Jin Jing,Peter Hadar,Ioannis Karakis,Olga Selioutski,Kehan Zhao,M. Brandon Westover,Cynthia Rudin
Main category: q-bio.NC
TL;DR: ProtoEEG-kNN是一种可解释的机器学习模型,用于检测脑电图中的癫痫样放电,通过案例推理提供形态学和空间分布的可视化解释。
- Motivation: 现有机器学习模型在癫痫样放电检测中虽然准确率高但缺乏可解释性,医生无法理解模型推理过程,难以识别错误预测并进行干预。
- Method: 引入ProtoEEG-kNN模型,采用案例推理方法,通过比较输入EEG与训练集中相似EEG来进行推理,并提供形态学和空间分布的可视化解释。
- Result: ProtoEEG-kNN在IED检测中达到最先进准确率,且其解释性受到专家青睐。
- Conclusion: ProtoEEG-kNN在保持高准确率的同时提供了可解释性,改善了人机交互,使医生能够理解模型推理并识别错误预测。
cs.RO
[81] AURASeg: Attention Guided Upsampling with Residual Boundary-Assistive Refinement for Drivable-Area Segmentation
Narendhiran Vijayakumar,Sridevi. M
Main category: cs.RO
TL;DR: 提出AURASeg地面语义分割模型,通过残差边界细化模块和注意力渐进上采样解码器,在保持高分割精度的同时提升边界精度,在室内外环境中实现精确边界细化且不影响推理速度。
- Motivation: 现有分割模型在室内和结构化环境中难以处理细粒度特征,存在多尺度处理无效、边界细化不佳和特征表示有限等问题。
- Method: 使用CSP-Darknet骨干网络,添加残差边界细化模块(RBRM)进行精确边缘描绘,注意力渐进上采样解码器(APUD)进行强特征集成,以及轻量级空洞空间金字塔池化(ASPP-Lite)模块确保多尺度上下文提取。
- Result: 在GMRP数据集和自定义Gazebo室内数据集上,相比最先进模型,mIoU提升+1.26%,分割精度提升+1.65%。
- Conclusion: 该方法在室内外环境中都可行,能够实现精确边界细化且对推理速度影响最小。
[82] Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos
Qixiu Li,Yu Deng,Yaobo Liang,Lin Luo,Lei Zhou,Chengtang Yao,Lingqi Zeng,Zhiyuan Feng,Huizhi Liang,Sicheng Xu,Yizhong Zhang,Xi Chen,Hao Chen,Lily Sun,Dong Chen,Jiaolong Yang,Baining Guo
Main category: cs.RO
TL;DR: 提出了一种利用无标注真实人类手部活动视频预训练机器人视觉-语言-动作模型的新方法,将人类手部视为灵巧机器人末端执行器,通过自动化分析生成大规模训练数据。
- Motivation: 现有机器人数据覆盖范围有限,无法满足通用化机器人智能的需求。利用大量无脚本的真实人类手部视频可以极大扩展训练数据的多样性和规模。
- Method: 开发了全自动的人类手部活动分析方法,能够从任意人类手部视频中生成原子级活动片段及其语言描述,包含帧级3D手部运动和相机运动信息。处理了大规模第一人称视角视频,创建了包含100万片段、2600万帧的手部VLA训练数据集。
- Result: 预训练的灵巧手VLA模型在未见过的真实世界观察中表现出强大的零样本能力。在少量真实机器人动作数据上微调后,任务成功率显著提升,并能泛化到新物体。模型性能随预训练数据规模呈现良好的扩展性。
- Conclusion: 这项工作为可扩展的VLA预训练奠定了坚实基础,推动机器人朝着真正可泛化的具身智能发展。
q-bio.QM
[83] Physics-Informed Deep Learning for Improved Input Function Estimation in Motion-Blurred Dynamic [ F]FDG PET Images
Christian Salomonsen,Kristoffer K. Wickstrøm,Samuel Kuttner,Elisabeth Wetzer
Main category: q-bio.QM
TL;DR: 提出了一种基于物理信息深度学习的输入函数预测模型(PIDLIF),用于从小鼠PET图像直接估计动脉输入函数,通过整合动力学建模损失提高在图像退化情况下的鲁棒性。
- Motivation: 传统动力学建模需要准确确定动脉输入函数,这过程耗时且具有侵入性。深度学习可以直接预测输入函数,但需要提高在图像质量退化情况下的鲁棒性。
- Method: 训练物理信息深度学习模型,使用两组织室模型覆盖小鼠心肌和脑部区域,在训练过程中整合动力学建模损失,使用70个[18F]FDG dPET图像数据集。
- Result: PIDLIF模型在性能上与无物理信息损失的网络相当,但在模拟运动模糊导致的图像退化情况下,在严重退化情况下仍保持高性能,表现出改进的鲁棒性。
- Conclusion: PIDLIF模型展示了利用生理分布机制来指导深度学习网络在严重运动模糊导致的图像退化情况下预测动脉输入函数的有效性,物理约束增强了模型对分布外样本的一致性。
cs.CR
[84] An Experimental Study of Trojan Vulnerabilities in UAV Autonomous Landing
Reza Ahmari,Ahmad Mohammadi,Vahid Hemmati,Mohammed Mynuddin,Mahmoud Nabil Mahmoud,Parham Kebria,Abdollah Homaifar,Mehrdad Saif
Main category: cs.CR
TL;DR: 本研究调查了城市空中交通车辆自主导航和着陆系统的漏洞,重点关注针对深度学习模型的特洛伊木马攻击。实验显示特洛伊木马攻击导致准确率从96.4%大幅下降到73.3%。
- Motivation: 随着城市空中交通系统的发展,需要评估其自主导航和着陆系统的安全漏洞,特别是针对深度学习模型的隐蔽攻击威胁。
- Method: 使用DroNet框架评估城市自主飞行器的脆弱性,收集自定义数据集并训练模型模拟真实条件,开发评估框架识别受感染模型。
- Result: 特洛伊木马攻击导致模型准确率显著下降,从96.4%降至73.3%,证明了此类攻击对城市空中交通系统的安全威胁。
- Conclusion: 特洛伊木马攻击对城市空中交通系统构成严重安全风险,为未来增强系统韧性的研究奠定了基础。
cs.LG
[85] More Than Memory Savings: Zeroth-Order Optimization Mitigates Forgetting in Continual Learning
Wanhao Yu,Zheng Wang,Shuteng Niu,Sen Lin,Li Yang
Main category: cs.LG
TL;DR: 本文研究了零阶优化在持续学习中的应用,发现零阶优化能产生更平坦的损失景观从而减少遗忘,但会牺牲可塑性。作者提出了ZO-FC方法,结合零阶优化的稳定性和一阶优化的适应性。
- Motivation: 探索零阶优化作为解决持续学习中可塑性-稳定性-效率三难问题的新方法,特别是在内存受限的设备上。
- Method: 通过理论分析和实证研究评估零阶优化在持续学习中的表现,并提出ZO-FC方法:对单个适配器PEFT模块使用零阶优化,同时用一阶优化训练分类器。
- Result: 零阶优化增强了稳定性但削弱了可塑性,特别是在可学习分类器的情况下。ZO-FC方法在稳定性和可塑性之间取得了有效平衡,为设备端持续学习提供了实用的内存高效解决方案。
- Conclusion: 零阶优化是解决持续学习三难问题的有前景方法,ZO-FC通过巧妙结合零阶和一阶优化的优势,实现了稳定性和可塑性的良好平衡。
[86] Buffer layers for Test-Time Adaptation
Hyeongyu Kim,Geonhui Han,Dosik Hwang
Main category: cs.LG
TL;DR: 提出基于Buffer层的新范式,解决传统测试时适应方法依赖归一化层的局限性,在保持预训练模型完整性的同时提升域适应性能
- Motivation: 现有测试时适应方法主要依赖归一化层更新,但存在对小批量大小敏感、受限于预训练模型结构、对未见域泛化能力差等问题
- Method: 引入Buffer层概念,不修改模型核心参数,保持预训练主干完整性,可无缝集成到现有TTA框架中
- Result: 在缓解域偏移和增强模型鲁棒性方面优于传统方法,表现出强大的抗遗忘能力,在各种架构上实现一致的性能提升
- Conclusion: Buffer层方法有效解决了归一化层更新的根本限制,验证了在真实世界域适应场景中的有效性和通用性
[87] FairImagen: Post-Processing for Bias Mitigation in Text-to-Image Models
Zihao Fu,Ryan Brown,Shun Shao,Kai Rawal,Eoin Delaney,Chris Russell
Main category: cs.LG
TL;DR: FairImagen是一个后处理去偏框架,通过在提示嵌入上应用公平主成分分析来减少文本到图像扩散模型中的社会偏见,无需重新训练模型。
- Motivation: 现有的文本到图像扩散模型(如Stable Diffusion)往往会复制和放大社会偏见,特别是在性别和种族等人口统计属性方面,需要有效的去偏解决方案。
- Method: 使用公平主成分分析将CLIP输入嵌入投影到最小化群体特定信息的子空间,结合经验噪声注入和统一跨人口统计投影方法实现多属性同时去偏。
- Result: 在性别、种族和交叉设置上的广泛实验表明,FairImagen显著提高了公平性,在图像质量和提示保真度方面只有适度的权衡。
- Conclusion: FairImagen提供了一个简单、可扩展且模型无关的解决方案,在公平文本到图像生成方面优于现有的后处理方法。
[88] Disentangled Representation Learning via Modular Compositional Bias
Whie Jung,Dong Hoon Lee,Seunghoon Hong
Main category: cs.LG
TL;DR: 提出了一种解耦表示学习方法,通过组合性偏置和混合策略实现属性、物体及其联合解耦,无需修改目标函数或架构。
- Motivation: 现有解耦表示学习方法依赖特定因素的策略(属性学习目标或物体模型架构),当新变化因素不符合先验假设或多个因素共存时,需要重新设计架构或目标,带来显著开销。
- Method: 提出组合性偏置作为模块化归纳偏置,通过因子特定的混合策略随机重混潜在变量,使用先验损失和组合一致性损失迫使编码器发现混合策略反映的因子结构。
- Result: 在属性和物体解耦方面表现出竞争性性能,并独特地实现了全局风格和物体的联合解耦。
- Conclusion: 该方法通过简单调整混合策略即可实现属性、物体及其联合解耦,无需修改目标函数或架构,具有通用性和灵活性。
Powered by Deepseek & arXiv Daily AI Enhanced