Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Evaluation of State-of-the-Art Deep Learning Techniques for Plant Disease and Pest Detection
Saptarshi Banerjee,Tausif Mallick,Amlan Chakroborty,Himadri Nath Saha,Nityananda T. Takur
Main category: cs.CV
TL;DR: 论文综述了基于AI的植物病虫害检测方法,包括五种技术分类,并展示了现代AI方法在速度和精度上的优势。
- Motivation: 提高作物产量和减少经济损失需要更精准的病虫害检测方法。
- Method: 分类研究了五种技术:高光谱成像、非可视化技术、可视化方法、改进的深度学习架构和Transformer模型。
- Result: 现代AI方法(如HvT)在检测精度上超过99.3%,优于传统方法。
- Conclusion: 研究总结了系统设计挑战,并提出未来研究方向。
[2] ImageDDI: Image-enhanced Molecular Motif Sequence Representation for Drug-Drug Interaction Prediction
Yuqin He,Tengfei Ma,Chaoyi Li,Pengsen Ma,Hongxin Xiang,Jianmin Wang,Yiping Liu,Bosheng Song,Xiangxiang Zeng
Main category: cs.CV
TL;DR: ImageDDI框架通过结合分子图像的全局信息和功能基序的局部序列表示,提升了药物相互作用预测的准确性。
- Motivation: 现有方法在药物相互作用(DDI)预测中受限于功能基序表示学习的不足,而DDI主要由基序相互作用引起。
- Method: ImageDDI将药物分子分解为功能基序序列,并通过基于Transformer的编码器嵌入,同时利用分子图像的全局信息增强空间表示。
- Result: 实验表明,ImageDDI在多个数据集上优于现有方法,并在2D和3D图像增强场景中表现优异。
- Conclusion: ImageDDI通过动态融合功能基序序列和分子图像信息,显著提升了DDI预测的性能。
[3] Designing Object Detection Models for TinyML: Foundations, Comparative Analysis, Challenges, and Emerging Solutions
Christophe EL Zeinaty,Wassim Hamidouche,Glenn Herrou,Daniel Menard
Main category: cs.CV
TL;DR: 这篇论文综述了在资源受限的TinyML设备上优化目标检测(OD)模型的技术,填补了现有文献的空白。
- Motivation: 随着物联网(IoT)设备的快速增长,如何在低功耗微控制器上高效部署深度学习OD模型成为关键挑战。
- Method: 论文详细分析了量化、剪枝、知识蒸馏和神经架构搜索等优化技术,并探讨了理论与实际应用的结合。
- Result: 比较了现有OD模型在微控制器设备上的关键性能指标(KPIs),展示了预测精度和效率的成熟度。
- Conclusion: 论文为边缘人工智能部署提供了实用指南,并建立了一个公共仓库以跟踪该领域的快速发展。
[4] Neural Tangent Knowledge Distillation for Optical Convolutional Networks
Jinlin Xiang,Minho Choi,Yubo Zhang,Zhihao Zhou,Arka Majumdar,Eli Shlizerman
Main category: cs.CV
TL;DR: 提出了一种任务无关且硬件无关的流程,通过Neural Tangent Knowledge Distillation(NTKD)提升混合光学神经网络的性能,解决了训练精度差距和硬件实现误差问题。
- Motivation: 混合光学神经网络(ONNs)在实时、功耗受限系统中具有能效优势,但存在训练精度差距和硬件实现误差问题,限制了其应用。
- Method: 提出任务无关和硬件无关的流程,包括预训练精度估计和NTKD方法,用于训练和硬件实现后的微调。
- Result: 在多个数据集和硬件配置上验证,流程显著提升了ONNs的性能,支持实际部署。
- Conclusion: 该流程为混合光学神经网络的广泛应用提供了可行方案。
[5] MAViS: A Multi-Agent Framework for Long-Sequence Video Storytelling
Qian Wang,Ziqi Huang,Ruoxi Jia,Paul Debevec,Ning Yu
Main category: cs.CV
TL;DR: MAViS是一个多智能体协作框架,用于生成长序列视频故事,解决了现有框架在辅助能力、视觉质量和表现力上的不足。
- Motivation: 现有长序列视频生成框架存在辅助能力差、视觉质量不佳和表现力有限的问题,MAViS旨在解决这些局限性。
- Method: MAViS通过多阶段协作(如脚本编写、镜头设计等),遵循3E原则(探索、检查、增强),并优化脚本与生成工具的兼容性。
- Result: 实验表明,MAViS在辅助能力、视觉质量和表现力上达到最优,并能扩展支持多种生成模型。
- Conclusion: MAViS是首个提供多模态设计输出的框架,仅需简短用户提示即可生成高质量视频故事。
[6] MuGa-VTON: Multi-Garment Virtual Try-On via Diffusion Transformers with Prompt Customization
Ankan Deria,Dwarikanath Mahapatra,Behzad Bozorgtabar,Mohna Chakraborty,Snehashis Chakraborty,Sudipta Roy
Main category: cs.CV
TL;DR: MuGa-VTON是一个统一的多服装虚拟试穿框架,通过联合建模上下服装和个人身份,解决了现有方法在真实性和灵活性上的不足。
- Motivation: 现有虚拟试穿方法通常分开处理上下服装,依赖复杂预处理,且难以保留个人特征(如纹身、配饰和体型),导致真实感不足。
- Method: 提出三个关键模块:GRM(服装语义捕捉)、PRM(身份和姿态编码)和A-DiT(扩散变换器融合模块),支持基于提示的定制。
- Result: 在VITON-HD和DressCode基准测试中,MuGa-VTON在定性和定量评估上均优于现有方法,生成高保真且保留身份的结果。
- Conclusion: MuGa-VTON为虚拟试穿提供了一种高效、灵活的解决方案,适用于实际应用。
[7] CObL: Toward Zero-Shot Ordinal Layering without User Prompting
Aneel Damaraju,Dean Hazineh,Todd Zickler
Main category: cs.CV
TL;DR: 论文提出了一种名为CObL的扩散模型,用于从图像中推断出由遮挡顺序排列的对象层组成的场景表示,能够零样本泛化到真实世界场景。
- Motivation: 视觉任务需要将像素分组为对象并理解其空间关系,尤其是遮挡关系。
- Method: 使用扩散模型架构CObL,并行生成对象层,利用Stable Diffusion作为先验,并通过推理时指导确保层合成回输入图像。
- Result: CObL在合成数据上训练后,能零样本泛化到真实世界场景,无需用户提示或预先知道对象数量。
- Conclusion: CObL在无监督对象中心表示学习中表现出色,突破了训练环境的限制。
[8] Re:Verse -- Can Your VLM Read a Manga?
Aaditya Baranwal,Madhav Kataria,Naitik Agrawal,Yogesh S Rawat,Shruti Vyas
Main category: cs.CV
TL;DR: 当前视觉语言模型(VLMs)在序列视觉叙事处理中存在表面识别与深层叙事推理的显著差距。通过漫画叙事的全面研究,发现现有大模型虽擅长单幅画面解析,但在时间因果性和跨画面连贯性上系统性失败。本文提出新评估框架,结合多模态标注和跨模态嵌入分析,揭示VLMs的局限性。
- Motivation: 揭示当前VLMs在长叙事理解中的不足,特别是时间因果性和跨画面连贯性,为提升模型叙事智能提供基础。
- Method: 1. 多模态标注协议;2. 多推理范式评估;3. 跨模态相似性分析。应用于308个标注面板的《Re:Zero》漫画,评估生成叙事、对话上下文和时间推理。
- Result: 当前模型缺乏真实故事级智能,尤其在非线性叙事、角色一致性和长序列因果推理上表现不佳。
- Conclusion: 本文为评估叙事智能奠定基础,并提供了提升多模态模型深层序列理解能力的实用方法。
[9] VISOR: Visual Input-based Steering for Output Redirection in Vision-Language Models
Mansi Phute,Ravikumar Balakrishnan
Main category: cs.CV
TL;DR: VISOR是一种通过优化视觉输入实现行为控制的新方法,无需侵入模型内部,适用于所有VLM服务模式,且在安全性和隐蔽性上优于现有方法。
- Motivation: 现有VLM行为控制方法(如系统提示)易检测且效果有限,而基于激活的转向向量需要侵入模型内部,不适用于API服务和闭源部署。VISOR旨在解决这些问题。
- Method: VISOR通过设计通用的转向图像,诱导目标激活模式,仅通过视觉输入实现行为控制。
- Result: 在LLaVA-1.5-7B上验证,VISOR在拒绝、奉承和生存本能任务中表现优异,单张150KB图像即可匹配转向向量性能,且在某些任务中表现更优。
- Conclusion: VISOR为多模态模型控制提供了新思路,同时揭示了视觉转向攻击的安全漏洞,呼吁开发防御措施。
[10] Training Kindai OCR with parallel textline images and self-attention feature distance-based loss
Anh Le,Asanobu Kitamoto
Main category: cs.CV
TL;DR: 利用平行文本行图像(原始近代文本与现代字体对)增强OCR训练数据集,通过距离目标函数减少自注意力特征差距,降低字符错误率。
- Motivation: 近代文献转录任务耗时且数据稀缺,限制了OCR系统的训练效果。
- Method: 引入基于距离的目标函数(欧氏距离和MMD)以减少平行图像对的自注意力特征差距。
- Result: 字符错误率分别降低2.23%(欧氏距离)和3.94%(MMD),自注意力表征质量提升。
- Conclusion: 该方法有效提升历史文献OCR性能,解决了数据稀缺问题。
[11] Calibration Attention: Instance-wise Temperature Scaling for Vision Transformers
Wenhao Liang,Wei Emma Zhang,Lin Yue,Miao Xu,Olaf Maennel,Weitong Chen
Main category: cs.CV
TL;DR: 论文提出了一种名为CalAttn的模块,通过学习每个实例的自适应温度,显著降低了Vision Transformers的校准误差,且不影响准确性。
- Motivation: 在风险敏感应用中,Vision Transformers的概率校准至关重要,而现有的全局温度缩放方法存在局限性。
- Method: CalAttn模块直接从ViT的CLS令牌中学习每个实例的自适应温度,无需额外验证集。
- Result: 在多个数据集上,CalAttn将校准误差降低了4倍,且仅增加不到0.1%的参数。
- Conclusion: CalAttn是一种简单、高效且架构无关的方法,能够提供更可信的概率,同时保持准确性。
[12] Boosting Generic Semi-Supervised Medical Image Segmentation via Diverse Teaching and Label Propagation
Wei Li,Pengcheng Zhou,Linye Ma,Wenyi Zhao,Huihua Yang
Main category: cs.CV
TL;DR: 提出了一种通用框架DTLP-Net,通过多样化的教师模型和标签传播技术,解决了医学图像分割中标注不足和领域偏移问题。
- Motivation: 医学图像分割中标注不足和领域偏移是常见挑战,现有方法难以同时处理这些问题,导致性能受限。
- Method: 采用DTLP-Net框架,包含一个学生模型和两个多样化教师模型,结合数据增强和标签传播技术。
- Result: 在五个基准数据集上显著优于现有方法,验证了框架的有效性。
- Conclusion: DTLP-Net为半监督医学图像分割提供了一种通用且高效的解决方案。
[13] Unlocking the Potential of Diffusion Priors in Blind Face Restoration
Yunqi Miao,Zhiyu Qu,Mingqi Gao,Changrui Chen,Jifei Song,Jungong Han,Jiankang Deng
Main category: cs.CV
TL;DR: FLIPNET通过切换恢复和降级模式,解决了扩散模型在盲脸恢复中的适应性差距,提升了真实性和保真度。
- Motivation: 扩散模型在盲脸恢复中存在适应性差距,主要源于高质量与低质量图像、合成与真实图像之间的差异。
- Method: FLIPNET采用统一网络,切换恢复模式(整合BFR特征和面部嵌入)和降级模式(合成真实降级图像)。
- Result: 在基准数据集上,FLIPNET在真实性和保真度上优于现有方法,且能更好地模拟真实降级。
- Conclusion: FLIPNET有效解决了扩散模型在盲脸恢复中的适应性问题,提升了性能。
[14] Think as Cardiac Sonographers: Marrying SAM with Left Ventricular Indicators Measurements According to Clinical Guidelines
Tuo Liu,Qinghan Yang,Yu Zhang,Rongjun Ge,Yang Chen,Guangquan Zhou
Main category: cs.CV
TL;DR: 论文提出AutoSAME框架,结合SAM的视觉理解能力,同时完成分割和关键点定位任务,优化左心室指标测量。
- Motivation: 现有算法在左心室指标测量中因训练数据少而难以泛化,且现有视觉基础模型(如SAM)无法识别关键解剖点。
- Method: 结合SAM的分割能力与关键点定位任务,提出FCBA和SGPA模块优化特征表示和提示嵌入生成。
- Result: 实验证明AutoSAME在分割、关键点定位和指标测量上优于现有方法。
- Conclusion: AutoSAME框架有效结合分割与定位任务,提升左心室指标测量的准确性和一致性。
[15] Superclass-Guided Representation Disentanglement for Spurious Correlation Mitigation
Chenruo Liu,Hongjun Liu,Zeyu Lai,Yiqiu Shen,Chen Zhao,Qi Lei
Main category: cs.CV
TL;DR: 提出一种利用类标签的语义结构(超类信息)减少对虚假特征依赖的方法,无需标注源样本即可增强群体鲁棒性。
- Motivation: 现有方法依赖辅助标注或假设源域和目标域群体相同,这在现实中不切实际。
- Method: 利用预训练视觉语言模型引导的梯度注意力,分离超类相关和不相关特征,并鼓励使用所有超类相关特征进行预测。
- Result: 在多样化数据集上显著优于基线方法,定量和定性结果均有提升。
- Conclusion: 该方法无需标注即可有效应对复杂虚假相关性,提升领域泛化能力。
[16] RealisMotion: Decomposed Human Motion Control and Video Generation in the World Space
Jingyun Liang,Jingkai Zhou,Shikai Li,Chenjie Cao,Lei Sun,Yichen Qian,Weihua Chen,Fan Wang
Main category: cs.CV
TL;DR: 提出了一种分解式人类运动控制与视频生成框架,实现对视频元素的灵活组合控制。
- Motivation: 现有方法缺乏对视频关键元素的独立控制,如前景、背景、轨迹和动作模式。
- Method: 构建3D坐标系进行运动编辑,结合轨迹控制和动作生成,利用扩散变换模型生成视频。
- Result: 在基准数据集和实际案例中验证了方法在可控性和视频质量上的优越性。
- Conclusion: 该方法实现了对视频元素的灵活控制,生成高质量视频。
[17] DocThinker: Explainable Multimodal Large Language Models with Rule-based Reinforcement Learning for Document Understanding
Wenwen Yu,Zhibo Yang,Yuliang Liu,Xiang Bai
Main category: cs.CV
TL;DR: DocThinker提出了一种基于规则的强化学习框架,用于动态推理时间推理,解决了多模态大语言模型在文档理解中的黑盒问题,提高了可解释性和适应性。
- Motivation: 现有方法使用固定的思维链推理和监督微调,存在灾难性遗忘、适应性差和跨领域任务泛化能力有限的问题。
- Method: DocThinker通过策略学习自主优化推理策略,生成可解释的中间结果,并结合多目标规则奖励和KL约束优化。
- Result: 在多个基准测试中,DocThinker显著提升了泛化能力,并生成更可解释的推理步骤。
- Conclusion: 强化学习是增强多模态大语言模型文档理解可解释性和适应性的有效替代方案。
[18] QueryCraft: Transformer-Guided Query Initialization for Enhanced Human-Object Interaction Detection
Yuxiao Wang,Wolin Liang,Yu Lei,Weiying Xue,Nan Zhuang,Qi Liu
Main category: cs.CV
TL;DR: QueryCraft通过引入语义先验和跨模态Transformer(ACTOR)提升HOI检测性能,结合PDQD解码器优化查询初始化,实现SOTA结果。
- Motivation: DETR-based方法在HOI检测中因随机初始化查询缺乏语义信息导致性能不佳,需改进查询初始化。
- Method: 提出QueryCraft框架,包含ACTOR(跨模态Transformer)和PDQD解码器,分别提取动作相关特征和优化对象查询。
- Result: 在HICO-Det和V-COCO基准测试中达到SOTA性能,并展示强泛化能力。
- Conclusion: QueryCraft通过语义驱动的查询初始化显著提升HOI检测性能,为未来研究提供新方向。
[19] Yan: Foundational Interactive Video Generation
Yan Team
Main category: cs.CV
TL;DR: Yan是一个交互式视频生成的基础框架,涵盖从模拟、生成到编辑的整个流程,包括三个核心模块:AAA级模拟、多模态生成和多粒度编辑。
- Motivation: 推动交互式视频生成从孤立功能向全面的AI驱动创作范式发展,为下一代创意工具、媒体和娱乐铺路。
- Method: 1. AAA级模拟:采用高压缩、低延迟的3D-VAE和KV缓存去噪推理实现实时模拟。2. 多模态生成:通过分层自回归字幕方法将游戏知识注入多模态视频扩散模型,实现可控的实时无限视频生成。3. 多粒度编辑:通过混合模型解耦交互模拟与视觉渲染,支持文本驱动的多粒度编辑。
- Result: 模型在跨域文本和视觉提示下表现出强泛化能力,能灵活混合风格和机制。
- Conclusion: Yan通过整合三大模块,为交互式视频生成提供了全面的解决方案,推动了AI驱动的创作范式发展。
[20] Transferable Model-agnostic Vision-Language Model Adaptation for Efficient Weak-to-Strong Generalization
Jihwan Park,Taehoon song,Sanghyeok Lee,Miso Choi,Hyunwoo J. Kim
Main category: cs.CV
TL;DR: TransMiter是一种轻量级适配器,无需反向传播即可提升视觉语言模型的性能,并能跨模型高效迁移知识。
- Motivation: 随着视觉语言模型规模和复杂度的增加,微调成本高昂,需要一种方法能够复用‘弱’模型的适应知识以高效增强‘强’模型。
- Method: 提出TransMiter,通过无监督方式捕捉预训练与微调模型之间的知识差距,并设计为轻量级结构,仅需少量层。
- Result: 实验表明,TransMiter能高效迁移适应知识,保持泛化能力,并在少量标注数据下性能超过微调的强模型。
- Conclusion: TransMiter为视觉语言模型的适应知识迁移提供了一种高效且通用的解决方案。
[21] SelfHVD: Self-Supervised Handheld Video Deblurring for Mobile Phones
Honglei Xu,Zhilu Zhang,Junjie Fan,Xiaohe Wu,Wangmeng Zuo
Main category: cs.CV
TL;DR: 论文提出了一种自监督的手持视频去模糊方法,通过提取视频中的清晰线索作为训练标签,并结合自增强和空间一致性约束,显著提升了去模糊效果。
- Motivation: 手持手机拍摄视频常因抖动导致模糊,现有方法在真实场景中表现不佳,存在训练与测试数据的模糊域差距问题。
- Method: 1. 提取视频中的清晰线索作为模糊帧的错位标签;2. 提出自增强视频去模糊方法(SEVD)生成高质量配对数据;3. 提出自约束空间一致性维护(SCSCM)防止输出帧位置偏移。
- Result: 在合成和真实手持视频数据集上,该方法显著优于现有自监督方法。
- Conclusion: 提出的自监督方法有效解决了手持视频去模糊问题,代码和数据集已公开。
[22] Neural Artistic Style and Color Transfer Using Deep Learning
Justin London
Main category: cs.CV
TL;DR: 该论文提出了一种结合神经艺术风格迁移与颜色传递的方法,利用KL散度评估多种颜色传递算法的效果。
- Motivation: 通过结合神经艺术风格迁移和颜色传递技术,增强艺术表达和图像处理能力,应用于艺术、设计和影视领域。
- Method: 使用KL散度评估Reinhard全局颜色传递、IDT、IDT with regrain、Cholesky和PCA等算法的颜色和亮度直方图匹配效果,并估计颜色通道核密度。
- Result: 通过实验评估了不同算法在风格到内容传递中的KL散度和颜色直方图表现。
- Conclusion: 该方法为艺术风格迁移和颜色传递提供了量化评估工具,有助于优化图像处理效果。
[23] Hierarchical Visual Prompt Learning for Continual Video Instance Segmentation
Jiahua Dong,Hui Yin,Wenqi Liang,Hanbin Zhao,Henghui Ding,Nicu Sebe,Salman Khan,Fahad Shahbaz Khan
Main category: cs.CV
TL;DR: 提出了一种新的分层视觉提示学习(HVPL)模型,用于解决视频实例分割中类别固定和灾难性遗忘问题。
- Motivation: 现有视频实例分割方法假设类别固定且容易遗忘旧类别,无法适应新类别的持续学习。
- Method: 设计了帧级和视频级的任务特定提示,结合正交梯度校正模块和视频上下文解码器,以减少遗忘。
- Result: HVPL模型在实验中表现优于基线方法。
- Conclusion: HVPL通过分层提示学习有效解决了灾难性遗忘问题,提升了视频实例分割的性能。
[24] AME: Aligned Manifold Entropy for Robust Vision-Language Distillation
Guiming Cao,Yuming Ou
Main category: cs.CV
TL;DR: 论文提出了一种名为AME的方法,通过熵最小化在多模态共享流形上实现鲁棒的视觉-语言知识蒸馏,适用于低数据场景。
- Motivation: 解决视觉-语言知识蒸馏中因数据不足导致的泛化能力差问题,特别是在高预测不确定性的边界样本上。
- Method: AME通过重新配置共享流形,利用投影函数桥接多模态数据,实现跨模态特征表示的结构压缩,无需修改主干网络。
- Result: 实验表明,AME在多种蒸馏架构和训练设置下均能提升泛化性能,且理论分析显示其能缩小泛化误差界限。
- Conclusion: AME作为一种即插即用模块,适用于多种视觉-语言蒸馏框架,显著提升了低数据场景下的知识蒸馏效果。
[25] Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation
Xin Wang,Yin Guo,Jiamin Xia,Kaiyu Zhang,Niranjan Balu,Mahmud Mossa-Basha,Linda Shapiro,Chun Yuan
Main category: cs.CV
TL;DR: 本文提出了一种统一的语义框架,支持源可访问和源自由的医学图像分割域适应,通过构建域无关的概率流形实现自适应,无需手工策略。
- Motivation: 现有方法在源可访问和源自由设置间存在设计分歧,缺乏通用的解剖知识构建。
- Method: 模型学习域无关概率流形作为解剖规律全局空间,将图像内容解耦为规范解剖和空间变换。
- Result: 在心脏和腹部数据集上取得最优结果,源自由性能接近源可访问性能。
- Conclusion: 框架具有强解释性,通过流形遍历实现平滑形状操作。
[26] Learning Generalizable and Efficient Image Watermarking via Hierarchical Two-Stage Optimization
Ke Liu,Xuanhan Wang,Qilong Zhang,Lianli Gao,Jingkuan Song
Main category: cs.CV
TL;DR: 提出了一种名为HiWL的分层水印学习方法,通过两阶段优化同时满足水印的不可见性、鲁棒性和广泛适用性。
- Motivation: 现有方法难以同时满足水印的不可见性、鲁棒性和广泛适用性,HiWL旨在解决这一问题。
- Method: 采用两阶段优化:第一阶段通过分布对齐学习建立共同潜在空间,第二阶段通过广义水印表示学习分离水印与图像内容。
- Result: 实验表明,HiWL在提取准确率上比现有方法高7.6%,且处理10万张图像仅需8秒。
- Conclusion: HiWL在满足水印三大标准的同时,显著提升了性能,具有广泛的应用潜力。
[27] MMIF-AMIN: Adaptive Loss-Driven Multi-Scale Invertible Dense Network for Multimodal Medical Image Fusion
Tao Luo,Weihua Xu
Main category: cs.CV
TL;DR: 本文提出了一种新的多模态医学图像融合方法MMIF-AMIN,通过可逆密集网络和多尺度互补特征提取模块,结合自适应损失函数,显著提升了融合效果。
- Motivation: 多模态医学图像融合(MMIF)旨在整合不同模态的图像以提供更全面的诊断信息,但如何同时捕捉独特和互补信息是主要挑战。
- Method: 采用可逆密集网络(IDN)进行无损特征提取,设计多尺度互补特征提取模块(MCFEM)结合混合注意力机制和Transformer,并引入自适应损失函数。
- Result: 实验表明,MMIF-AMIN在定量和定性分析中均优于九种现有方法,消融实验验证了各模块的有效性。
- Conclusion: MMIF-AMIN不仅在医学图像融合中表现优异,还可推广至其他图像融合任务。
[28] PADReg: Physics-Aware Deformable Registration Guided by Contact Force for Ultrasound Sequences
Yimeng Geng,Mingyang Zhao,Fan Xu,Guanglin Cao,Gaofeng Meng,Hongbin Liu
Main category: cs.CV
TL;DR: PADReg提出了一种基于接触力的物理感知变形配准框架,用于超声图像配准,显著提高了配准精度和解剖对齐效果。
- Motivation: 超声图像变形配准在捕捉生物力学特性和提高疾病诊断准确性方面至关重要,但现有方法在大变形下表现不佳,缺乏物理可解释性。
- Method: PADReg利用机器人超声系统测量的接触力作为物理先验,构建像素级刚度图,并通过轻量级物理感知模块估计变形场。
- Result: 实验表明,PADReg的HD95为12.90,比现有方法提高了21.34%。
- Conclusion: PADReg通过引入物理约束,显著提升了超声图像配准的准确性和解剖对齐效果。
[29] ROD: RGB-Only Fast and Efficient Off-road Freespace Detection
Tong Sun,Hongliang Ye,Jilin Mei,Liang Chen,Fangzhou Zhao,Leiqiang Zong,Yu Hu
Main category: cs.CV
TL;DR: 本文提出了一种仅使用RGB图像的越野自由空间检测方法ROD,避免了LiDAR数据的高计算需求,实现了更高的实时性和精度。
- Motivation: 越野场景中自由空间检测因边界模糊而更具挑战性,现有多模态方法因计算量大无法满足实时需求。
- Method: 采用预训练的Vision Transformer提取RGB图像特征,并设计轻量高效的解码器。
- Result: ROD在ORFD和RELLIS-3D数据集上达到新SOTA,推理速度达50 FPS。
- Conclusion: ROD证明了仅用RGB数据即可高效实现越野自由空间检测,适合实时应用。
[30] Subjective and Objective Quality Assessment of Banding Artifacts on Compressed Videos
Qi Zheng,Li-Heng Chen,Chenlong He,Neil Berkbeck,Yilin Wang,Balu Adsumilli,Alan C. Bovik,Yibo Fan,Zhengzhong Tu
Main category: cs.CV
TL;DR: 论文提出了一种新的无参考视频质量评估方法CBAND,用于解决视频压缩中的带状伪影问题,并创建了一个新的开放视频数据集LIVE-YT-Banding。
- Motivation: 带状伪影严重影响高清视频的感知质量,但现有数据集仅限于静态图像,无法捕捉时间动态。因此,需要系统性研究带状伪影的视频质量评估问题。
- Method: 创建了包含160个视频的LIVE-YT-Banding数据集,收集了7,200条主观评价。提出了一种基于深度神经网络嵌入的无参考视频质量评估方法CBAND。
- Result: CBAND在带状伪影预测性能上显著优于现有方法,且计算速度更快。此外,CBAND可作为可微分损失函数优化视频去带状伪影模型。
- Conclusion: CBAND是一种高效且有效的带状伪影评估方法,LIVE-YT-Banding数据集为相关研究提供了宝贵资源。
[31] SafeFix: Targeted Model Repair via Controlled Image Generation
Ouyang Xu,Baoming Zhang,Ruiyu Mao,Yunhui Guo
Main category: cs.CV
TL;DR: 论文提出了一种针对视觉识别模型中罕见子群体错误的修复方法,通过条件文本生成图像和视觉语言模型过滤生成样本,显著减少了模型错误。
- Motivation: 现有方法依赖手动设计提示生成合成图像,易导致分布偏移和语义错误,难以有效修复模型。
- Method: 结合可解释的失败归因流程,使用条件文本生成图像模型生成目标图像,并通过大型视觉语言模型过滤样本以确保质量和语义一致性。
- Result: 实验表明,该方法显著减少了罕见子群体相关的错误,提高了模型鲁棒性。
- Conclusion: 提出的针对性修复策略有效提升了模型性能,且未引入新错误。
[32] Adaptive Confidence-Wise Loss for Improved Lens Structure Segmentation in AS-OCT
Zunjie Xiao,Xiao Wu,Tianhang Liu,Lingxi Hu,Yinling Zhang,Xiaoqing Zhang,Risa Higashita,Jiang Liu
Main category: cs.CV
TL;DR: 论文提出了一种自适应置信度损失(ACW)方法,用于优化眼内透镜(IOL)结构分割,通过动态调整置信度阈值和区域加权损失,显著提升了分割性能。
- Motivation: 现有深度分割网络在交叉熵损失下对所有像素平等加权,忽略了透镜结构子区域的不均匀性和边界区域的分割校准问题。专家标注时对不同子区域的置信度不同,这启发了ACW损失的设计。
- Method: 提出ACW损失,将透镜结构子区域按置信度阈值分组,并应用区域加权损失;设计自适应置信度阈值优化算法;提出边界预期校准误差(BECE)新指标。
- Result: 在临床AS-OCT数据集和其他多结构数据集上,ACW显著优于其他分割损失方法,如IoU提升6.13%,DSC增加4.33%,BECE降低4.79%。
- Conclusion: ACW损失通过利用专家标注置信度先验,有效提升了透镜结构分割的准确性和校准性能。
[33] Bridging the Gap: A Framework for Real-World Video Deepfake Detection via Social Network Compression Emulation
Andrea Montibeller,Dasara Shullani,Daniele Baracchi,Alessandro Piva,Giulia Boato
Main category: cs.CV
TL;DR: 提出了一种模拟社交网络视频共享管道的框架,用于生成压缩视频数据以改进深度伪造检测器的泛化能力。
- Motivation: AI生成视频在社交网络上的普及导致深度伪造检测器在真实场景中表现不佳,主要原因是平台专有压缩破坏了低级法医线索。
- Method: 通过估计少量上传视频的压缩和调整参数,构建本地模拟器,无需直接API访问即可生成平台特定的压缩数据。
- Result: 实验表明,模拟数据与真实上传视频的退化模式高度匹配,检测器在模拟数据上微调后性能接近真实数据训练的结果。
- Conclusion: 该框架为实验室训练和真实部署之间的差距提供了可扩展的解决方案,尤其在压缩视频内容领域具有实际意义。
[34] SHREC 2025: Retrieval of Optimal Objects for Multi-modal Enhanced Language and Spatial Assistance (ROOMELSA)
Trong-Thuan Nguyen,Viet-Tham Huynh,Quang-Thuc Nguyen,Hoang-Phuc Nguyen,Long Le Bao,Thai Hoang Minh,Minh Nguyen Anh,Thang Nguyen Tien,Phat Nguyen Thuan,Huy Nguyen Phong,Bao Huynh Thai,Vinh-Tiep Nguyen,Duc-Vu Nguyen,Phu-Hoa Pham,Minh-Huy Le-Hoang,Nguyen-Khang Le,Minh-Chinh Nguyen,Minh-Quan Ho,Ngoc-Long Tran,Hien-Long Le-Hoang,Man-Khoi Tran,Anh-Duong Tran,Kim Nguyen,Quan Nguyen Hung,Dat Phan Thanh,Hoang Tran Van,Tien Huynh Viet,Nhan Nguyen Viet Thien,Dinh-Khoi Vo,Van-Loc Nguyen,Trung-Nghia Le,Tam V. Nguyen,Minh-Triet Tran
Main category: cs.CV
TL;DR: ROOMELSA是一个新的基准测试,旨在评估系统在复杂场景中通过自然语言描述检索3D模型的能力,包含大量场景和查询。
- Motivation: 现实场景中3D检索系统需要处理复杂、模糊的描述,而现有系统多针对简单场景设计,因此需要新的基准测试。
- Method: ROOMELSA通过全景房间图像中的特定区域和自然语言查询,从大型数据库中检索对应的3D模型。
- Result: 实验表明,粗粒度对象检索已基本解决,但细粒度检索仍具挑战性,仅少数模型表现优异。
- Conclusion: ROOMELSA为提升真实世界3D识别系统的鲁棒性提供了新基准,强调了视觉与语言理解的紧密结合。
[35] DiffPose-Animal: A Language-Conditioned Diffusion Framework for Animal Pose Estimation
Tianyu Xiong,Dayi Tan,Wei Tian
Main category: cs.CV
TL;DR: DiffPose-Animal是一种基于扩散模型的动物姿态估计新方法,利用语言模型提取解剖学先验,并通过扩散解码器逐步优化姿态预测。
- Motivation: 动物姿态估计在生态监测和行为分析中具有重要意义,但由于物种形态多样性和数据稀缺性,传统方法面临挑战。
- Method: 提出DiffPose-Animal框架,将姿态估计重新定义为扩散模型的去噪过程,结合语言模型提取的解剖学先验和图像特征。
- Result: 在公开数据集上验证了方法的有效性,尤其在物种多样性和遮挡情况下表现优异。
- Conclusion: DiffPose-Animal通过扩散模型和语言模型的结合,显著提升了动物姿态估计的鲁棒性和泛化能力。
[36] Region-Adaptive Video Sharpening via Rate-Perception Optimization
Yingxue Pang,Shijie Zhao,Mengxi Guo,Junlin Li,Li Zhang
Main category: cs.CV
TL;DR: RPO-AdaSharp是一种端到端的区域自适应视频锐化模型,旨在优化锐化强度和比特率分配。
- Motivation: 传统均匀锐化强度忽略了纹理变化,导致视频质量下降,同时增加了比特率,缺乏优化比特分配的技术。
- Method: 利用编码树单元(CTU)分区掩码作为先验信息,指导并约束增加的比特分配。
- Result: 实验证明模型在定性和定量上均有效。
- Conclusion: RPO-AdaSharp在视频锐化和比特率优化方面表现出色。
[37] MonoPartNeRF:Human Reconstruction from Monocular Video via Part-Based Neural Radiance Fields
Yao Lu,Jiawei Li,Ming Jiang
Main category: cs.CV
TL;DR: MonoPartNeRF提出了一种新的单目动态人体渲染框架,通过双向变形模型和部分姿态嵌入机制,解决了复杂姿态变化和遮挡恢复问题,显著提升了渲染质量。
- Motivation: 现有方法在复杂姿态变化和单目设置下的遮挡恢复方面表现不佳,导致边界过渡不自然和遮挡区域重建不准确。
- Method: 提出双向变形模型结合刚性和非刚性变换,引入参数化表面-时间空间,结合部分姿态嵌入机制和关键帧姿态检索,通过注意力机制建模动态纹理变化。
- Result: 在ZJU-MoCap和MonoCap数据集上,MonoPartNeRF在复杂姿态和遮挡条件下显著优于现有方法,实现了更好的关节对齐、纹理保真度和结构连续性。
- Conclusion: MonoPartNeRF通过创新的变形和姿态建模方法,有效提升了单目动态人体渲染的质量和鲁棒性。
[38] Identity-Preserving Aging and De-Aging of Faces in the StyleGAN Latent Space
Luis S. Luevano,Pavel Korshunov,Sebastien Marcel
Main category: cs.CV
TL;DR: 提出一种基于StyleGAN2潜在空间编辑的方法,通过支持向量建模和特征选择实现人脸年龄变换,同时确保身份保留。
- Motivation: 现有方法依赖条件生成模型,训练复杂且难以保证身份一致性,需改进。
- Method: 利用StyleGAN2潜在空间编辑,通过支持向量建模和特征选择找到身份保留子空间,并估计年龄变换参数。
- Result: 生成公开数据集,可用于跨年龄人脸识别和合成图像检测的基准测试。
- Conclusion: 方法简单实用,能有效实现年龄变换并保留身份,提供公开数据集和代码。
[39] Revisiting Efficient Semantic Segmentation: Learning Offsets for Better Spatial and Class Feature Alignment
Shi-Chen Zhang,Yunheng Li,Yu-Huan Wu,Qibin Hou,Ming-Ming Cheng
Main category: cs.CV
TL;DR: 论文提出了一种双分支偏移学习范式(OffSeg),通过动态优化类别表示和图像特征,解决了现有高效语义分割方法中类别与特征不对齐的问题。
- Motivation: 现有轻量级语义分割方法因逐像素分类范式导致类别表示与图像特征不对齐,限制了性能。
- Method: 提出耦合双分支偏移学习范式,动态学习特征和类别偏移,无需额外架构改动即可应用于现有方法。
- Result: 在四个数据集上实验表明,OffSeg显著提升性能(如ADE20K上提升2.7% mIoU),仅需少量额外参数。
- Conclusion: 偏移学习范式有效解决了高效语义分割中的特征对齐问题,且易于集成到现有方法中。
[40] TARA: Token-Aware LoRA for Composable Personalization in Diffusion Models
Yuqi Peng,Lingtao Zheng,Yufeng Yang,Yi Huang,Mingfu Yan,Jianzhuang Liu,Shifeng Chen
Main category: cs.CV
TL;DR: 论文提出了一种名为TARA的方法,解决了多概念文本到图像生成中LoRA模块的干扰和空间错位问题,通过引入令牌掩码和训练目标,实现了高效的多概念组合。
- Motivation: 现有基于LoRA的方法在多概念生成时存在身份缺失和视觉特征泄漏问题,需要解决令牌干扰和空间错位。
- Method: 提出Token-Aware LoRA (TARA),引入令牌掩码避免模块干扰,并通过训练目标对齐令牌注意力与概念区域。
- Result: 实验表明TARA能高效组合多概念,避免模块干扰,保留每个概念的视觉身份。
- Conclusion: TARA为多概念文本到图像生成提供了一种高效且无需训练的解决方案。
[41] 3DFroMLLM: 3D Prototype Generation only from Pretrained Multimodal LLMs
Noor Ahmed,Cameron Braunstein,Steffen Eger,Eddy Ilg
Main category: cs.CV
TL;DR: 3DFroMLLM框架通过多模态大语言模型生成3D对象原型,无需额外训练数据或详细用户指令,提升了空间推理能力。
- Motivation: 现有MLLMs在空间推理方面表现有限,需要改进。
- Method: 采用设计师、编码器和视觉检查器的代理流程,通过细化循环生成3D原型。
- Result: 生成的图像在分类预训练任务中表现优于之前方法15%,并显著提升细粒度视觉语言模型性能(55%准确率提升)。
- Conclusion: 3DFroMLLM展示了无需额外数据的3D生成潜力,为多模态任务提供了新方向。
[42] A Parametric Bi-Directional Curvature-Based Framework for Image Artifact Classification and Quantification
Diego Frias
Main category: cs.CV
TL;DR: 提出了一种基于方向性图像曲率分析的无参考图像质量评估(NR-IQA)框架,通过定义各向异性纹理丰富度(ATR)指标,结合双阈值策略,实现了高精度的图像质量评估和失真分类。
- Motivation: 现有无参考图像质量评估方法在量化多种失真类型时表现不足,需要一种能够同时分类和量化图像退化的新框架。
- Method: 提出ATR指标,通过两个可调阈值量化正交纹理抑制,优化参数后用于质量评估;构建两阶段系统,先分类失真类型(模糊或噪声),再通过回归模型量化质量。
- Result: 在LIVE数据集上,ATR指标与人类感知的Spearman相关性达-0.93(模糊)和-0.95(噪声);完整系统的R2为0.892,RMSE为5.17 DMOS点。
- Conclusion: 该框架是一种高效的双用途工具,能够准确分类和量化图像退化,具有高预测精度。
[43] Adaptive High-Frequency Preprocessing for Video Coding
Yingxue Pang,Shijie Zhao,Junlin Li,Li Zhang
Main category: cs.CV
TL;DR: 本文提出了一种基于学习的自适应高频预处理框架,通过FFPN预测最优预处理策略,以平衡视频编码中的比特率和质量。
- Motivation: 高频分量对视频清晰度和真实感至关重要,但会增加编码比特率,导致带宽和存储成本上升。
- Method: 使用FFPN预测最优高频预处理策略,并通过伪标签训练网络,比较不同预处理类型和强度的率失真性能。
- Result: 在多个数据集上的评估表明,该框架能显著提升主观质量并节省比特率。
- Conclusion: 该框架在视频编码中实现了比特率与质量的最优权衡。
[44] GaussianUpdate: Continual 3D Gaussian Splatting Update for Changing Environments
Lin Zeng,Boming Zhao,Jiarui Hu,Xujie Shen,Ziqiang Dang,Hujun Bao,Zhaopeng Cui
Main category: cs.CV
TL;DR: GaussianUpdate是一种结合3D高斯表示与持续学习的新方法,用于动态场景的新视角合成,能实时更新并保留历史信息。
- Motivation: 现有方法要么需要大量重新训练,要么无法捕捉场景随时间变化的细节。
- Method: 采用多阶段更新策略和可见性感知的持续学习方法,结合生成重放技术。
- Result: 在基准数据集上实现了实时渲染,并能可视化不同时间的变化。
- Conclusion: GaussianUpdate在动态场景的新视角合成中表现优异,解决了现有方法的不足。
[45] Preview WB-DH: Towards Whole Body Digital Human Bench for the Generation of Whole-body Talking Avatar Videos
Chaoyi Wang,Yifan Yang,Jun Pei,Lijie Xia,Jianpo Liu,Xiaobing Yuan,Xinhan Di
Main category: cs.CV
TL;DR: 论文提出了一个开源的多模态基准数据集(WB-DH),用于评估全身可动画化头像生成,填补了现有数据集和指标的不足。
- Motivation: 现有数据集和指标在捕捉细微表情、身体动作和动态背景方面存在不足,难以评估全身可动画化头像的生成效果。
- Method: 引入WB-DH数据集,提供详细的多模态注释和灵活的评价框架。
- Result: 公开了数据集和工具,支持更全面的评估。
- Conclusion: WB-DH为全身可动画化头像生成的研究提供了重要的基准资源。
[46] A Robust Epipolar-Domain Regularization Algorithm for Light Field Depth Estimation
Noor Islam S. Mohammad
Main category: cs.CV
TL;DR: 提出了一种轻量级深度估计方法,结合光场视差信息和随机游走算法,无需大量训练数据,在复杂环境中保持低计算成本和较高精度。
- Motivation: 解决光场成像中深度估计的高计算成本和噪声环境下的鲁棒性问题。
- Method: 集成光场视差信息与随机游走优化算法,避免依赖大规模训练数据。
- Result: 在4D光场基准数据集和真实图像上表现良好,计算复杂度低且精度接近深度学习模型。
- Conclusion: 该方法为光场成像中的深度估计提供了高效且鲁棒的替代方案,并探索了概率图模型与深度感知框架的结合。
[47] Masked Clustering Prediction for Unsupervised Point Cloud Pre-training
Bin Ren,Xiaoshui Huang,Mengyuan Liu,Hong Liu,Fabio Poiesi,Nicu Sebe,Guofeng Mei
Main category: cs.CV
TL;DR: MaskClu是一种新的无监督预训练方法,结合掩码点建模和聚类学习,用于3D点云的ViTs,通过密集语义重建和实例级对比学习提升特征学习。
- Motivation: 解决标准ViTs在3D点云中学习密集且信息丰富的语义特征的挑战。
- Method: 提出MaskClu,结合掩码点建模与聚类学习,并引入全局对比学习机制。
- Result: 在多个3D任务(如分割、检测、分类)中取得竞争性结果。
- Conclusion: MaskClu能帮助ViTs从3D点云中学习更丰富且语义有意义的表示。
[48] Automatic and standardized surgical reporting for central nervous system tumors
David Bouget,Mathilde Gajda Faanes,Asgeir Store Jakola,Frederik Barkhof,Hilko Ardon,Lorenzo Bello,Mitchel S. Berger,Shawn L. Hervey-Jumper,Julia Furtner,Albert J. S. Idema,Barbara Kiesel,Georg Widhalm,Rishi Nandoe Tewarie,Emmanuel Mandonnet,Pierre A. Robe,Michiel Wagemakers,Timothy R. Smith,Philip C. De Witt Hamer,Ole solheim,Ingerid Reinertsen
Main category: cs.CV
TL;DR: 该研究提出了一种基于Attention U-Net和DenseNet架构的自动化管道,用于中枢神经系统肿瘤的术后标准化报告生成,包括分割、分类和报告生成。
- Motivation: 现有研究主要关注术前数据,而术后影像分析的研究较少,因此需要一种标准化的术后报告生成方法。
- Method: 使用Attention U-Net进行肿瘤核心、残留肿瘤和切除腔的分割,DenseNet用于MR序列分类和肿瘤类型识别,并集成到符合RANO 2.0指南的报告中。
- Result: 分割模型的Dice分数分别为87%(肿瘤核心)、66%(非增强核心)、70%(残留肿瘤)和77%(切除腔);分类模型在MR序列和肿瘤类型分类中的准确率分别为99.5%和80%。
- Conclusion: 该管道实现了术后影像的自动化分析和标准化报告生成,提升了临床决策效率,并集成到开源软件Raidionics中。
[49] A Pseudo Global Fusion Paradigm-Based Cross-View Network for LiDAR-Based Place Recognition
Jintao Cheng,Jiehao Luo,Xieyuanli Chen,Jin Wu,Rui Fan,Xiaoyu Tang,Wei Zhang
Main category: cs.CV
TL;DR: 论文提出了一种基于交叉视图网络的新方法,通过伪全局信息引导和多模态分支协调,解决了LiDAR地点识别中欧几里得距离度量学习的局限性,并引入流形适应和成对方差-局部性学习度量,显著提升了复杂环境下的性能。
- Motivation: 现有LiDAR地点识别方法依赖欧几里得距离度量学习,忽略了特征空间的内在结构和类内方差,导致在复杂环境和时变场景中性能不佳。
- Method: 提出交叉视图网络,结合伪全局信息引导机制和多模态分支协调,并引入流形适应与成对方差-局部性学习度量,构建SPD矩阵计算马氏距离。
- Result: 实验表明,该方法在复杂环境条件下表现优异,性能显著提升。
- Conclusion: 通过几何化特征空间建模,新方法有效捕捉了数据内在分布和复杂类间依赖,为LiDAR地点识别提供了更优解决方案。
[50] Shape Completion and Real-Time Visualization in Robotic Ultrasound Spine Acquisitions
Miruna-Alexandra Gafencu,Reem Shaban,Yordanka Velikova,Mohammad Farid Azampour,Nassir Navab
Main category: cs.CV
TL;DR: 提出了一种结合机器人超声和实时形状补全的新系统,用于增强脊柱可视化,解决传统方法中的阴影伪影和注册问题。
- Motivation: 超声成像在脊柱手术中因实时性和无辐射性被广泛应用,但阴影伪影限制了其效果。传统CT-to-US注册方法复杂且依赖术前CT扫描,而现有形状补全方法多为离线且可重复性差。
- Method: 开发了一个集成系统,通过机器人平台自主获取腰椎超声扫描,提取椎体表面,并利用深度学习形状补全网络实时重建完整解剖结构。
- Result: 实验验证了形状补全的准确性,并在体模和志愿者扫描中展示了实时可视化效果。
- Conclusion: 该系统提高了脊柱可视化的实时性、一致性和可重复性,有望改善手术导航和解剖理解。
[51] Accelerated Volumetric Compression without Hierarchies: A Fourier Feature Based Implicit Neural Representation Approach
Leona Žůrková,Petr Strakoš,Michal Kravčenko,Tomáš Brzobohatý,Lubomír Říha
Main category: cs.CV
TL;DR: 提出了一种结合傅里叶特征编码和选择性体素采样的无结构神经压缩方法,显著提升了压缩效率和训练速度。
- Motivation: 体数据压缩在医学影像、科学模拟和娱乐等领域至关重要,传统方法通常依赖结构化数据或元数据,限制了效率和灵活性。
- Method: 采用傅里叶特征编码和动态体素选择(基于形态学膨胀),减少冗余计算,无需分层元数据。
- Result: 训练时间减少63.7%(30分钟降至11分钟),仅轻微质量损失(PSNR降0.59 dB,SSIM降0.008),压缩率为14。
- Conclusion: 该方法将基于坐标的神经表示与高效体数据压缩结合,提供了一种可扩展的无结构解决方案。
[52] MADPromptS: Unlocking Zero-Shot Morphing Attack Detection with Multiple Prompt Aggregation
Eduarda Caldeira,Fadi Boutros,Naser Damer
Main category: cs.CV
TL;DR: 本文提出了一种利用CLIP模型进行零样本面部变形攻击检测(MAD)的方法,通过设计并聚合多个文本提示,无需额外训练即可提升检测性能。
- Motivation: 面部变形攻击(MAD)对身份验证系统构成威胁,现有方法多依赖微调,忽视了基础模型(如CLIP)的直接通用性潜力。
- Method: 采用纯零样本方法,利用CLIP模型,通过设计和聚合多个文本提示来对齐任务需求,无需微调。
- Result: 提示聚合显著提升了零样本检测性能,验证了通过高效提示工程利用基础模型内置多模态知识的有效性。
- Conclusion: 研究表明,通过提示工程可直接利用基础模型的通用能力,为MAD任务提供高效解决方案。
[53] UniSTFormer: Unified Spatio-Temporal Lightweight Transformer for Efficient Skeleton-Based Action Recognition
Wenhan Wu,Zhishuai Guo,Chen Chen,Aidong Lu
Main category: cs.CV
TL;DR: 提出了一种轻量化的时空统一Transformer框架,简化了骨架动作识别模型,显著降低了参数和计算成本。
- Motivation: 现有方法依赖复杂模块组合和冗余设计,导致参数多、计算成本高、扩展性差。
- Method: 提出统一时空注意力模块,无需单独时间建模块;引入简化多尺度池化融合模块,结合局部和全局池化路径。
- Result: 参数减少58%,计算成本降低60%,同时保持竞争力识别性能。
- Conclusion: 该轻量化模型在准确性和效率间取得优越平衡。
[54] Lay2Story: Extending Diffusion Transformers for Layout-Togglable Story Generation
Ao Ma,Jiasong Feng,Ke Cao,Jing Wang,Yun Wang,Quanwei Zhang,Zhanjie Zhang
Main category: cs.CV
TL;DR: 本文提出了一种基于布局条件的可切换布局故事生成方法(Layout-Togglable Storytelling),通过引入细粒度布局条件(如位置和属性)增强帧间交互,解决了现有方法在主题一致性上的不足。同时,构建了高质量数据集Lay2Story-1M和评测基准Lay2Story-Bench,并提出了基于DiTs的Lay2Story框架,实验表明其在一致性、语义相关性和美学质量上优于现有技术。
- Motivation: 现有方法在故事生成任务中难以保持主题一致性,且缺乏高质量数据和细粒度控制能力。布局条件为解决这些问题提供了潜在方向。
- Method: 提出Layout-Togglable Storytelling任务,利用布局条件(如位置和属性)实现帧间细粒度交互。构建Lay2Story-1M数据集和Lay2Story-Bench评测基准,并基于DiTs架构设计Lay2Story框架。
- Result: 实验表明,Lay2Story在一致性、语义相关性和美学质量上优于现有技术,达到最佳性能。
- Conclusion: 布局条件能有效提升故事生成任务的主题一致性和控制能力,Lay2Story框架为相关研究提供了新思路和工具。
[55] Text-conditioned State Space Model For Domain-generalized Change Detection Visual Question Answering
Elman Ghazaei,Erchan Aptoula
Main category: cs.CV
TL;DR: 论文提出了一种新的文本条件状态空间模型(TCSSM),用于解决变化检测视觉问答(CDVQA)中的领域偏移问题,并引入了一个多模态多领域数据集BrightVQA。
- Motivation: 传统变化检测方法需要专家知识,而现有CDVQA方法假设训练和测试数据分布相似,不适用于实际应用中的领域偏移。
- Method: 提出TCSSM模型,结合双时相图像和地理灾害相关文本信息,提取跨领域的域不变特征。
- Result: 实验表明,TCSSM在性能上优于现有先进模型。
- Conclusion: TCSSM和BrightVQA数据集为CDVQA的领域泛化研究提供了有效工具。
[56] TaoCache: Structure-Maintained Video Generation Acceleration
Zhentao Fan,Zongzuo Wang,Weiwei Zhang
Main category: cs.CV
TL;DR: TaoCache是一种无需训练、即插即用的缓存策略,通过固定点视角预测噪声输出,有效提升视频扩散模型在后期去噪阶段的性能,同时保持高分辨率结构。
- Motivation: 现有基于缓存的视频扩散模型加速方法通常跳过早期或中期去噪步骤,导致结构差异和指令跟随问题。
- Method: 采用固定点视角预测噪声输出,校准余弦相似度和范数比,支持激进跳过步骤。
- Result: 在多个数据集上,TaoCache在相同加速条件下显著提升了视觉质量(LPIPS、SSIM、PSNR)。
- Conclusion: TaoCache是一种高效且兼容性强的缓存策略,适用于DiT框架,优于现有方法。
[57] ColorGPT: Leveraging Large Language Models for Multimodal Color Recommendation
Ding Xia,Naoto Inoue,Qianru Qiu,Kotaro Kikuchi
Main category: cs.CV
TL;DR: 论文探讨了预训练大语言模型(LLMs)在颜色推荐任务中的表现,提出了一种名为ColorGPT的管道,在颜色调色板完成和生成任务中优于现有方法。
- Motivation: 传统颜色推荐方法因数据有限和设计复杂性表现不佳,研究探索了LLMs的常识推理能力是否能提升颜色推荐效果。
- Method: 开发了ColorGPT管道,通过测试多种颜色表示和提示工程技术,专注于颜色调色板完成和生成任务。
- Result: 实验表明,ColorGPT在颜色推荐准确性和调色板分布上优于现有方法,且在颜色多样性和相似性上有改进。
- Conclusion: 预训练LLMs在颜色推荐任务中表现优越,ColorGPT为设计领域提供了新的可能性。
[58] KFFocus: Highlighting Keyframes for Enhanced Video Understanding
Ming Nie,Chunwei Wang,Hang Xu,Li Zhang
Main category: cs.CV
TL;DR: KFFocus提出了一种高效压缩视频标记并突出关键帧信息的方法,通过动态采样和空间-时间建模提升视频理解性能。
- Motivation: 现有视频LLMs采用均匀采样和压缩策略,可能忽略关键帧信息,导致性能下降。
- Method: KFFocus采用动态采样识别关键帧,并根据上下文相关性分配压缩比例,结合空间-时间建模模块。
- Result: 在长视频场景中,KFFocus显著优于现有方法,提高了计算效率和准确性。
- Conclusion: KFFocus通过优化视频标记压缩和关键帧捕捉,为视频理解任务提供了高效且准确的解决方案。
[59] Spatial-Temporal Multi-Scale Quantization for Flexible Motion Generation
Zan Wang,Jingze Zhang,Yixin Chen,Baoxiong Jia,Wei Liang,Siyuan Huang
Main category: cs.CV
TL;DR: 论文提出了一种名为MSQ的多尺度量化方法,用于解决现有运动表示在复杂模式建模和组合灵活性方面的不足。
- Motivation: 现有运动表示通常为离散帧序列,无法从多尺度角度捕捉运动,且缺乏组合灵活性,限制了模型在多样化生成任务中的泛化能力。
- Method: MSQ通过空间和时间维度的多尺度离散令牌压缩运动序列,使用不同编码器捕捉不同空间粒度的身体部分,并在量化前将编码特征时间插值为多尺度。
- Result: 实验表明,MSQ无需专门设计或重新训练即可无缝组合运动令牌,且在多个基准测试中优于现有基线方法。
- Conclusion: MSQ方法在多尺度运动表示和生成任务中表现出色,为运动编辑、控制和条件生成提供了有效支持。
[60] UniConvNet: Expanding Effective Receptive Field while Maintaining Asymptotically Gaussian Distribution for ConvNets of Any Scale
Yuhao Wang,Wei Xi
Main category: cs.CV
TL;DR: 论文提出了一种通过组合小核扩展有效感受野(ERF)并保持其渐近高斯分布(AGD)的新范式,设计了Three-layer Receptive Field Aggregator和Layer Operator,构建了通用模型UniConvNet,在多个任务中表现优异。
- Motivation: 现有大核卷积网络(ConvNets)参数和计算成本高,且ERF的AGD被破坏,因此需要更高效的方法扩展ERF。
- Method: 通过组合小核(如7×7、9×9、11×11)扩展ERF并保持AGD,设计了Three-layer Receptive Field Aggregator和Layer Operator,构建了UniConvNet。
- Result: UniConvNet在ImageNet-1K、COCO2017和ADE20K上超越现有CNN和ViT,UniConvNet-T达到84.2%准确率(30M参数,5.1G FLOPs),UniConvNet-XL达88.4%。
- Conclusion: 组合小核扩展ERF并保持AGD是高效且有效的,UniConvNet在多种任务中表现优异,具有通用性和可扩展性。
[61] Towards Perfection: Building Inter-component Mutual Correction for Retinex-based Low-light Image Enhancement
Luyang Cao,Han Xu,Jian Zhang,Lei Qi,Jiayi Ma,Yinghuan Shi,Yang Gao
Main category: cs.CV
TL;DR: 论文提出了一种新型的Inter-correction Retinex模型(IRetinex),通过减少分解和增强阶段的互分量残差(ICR),提升了低光图像增强的效果。
- Motivation: 现有的Retinex深度学习方法在分解图像时存在互分量残差(ICR),影响分解精度和增强效果,导致最终图像质量下降。
- Method: 提出IRetinex模型,在分解阶段通过互分量残差减少模块降低光照和反射分量之间的特征相似性;在增强阶段利用特征相似性检测并减轻ICR的影响。
- Result: 在三个低光基准数据集上的实验表明,该方法在定性和定量上均优于现有方法。
- Conclusion: 通过减少ICR,IRetinex显著提升了低光图像增强的性能。
[62] Uncertainty-aware Cross-training for Semi-supervised Medical Image Segmentation
Kaiwen Huang,Tao Zhou,Huazhu Fu,Yizhe Zhang,Yi Zhou,Xiao-Jun Wu
Main category: cs.CV
TL;DR: UC-Seg框架通过双子网和不确定性感知伪标签生成,提升半监督医学图像分割性能。
- Motivation: 解决现有半监督方法过度依赖学生模型和忽略认知偏差的问题,同时提高伪标签生成质量。
- Method: 提出UC-Seg框架,包含双子网、跨子网一致性保持策略(CCP)和不确定性感知伪标签生成(UPG)。
- Result: 在多种医学图像模态上表现优于现有方法,分割精度和泛化性能显著提升。
- Conclusion: UC-Seg通过结合双子网和不确定性感知,有效解决了半监督医学图像分割中的关键挑战。
[63] When Deepfakes Look Real: Detecting AI-Generated Faces with Unlabeled Data due to Annotation Challenges
Zhiqiang Yang,Renshuai Tao,Xiaolong Zheng,Guodong Yang,Chunjie Zhang
Main category: cs.CV
TL;DR: 论文提出DPGNet,通过双路径引导网络解决深度伪造检测中标注数据不足的问题,利用无标签数据和跨域对齐提升性能。
- Motivation: 现有深度伪造检测方法依赖标注数据,但AI生成内容越来越逼真,标注变得耗时且不可靠,亟需利用无标签数据的解决方案。
- Method: DPGNet包含文本引导的跨域对齐和课程驱动的伪标签生成模块,通过知识蒸馏防止灾难性遗忘。
- Result: 在11个数据集上,DPGNet优于现有方法6.3%,有效利用无标签数据应对深度伪造的挑战。
- Conclusion: DPGNet通过跨域对齐和无标签数据利用,显著提升了深度伪造检测的性能,解决了标注数据不足的问题。
[64] Spatial Traces: Enhancing VLA Models with Spatial-Temporal Understanding
Maxim A. Patratskiy,Alexey K. Kovalev,Aleksandr I. Panov
Main category: cs.CV
TL;DR: 本文提出了一种通过视觉提示整合空间和时间信息的新方法,显著提升了模型在虚拟和现实环境中预测代理运动的能力。
- Motivation: 尽管现有研究已分别关注空间和时间理解,但缺乏同时整合两者的方法。本文旨在填补这一空白。
- Method: 通过将观察到的关键点视觉轨迹投影到深度图上,模型能同时捕捉空间和时间信息。
- Result: 在SimplerEnv实验中,任务解决率比SpatialVLA提高了4%,比TraceVLA提高了19%,且所需训练数据较少。
- Conclusion: 该方法在数据稀缺的实际应用中具有显著价值。
[65] Per-Query Visual Concept Learning
Ori Malca,Dvir Samuel,Gal Chechik
Main category: cs.CV
TL;DR: 论文提出了一种通过添加个性化步骤来增强现有文本到图像个性化方法的技术,利用自注意力和交叉注意力损失,显著提升了性能。
- Motivation: 现有文本到图像个性化方法在捕捉新概念时存在不足,需进一步优化以提升个性化效果。
- Method: 通过添加基于自注意力和交叉注意力的个性化步骤,结合PDM特征,增强语义相似性。
- Result: 在六种个性化方法和多种基础模型上测试,均取得显著改进。
- Conclusion: 该方法显著提升了文本到图像个性化的性能,优于现有方法。
[66] ALFred: An Active Learning Framework for Real-world Semi-supervised Anomaly Detection with Adaptive Thresholds
Shanle Yao,Ghazal Alinezhad Noghre,Armin Danesh Pazho,Hamed Tabkhi
Main category: cs.CV
TL;DR: 提出了一种基于主动学习的视频异常检测框架,通过动态选择数据标注和人类参与机制,适应多变环境,提升检测效果。
- Motivation: 解决传统视频异常检测方法在动态环境中因静态假设和阈值固定而表现不佳的问题。
- Method: 采用主动学习框架,结合人类参与机制,动态选择标注数据并生成自适应阈值。
- Result: 在模拟真实场景中,EBI指标达到68.91,显著提升动态环境下的检测效果。
- Conclusion: 该方法有效提升了视频异常检测在动态环境中的适用性和准确性。
[67] VLM-3D:End-to-End Vision-Language Models for Open-World 3D Perception
Fuhao Chang,Shuxin Li,Yabei Li,Lei He
Main category: cs.CV
TL;DR: VLM-3D是一个端到端框架,利用视觉语言模型(VLMs)进行自动驾驶场景中的3D几何感知,通过联合语义-几何损失设计显著提升了感知精度。
- Motivation: 解决自动驾驶系统中开放集感知的挑战,特别是在识别未知物体类别时,确保安全性。
- Method: 提出VLM-3D框架,结合低秩适应(LoRA)和联合语义-几何损失设计,优化3D边界框预测。
- Result: 在nuScenes数据集上,感知精度提升了12.8%。
- Conclusion: VLM-3D通过端到端设计和联合损失优化,有效提升了自动驾驶场景中的3D感知能力。
[68] Scaling Learned Image Compression Models up to 1 Billion
Yuqi Li,Haotian Zhang,Li Li,Dong Liu,Feng Wu
Main category: cs.CV
TL;DR: 本文研究了大规模学习图像压缩模型的扩展性,揭示了模型规模与压缩性能的关系,并通过实验验证了扩展后的模型性能。
- Motivation: 当前学习图像压缩模型规模有限,限制了其表示能力,且模型规模对压缩性能的影响尚未探索。
- Method: 以HPCM模型为基础,将参数规模从6850万扩展到10亿,并拟合测试损失与模型规模等关键变量的幂律关系。
- Result: 实验表明,扩展后的HPCM-1B模型在率失真性能上达到最优。
- Conclusion: 本研究为大规模压缩模型的探索提供了启示,并进一步探讨了压缩与智能之间的联系。
[69] Addressing Bias in VLMs for Glaucoma Detection Without Protected Attribute Supervision
Ahsan Habib Akash,Greg Murray,Annahita Amireskandari,Joel Palko,Carol Laxson,Binod Bhattarai,Prashnna Gyawali
Main category: cs.CV
TL;DR: 论文提出了一种基于对比学习的无监督去偏方法,用于减少视觉语言模型在青光眼筛查中的群体差异。
- Motivation: 尽管视觉语言模型在多模态任务中表现优异,但仍存在隐性群体偏见,尤其在青光眼筛查等关键应用中,这种偏见可能对弱势群体造成不公。
- Method: 通过无监督聚类推断代理子群,计算梯度相似性权重,并在联合目标函数中加权以提升表现较差的子群。
- Result: 在哈佛FairVLMed青光眼数据集上,方法显著减少了子群间的性能差异,提高了公平性指标。
- Conclusion: 该无监督去偏方法有效减少了模型偏见,适用于缺乏显式保护属性的场景。
[70] Deep Learning Models for Robust Facial Liveness Detection
Oleksandr Kuznetsov,Emanuele Frontoni,Luca Romeo,Riccardo Rosati,Andrea Maranesi,Alessandro Muscatello
Main category: cs.CV
TL;DR: 论文提出了一种基于深度学习的生物特征防伪方法,通过纹理分析和反射特性区分真实人脸与伪造攻击,显著提升了现有系统的准确性。
- Motivation: 当前生物特征认证系统(如人脸识别)易受深度伪造等高级攻击手段的威胁,现有活体检测方法对此效果不佳。
- Method: 采用创新的深度学习模型,结合纹理分析和反射特性,设计了一种名为AttackNet V2.2的模型。
- Result: 在五个多样化数据集上测试,AttackNet V2.2的平均准确率达到99.9%,显著优于现有方法。
- Conclusion: 该研究不仅提升了生物特征认证的安全性,还为理解攻击行为提供了新视角,具有广泛的应用潜力。
[71] Turbo-VAED: Fast and Stable Transfer of Video-VAEs to Mobile Devices
Ya Zou,Jingfeng Yao,Siyuan Yu,Shuai Zhang,Wenyu Liu,Xinggang Wang
Main category: cs.CV
TL;DR: 提出了一种低成本的解决方案Turbo-VAED,用于将视频VAE高效迁移到移动设备,显著减少参数数量和延迟,同时保持高质量重建。
- Motivation: 移动设备上部署大型生成AI模型的需求增长,但视频VAE的计算瓶颈(如参数过大和内核不匹配)导致内存不足或推理缓慢。
- Method: 1. 分析现有VAE架构的冗余,采用3D深度可分离卷积减少参数;2. 提出解耦的3D像素洗牌方案优化上采样;3. 仅训练解码器并通过蒸馏快速适配移动设备。
- Result: Turbo-VAED在720p分辨率下加速原始VAE达84.5倍,参数减少至17.5%,重建质量保留96.9%,在iPhone 16 Pro上FPS提升2.9倍。
- Conclusion: Turbo-VAED首次实现移动设备上的实时720p视频VAE解码,适用于大多数视频VAE,成本低且性能优异。
[72] HumanOLAT: A Large-Scale Dataset for Full-Body Human Relighting and Novel-View Synthesis
Timo Teufel,Pulkit Gera,Xilong Zhou,Umar Iqbal,Pramod Rao,Jan Kautz,Vladislav Golyanik,Christian Theobalt
Main category: cs.CV
TL;DR: 论文介绍了HumanOLAT数据集,填补了公开高质量全人体多视角OLAT数据的空白,推动了人体重光照和新视角渲染的研究。
- Motivation: 现有公开数据缺乏高质量全人体多视角OLAT捕捉,限制了相关研究进展。
- Method: 提出HumanOLAT数据集,包含多视角OLAT捕捉的HDR RGB帧,涵盖多种光照条件。
- Result: 评估表明数据集对现有方法具有挑战性,突显了复杂人体外观与光照交互建模的难度。
- Conclusion: HumanOLAT将促进未来研究,支持重光照和渲染技术的基准测试与改进。
cs.AI
[73] EndoAgent: A Memory-Guided Reflective Agent for Intelligent Endoscopic Vision-to-Decision Reasoning
Yi Tang,Kaini Wang,Yang Chen,Guangquan Zhou
Main category: cs.AI
TL;DR: EndoAgent是一种基于记忆引导的AI代理,用于内窥镜图像分析,通过双记忆设计和工具集成实现灵活推理,性能优于现有模型。
- Motivation: 现有方法在多任务协调和复杂临床流程处理上表现不足,AI代理在内窥镜领域的潜力尚未充分挖掘。
- Method: 提出EndoAgent,采用双记忆设计(短期行动跟踪和长期经验学习),集成专家工具,并引入EndoAgentBench基准测试。
- Result: 实验表明EndoAgent在视觉理解和语言生成任务上优于通用及医学多模态模型。
- Conclusion: EndoAgent展示了强大的灵活性和推理能力,为内窥镜AI诊断提供了新方向。
[74] STELAR-VISION: Self-Topology-Aware Efficient Learning for Aligned Reasoning in Vision
Chen Li,Han Zhang,Zhantao Yang,Fangyi Chen,Zihan Wang,Anudeepsekhar Bolimera,Marios Savvides
Main category: cs.AI
TL;DR: STELAR-Vision框架通过拓扑感知推理和Frugal Learning技术,显著提升了视觉语言模型在复杂多模态任务中的准确性和效率。
- Motivation: 现有视觉语言模型依赖链式推理,难以处理复杂拓扑任务且输出冗长,需要改进。
- Method: 提出STELAR-Vision框架,结合TopoAug数据增强、监督微调和强化学习,优化模型推理拓扑和输出效率。
- Result: 在MATH-V和VLM-S2H上准确率提升9.7%,优于更大模型;在OOD任务中表现优于Phi-4和LLaMA-3.2。
- Conclusion: STELAR-Vision通过拓扑感知训练和高效学习,显著提升模型性能,具有强泛化能力。
[75] Silicon Minds versus Human Hearts: The Wisdom of Crowds Beats the Wisdom of AI in Emotion Recognition
Mustafa Akben,Vinayaka Gude,Haya Ajjan
Main category: cs.AI
TL;DR: MLLMs在情感识别任务中表现优于人类个体,但人类集体智慧及人机协作表现更优。
- Motivation: 探索MLLMs在情感识别任务中的能力,并与人类表现对比,以推动情感智能AI的发展。
- Method: 使用RMET和MRMET测试MLLMs和人类的情感识别能力,并进行个体与集体表现的对比。
- Result: MLLMs个体表现优于人类,但人类集体智慧及人机协作表现更优。
- Conclusion: 人机协作是情感智能AI发展的最有前景方向。
[76] OpenCUA: Open Foundations for Computer-Use Agents
Xinyuan Wang,Bowen Wang,Dunjie Lu,Junlin Yang,Tianbao Xie,Junli Wang,Jiaqi Deng,Xiaole Guo,Yiheng Xu,Chen Henry Wu,Zhennan Shen,Zhuokai Li,Ryan Li,Xiaochuan Li,Junda Chen,Boyuan Zheng,Peihang Li,Fangyu Lei,Ruisheng Cao,Yeqiao Fu,Dongchan Shin,Martin Shin,Jiarui Hu,Yuyan Wang,Jixuan Chen,Yuxiao Ye,Danyang Zhang,Dikang Du,Hao Hu,Huarong Chen,Zaida Zhou,Yipu Wang,Heng Wang,Diyi Yang,Victor Zhong,Flood Sung,Y. Charles,Zhilin Yang,Tao Yu
Main category: cs.AI
TL;DR: OpenCUA是一个开源框架,旨在解决封闭式计算机使用代理(CUA)系统的局限性,提供数据、模型和工具以支持研究。
- Motivation: 随着CUA的商业潜力增长,其关键细节仍封闭,研究社区需要开放框架以研究其能力、局限性和风险。
- Method: OpenCUA包括注释基础设施、大规模数据集AgentNet、可扩展的演示转换管道,以及支持长链推理的模型。
- Result: OpenCUA-32B在OSWorld-Verified上平均成功率达34.8%,超越GPT-4o,成为开源模型的新SOTA。
- Conclusion: OpenCUA为CUA研究提供了开放基础,其工具、数据和模型已公开发布。
cs.LG
[77] Benchmarking Large Language Models for Geolocating Colonial Virginia Land Grants
Ryan Mioduski
Main category: cs.LG
TL;DR: 研究评估了大型语言模型(LLM)将弗吉尼亚17-18世纪土地专利的文本描述转换为地理坐标的能力,发现某些模型表现优于传统方法。
- Motivation: 弗吉尼亚土地专利的文本描述限制了空间分析,需要一种高效、准确的方法将其转换为地理坐标。
- Method: 使用六种OpenAI模型,在两种范式下(直接转换和工具辅助链式思考)测试,并与GIS分析师等基线方法对比。
- Result: 最佳模型(o3-2025-04-16)平均误差23公里,优于其他方法和基线。
- Conclusion: LLM在历史地理参考中具有高效、准确和成本效益的潜力。
[78] MoSSDA: A Semi-Supervised Domain Adaptation Framework for Multivariate Time-Series Classification using Momentum Encoder
Seonyoung Kim,Dongil Kim
Main category: cs.LG
TL;DR: MoSSDA提出了一种新颖的两步动量编码器半监督域适应框架,用于多变量时间序列分类,解决了域偏移问题。
- Motivation: 深度学习方法在域偏移情况下性能下降,尤其是时间序列数据对噪声敏感且存在序列依赖性问题。
- Method: MoSSDA采用域不变编码器学习特征,并通过混合增强的正对比模块(包含动量编码器)提升特征一致性。采用两阶段梯度分离训练。
- Result: 在六个数据集上,MoSSDA在三种不同骨干网络和不同未标记比例下均达到最优性能。
- Conclusion: MoSSDA通过两阶段学习和模块化设计,显著提升了域适应性能,适用于时间序列分类。
[79] Enhanced Liver Tumor Detection in CT Images Using 3D U-Net and Bat Algorithm for Hyperparameter Optimization
Nastaran Ghorbani,Bitasadat Jamshidi,Mohsen Rostamy-Malkhalifeh
Main category: cs.LG
TL;DR: 本文提出了一种结合3D U-Net架构和蝙蝠算法的自动化肝肿瘤分割方法,显著提高了CT图像分割的准确性和鲁棒性。
- Motivation: 肝癌早期检测对治疗至关重要,但传统分割方法在准确性和鲁棒性上存在不足。
- Method: 采用3D U-Net架构结合蝙蝠算法优化超参数(如学习率和批量大小)。
- Result: 在公开数据集上表现出色,平衡了精确率和召回率,F1分数较高。
- Conclusion: 深度学习和元启发式算法的结合为复杂分割任务提供了高效解决方案。
[80] Multi-level Collaborative Distillation Meets Global Workspace Model: A Unified Framework for OCIL
Shibin Su,Guoqiang Liang,De Cheng,Shizhou Zhang,Lingyan Ran,Yanning Zhang
Main category: cs.LG
TL;DR: 提出了一种基于全局工作空间模型(GWM)的新方法,通过融合多学生模型的参数来提升在线类增量学习的稳定性和适应性。
- Motivation: 在线类增量学习(OCIL)在非独立同分布数据流中面临模型稳定性与适应性的挑战,现有方法在严格内存限制下效果不佳。
- Method: 采用GWM作为共享隐式记忆,融合学生模型参数并动态锚定知识;引入多级协作蒸馏机制,确保学生模型间一致性与历史知识保留。
- Result: 在三个标准OCIL基准测试中,该方法显著提升了多种OCIL模型的性能。
- Conclusion: GWM和多级协作蒸馏机制有效平衡了稳定性和适应性,为OCIL提供了更优解决方案。
eess.IV
[81] SharpXR: Structure-Aware Denoising for Pediatric Chest X-Rays
Ilerioluwakiiye Abolade,Emmanuel Idoko,Solomon Odelola,Promise Omoigui,Adetola Adebanwo,Aondana Iorumbur,Udunna Anazodo,Alessandro Crimi,Raymond Confidence
Main category: eess.IV
TL;DR: SharpXR是一种结构感知的双解码器U-Net,用于在低剂量儿科X射线中去噪并保留诊断相关特征,显著提升诊断准确性。
- Motivation: 在资源匮乏地区,低剂量儿科X射线因噪声问题影响诊断准确性,传统去噪方法会损失细节。
- Method: 采用Laplacian引导的边缘保留解码器和可学习融合模块,模拟Poisson-Gaussian噪声进行训练。
- Result: SharpXR在各项指标上优于现有方法,肺炎分类准确率从88.8%提升至92.5%。
- Conclusion: SharpXR在低资源儿科护理中具有显著诊断价值,适用于资源受限环境。
[82] Variational volume reconstruction with the Deep Ritz Method
Conor Rowan,Sumedh Soman,John A. Evans
Main category: eess.IV
TL;DR: 提出了一种基于Deep Ritz方法的变分体积重建方法,用于处理稀疏、噪声的切片数据,解决了依赖图像分割、切片数量有限和计算成本高的问题。
- Motivation: 受生物医学成像(如MRI切片到体积重建)的启发,旨在解决图像分割依赖、切片数量有限和传统方法计算成本高的挑战。
- Method: 结合回归损失和改进的Cahn-Hilliard能量,通过神经网络离散化相场,蒙特卡洛积分近似目标,使用ADAM优化。
- Result: 方法在稀疏和噪声数据下仍能快速(秒级)生成高质量重建体积。
- Conclusion: 该方法有效解决了传统方法的局限性,为稀疏噪声数据的体积重建提供了高效解决方案。
[83] Preprocessing Algorithm Leveraging Geometric Modeling for Scale Correction in Hyperspectral Images for Improved Unmixing Performance
Praveen Sumanasekara,Athulya Ratnayake,Buddhi Wijenayake,Keshawa Ratnayake,Roshan Godaliyadda,Parakrama Ekanayake,Vijitha Herath
Main category: eess.IV
TL;DR: 提出一种预处理算法,校正光谱尺度变化,提升高光谱解混精度。
- Motivation: 光谱尺度变化(如地形、光照和阴影)严重影响解混算法的准确性和收敛性,现有方法难以处理。
- Method: 提出数学框架描述尺度变化,设计预处理算法校正这些变化,为解混提供更干净的输入。
- Result: 实验表明,该算法显著提升多种解混算法的性能,误差降低近50%。
- Conclusion: 该算法作为补充步骤,能显著提升现有解混方法的准确性,具有广泛应用潜力。
[84] Frequency-Assisted Adaptive Sharpening Scheme Considering Bitrate and Quality Tradeoff
Yingxue Pang,Shijie Zhao,Haiqiang Wang,Gen Zhan,Junlin Li,Li Zhang
Main category: eess.IV
TL;DR: 本文提出了一种基于频率辅助的锐化级别预测模型(FreqSP),用于在提升视频质量的同时有效控制带宽成本。
- Motivation: 锐化技术虽能提升视频质量,但过高的锐化级别会导致比特率增加和服务质量下降,甚至出现过锐化问题。因此,需要找到既能提升视频质量又能控制带宽成本的合适锐化级别。
- Method: 首先为每个视频标注与最优比特率和质量权衡相关的锐化级别作为真实数据。然后,利用未压缩的源视频作为输入,结合CNN特征和高频分量预测最优锐化级别。
- Result: 大量实验证明了FreqSP模型的有效性。
- Conclusion: FreqSP模型能够有效预测最优锐化级别,在提升视频质量的同时控制带宽成本。
[85] A new dataset and comparison for multi-camera frame synthesis
Conall Daly,Anil Kokaram
Main category: eess.IV
TL;DR: 论文提出了一种新的多相机数据集,用于公平比较帧插值和视图合成方法,发现深度学习方法在真实数据上表现一般,但在合成场景中优于传统方法。
- Motivation: 现有数据集对帧插值和视图合成方法的比较存在偏差,需开发新数据集以实现公平评估。
- Method: 使用自定义密集线性相机阵列构建数据集,并评估经典和深度学习帧插值方法与视图合成方法(3D高斯泼溅)的性能。
- Result: 深度学习方法在真实数据上未显著优于传统方法,3D高斯泼溅表现较差;但在合成场景中,3D高斯泼溅明显优于帧插值方法。
- Conclusion: 数据集设计对方法评估至关重要,不同场景下方法表现差异显著。
[86] Efficient motion-based metrics for video frame interpolation
Conall Daly,Darren Ramsook,Anil Kokaram
Main category: eess.IV
TL;DR: 本文研究了如何通过简单处理运动场来评估视频帧插值算法的感知质量,提出了一种基于运动场发散性的新指标,该指标与感知评分相关性较好且计算效率更高。
- Motivation: 尽管视频帧插值算法发展迅速,但评估插值内容的感知质量仍是一个研究热点。本文旨在探索一种简单有效的视频质量评估方法。
- Method: 通过处理运动场,提出一种基于运动场发散性的质量指标,并在BVI-VFI数据集上进行评估。
- Result: 新指标与感知评分的相关性较好(PLCC=0.51),计算效率比FloLPIPS高2.7倍,且更倾向于感知上更优的插值帧。
- Conclusion: 提出的运动场发散性指标是一种高效且与感知质量相关的评估工具,适用于视频帧插值算法的质量评估。
cs.GR
[87] Spatiotemporally Consistent Indoor Lighting Estimation with Diffusion Priors
Mutian Tong,Rundi Wu,Changxi Zheng
Main category: cs.GR
TL;DR: 提出了一种从视频中估计连续光场的方法,利用2D扩散先验优化MLP表示的光场,并通过微调预训练扩散模型实现零样本泛化。
- Motivation: 解决室内光照估计的挑战,尤其是光照在空间和时间上变化时的复杂性。
- Method: 利用2D扩散先验优化MLP表示的光场,微调预训练扩散模型以预测多位置光照。
- Result: 在单图像或视频的室内光照估计中表现优于基线,展示了在真实视频中时空一致的光照估计。
- Conclusion: 该方法在复杂光照条件下表现出色,尤其在真实视频中的应用具有创新性。
[88] Improving Facial Rig Semantics for Tracking and Retargeting
Dalton Omens,Allise Thurman,Jihun Yu,Ronald Fedkiw
Main category: cs.GR
TL;DR: 论文提出了一种面部表演重定向方法,通过统一使用相同的面部框架(如3DMM、FLAME等)简化语义识别和重定向过程,并利用体积变形和Simon-Says表达式校准来提高效果。
- Motivation: 解决面部表演重定向中语义识别和框架转换的困难,尤其是在游戏或VR环境中。
- Method: 使用统一的面部框架,结合体积变形和Simon-Says表达式校准,并通过微调方法优化动画控制。
- Result: 校准后的框架能生成期望的表达式,但跟踪性能时仍存在问题,微调方法能提升语义控制的有效性。
- Conclusion: 提出的方法通过统一框架和微调技术,显著提高了面部表演重定向的效率和效果。
[89] Hybrid Long and Short Range Flows for Point Cloud Filtering
Dasith de Silva Edirimuni,Xuequan Lu,Ajmal Saeed Mian,Lei Wei,Gang Li,Scott Schaefer,Ying He
Main category: cs.GR
TL;DR: 论文提出了一种混合点云滤波方法(HybridPF),结合短程和远程滤波轨迹,解决了现有方法中的点聚类和噪声残留问题。
- Motivation: 点云捕获过程容易引入噪声,现有滤波方法存在点聚类或噪声残留问题,需要更有效的解决方案。
- Method: 设计了ShortModule和LongModule两个并行模块,分别处理短程评分和远程流速,通过动态图卷积解码器优化推理过程。
- Result: HybridPF在实验中表现出色,实现了最先进的滤波效果和更快的推理速度。
- Conclusion: HybridPF通过结合短程和远程信息,显著提升了点云滤波的质量和效率。
[90] Exploring Palette based Color Guidance in Diffusion Models
Qianru Qiu,Jiafeng Mao,Xueting Wang
Main category: cs.GR
TL;DR: 本文提出了一种通过整合调色板作为额外引导机制来增强文本到图像生成中色彩方案控制的新方法。
- Motivation: 现有文本到图像模型在控制整体图像色彩方案(尤其是背景和次要对象)方面存在不足。
- Method: 在扩散模型框架中探索多种调色板表示方法,并构建专用数据集进行定量和定性分析。
- Result: 实验表明,调色板引导显著提升了模型生成符合预期色彩方案图像的能力。
- Conclusion: 该方法实现了更精细和可控的图像着色过程。
[91] DiffPhysCam: Differentiable Physics-Based Camera Simulation for Inverse Rendering and Embodied AI
Bo-Hsun Chen,Nevindu M. Batagoda,Dan Negrut
Main category: cs.GR
TL;DR: DiffPhysCam是一种可微分相机模拟器,支持梯度优化,用于机器人视觉感知和端到端视觉运动学习。
- Motivation: 现有虚拟相机对内在设置控制有限,光学伪影捕捉不足,缺乏可调校准参数,限制了模拟到现实的迁移。
- Method: DiffPhysCam通过多阶段流程提供精细相机控制,建模光学效果(如散焦模糊),并支持真实数据校准。
- Result: DiffPhysCam提升了合成图像任务中的机器人感知性能,并通过逆向渲染创建了真实场景的数字孪生。
- Conclusion: DiffPhysCam在机器人视觉和数字孪生应用中表现出色,支持模拟到现实的迁移。
[92] VertexRegen: Mesh Generation with Continuous Level of Detail
Xiang Zhang,Yawar Siddiqui,Armen Avetisyan,Chris Xie,Jakob Engel,Henry Howard-Jenkins
Main category: cs.GR
TL;DR: VertexRegen是一种新颖的网格生成框架,支持连续细节级别的生成,通过顶点分裂实现灵活的中断生成。
- Motivation: 现有自回归方法以部分到完整的方式生成网格,中间步骤表示不完整结构,VertexRegen旨在解决这一问题。
- Method: 受渐进网格启发,将生成过程重新定义为边折叠的逆过程(顶点分裂),并通过生成模型学习。
- Result: 实验表明,VertexRegen生成的网格质量与最先进方法相当,且能随时中断生成,提供不同细节级别的有效网格。
- Conclusion: VertexRegen在网格生成中实现了灵活性和连续性,为实际应用提供了更多可能性。
[93] Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer
Zixin Yin,Xili Dai,Ling-Hao Chen,Deyu Zhou,Jianan Wang,Duomin Wang,Gang Yu,Lionel M. Ni,Heung-Yeung Shum
Main category: cs.GR
TL;DR: ColorCtrl是一种无需训练的文本引导颜色编辑方法,通过多模态扩散变换器的注意力机制实现精确颜色控制,保持物理一致性。
- Motivation: 现有方法在精确颜色控制和视觉一致性方面表现不佳,需要一种更高效且无需训练的方法。
- Method: 利用MM-DiT的注意力机制,通过解构结构和颜色,操纵注意力图和值标记实现编辑。
- Result: 在SD3和FLUX.1-dev上表现优于现有方法,并在视频模型中保持时间一致性。
- Conclusion: ColorCtrl在编辑质量和一致性上达到先进水平,适用于多种扩散模型。
Powered by Deepseek & arXiv Daily AI Enhanced