Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] DrivingScene: A Multi-Task Online Feed-Forward 3D Gaussian Splatting Method for Dynamic Driving Scenes
Qirui Hou,Wenzhang Sun,Chang Zeng,Chunfeng Wang,Hao Li,Jianxun Cui
Main category: cs.CV
TL;DR: DrivingScene是一个在线前馈框架,仅使用两个连续环视图像重建4D动态驾驶场景,通过轻量级残差流网络预测动态物体的非刚性运动,在nuScenes数据集上表现出色。
- Motivation: 实时高保真重建动态驾驶场景面临复杂动态和稀疏视图的挑战,现有方法难以平衡质量和效率。
- Method: 提出轻量级残差流网络,在学习的静态场景先验基础上预测每个相机的动态物体非刚性运动,通过场景流显式建模动态;引入粗到精的训练范式避免端到端方法的不稳定性。
- Result: 在nuScenes数据集上,仅使用图像的方法能在线生成高质量深度、场景流和3D高斯点云,在动态重建和新视角合成方面显著优于最先进方法。
- Conclusion: DrivingScene框架成功解决了动态驾驶场景重建中的质量和效率平衡问题,为实时应用提供了有效解决方案。
[2] Towards Fine-Grained Human Motion Video Captioning
Guorui Song,Guocun Wang,Zhe Huang,Jing Lin,Xuefei Zhe,Jian Li,Haoqian Wang
Main category: cs.CV
TL;DR: 提出M-ACM模型,通过运动感知解码提升视频字幕质量,使用人体网格恢复的运动表示来突出人体动态,减少幻觉并改善语义保真度和空间对齐。
- Motivation: 现有视频字幕模型难以捕捉细粒度运动细节,导致生成的字幕模糊或语义不一致,需要改进对复杂人体运动的描述能力。
- Method: M-ACM框架利用人体网格恢复得到的运动表示,通过运动感知解码机制来增强字幕生成过程,突出人体动态特征。
- Result: 实验结果表明M-ACM在准确描述复杂人体运动和细微时间变化方面显著优于先前方法,为运动中心视频字幕设立了新标准。
- Conclusion: M-ACM通过整合运动表示有效提升了视频字幕的质量,特别是在描述人体动作方面表现出色,同时提出的HMI数据集和基准测试推动了该领域研究。
[3] Combining SAR Simulators to Train ATR Models with Synthetic Data
Benjamin Camus,Julien Houssay,Corentin Le Barbu,Eric Monteux,Cédric Saleun,Christian Cochin
Main category: cs.CV
TL;DR: 使用两个基于不同物理模型的SAR模拟器(MOCEM和Salsa)生成合成数据,结合ADASCA深度学习方法来提升合成孔径雷达图像自动目标识别的泛化能力,在MSTAR数据集上达到近88%的准确率。
- Motivation: 解决合成孔径雷达图像自动目标识别中缺乏真实标注数据的问题,通过合成数据生成来克服数据稀缺性,但需要解决合成数据与真实测量之间的域差距问题。
- Method: 结合两种基于不同物理模型的SAR模拟器(MOCEM基于散射中心模型,Salsa基于光线追踪策略)生成合成数据集,使用ADASCA深度学习模型进行训练。
- Result: 在MSTAR真实测量数据上达到了接近88%的识别准确率,显著提升了模型从合成数据到真实数据的泛化能力。
- Conclusion: 通过结合互补的模拟器生成多样化合成数据,可以有效缓解合成数据与真实数据之间的域差距,提升自动目标识别模型的泛化性能。
[4] Point-level Uncertainty Evaluation of Mobile Laser Scanning Point Clouds
Ziyang Xu,Olaf Wysocki,Christoph Holst
Main category: cs.CV
TL;DR: 提出基于机器学习的移动激光扫描点云不确定性评估框架,使用随机森林和XGBoost模型学习几何特征与点级误差的关系,无需高精度参考数据。
- Motivation: 传统不确定性建模依赖高精度参考数据,成本高且难以大规模获取,需要开发不依赖参考数据的评估方法。
- Method: 使用随机森林和XGBoost集成学习模型,基于局部几何特征预测点级不确定性,采用空间分区数据集避免数据泄露。
- Result: 两个模型都能有效捕捉几何特征与不确定性的非线性关系,平均ROC-AUC值超过0.87,高程变化、点密度和局部结构复杂度是关键特征。
- Conclusion: 该框架为大规模点云质量控制和误差分析提供了可扩展的数据驱动解决方案。
[5] Cross-Enhanced Multimodal Fusion of Eye-Tracking and Facial Features for Alzheimer's Disease Diagnosis
Yujie Nie,Jianzhang Ni,Yonglong Ye,Yuan-Ting Zhang,Yun Kwok Wing,Xiangqing Xu,Xin Ma,Lizhou Fan
Main category: cs.CV
TL;DR: 提出了一种多模态交叉增强融合框架,结合眼动追踪和面部特征进行阿尔茨海默病检测,通过交叉注意力机制和方向感知卷积实现自适应多模态表征学习,在自建数据集上达到95.11%的分类准确率。
- Motivation: 阿尔茨海默病的准确诊断对于及时干预至关重要,眼动追踪和面部特征作为认知功能的重要指标,但很少有研究探索它们的联合整合用于辅助AD诊断。
- Method: 提出多模态交叉增强融合框架,包含两个关键模块:交叉增强融合注意力模块(CEFAM)通过交叉注意力和全局增强建模模态间交互,方向感知卷积模块(DACM)通过水平-垂直感受野捕获细粒度方向性面部特征。
- Result: 在包含25名AD患者和25名健康对照的自建同步多模态数据集上,该框架优于传统的后期融合和特征拼接方法,实现了95.11%的分类准确率。
- Conclusion: 该框架通过显式建模模态间依赖关系和模态特定贡献,展现出卓越的鲁棒性和诊断性能,为AD辅助诊断提供了有效的多模态融合解决方案。
[6] FPGA-based Lane Detection System incorporating Temperature and Light Control Units
Ibrahim Qamar,Saber Mahmoud,Seif Megahed,Mohamed Khaled,Saleh Hesham,Ahmed Matar,Saif Gebril,Mervat Mahmoud
Main category: cs.CV
TL;DR: 提出基于FPGA的车道检测车辆架构,使用Sobel算法进行边缘检测,能在1.17ms内处理416x416图像,输出车道数量、当前车道索引及边界信息,并集成自动灯光和温度控制。
- Motivation: 智能车辆是自动化趋势的重要成果,车道路径检测在城市场景和机器人轨道应用中具有优先重要性。
- Method: 采用FPGA硬件架构,基于Sobel边缘检测算法,在416x416分辨率图像上以150MHz频率运行。
- Result: 系统每1.17ms生成一次有效输出,包含车道数量、当前车道索引及其左右边界信息,同时自动灯光和温度控制单元增强了环境适应性。
- Conclusion: 该FPGA车道检测系统实现了高效实时的车道检测,并具备环境自适应能力,适用于智能车辆应用。
[7] ESCA: Enabling Seamless Codec Avatar Execution through Algorithm and Hardware Co-Optimization for Virtual Reality
Mingzhi Zhu,Ding Shang,Sai Qian Zhang
Main category: cs.CV
TL;DR: 提出ESCA框架,通过后训练量化和定制硬件加速器优化Codec Avatar模型,在VR设备上实现高质量实时渲染
- Motivation: 解决Codec Avatar模型在资源受限的VR设备上计算需求大、实时推理困难的问题
- Method: 采用后训练量化方法降低精度,设计定制硬件加速器集成到VR设备SoC中
- Result: FovVideoVDP质量得分提升+0.39,延迟降低3.36倍,渲染速率达100fps
- Conclusion: 证明了在资源受限设备上部署高保真Codec Avatar的可行性
[8] The Underappreciated Power of Vision Models for Graph Structural Understanding
Xinjian Zhao,Wei Pang,Zhongkai Xue,Xiangru Jian,Lei Zhang,Yaoyao Xu,Xiaozhuang Song,Shu Wu,Tianshu Yu
Main category: cs.CV
TL;DR: 该论文发现视觉模型在图结构理解方面具有被低估的潜力,在需要全局拓扑感知的任务上显著优于图神经网络,并提出了GraphAbstract基准来评估模型对全局图属性的感知能力。
- Motivation: 图神经网络采用自下而上的消息传递机制,与人类视觉感知首先捕获全局结构的方式存在根本差异。现有基准测试混淆了领域特征与拓扑理解,需要新的评估方法来衡量模型对全局图属性的感知能力。
- Method: 引入GraphAbstract基准测试,评估模型识别组织原型、检测对称性、感知连接强度和识别关键元素等全局图属性的能力,比较视觉模型与图神经网络在结构理解任务上的表现。
- Result: 视觉模型在需要整体结构理解的任务上显著优于图神经网络,且在不同图规模下保持泛化能力,而图神经网络在全局模式抽象方面表现不佳,且随着图规模增大性能下降。
- Conclusion: 视觉模型在图结构理解方面具有显著但未被充分利用的能力,特别是在需要全局拓扑感知和尺度不变推理的问题上,这为开发更有效的图基础模型开辟了新途径。
[9] A Re-node Self-training Approach for Deep Graph-based Semi-supervised Classification on Multi-view Image Data
Jingjun Bi,Fadi Dornaika
Main category: cs.CV
TL;DR: 提出RSGSLM方法,结合图卷积网络、伪标签和拓扑平衡校正,优化多视图数据的半监督学习效果
- Motivation: 传统方法在处理缺乏清晰图结构的图像多视图数据时效率有限,且多视图数据的图结构整合仍是挑战
- Method: 结合线性特征变换和多视图图融合的GCN框架,动态整合伪标签到损失函数,校正类边界附近标注样本的权重,引入无监督平滑损失
- Result: 在多视图基准图像数据集上的实验表明,RSGSLM超越了现有的半监督学习方法
- Conclusion: RSGSLM通过综合优化策略,在多视图半监督学习中实现了优越性能,同时保持了计算效率
[10] PISA-Bench: The PISA Index as a Multilingual and Multimodal Metric for the Evaluation of Vision-Language Models
Patrick Haller,Fabio Barth,Jonas Golde,Georg Rehm,Alan Akbik
Main category: cs.CV
TL;DR: PISA-Bench是一个多语言视觉语言基准测试,基于专家创建的PISA测试构建,涵盖6种语言,用于评估多模态推理能力。
- Motivation: 现有视觉语言基准测试存在高质量人工验证样本不足、依赖LLM生成内容、多语言覆盖有限的问题,需要更可靠的多语言评估资源。
- Method: 从英语PISA测试中提取人类创建的指令、问题、选项和图像,翻译成5种其他语言(西班牙语、德语、中文、法语、意大利语),构建完全平行的六语言语料库。
- Result: 评估发现小模型(<20B参数)表现不佳,非英语语言性能显著下降,在空间和几何推理任务上错误率高。
- Conclusion: PISA-Bench为推进多语言多模态推理研究提供了重要资源,揭示了当前模型在多语言和复杂推理任务上的局限性。
[11] A Survey on Efficient Vision-Language-Action Models
Zhaoshu Yu,Bo Wang,Pengpeng Zeng,Haonan Zhang,Ji Zhang,Lianli Gao,Jingkuan Song,Nicu Sebe,Heng Tao Shen
Main category: cs.CV
TL;DR: 这篇论文首次全面综述了高效视觉-语言-动作模型(Efficient VLAs),提出了统一分类法将现有技术分为高效模型设计、高效训练和高效数据收集三大支柱,旨在解决VLA模型部署中的计算和数据需求挑战。
- Motivation: 视觉-语言-动作模型(VLAs)在具身智能中具有重要作用,但其部署受到底层大规模基础模型巨大计算和数据需求的严重阻碍,迫切需要解决这些挑战。
- Method: 引入统一分类法,系统组织该领域的不同努力,将当前技术分类为三大核心支柱:高效模型设计(关注高效架构和模型压缩)、高效训练(减少模型学习期间的计算负担)和高效数据收集(解决机器人数据获取和利用的瓶颈)。
- Result: 通过对该框架内最先进方法的批判性综述,为社区建立了基础参考,总结了代表性应用,划定了关键挑战,并为未来研究制定了路线图。
- Conclusion: 该调查为高效视觉-语言-动作模型领域提供了系统性的综述框架,通过三大支柱分类法帮助解决VLA模型部署中的效率问题,并维护持续更新的项目页面跟踪最新进展。
[12] Conflict Adaptation in Vision-Language Models
Xiaoyang Hu
Main category: cs.CV
TL;DR: 研究发现12个视觉语言模型在顺序Stroop任务中表现出与人类冲突适应一致的行为,通过稀疏自编码器识别出任务相关超节点,揭示了模型认知控制的神经基础。
- Motivation: 探索人工智能模型是否表现出类似人类认知控制的冲突适应现象,以及这种行为的神经表征基础。
- Method: 使用顺序Stroop任务测试13个视觉语言模型,采用稀疏自编码器分析InternVL 3.5 4B模型的内部表征,识别任务相关超节点并进行消融实验。
- Result: 12个模型表现出冲突适应行为,发现文本和颜色表征的部分重叠超节点,分离出冲突调制超节点,其消融显著增加Stroop错误。
- Conclusion: 视觉语言模型确实表现出类似人类的认知控制机制,其内部表征结构与人类认知自动性不对称相呼应。
[13] DualCap: Enhancing Lightweight Image Captioning via Dual Retrieval with Similar Scenes Visual Prompts
Binbin Li,Guimiao Yang,Zisen Qi,Haiping Wang,Yu Ding
Main category: cs.CV
TL;DR: DualCap是一种新颖的轻量级检索增强图像描述方法,通过双检索机制生成视觉提示来丰富视觉表示,解决了现有方法仅将检索数据作为文本提示而忽略原始视觉特征增强的问题。
- Motivation: 现有的轻量级检索增强图像描述模型通常仅将检索数据用作文本提示,导致原始视觉特征未被增强,特别是在对象细节或复杂场景方面存在语义鸿沟。
- Method: 采用双检索机制:标准图像到文本检索用于文本提示,新颖的图像到图像检索用于获取视觉相似场景。从视觉相似场景的标题中提取关键词语和短语,通过轻量级可训练特征融合网络将文本特征编码并与原始图像特征融合。
- Result: 广泛实验表明,该方法在实现竞争性性能的同时,相比之前的视觉提示描述方法需要更少的可训练参数。
- Conclusion: DualCap通过视觉提示生成和双检索机制有效提升了图像描述的质量,在保持轻量化的同时实现了更好的性能。
[14] Deep Feature Optimization for Enhanced Fish Freshness Assessment
Phi-Hung Hoang,Nam-Thuan Trinh,Van-Manh Tran,Thi-Thu-Hong Phan
Main category: cs.CV
TL;DR: 提出一个三阶段框架,结合深度视觉表示和传统机器学习,用于鱼类新鲜度评估,在FFE数据集上达到85.99%准确率,优于现有方法。
- Motivation: 传统感官评估鱼类新鲜度存在主观性、耗时和不一致的问题,现有深度学习方法在准确性和特征透明度方面仍有挑战。
- Method: 三阶段框架:1) 微调五种先进视觉架构;2) 提取多层次深度特征训练七个经典机器学习分类器;3) 使用LGBM、随机森林和Lasso进行特征选择。
- Result: 最佳配置(Swin-Tiny特征+Extra Trees分类器+LGBM特征选择)在FFE数据集上达到85.99%准确率,比现有研究提升8.69-22.78%。
- Conclusion: 该框架在视觉质量评估任务中具有有效性和泛化能力,为鱼类新鲜度评估提供了可靠解决方案。
[15] Perception, Understanding and Reasoning, A Multimodal Benchmark for Video Fake News Detection
Cui Yakun,Fushuo Huo,Weijie Shi,Juntao Dai,Hang Du,Zhenghao Zhu,Sirui Han,Yike Guo
Main category: cs.CV
TL;DR: 提出了MVFNDB多模态视频假新闻检测基准,包含10个任务和9730个人工标注问题,用于评估MLLMs在检测过程中的感知、理解和推理能力。
- Motivation: 传统视频假新闻检测基准只关注最终决策准确性,缺乏对整个检测过程的细粒度评估,使得检测过程成为黑箱。
- Method: 设计了MVFNDB基准,并提出了MVFND-CoT框架,结合创作者添加内容和原始拍摄素材进行推理。
- Result: 构建了包含9730个视频相关问题的基准,深入分析了影响准确性的深层因素,包括视频处理策略和视频特征与模型能力的对齐。
- Conclusion: 该基准为MLLMs在视频假新闻检测领域的未来评估和发展奠定了坚实基础。
[16] SafeEditor: Unified MLLM for Efficient Post-hoc T2I Safety Editing
Ruiyang Zhang,Jiahao Luo,Xiaoru Feng,Qiufan Pang,Yaodong Yang,Juntao Dai
Main category: cs.CV
TL;DR: 提出一种多轮安全编辑框架MR-SafeEdit,通过构建多轮图文交错数据集,开发统一的MLLM模型SafeEditor,实现文本到图像模型的安全对齐,减少过度拒绝并改善安全性与实用性的平衡。
- Motivation: 现有文本到图像模型的安全方法存在过度拒绝和安全性与实用性不平衡的问题,需要开发更有效的安全对齐方案。
- Method: 提出多轮安全编辑框架,构建MR-SafeEdit数据集,开发SafeEditor统一MLLM模型,采用后验安全编辑范式模拟人类识别和优化不安全内容的认知过程。
- Result: 实验结果表明SafeEditor优于现有安全方法,减少了过度拒绝,实现了更好的安全性与实用性平衡。
- Conclusion: 多轮安全编辑框架为文本到图像模型提供了一种模型无关、即插即用的安全对齐解决方案,有效解决了现有方法的局限性。
[17] Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and Generation
Inclusion AI,:,Bowen Ma,Cheng Zou,Canxiang Yan,Chunxiang Jin,Chunjie Shen,Dandan Zheng,Fudong Wang,Furong Xu,GuangMing Yao,Jun Zhou,Jingdong Chen,Jianing Li,Jianxin Sun,Jiajia Liu,Jianjiang Zhu,Jianping Jiang,Jun Peng,Kaixiang Ji,Kaimeng Ren,Libin Wang,Lixiang Ru,Longhua Tan,Lan Wang,Mochen Bai,Ning Gao,Qingpei Guo,Qinglong Zhang,Qiang Xu,Rui Liu,Ruijie Xiong,Ruobing Zheng,Sirui Gao,Tianqi Li,Tinghao Liu,Weilong Chai,Xinyu Xiao,Xiaomei Wang,Xiaolong Wang,Xiao Lu,Xiaoyu Li,Xingning Dong,Xuzheng Yu,Yi Yuan,Yuting Gao,Yuting Xiao,Yunxiao Sun,Yipeng Chen,Yifan Mao,Yifei Wu,Yongjie Lyu,Ziping Ma,Zhiqiang Fang,Zhihao Qiu,Ziyuan Huang,Zizheng Yang,Zhengyu He
Main category: cs.CV
TL;DR: Ming-Flash-Omni是基于稀疏MoE架构的升级版多模态模型,在视觉、语音和语言任务上实现统一智能,在图像生成、语音识别和生成分割等任务中达到最先进性能。
- Motivation: 构建更高效、容量更大的统一多模态模型,向通用人工智能迈出关键一步,解决现有模型在计算效率和跨模态能力方面的限制。
- Method: 采用基于Ling-Flash-2.0的稀疏混合专家(MoE)架构,总参数量1000亿,但每个token仅激活61亿参数,实现高效扩展。
- Result: 在12个上下文ASR基准测试中创下新记录,在文本到图像生成和生成分割中达到最先进水平,在图像编辑的场景一致性和身份保持方面显著提升。
- Conclusion: Ming-Flash-Omni通过稀疏MoE架构实现了高效扩展和强大的统一多模态智能,在多模态理解和生成任务上表现出显著改进,是迈向AGI的重要进展。
[18] MCIHN: A Hybrid Network Model Based on Multi-path Cross-modal Interaction for Multimodal Emotion Recognition
Haoyang Zhang,Zhou Yang,Ke Sun,Yucai Pang,Guoliang Xu
Main category: cs.CV
TL;DR: 提出基于多路径跨模态交互的混合网络模型MCIHN,通过对抗自编码器学习判别性情感特征,使用跨模态门机制减少模态差异,在SIMS和MOSI数据集上取得优越性能。
- Motivation: 多模态情感识别面临模态间差异大和单模态情感信息表征困难的挑战,需要解决模态差异和提升情感特征判别能力。
- Method: 为每个模态构建对抗自编码器学习判别性情感特征,通过跨模态门机制减少模态差异并建立模态间情感关系,最后使用特征融合模块进行多模态融合。
- Result: 在公开的SIMS和MOSI数据集上的实验表明,MCIHN模型实现了优越的性能表现。
- Conclusion: 提出的MCIHN模型能有效解决多模态情感识别中的模态差异问题,提升情感识别准确性。
[19] The Generation Phases of Flow Matching: a Denoising Perspective
Anne Gagneux,Ségolène Martin,Rémi Gribonval,Mathurin Massias
Main category: cs.CV
TL;DR: 本文从去噪角度研究流匹配模型的生成过程,建立了流匹配与去噪器的形式联系,通过设计噪声和漂移扰动来影响样本生成,揭示了生成过程的不同动力学阶段。
- Motivation: 流匹配模型取得了显著成功,但其生成过程质量的影响因素仍不清楚。本文旨在从去噪角度实证研究流匹配的生成机制。
- Method: 建立流匹配模型与去噪器的形式联系,设计噪声和漂移扰动来影响样本生成,分析生成过程的不同动力学阶段。
- Result: 揭示了生成过程的动态阶段特征,能够精确描述去噪器在生成过程不同阶段的成功与失败情况及其重要性。
- Conclusion: 通过去噪视角为流匹配模型提供了新的分析框架,深化了对生成过程机制的理解。
[20] FruitProm: Probabilistic Maturity Estimation and Detection of Fruits and Vegetables
Sidharth Rai,Rahul Harsha Cheppally,Benjamin Vail,Keziban Yalçın Dokumacı,Ajay Sharda
Main category: cs.CV
TL;DR: 将水果蔬菜成熟度估计从离散分类问题重构为连续概率学习任务,提出在RT-DETRv2检测器中添加概率头来预测连续成熟度分布和不确定性。
- Motivation: 当前深度学习方法将成熟度视为离散分类问题,这与生物成熟过程的连续性本质相冲突,导致信息丢失和类别边界模糊。
- Method: 在RT-DETRv2实时目标检测器中引入专用概率头,使模型能够为每个检测对象预测成熟度谱上的连续分布,同时学习平均成熟状态及其相关不确定性。
- Result: 在具有挑战性的大规模水果数据集上达到85.6%的平均精度(mAP),同时提供比基于分类方法更细粒度和准确的成熟度评估。
- Conclusion: 概率方法为现代农业提供了更智能、不确定性感知的自动化系统,实现了更丰富和生物学上更合理的植物成熟度表示。
[21] Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS
Daniele L. V. dos Santos,Thiago B. Pereira,Carlos Eduardo G. R. Alves,Richard J. M. G. Tello,Francisco de A. Boldt,Thiago M. Paixão
Main category: cs.CV
TL;DR: 本文研究使用轻量级身体关键点检测识别巴西手语(LIBRAS)孤立手势的可行性,通过关键点子集选择和样条插值技术,在保持准确性的同时显著提升处理速度。
- Motivation: 虽然基于骨架的方法在识别性能上有显著提升,但使用OpenPose进行关键点提取影响了时间性能。简单地用轻量级MediaPipe替换OpenPose虽然提高了处理速度,但显著降低了准确性。
- Method: 探索关键点子集选择策略来优化识别性能,并使用基于样条的插值技术有效缓解缺失关键点问题。
- Result: 适当的关键点子集实现了与最先进方法相当或更优的性能,同时处理时间相比Alves等人(2024)的方法减少了5倍以上。样条插值技术显著提高了准确性。
- Conclusion: 仔细的关键点选择结合简单的插值技术,能够实现高效准确的手语识别,为可扩展的手语识别系统铺平了道路。
[22] Pixels to Signals: A Real-Time Framework for Traffic Demand Estimation
H Mhatre,M Vyas,A Mittal
Main category: cs.CV
TL;DR: 提出了一种基于背景建模和DBSCAN聚类的车辆检测方法,用于优化城市交通流量
- Motivation: 快速发展的城市中交通拥堵日益严重,导致交通系统延误和效率低下,需要优化交通流量和减少延误
- Method: 通过分析摄像头连续帧计算背景图像,然后提取前景,使用DBSCAN算法进行车辆检测
- Result: 该方法计算效率高,对基础设施改动要求小,为实际部署提供了实用且可扩展的解决方案
- Conclusion: 提出的车辆检测方法为交通信号优化系统提供了有效的技术基础
[23] VividCam: Learning Unconventional Camera Motions from Virtual Synthetic Videos
Qiucheng Wu,Handong Zhao,Zhixin Shu,Jing Shi,Yang Zhang,Shiyu Chang
Main category: cs.CV
TL;DR: VividCam是一个训练范式,通过从合成视频中学习复杂相机运动,解决了文本到视频生成模型在处理非常规相机运动时的泛化问题。
- Motivation: 现有的文本到视频生成模型难以泛化到非常规相机运动,因为缺乏包含这些运动的训练视频。
- Method: 使用合成视频训练扩散模型,采用多重解耦策略将相机运动学习与合成外观伪影分离,确保更鲁棒的运动表示并减轻域偏移。
- Result: 该方法能够使用简单的合成数据合成各种精确控制和复杂的相机运动,合成数据通常包含低多边形3D场景中的基本几何体。
- Conclusion: VividCam通过合成视频训练有效解决了非常规相机运动的学习问题,为创建原创艺术视频提供了新途径。
[24] Understanding Multi-View Transformers
Michal Stary,Julien Gaubil,Ayush Tewari,Vincent Sitzmann
Main category: cs.CV
TL;DR: 本文提出了一种分析多视图transformer内部机制的方法,通过探测DUSt3R模型的残差连接来可视化3D表示,揭示了模型层间潜在状态的发展和各层的作用。
- Motivation: 多视图transformer如DUSt3R虽然能前馈解决3D任务,但其内部机制不明确,这种黑盒特性使得在数据扩展之外的改进变得困难,也阻碍了在安全和可靠性关键应用中的使用。
- Method: 通过探测多视图transformer各层残差连接来可视化和分析3D表示,研究了DUSt3R变体模型,分析了其跨块的潜在状态发展和各层作用。
- Result: 研究发现DUSt3R估计的对应关系会随着重建几何的细化而改进,揭示了该模型与具有更强显式全局姿态归纳偏置的方法之间的差异。
- Conclusion: 该方法为理解多视图transformer的内部工作机制提供了新视角,有助于未来模型的改进和在关键应用中的部署。
[25] Modality-Aware SAM: Sharpness-Aware-Minimization Driven Gradient Modulation for Harmonized Multimodal Learning
Hossein R. Nowdeh,Jie Ji,Xiaolong Ma,Fatemeh Afghah
Main category: cs.CV
TL;DR: 提出M-SAM框架,通过识别主导模态、分解损失景观和更新权重,解决多模态学习中主导模态压制其他模态的问题,提升模型泛化能力。
- Motivation: 多模态学习中,主导模态往往会压制其他模态,限制了模型的泛化能力。
- Method: M-SAM框架包含三个步骤:1) 使用Shapley值识别主导模态;2) 分解损失景观,调整损失以优先考虑主导模态的鲁棒性;3) 通过调制梯度的反向传播更新权重。
- Result: 在四个不同数据集上的实验表明,M-SAM优于最新的优化和梯度操作方法,显著平衡和改进了多模态学习。
- Conclusion: M-SAM能够确保主导模态的鲁棒学习,同时增强其他模态的贡献,使模型能够探索和利用互补特征来提升整体性能。
[26] IBIS: A Powerful Hybrid Architecture for Human Activity Recognition
Alison M. Fernandes,Hermes I. Del Monego,Bruno S. Chang,Anelise Munaretto,Hélder M. Fontes,Rui L. Campos
Main category: cs.CV
TL;DR: 提出了一种名为IBIS的混合架构,结合Inception-BiLSTM和SVM,用于解决Wi-Fi感知中的过拟合问题,在运动识别任务中达到近99%的准确率。
- Motivation: Wi-Fi感知因其低成本、非侵入式获取环境数据的潜力而受到关注,但该领域普遍存在过拟合问题,模型在训练数据上表现良好但无法泛化到新数据。
- Method: 引入新颖的混合架构IBIS,集成Inception-BiLSTM和支持向量机(SVM),旨在改善模型泛化能力并创建更鲁棒的分类边界。
- Result: 在多普勒衍生数据上应用该方法,实现了接近99%的运动识别准确率,综合性能指标和混淆矩阵证实了该方案的有效性。
- Conclusion: IBIS架构显著提升了Wi-Fi感知模型的泛化能力,为解决该领域的过拟合问题提供了有效解决方案。
[27] FT-ARM: Fine-Tuned Agentic Reflection Multimodal Language Model for Pressure Ulcer Severity Classification with Reasoning
Reza Saadati Fard,Emmanuel Agu,Palawat Busaranuvong,Deepak Kumar,Shefalika Gautam,Bengisu Tulu,Diane Strong,Lorraine Loretz
Main category: cs.CV
TL;DR: FT-ARM是一种基于多模态大语言模型的压力性溃疡严重程度分类系统,通过微调和自反机制实现了85%的分类准确率,比之前的CNN模型提升了4%,并提供临床解释性。
- Motivation: 压力性溃疡严重程度分类具有挑战性,现有AI方法虽然准确率不错但缺乏可解释性,临床实践中需要更可靠和透明的自动化评估系统。
- Method: 基于LLaMA 3.2 90B进行微调,结合多模态输入和自反机制,通过迭代推理视觉特征和临床知识来优化预测结果。
- Result: 在PIID数据集上达到85%的分类准确率,超过之前CNN模型4个百分点,支持实时推理并生成自然语言解释。
- Conclusion: FT-ARM通过整合微调和多模态推理,提升了压力性溃疡评估系统的可靠性、透明度和临床适用性。
[28] Efficient License Plate Recognition via Pseudo-Labeled Supervision with Grounding DINO and YOLOv8
Zahra Ebrahimi Vargoorani,Amir Mohammad Ghoreyshi,Ching Yee Suen
Main category: cs.CV
TL;DR: 提出基于YOLOv8和半监督学习的车牌识别系统,使用Grounding DINO自动标注减少人工标注依赖,在多个数据集上取得高召回率。
- Motivation: 开发高精度自动车牌识别系统面临环境因素(光照、雨、灰尘)、车辆高速、相机角度变化和低质量图像等挑战,该系统在交通控制、停车管理、车辆追踪等领域有重要应用价值。
- Method: 采用YOLOv8进行车牌检测和识别,结合半监督学习框架,使用少量人工标注数据和Grounding DINO生成的伪标签训练检测模型,通过视觉语言模型自动标注大量图像。
- Result: 在CENPARMI数据集上召回率达到94%,在UFPR-ALPR数据集上达到91%,并报告了两个数据集的字符错误率。
- Conclusion: 该方法通过半监督学习有效减少了人工标注需求,同时保持了标签质量,显著提升了训练过程和模型整体性能。
[29] Breast Cancer VLMs: Clinically Practical Vision-Language Train-Inference Models
Shunjie-Fabian Zheng,Hyeonjun Lee,Thijs Kooi,Ali Diba
Main category: cs.CV
TL;DR: 提出了一种结合2D乳腺X光片视觉特征与临床元数据文本描述的多模态框架,在乳腺癌检测和钙化识别方面优于单模态基线方法
- Motivation: 现有计算机辅助诊断系统在临床部署中存在局限性,特别是在处理多模态数据的细微解释和需要先验临床历史方面存在困难
- Method: 创新性地结合卷积神经网络与语言表示,通过标记化模块整合2D乳腺X光片的视觉特征和来自临床元数据的结构化文本描述
- Result: 在多国队列筛查乳腺X光片上评估显示,该方法在癌症检测和钙化识别方面表现优于单模态基线,特别是处理高分辨率图像时
- Conclusion: 建立了一个新的临床可行VLM-based CAD系统范式,通过有效的融合机制充分利用影像数据和上下文患者信息
[30] Auto3DSeg for Brain Tumor Segmentation from 3D MRI in BraTS 2023 Challenge
Andriy Myronenko,Dong Yang,Yufan He,Daguang Xu
Main category: cs.CV
TL;DR: 使用MONAI的Auto3DSeg在BraTS 2023挑战赛中取得优异成绩,在5个分割挑战中获得3项第一名和2项第二名
- Motivation: 参与BraTS 2023挑战赛,测试Auto3DSeg在脑肿瘤分割任务中的性能
- Method: 使用MONAI的Auto3DSeg自动3D分割框架
- Result: 在5个分割挑战中:脑转移瘤、脑膜瘤、BraTS-非洲挑战获得第一名;成人和儿童胶质瘤挑战获得第二名
- Conclusion: Auto3DSeg在脑肿瘤分割任务中表现出色,验证了其有效性和竞争力
[31] DRIP: Dynamic patch Reduction via Interpretable Pooling
Yusen Peng,Sachin Kumar
Main category: cs.CV
TL;DR: 提出DRIP方法,通过可解释池化动态减少视觉编码器深层token数量,显著降低计算量同时保持性能
- Motivation: 视觉语言模型预训练计算成本高昂,阻碍了从头训练新模型,需要提高效率的方法
- Method: DRIP方法根据输入图像自适应地合并深层token,动态减少patch数量
- Result: 在ImageNet从头训练和CLIP对比预训练中显著减少GFLOPs,同时保持分类/零样本性能
- Conclusion: DRIP方法有效降低视觉语言模型预训练计算成本,适用于科学领域
[32] Vision-Language Integration for Zero-Shot Scene Understanding in Real-World Environments
Manjunath Prasad Holenarasipura Rajiv,B. M. Vidyavathi
Main category: cs.CV
TL;DR: 提出了一种视觉-语言集成框架,通过统一预训练的视觉编码器和大型语言模型,实现零样本场景理解,在多个基准数据集上显著优于现有方法。
- Motivation: 解决真实世界场景中零样本理解的挑战,由于自然场景的复杂性和变异性,模型需要在没有先验标注样本的情况下识别新对象、动作和上下文。
- Method: 开发统一模型,将视觉输入和文本提示嵌入共享空间,然后通过多模态融合和推理层进行上下文解释,利用自然语言作为桥梁来泛化未见过的类别和上下文。
- Result: 在Visual Genome、COCO、ADE20K和自定义真实世界数据集上的实验显示,在目标识别、活动检测和场景描述方面显著优于最先进的零样本模型,top-1准确率提升高达18%,语义一致性指标也有显著提升。
- Conclusion: 跨模态对齐和语言基础在增强真实世界场景理解的泛化能力方面非常有效,证明了视觉-语言集成框架在零样本场景理解中的优势。
[33] Neighborhood Feature Pooling for Remote Sensing Image Classification
Fahimeh Orvati Nia,Amirmohammad Mohammadi,Salim Al Kharsa,Pragati Naikare,Zigfried Hampel-Arias,Joshua Peeples
Main category: cs.CV
TL;DR: 提出了一种用于遥感图像分类的新型纹理特征提取方法——邻域特征池化(NFP),该方法能捕获相邻输入之间的关系并高效聚合特征维度上的局部相似性。
- Motivation: 为了改进遥感图像分类中的纹理特征提取,需要一种能够有效捕获局部特征关系且易于集成到现有网络架构中的方法。
- Method: 使用卷积层实现邻域特征池化(NFP),该方法能够捕获相邻输入之间的关系并聚合局部相似性,可以无缝集成到任何网络中。
- Result: 与基线模型相比,NFP方法在不同数据集和架构上均能持续提升性能,同时保持最小的参数开销。
- Conclusion: NFP是一种有效的纹理特征提取方法,能够显著提升遥感图像分类性能,且具有很好的通用性和效率。
[34] PSTF-AttControl: Per-Subject-Tuning-Free Personalized Image Generation with Controllable Face Attributes
Xiang liu,Zhaoxiang Liu,Huan Hu,Zipeng Wang,Ping Chen,Zezhou Chen,Kai Wang,Shiguo Lian
Main category: cs.CV
TL;DR: 提出了一种无需逐主题调优的个性化图像生成方法,能够在保持面部身份的同时精确控制面部属性。
- Motivation: 现有方法在无需调优的情况下难以精确控制面部属性,而调优方法需要技术专长和额外训练数据,限制了可访问性。
- Method: 使用人脸识别模型提取身份特征,通过e4e编码器映射到StyleGAN2的W+潜在空间,并采用三元解耦交叉注意力模块将身份、属性和文本嵌入集成到UNet架构中。
- Result: 在FFHQ数据集上训练,能够生成具有精细面部属性控制的个性化图像,无需为单个身份进行额外微调或训练数据。
- Conclusion: 该方法成功平衡了个性化与精确面部属性控制,为高质量、适应性强的面部图像合成提供了更高效和用户友好的解决方案。
[35] Visual Diversity and Region-aware Prompt Learning for Zero-shot HOI Detection
Chanhyeong Yang,Taehoon Song,Jihwan Park,Hyunwoo J. Kim
Main category: cs.CV
TL;DR: VDRP是一个用于零样本人-物交互检测的框架,通过视觉多样性感知和区域感知的提示学习来解决交互的视觉复杂性,在HICO-DET基准测试中实现了最先进的性能。
- Motivation: 现有方法难以处理交互的视觉复杂性,包括:(1)类内视觉多样性——相同动词实例具有不同姿态和上下文;(2)类间视觉纠缠——不同动词产生相似视觉模式。
- Method: 提出VDRP框架:1)视觉多样性感知提示学习,将组间视觉方差注入上下文嵌入,并使用高斯扰动鼓励提示捕获动词的多样化视觉变化;2)从人、物和联合区域检索区域特定概念,增强多样性感知提示嵌入,产生区域感知提示以增强动词级区分能力。
- Result: 在HICO-DET基准测试的四种零样本评估设置下均实现了最先进的性能,有效解决了类内多样性和类间视觉纠缠问题。
- Conclusion: VDRP通过视觉多样性感知和区域感知的提示学习,显著提升了零样本人-物交互检测的性能,证明了处理交互视觉复杂性的有效性。
[36] AtlasGS: Atlanta-world Guided Surface Reconstruction with Implicit Structured Gaussians
Xiyu Zhang,Chong Bao,Yipeng Chen,Hongjia Zhai,Yitong Dong,Hujun Bao,Zhaopeng Cui,Guofeng Zhang
Main category: cs.CV
TL;DR: 提出了一种基于亚特兰大世界模型的隐式结构化高斯泼溅方法,用于实现平滑的室内和城市场景重建,同时保持高频细节和渲染效率。
- Motivation: 现有几何先验在室内和城市场景的低纹理区域缺乏全局一致性,高斯泼溅和隐式SDF场存在不连续性或计算效率低的问题,导致细节丢失。
- Method: 利用亚特兰大世界模型确保低纹理区域的准确表面重建,提出新颖的隐式结构化高斯泼溅表示,通过语义高斯泼溅表示预测所有语义区域的概率,并部署具有可学习平面指示器的结构平面正则化。
- Result: 在室内和城市场景的广泛实验中,该方法优于最先进的方法,提供了卓越的表面重建质量。
- Conclusion: 所提出的方法能够实现平滑的室内和城市场景重建,同时保持高频细节和渲染效率,在表面重建质量方面优于现有方法。
[37] Region-CAM: Towards Accurate Object Regions in Class Activation Maps for Weakly Supervised Learning Tasks
Qingdong Cai,Charith Abhayaratne
Main category: cs.CV
TL;DR: Region-CAM是一种新的类激活映射方法,通过提取语义信息图和语义信息传播,解决了传统CAM方法只突出最具判别性区域、边界不准确的问题,在弱监督语义分割和物体定位任务中显著提升了性能。
- Motivation: 传统CAM方法仅突出目标的最具判别性区域,这些区域往往无法覆盖整个物体且与物体边界不对齐,限制了弱监督学习任务(特别是弱监督语义分割)的性能。
- Method: 提出Region-CAM方法,通过提取语义信息图(SIMs)和执行语义信息传播(SIP),同时考虑基线分类模型各阶段的梯度和特征来生成激活图。
- Result: 在PASCAL VOC数据集上,Region-CAM达到60.12%和58.43%的mIoU,比原始CAM提升13.61%和13.13%;在MS COCO验证集上达到36.38%,比CAM提升16.23%;在ILSVRC2012验证集上达到51.7%的Top-1定位精度,比LayerCAM提升4.5%。
- Conclusion: Region-CAM能够突出更大比例的物体区域,同时确保激活图具有精确的边界,在弱监督语义分割和物体定位任务中表现出优越性能。
[38] DINO-YOLO: Self-Supervised Pre-training for Data-Efficient Object Detection in Civil Engineering Applications
Malaisree P,Youwai S,Kitkobsin T,Janrungautai S,Amorndechaphon D,Rojanavasu P
Main category: cs.CV
TL;DR: DINO-YOLO是一种结合YOLOv12和DINOv3自监督视觉变换器的混合架构,用于数据高效的目标检测,在土木工程应用中显著提升了检测性能,同时保持实时推理能力。
- Motivation: 土木工程应用中的目标检测受到专业领域标注数据有限的限制,需要开发数据高效的检测方法。
- Method: 将DINOv3特征在输入预处理(P0)和中骨干增强(P3)两个位置进行策略性集成,构建DINO-YOLO混合架构,并在五个YOLO尺度和九个DINOv3变体上进行系统消融研究。
- Result: 在多个数据集上取得显著改进:隧道裂缝检测提升12.4%,施工PPE检测提升13.7%,KITTI数据集提升88.6%,同时保持30-47 FPS的实时推理速度。中型架构在DualP0P3集成下达到55.77% mAP@0.5的最佳性能。
- Conclusion: DINO-YOLO在数据受限的土木工程数据集(<10K图像)上建立了最先进的性能,同时保持计算效率,为施工安全监控和基础设施检测提供了实用解决方案。
[39] Revisiting Reconstruction-based AI-generated Image Detection: A Geometric Perspective
Wan Jiang,Jing Yan,Ruixuan Zhang,Xiaojing Chen,Changtao Miao,Zhe Li,Chenhao Lin,Yunfeng Diao,Richang Hong
Main category: cs.CV
TL;DR: 提出ReGap方法,通过动态重建误差检测AI生成图像,解决了现有基于重建的方法缺乏理论基础和依赖经验启发式的问题。
- Motivation: 生成式AI的兴起使得检测AI生成图像成为确保真实性的关键挑战。现有基于重建的方法缺乏理论基础,依赖经验启发式,限制了可解释性和可靠性。
- Method: 从几何角度引入Jacobian-Spectral下界理论,提出ReGap训练免费方法,通过结构化编辑操作引入受控扰动,计算动态重建误差,测量编辑前后的误差变化。
- Result: 实验结果表明,该方法优于现有基线方法,对常见后处理操作具有鲁棒性,并在多样化条件下有效泛化。
- Conclusion: ReGap通过动态重建误差显著提高了AI生成图像检测的准确性和可靠性,解决了现有方法的局限性。
[40] EA3D: Online Open-World 3D Object Extraction from Streaming Videos
Xiaoyu Zhou,Jingqi Wang,Yuang Jia,Yongtao Wang,Deqing Sun,Ming-Hsuan Yang
Main category: cs.CV
TL;DR: EA3D是一个统一的在线框架,用于开放世界的3D物体提取,能够同时进行几何重建和整体场景理解。它通过动态解释视频流帧,将物体级知识嵌入到高斯特征图中,并通过在线更新策略实现联合优化。
- Motivation: 现有的3D场景理解方法受限于离线收集的多视图数据或预构建的3D几何。EA3D旨在克服这些限制,实现同时的几何重建和整体场景理解。
- Method: 使用视觉语言和2D视觉基础编码器动态解释视频帧,将物体知识嵌入高斯特征图。通过前馈在线更新策略,迭代估计视觉里程计并增量更新高斯特征。采用循环联合优化模块引导模型关注感兴趣区域。
- Result: 在多个基准测试和任务中表现出有效性,包括照片级真实感渲染、语义和实例分割、3D边界框和语义占用估计、3D网格生成等。
- Conclusion: EA3D建立了一个统一高效的框架,用于联合在线3D重建和整体场景理解,支持广泛的下游任务。
[41] Towards Real-Time Inference of Thin Liquid Film Thickness Profiles from Interference Patterns Using Vision Transformers
Gautam A. Viruthagiri,Arnuv Tandon,Gerald G. Fuller,Vinny Chandran Suja
Main category: cs.CV
TL;DR: 提出基于视觉变换器的实时薄膜干涉测量方法,直接从干涉图中推断液体薄膜厚度分布,解决了传统方法计算复杂、对噪声敏感的问题。
- Motivation: 薄膜干涉测量技术在眼科应用中面临重建厚度分布的挑战,传统方法计算量大、对噪声敏感或需要专家手动分析,无法满足实时诊断需求。
- Method: 使用视觉变换器架构,在结合生理相关合成和实验数据的混合数据集上训练,利用长程空间相关性解决相位模糊问题,从动态干涉图中单次前向传播重建厚度分布。
- Result: 在具有噪声和运动伪影的快速演化薄膜上表现出最先进的性能,克服了传统相位展开和迭代拟合方法的局限性。
- Conclusion: 这种数据驱动方法能够在消费级硬件上实现自动化、一致的实时厚度重建,为连续监测眼表泪膜和无创诊断干眼症等疾病开辟了新可能性。
[42] Target-Guided Bayesian Flow Networks for Quantitatively Constrained CAD Generation
Wenhao Zheng,Chenwei Sun,Wenbo Zhang,Jiancheng Lv,Xianggen Liu
Main category: cs.CV
TL;DR: 提出了TGBFN框架,首次在统一连续可微分参数空间中处理CAD序列的多模态性(离散命令和连续参数),通过引导贝叶斯流控制CAD属性,在定量约束CAD生成任务中达到最先进性能。
- Motivation: 由于长距离约束和参数敏感性的挑战,生成建模技术在生成多模态数据(如参数化CAD序列)方面仍落后于图像和音频生成。
- Method: TGBFN在统一连续可微分参数空间中处理CAD序列的多模态性,引入引导贝叶斯流控制CAD属性,穿透参数更新核。
- Result: 在单条件和多条件约束生成任务中,TGBFN在生成高保真、条件感知的CAD序列方面达到最先进性能。
- Conclusion: TGBFN为定量约束CAD生成提供了有效解决方案,首次统一处理CAD序列的多模态性,并在新构建的数据集上验证了其优越性能。
[43] A Study on Inference Latency for Vision Transformers on Mobile Devices
Zhuojin Li,Marco Paolieri,Leana Golubchik
Main category: cs.CV
TL;DR: 该研究定量分析了190个真实世界视觉变换器(ViT)在移动设备上的性能特征,并与102个卷积神经网络(CNN)进行比较,开发了包含1000个合成ViT延迟测量的数据集,证明可以准确预测新ViT的推理延迟。
- Motivation: 随着机器学习技术在移动设备上的显著进步,特别是在计算机视觉领域,需要定量研究ViT在移动设备上的性能特征,并与传统CNN进行比较,了解影响ViT延迟的因素。
- Method: 比较190个真实世界ViT和102个CNN在移动设备上的延迟;开发包含1000个合成ViT的数据集,涵盖代表性构建块和最先进架构;在两个机器学习框架和六个移动平台上测量延迟。
- Result: 识别了影响ViT架构在移动设备上延迟的关键因素;建立了预测模型,能够以足够精度预测新ViT的推理延迟。
- Conclusion: ViT在移动设备上的推理延迟可以被准确预测,这为实际应用中的模型选择和优化提供了重要指导。
[44] : Dense Depth Regularization for LiDAR-free Urban Scene Reconstruction
Kejing Xia,Jidong Jia,Ke Jin,Yucai Bai,Li Sun,Dacheng Tao,Youjian Zhang
Main category: cs.CV
TL;DR: D²GS是一种无需LiDAR的城市场景重建框架,通过多视角深度预测生成几何先验,结合渐进式剪枝和深度增强器优化高斯几何,在Waymo数据集上超越现有方法。
- Motivation: 当前城市场景重建方法依赖LiDAR和图像等多模态传感器,但获取精确LiDAR数据存在挑战:需要精确的时空校准,且传感器位置差异导致重投影误差。
- Method: 1) 通过多视角深度预测反投影初始化密集点云,采用渐进式剪枝优化全局一致性;2) 通过深度增强器联合优化高斯几何和预测深度,利用深度基础模型的扩散先验增强渲染深度;3) 在道路区域约束高斯形状和法线属性以改进地面几何精度。
- Result: 在Waymo数据集上的大量实验表明,该方法持续优于最先进方法,即使与使用真实LiDAR数据的方法相比也能产生更准确的几何结果。
- Conclusion: 提出的D²GS框架证明了无需LiDAR即可实现高质量城市场景重建的可行性,通过深度预测和几何优化达到了超越LiDAR依赖方法的性能。
[45] Classifier Enhancement Using Extended Context and Domain Experts for Semantic Segmentation
Huadong Tang,Youpeng Zhao,Min Xu,Jun Wang,Qiang Wu
Main category: cs.CV
TL;DR: 提出扩展上下文感知分类器(ECAC),通过动态调整分类器来解决语义分割中固定参数分类器无法适应图像特定类别分布的问题,在多个数据集上达到SOTA性能。
- Motivation: 传统语义分割方法使用固定参数分类器,无法适应不同图像的独特类别分布,且数据集级别的类别不平衡导致模型偏向多数类,限制了少数类区域的识别能力。
- Method: 使用扩展上下文感知分类器(ECAC),通过内存库学习数据集级上下文信息,结合当前图像的类别特定上下文信息来动态调整分类器。采用师生网络范式,教师网络用真实标签动态调整上下文信息并传递知识给学生网络。
- Result: 在ADE20K、COCO-Stuff10K和Pascal-Context等多个数据集上的综合实验表明,ECAC能够达到最先进的性能。
- Conclusion: ECAC通过动态调整分类器参数,有效解决了语义分割中的类别分布差异和类别不平衡问题,显著提升了模型性能。
[46] Test-Time Adaptive Object Detection with Foundation Model
Yingjie Gao,Yanan Zhang,Zhi Cai,Di Huang
Main category: cs.CV
TL;DR: 提出首个基于基础模型的测试时自适应目标检测方法,无需源数据且突破传统闭集限制,通过多模态提示学习和实例动态记忆模块实现高效域适应。
- Motivation: 现有测试时自适应目标检测方法严重依赖源域统计特征,且假设源域和目标域类别空间相同,这限制了在真实场景中的应用。
- Method: 设计多模态提示均值教师框架,结合文本和视觉提示调优;提出测试时热启动策略保护视觉分支表示能力;构建实例动态记忆模块,采用记忆增强和记忆幻觉策略提升伪标签质量。
- Result: 在跨损坏和跨数据集基准测试中,该方法持续超越先前最先进方法,能够适应任意跨域和跨类别的目标数据。
- Conclusion: 该方法成功实现了无需源数据的测试时自适应目标检测,突破了传统闭集限制,在多种跨域场景下表现出优越性能。
[47] Mask-Robust Face Verification for Online Learning via YOLOv5 and Residual Networks
Zhifeng Wang,Minghui Wang,Chunyan Zeng,Jialong Yao,Yang Yang,Hongmin Xu
Main category: cs.CV
TL;DR: 本研究提出了一种基于改进卷积神经网络(残差网络)的在线学习身份认证系统,使用YOLOv5网络检测学生摄像头图像中的人脸,并通过残差网络提取特征进行身份验证。
- Motivation: 信息技术和人工智能的快速发展推动了教育的数字化转型,新冠疫情加速了在线教育的发展。在线教育中身份认证是保障教育质量和安全的关键问题。
- Method: 使用YOLOv5网络从学生摄像头图像中检测人脸,然后将人脸信息输入残差网络提取深层特征,最后通过欧氏距离与数据库中的学生人脸特征进行比对验证身份。
- Result: 开发了一个基于深度学习的在线学习身份认证系统,能够有效识别和验证学生身份。
- Conclusion: 该技术方法能够促进在线教育的持续发展,同时增强其安全性和稳定性,使在线教育更好地适应教育领域的快速变革。
[48] AI-Powered Early Detection of Critical Diseases using Image Processing and Audio Analysis
Manisha More,Kavya Bhand,Kaustubh Mukdam,Kavya Sharma,Manas Kawtikwar,Hridayansh Kaware,Prajwal Kavhar
Main category: cs.CV
TL;DR: 提出了一种多模态AI诊断框架,集成图像分析、热成像和音频信号处理,用于早期检测皮肤癌、血管血栓和心肺异常,在保持轻量级的同时达到竞争性性能。
- Motivation: 现有诊断技术成本高、侵入性强且在资源匮乏地区难以获取,需要开发可访问的早期诊断解决方案。
- Method: 使用微调MobileNetV2进行皮肤病变分类,SVM进行热成像血栓检测,随机森林结合MFCC进行心肺声音分析。
- Result: 皮肤癌检测准确率89.3%,血栓检测准确率86.4%,心肺异常检测准确率87.2%,各项指标均表现良好。
- Conclusion: 该框架为实现可扩展、实时且可访问的AI预诊断医疗解决方案迈出了有希望的一步。
[49] U-CAN: Unsupervised Point Cloud Denoising with Consistency-Aware Noise2Noise Matching
Junsheng Zhou,Xingyu Shi,Haichuan Song,Yi Fang,Yu-Shen Liu,Zhizhong Han
Main category: cs.CV
TL;DR: U-CAN是一个无监督点云去噪框架,通过一致性感知的Noise2Noise匹配实现,无需干净数据对即可训练,在点云去噪、上采样和图像去噪任务中表现优异。
- Motivation: 传统方法需要大量人工标注的噪声-干净点云对进行训练,成本高昂。本文旨在开发无需干净数据对的无监督点云去噪方法。
- Method: 提出U-CAN框架,利用神经网络推断多步去噪路径,采用Noise2Noise匹配方案,通过新颖的损失函数实现多噪声观测的统计推理,并引入几何一致性约束。
- Result: 在点云去噪、上采样和图像去噪基准测试中,显著优于现有无监督方法,与有监督方法结果相当。
- Conclusion: U-CAN提供了一种有效的无监督点云去噪解决方案,其一致性约束具有通用性,可扩展到2D图像去噪领域。
[50] MSF-Net: Multi-Stage Feature Extraction and Fusion for Robust Photometric Stereo
Shiyu Qin,Zhihao Cai,Kaixuan Wang,Lin Qi,Junyu Dong
Main category: cs.CV
TL;DR: 提出MSF-Net框架,通过多阶段特征提取和选择性更新策略,结合特征融合模块,显著提升了光度立体表面法向估计的精度。
- Motivation: 现有学习方法无法准确捕捉多阶段特征,且特征间交互不足,导致在皱纹和边缘等复杂区域提取冗余特征。
- Method: MSF-Net框架包含多阶段特征提取、选择性更新策略和特征融合模块,旨在提取高质量特征信息用于准确的法向构建。
- Result: 在DiLiGenT基准测试中,MSF-Net在表面法向估计精度上显著超越了之前的最先进方法。
- Conclusion: MSF-Net通过改进多阶段特征提取和特征交互,有效解决了复杂区域特征冗余问题,实现了更准确的表面法向估计。
[51] Aligning What You Separate: Denoised Patch Mixing for Source-Free Domain Adaptation in Medical Image Segmentation
Quang-Khai Bui-Tran,Thanh-Huy Nguyen,Hoang-Thien Nguyen,Ba-Thinh Lam,Nguyen Lan Vi Vu,Phat K. Huynh,Ulas Bagci,Min Xu
Main category: cs.CV
TL;DR: 提出了一种新的无源域自适应框架,通过硬样本选择和去噪补丁混合来逐步对齐目标分布,在医学图像分割中实现更好的性能。
- Motivation: 现有的无源域自适应方法往往忽略样本难度,且在域偏移下容易受到噪声监督的影响,需要更鲁棒的解决方案。
- Method: 1) 通过熵相似性分析将未标记图像分为可靠和不可靠子集;2) 使用蒙特卡洛方法生成去噪掩码来精炼伪标签;3) 在子集间进行域内和域间补丁混合,传递可靠语义同时减轻噪声。
- Result: 在基准数据集上相比之前的SFDA和UDA方法取得了持续提升,获得了更准确的边界描绘和最优的Dice和ASSD分数。
- Conclusion: 渐进式适应和去噪监督对于域偏移下的鲁棒分割至关重要,该方法在隐私约束下提供了有效的医学图像分割解决方案。
[52] Balanced conic rectified flow
Kim Shin Seong,Mingi Kwon,Jaeseok Jeong,Youngjung Uh
Main category: cs.CV
TL;DR: 本文提出一种改进的整流流方法,通过在训练过程中引入真实图像来减少对生成数据的依赖,从而更高效地学习平滑的ODE路径,在CIFAR-10上取得了更好的FID分数。
- Motivation: 传统整流流方法需要大量生成图像对来保持目标分布,计算成本高,且性能过度依赖1-整流流模型,容易偏向生成数据。
- Method: 提出将真实图像纳入训练过程,保留真实图像的ODE路径,使用更少的生成和真实图像对进行高效的reflow过程。
- Result: 在CIFAR-10上,仅使用原方法1/10的生成对就实现了更好的FID分数,在单步生成和全步模拟中都表现优异,同时产生了更直的路径。
- Conclusion: 该方法通过结合真实图像训练,有效降低了计算成本,避免了生成图像饱和问题,实现了更鲁棒的ODE学习,同时保持了真实图像的分布。
[53] Learning Disentangled Speech- and Expression-Driven Blendshapes for 3D Talking Face Animation
Yuxiang Mao,Zhijie Zhang,Zhiheng Zhang,Jiawei Liu,Chen Zeng,Shihong Xia
Main category: cs.CV
TL;DR: 本文提出了一种基于语音和情感驱动的3D面部动画生成方法,通过线性加性建模将语音和情感解耦,使用稀疏约束损失实现两种混合形状的分离,能够生成具有指定表情且保持准确口型同步的3D说话人脸。
- Motivation: 随着AIGC的快速发展,逼真且富有表现力的3D面部动画变得越来越重要。然而,由于数据采集成本高昂,真实的情感3D说话人脸数据集稀缺,导致生成情感表达性说话人脸的研究仍处于探索不足的状态。
- Method: 将语音和情感驱动的面部动画建模为线性加性问题,利用中性表情的3D说话人脸数据集(VOCAset)和3D表情序列数据集(Florence4D),联合学习由语音和情感驱动的混合形状集,引入稀疏约束损失来鼓励两种混合形状的解耦。
- Result: 定性和定量实验表明,该方法能够自然地生成具有指定表情的说话人脸,同时保持准确的口型同步。感知研究进一步显示,与现有方法相比,该方法在不影响口型同步质量的情况下实现了更优越的情感表达能力。
- Conclusion: 该方法成功解决了情感3D说话人脸生成的问题,通过解耦语音和情感驱动,实现了高质量的情感表达和口型同步,为3D面部动画生成提供了有效解决方案。
[54] DeepShield: Fortifying Deepfake Video Detection with Local and Global Forgery Analysis
Yinqi Cai,Jichang Li,Zhaolun Li,Weikai Chen,Rushi Lan,Xi Xie,Xiaonan Luo,Guanbin Li
Main category: cs.CV
TL;DR: DeepShield是一个新颖的深度伪造检测框架,通过局部补丁引导和全局伪造多样化来平衡局部敏感性和全局泛化能力,在跨数据集和跨操作评估中优于现有方法。
- Motivation: 现有检测器在域内场景表现良好,但由于依赖特定伪造伪影而无法泛化到多样化的操作技术,存在被滥用于欺诈和错误信息的风险。
- Method: DeepShield通过两个关键组件增强CLIP-ViT编码器:局部补丁引导(LPG)应用时空伪影建模和逐块监督来捕捉细粒度不一致性;全局伪造多样化(GFD)引入域特征增强,利用域桥接和边界扩展特征生成来合成多样化伪造,减轻过拟合并增强跨域适应性。
- Result: DeepShield在跨数据集和跨操作评估中优于最先进方法,对未见过的深度伪造攻击实现了卓越的鲁棒性。
- Conclusion: 通过整合新颖的局部和全局分析,DeepShield框架在深度伪造检测方面实现了更好的鲁棒性和泛化能力。
[55] VADB: A Large-Scale Video Aesthetic Database with Professional and Multi-Dimensional Annotations
Qianqian Qiao,DanDan Zheng,Yihang Bo,Bao Peng,Heng Huang,Longteng Jiang,Huaye Wang,Jingdong Chen,Jun Zhou,Xin Jin
Main category: cs.CV
TL;DR: 该研究构建了最大的视频美学数据库VADB,包含10,490个多样化视频,由37名专业人士标注,并提出VADB-Net双模态预训练框架,在评分任务中优于现有视频质量评估模型。
- Motivation: 视频美学评估领域缺乏标准化数据集和鲁棒模型,视频的时间动态性和多模态融合挑战阻碍了基于图像方法的直接应用。
- Method: 构建VADB数据库,包含10,490个多样化视频,由37名专业人士标注多个美学维度;提出VADB-Net双模态预训练框架,采用两阶段训练策略。
- Result: VADB-Net在评分任务中优于现有视频质量评估模型,并支持下游视频美学评估任务。
- Conclusion: 该研究提供了最大的视频美学数据库和有效的双模态预训练框架,推动了视频美学评估领域的发展。
[56] Mapping and Classification of Trees Outside Forests using Deep Learning
Moritz Lucas,Hamid Ebrahimy,Viacheslav Barkov,Ralf Pecenka,Kai-Uwe Kühnberger,Björn Waske
Main category: cs.CV
TL;DR: 该研究评估了深度学习模型在农业景观中树木外森林(TOF)分类的应用,比较了多种神经网络架构,发现FT-UNetFormer模型表现最佳,强调了空间上下文理解在TOF制图中的重要性。
- Motivation: 现有研究通常将树木外森林(TOF)视为单一类别或依赖刚性规则阈值,限制了生态解释和跨区域适应性。
- Method: 使用新生成的数据集和德国四个农业景观的高分辨率航空影像,比较了卷积神经网络、视觉变换器和混合CNN-变换器模型在六种语义分割架构上的表现。
- Result: 模型在四个景观中均取得良好分类精度,FT-UNetFormer表现最佳(平均IoU 0.74;平均F1分数0.84),森林和线性类别结果良好,但复杂结构(斑块和单树)分类存在挑战。
- Conclusion: 泛化实验表明需要区域多样化的训练数据以确保可靠的大规模制图,数据集和代码已开源。
[57] RT-DETRv4: Painlessly Furthering Real-Time Object Detection with Vision Foundation Models
Zijun Liao,Yian Zhao,Xin Shan,Yu Yan,Chang Liu,Lei Lu,Xiangyang Ji,Jie Chen
Main category: cs.CV
TL;DR: 提出了一种利用视觉基础模型增强轻量级目标检测器的知识蒸馏框架,通过深度语义注入器和梯度引导自适应调制策略,在不增加推理开销的情况下显著提升检测性能。
- Motivation: 轻量级目标检测器在追求高速推理时往往导致特征表示能力下降,限制了性能提升和实际部署。需要一种有效的方法来增强轻量级检测器的特征表示能力。
- Method: 1. 深度语义注入器(DSI):将视觉基础模型的高层表示集成到检测器的深层;2. 梯度引导自适应调制(GAM):基于梯度范数比动态调整语义传递强度。
- Result: 提出的RT-DETRv4模型在COCO数据集上取得SOTA结果,AP分别为49.7/53.5/55.4/57.0,对应速度为273/169/124/78 FPS。
- Conclusion: 该方法能够在不增加部署和推理开销的情况下,为基于DETR的模型带来显著且一致的性能提升,具有实际应用价值。
[58] LangHOPS: Language Grounded Hierarchical Open-Vocabulary Part Segmentation
Yang Miao,Jan-Nico Zaech,Xi Wang,Fabien Despinoy,Danda Pani Paudel,Luc Van Gool
Main category: cs.CV
TL;DR: LangHOPS是首个基于多模态大语言模型的开集对象-部件实例分割框架,能够从图像中联合检测和分割层次化的对象和部件实例。
- Motivation: 现有方法依赖启发式或可学习的视觉分组,而LangHOPS旨在语言空间中建立对象-部件层次结构,利用MLLM的丰富知识和推理能力。
- Method: 将MLLM集成到对象-部件解析流程中,利用其知识链接层次结构中的多粒度概念,采用语言锚定的层次结构和MLLM驱动的部件查询优化策略。
- Result: 在PartImageNet数据集上,域内性能提升5.5% AP,跨数据集提升4.8% AP;在ADE20K零样本场景下,未见对象部件的mIOU提升2.5%。
- Conclusion: LangHOPS在多个挑战性场景下实现了最先进的性能,验证了语言锚定层次结构和MLLM驱动部件查询优化策略的有效性。
[59] Diffusion-Driven Progressive Target Manipulation for Source-Free Domain Adaptation
Yuyang Huang,Yabo Chen,Junyu Zhou,Wenrui Dai,Xiaopeng Zhang,Junni Zou,Hongkai Xiong,Qi Tian
Main category: cs.CV
TL;DR: 提出了一种名为DPTM的生成式源自由域自适应方法,通过扩散模型渐进式操纵目标样本来减少域差异,在四个基准数据集上取得SOTA性能。
- Motivation: 解决源自由域自适应中源-目标域差异的根本限制问题。现有方法在域差异大时面临伪标签不可靠或生成数据质量下降的挑战。
- Method: 将目标样本分为可信集和非可信集,对非可信集样本使用潜在扩散模型进行语义转换,同时保持目标分布,并通过渐进式精炼机制迭代减少域差异。
- Result: 在四个主流SFDA基准数据集上大幅超越现有方法,在源-目标差距大的场景中性能提升高达18.6%。
- Conclusion: DPTM通过可靠的伪目标域生成和渐进式精炼,有效解决了源自由域自适应中的域差异问题,取得了最先进的性能。
[60] GaTector+: A Unified Head-free Framework for Gaze Object and Gaze Following Prediction
Yang Jin,Guangyu Guo,Binglu Wang
Main category: cs.CV
TL;DR: GaTector+是一个统一框架,用于视线目标检测和视线跟随任务,消除了推理过程中对头部先验知识的依赖,通过共享主干网络和特定块设计实现多任务联合优化。
- Motivation: 现有方法通常将视线目标检测和视线跟随分开处理,且都依赖头部先验知识,需要辅助网络提取头部位置,无法实现系统级联合优化,限制了实际应用。
- Method: 使用扩展的特定-通用-特定特征提取器,共享主干网络提取通用特征,前后使用特定块处理子任务特性;嵌入头部检测分支预测头部位置;提出基于头部的注意力机制融合感知和视线特征;引入注意力监督机制加速视线热图学习;提出新的评估指标mSoC。
- Result: 在多个基准数据集上的实验结果表明,该模型在视线目标检测和视线跟随任务中均表现出有效性。
- Conclusion: GaTector+通过消除对头部先验知识的依赖,实现了视线目标检测和视线跟随的统一处理,提高了系统的实用性和性能。
[61] Seeing Clearly and Deeply: An RGBD Imaging Approach with a Bio-inspired Monocentric Design
Zongxi Yu,Xiaolong Qian,Shaohua Gao,Qi Jiang,Yao Gao,Kailun Yang,Kaiwei Wang
Main category: cs.CV
TL;DR: 提出了一种仿生单中心成像(BMI)框架,通过仿生全球面单中心透镜和联合重建算法,从单次编码捕获中同时恢复高质量全焦图像和精确深度图。
- Motivation: 解决紧凑型RGBD成像的双重挑战:传统紧凑光学系统难以在整个景深范围内保持RGB清晰度,而纯软件单目深度估计依赖于不可靠的语义先验。
- Method: 设计仿生全球面单中心透镜,建立物理前向模型生成合成数据集,并开发双头多尺度重建网络,使用共享编码器联合恢复全焦图像和深度图。
- Result: 深度估计达到Abs Rel 0.026和RMSE 0.130,图像恢复达到SSIM 0.960和LPIPS 0.082,显著优于纯软件方法和其他深度光学系统。
- Conclusion: 仿生全球面光学与联合重建算法的结合是解决高性能紧凑RGBD成像内在挑战的有效策略。
[62] Prototype-Driven Adaptation for Few-Shot Object Detection
Yushen Huang,Zhiming Wang
Main category: cs.CV
TL;DR: 提出Prototype-Driven Alignment (PDA),一种轻量级的插件式度量头,用于DeFRCN,通过原型驱动的"第二意见"来改进少样本目标检测中的基类偏差和不稳定校准问题。
- Motivation: 少样本目标检测(FSOD)在只有少量新类样本可用时,常常遭受基类偏差和不稳定校准的问题。
- Method: PDA在可学习的身份初始化投影空间中维护仅支持的原型,可选地应用原型条件RoI对齐来减少几何不匹配。在微调期间,原型通过指数移动平均(EMA)更新在标记的前景RoI上进行适应,而无需引入类特定参数,并在推理时冻结以确保严格协议合规。PDA采用最佳K匹配方案来捕获类内多模态,并使用温度缩放融合将度量相似性与检测器逻辑相结合。
- Result: 在VOC FSOD和GFSOD基准测试上的实验表明,PDA一致地提高了新类性能,对基类影响最小,计算开销可忽略不计。
- Conclusion: PDA是一种有效的轻量级方法,能够显著提升少样本目标检测中新类的性能,同时保持基类性能稳定。
[63] MMEdge: Accelerating On-device Multimodal Inference via Pipelined Sensing and Encoding
Runxi Huang,Mingxuan Yu,Mingyu Tsoi,Xiaomin Ouyang
Main category: cs.CV
TL;DR: MMEdge是一个基于流水线感知和编码的新型设备端多模态推理框架,通过将推理过程分解为细粒度单元实现增量计算,显著降低端到端延迟并保持高任务精度。
- Motivation: 现有工作在资源受限的边缘设备上进行实时多模态推理时,往往忽略了感知动态与模型执行之间的紧密耦合以及复杂的模态间依赖关系。
- Method: 提出流水线感知和编码设计,将推理分解为细粒度单元;引入轻量级时间聚合模块捕获时间动态;采用自适应多模态配置优化器和跨模态推测跳过机制。
- Result: 在两个公共多模态数据集和真实无人机测试平台上评估,MMEdge显著降低了端到端延迟,同时在各种系统和数据动态下保持高任务精度。
- Conclusion: MMEdge通过创新的流水线设计和优化机制,有效解决了边缘设备上多模态推理的延迟和精度平衡问题。
[64] StreamingCoT: A Dataset for Temporal Dynamics and Multimodal Chain-of-Thought Reasoning in Streaming VideoQA
Yuhang Hu,Zhenyu Yang,Shihan Wang,Shengsheng Qian,Bin Wen,Fan Yang,Tingting Gao,Changsheng Xu
Main category: cs.CV
TL;DR: StreamingCoT是首个专为流式视频问答和多模态思维链任务设计的数据集,解决了现有VideoQA数据集在动态标注和推理过程注释方面的局限性。
- Motivation: 当前视频问答数据集存在两个关键限制:1)静态标注机制无法捕捉视频流中答案的演化特性;2)缺乏显式推理过程注释限制了模型的可解释性和逻辑推理能力。
- Method: 提出动态分层标注架构,生成每秒密集描述并通过相似性融合构建时间依赖的语义片段,配合受时间演化模式约束的问答集。进一步提出显式推理链生成范式,通过关键帧语义对齐提取时空对象,使用大语言模型生成基于对象状态转换的推理路径,并通过人工验证确保逻辑一致性。
- Result: 构建了StreamingCoT数据集,为流式视频理解、复杂时间推理和多模态推理研究奠定了基础。
- Conclusion: StreamingCoT数据集通过创新的动态标注和显式推理链生成方法,解决了现有视频问答数据集的局限性,推动了流式视频理解和多模态推理研究的发展。
[65] Informative Sample Selection Model for Skeleton-based Action Recognition with Limited Training Samples
Zhigang Tu,Zhengbo Zhang,Jia Gong,Junsong Yuan,Bo Du
Main category: cs.CV
TL;DR: 本文提出了一种基于马尔可夫决策过程(MDP)的半监督3D动作识别方法,通过训练智能样本选择模型来选择最具信息量的骨骼序列进行标注,并在双曲空间中增强状态-动作对的表示能力。
- Motivation: 现有的半监督3D动作识别方法中,最具代表性的骨骼序列不一定对动作识别器最具信息量,因为模型可能已从先前见过的样本中获取了类似知识。
- Method: 将半监督3D动作识别重新构建为马尔可夫决策过程(MDP),训练智能样本选择模型;将状态-动作对从欧几里得空间投影到双曲空间以增强表示能力;引入元调优策略加速实际部署。
- Result: 在三个3D动作识别基准数据集上的广泛实验证明了该方法的有效性。
- Conclusion: 提出的基于MDP框架的半监督3D动作识别方法能够智能选择信息量最大的样本进行标注,在双曲空间中的表示增强进一步提升了性能,元调优策略确保了实际应用的可行性。
[66] 3D CT-Based Coronary Calcium Assessment: A Feature-Driven Machine Learning Framework
Ayman Abaid,Gianpiero Guidone,Sara Alsubai,Foziyah Alquahtani,Talha Iqbal,Ruth Sharif,Hesham Elzomor,Emiliano Bianchini,Naeif Almagal,Michael G. Madden,Faisal Sharif,Ihsan Ullah
Main category: cs.CV
TL;DR: 提出基于影像组学的冠状动脉钙化评分方法,使用伪标签生成训练数据,无需专家标注,在非对比CCTA扫描上达到84%准确率,显著优于预训练基础模型。
- Motivation: 解决冠状动脉钙化评分中标注数据有限的问题,探索无需专家分割的自动化方法。
- Method: 使用伪标签生成训练标签,结合影像组学特征和预训练基础模型(CT-FM和RadImageNet)提取特征,与传统分类器结合。
- Result: 在182名患者的临床CCTA数据集上,影像组学模型准确率达84%,显著优于CNN基础模型(p<0.05)。
- Conclusion: 影像组学方法在无专家标注的情况下仍能有效进行冠状动脉钙化评分,优于基于预训练基础模型的方法。
[67] Prompt Estimation from Prototypes for Federated Prompt Tuning of Vision Transformers
M Yashwanth,Sharannya Ghosh,Aditay Tripathi,Anirban Chakraborty
Main category: cs.CV
TL;DR: PEP-FedPT是一个联邦视觉Transformer提示调优框架,通过类别上下文混合提示实现泛化和个性化,在异构数据场景下优于现有方法。
- Motivation: 传统全局提示调优在异构客户端上泛化能力差,而个性化调优容易过拟合本地数据且缺乏泛化性,需要同时实现泛化和个性化的联邦提示调优方法。
- Method: 提出类别上下文混合提示(CCMP),结合全局共享提示和类别特定提示,使用全局类别原型和客户端类别先验自适应组合提示,实现无需存储客户端依赖参数的单样本个性化。
- Result: 在CIFAR-100、TinyImageNet、DomainNet和iNaturalist数据集上的综合评估表明,PEP-FedPT在不同数据异构场景下始终优于最先进的基线方法。
- Conclusion: PEP-FedPT为视觉Transformer的高效和可泛化联邦提示调优建立了坚实基础,成功平衡了泛化性和个性化需求。
[68] Instance-Level Composed Image Retrieval
Bill Psomas,George Retsinas,Nikos Efthymiadis,Panagiotis Filntisis,Yannis Avrithis,Petros Maragos,Ondrej Chum,Giorgos Tolias
Main category: cs.CV
TL;DR: 提出了i-CIR评估数据集和BASIC训练无关方法,在组合图像检索任务中实现了新的最先进性能。
- Motivation: 组合图像检索(CIR)研究因缺乏高质量训练和评估数据而受限,现有数据集存在类别定义级别问题。
- Method: 构建实例级类别定义的i-CIR数据集,提出BASIC训练无关方法,分别估计视觉查询-图像和文本查询-图像相似度,通过后期融合进行加权。
- Result: BASIC方法在i-CIR数据集上达到新的最先进性能,在现有语义级类别定义的数据集上也表现优异。
- Conclusion: i-CIR数据集和BASIC方法有效解决了CIR领域的数据和方法挑战,为未来研究提供了重要基础。
[69] More than a Moment: Towards Coherent Sequences of Audio Descriptions
Eshika Khandelwal,Junyu Xie,Tengda Han,Max Bain,Arsha Nagrani,Andrew Zisserman,Gül Varol,Makarand Tapaswi
Main category: cs.CV
TL;DR: 提出CoherentAD方法,通过生成多个候选描述并进行序列级选择,解决自动音频描述生成中的连贯性问题,同时引入StoryRecall指标评估序列级叙事质量。
- Motivation: 现有自动音频描述方法独立生成每个描述,导致重复、不连贯的问题,无法帮助视障观众形成连续的场景可视化。
- Method: CoherentAD:无需训练的方法,首先生成每个时间间隔的多个候选描述,然后通过自回归选择在序列中形成连贯叙述。
- Result: 该方法生成的音频描述序列具有更好的连贯性和叙事理解能力,优于依赖独立生成的先前方法。
- Conclusion: 序列级选择和评估方法能显著提升音频描述的连贯性和叙事质量,为视障观众提供更好的观影体验。
[70] SPADE: Sparsity Adaptive Depth Estimator for Zero-Shot, Real-Time, Monocular Depth Estimation in Underwater Environments
Hongjie Zhang,Gideon Billings,Stefan B. Williams
Main category: cs.CV
TL;DR: SPADE是一种用于水下基础设施检查的单目深度估计方法,结合预训练相对深度估计器和稀疏深度先验,生成密集的度量尺度深度图,在嵌入式硬件上运行效率超过15FPS。
- Motivation: 水下基础设施需要频繁检查和维护,但当前依赖人类潜水员或遥控车辆存在感知和操作挑战,特别是在复杂结构或浑浊水域中。增强水下车辆的空间感知能力对于降低操控风险和实现更高自主性至关重要。
- Method: 提出SPADE稀疏自适应深度估计器,采用两阶段方法:首先用稀疏深度点缩放相对深度图,然后使用提出的级联Conv-可变形Transformer块细化最终度量预测。
- Result: 该方法在准确性和泛化能力上优于最先进的基线方法,在嵌入式硬件上运行效率超过15FPS。
- Conclusion: SPADE方法有望支持实用的水下检查和干预任务,已提交至IEEE海洋工程期刊AUV 2026特刊。
[71] Comparative Study of UNet-based Architectures for Liver Tumor Segmentation in Multi-Phase Contrast-Enhanced Computed Tomography
Doan-Van-Anh Ly,Thi-Thu-Hien Pham,Thanh-Hai Le
Main category: cs.CV
TL;DR: 本研究评估了基于UNet架构的肝脏肿瘤分割方法,发现ResNet骨干网络结合CBAM注意力模块的UNet3+模型在多项指标上表现最佳,优于Transformer和Mamba架构。
- Motivation: 多期相增强CT中肝脏结构分割对计算机辅助诊断和治疗规划至关重要,需要探索不同骨干网络在肝脏肿瘤分割中的性能表现。
- Method: 从原始UNet扩展到UNet3+架构,评估ResNet、Transformer和Mamba三种骨干网络,并引入注意力机制(特别是CBAM模块)来提升分割质量。
- Result: ResNetUNet3+ with CBAM模块取得了最佳性能:Dice分数0.755、IoU 0.662、HD95距离77.911、准确率0.925、特异性0.926,边界描绘最精确。
- Conclusion: 经典ResNet架构结合现代注意力模块在医学图像分割任务中仍具有强大竞争力,为临床肝脏肿瘤检测提供了有前景的方向。
[72] RegionE: Adaptive Region-Aware Generation for Efficient Image Editing
Pengtao Chen,Xianfang Zeng,Maosen Zhao,Mingzhu Shen,Peng Ye,Bangyin Xiang,Zhibo Wang,Wei Cheng,Gang Yu,Tao Chen
Main category: cs.CV
TL;DR: RegionE是一个自适应的区域感知生成框架,通过区分图像中的编辑区域和未编辑区域来加速基于指令的图像编辑任务,无需额外训练即可实现2-2.5倍的加速效果。
- Motivation: 现有的基于指令的图像编辑模型对整张图像采用统一的生成过程,没有考虑编辑区域和未编辑区域在生成难度和计算冗余上的显著差异。
- Method: 1) 自适应区域划分:基于最终估计结果与参考图像的差异划分编辑和未编辑区域;2) 区域感知生成:对未编辑区域用一步预测替代多步去噪,对编辑区域进行局部迭代去噪,并提出区域指令KV缓存;3) 自适应速度衰减缓存:利用相邻时间步的速度相似性加速局部去噪。
- Result: 在Step1X-Edit、FLUX.1 Kontext和Qwen-Image-Edit等最先进IIE基础模型上,RegionE分别实现了2.57倍、2.41倍和2.06倍的加速,GPT-4o评估确认语义和感知保真度得到良好保持。
- Conclusion: RegionE框架通过区域感知的生成策略有效加速了基于指令的图像编辑任务,在保持编辑质量的同时显著提升了效率。
[73] Hawk: Leveraging Spatial Context for Faster Autoregressive Text-to-Image Generation
Zhi-Kai Chen,Jun-Peng Jiang,Han-Jia Ye,De-Chuan Zhan
Main category: cs.CV
TL;DR: Hawk是一种利用图像空间结构来指导推测解码的新方法,在保持图像质量和多样性的同时,将自回归图像生成模型的推理速度提升了1.71倍。
- Motivation: 自回归图像生成模型虽然能产生高保真图像,但由于其固有的顺序解码过程,推理速度较慢。推测解码在文本生成中已证明能加速而不影响质量,但在图像生成中的应用仍未被充分探索,主要挑战包括更大的采样空间和未能充分利用图像的二维空间结构。
- Method: Hawk方法利用图像的空间结构来指导推测模型,使其能够进行更准确和高效的预测。该方法通过更好地建模局部依赖关系来改善草稿模型与目标模型输出之间的对齐。
- Result: 在多个文本到图像基准测试上的实验结果表明,Hawk方法相比标准自回归模型实现了1.71倍的加速,同时保持了图像保真度和多样性。
- Conclusion: Hawk成功地将推测解码应用于图像生成领域,通过利用图像的空间结构特性,在显著加速推理的同时保持了生成质量,为自回归图像生成模型的效率提升提供了有效解决方案。
[74] Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks
Xu Zheng,Zihao Dongfang,Lutao Jiang,Boyuan Zheng,Yulong Guo,Zhenquan Zhang,Giuliano Albanese,Runyi Yang,Mengjiao Ma,Zixin Zhang,Chenfei Liao,Dingcheng Zhen,Yuanhuiyi Lyu,Yuqian Fu,Bin Ren,Linfeng Zhang,Danda Pani Paudel,Nicu Sebe,Luc Van Gool,Xuming Hu
Main category: cs.CV
TL;DR: 这篇综述论文系统回顾了多模态空间推理任务,重点关注大型多模态语言模型在空间关系推理、场景理解、视觉问答等任务中的进展,并提供了公开基准测试。
- Motivation: 人类具有通过视觉和声音等多模态观察理解空间的能力,大型多模态推理模型通过学习和推理扩展了这些能力,但目前缺乏系统性的综述和公开基准测试。
- Method: 通过分类整理多模态大语言模型的进展,涵盖后训练技术、可解释性和架构,并引入开放基准进行评估。
- Result: 建立了多模态空间推理领域的坚实基础,涵盖了从经典2D任务到3D空间理解、具身AI以及新兴模态(如音频和自我中心视频)的全面分析。
- Conclusion: 该综述为多模态空间推理这一不断发展的领域提供了重要见解和基础,相关代码和基准测试实现已在GitHub上公开。
[75] FreeArt3D: Training-Free Articulated Object Generation using 3D Diffusion
Chuhao Chen,Isabella Liu,Xinyue Wei,Hao Su,Minghua Liu
Main category: cs.CV
TL;DR: FreeArt3D是一个无需训练的铰接3D物体生成框架,它利用预训练的静态3D扩散模型作为形状先验,通过将铰接作为额外生成维度扩展了分数蒸馏采样方法。
- Motivation: 现有的铰接3D物体建模方法要么需要密集视角监督,要么生成粗糙几何近似且忽略表面纹理。虽然静态3D生成取得了显著成功,但将其扩展到铰接物体面临重大挑战。
- Method: 将铰接作为额外生成维度扩展3D到4D的分数蒸馏采样,利用预训练静态3D扩散模型作为形状先验,联合优化几何、纹理和铰接参数。
- Result: 生成高保真几何和纹理,准确预测底层运动学结构,在多样化物体类别上泛化良好,仅需几分钟完成优化,在质量和多功能性上显著优于现有方法。
- Conclusion: FreeArt3D提供了一种无需任务特定训练或大规模铰接数据集的铰接3D物体生成解决方案,展示了预训练模型作为先验的有效性。
[76] VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning
Baolu Li,Yiming Zhang,Qinghe Wang,Liqian Ma,Xiaoyu Shi,Xintao Wang,Pengfei Wan,Zhenfei Yin,Yunzhi Zhuge,Huchuan Lu,Xu Jia
Main category: cs.CV
TL;DR: VFXMaster是一个统一的、基于参考的VFX视频生成框架,通过上下文学习实现动态特效的复制和泛化,解决了传统方法资源密集且无法泛化到未见特效的问题。
- Motivation: 传统VFX生成方法采用"一个LoRA对应一个特效"的模式,资源消耗大且无法泛化到未见特效,限制了生成AI在视觉特效创作中的可扩展性和创造力。
- Method: 设计了上下文条件策略和上下文注意力掩码,通过参考视频提示模型,精确解耦和注入关键特效属性;提出高效的一次性特效适应机制,从单个用户提供的视频快速提升对困难未见特效的泛化能力。
- Result: 实验表明该方法能有效模仿各类特效信息,并在领域外特效上表现出卓越的泛化能力。
- Conclusion: VFXMaster作为首个统一的参考式VFX视频生成框架,通过上下文学习实现了特效的灵活复制和泛化,为未来研究提供了新的方向。
cs.LG
[77] FaCT: Faithful Concept Traces for Explaining Neural Network Decisions
Amin Parchami-Araghi,Sukrut Rao,Jonas Fischer,Bernt Schiele
Main category: cs.LG
TL;DR: 提出了一种具有模型内在机制概念解释的新模型,强调概念解释的忠实性,概念在类别间共享且可忠实追踪其对logit的贡献和输入可视化。
- Motivation: 现有基于概念的解释方法存在忠实性不足的问题,且对模型学习的概念做出了限制性假设(如类别特异性、小空间范围或与人类期望对齐)。
- Method: 设计具有模型内在机制概念解释的新模型,概念跨类别共享,可从任意层忠实追踪其对logit的贡献和输入可视化,并利用基础模型提出新的概念一致性度量C²-Score。
- Result: 相比先前工作,提出的概念在定量上更一致,用户认为更具可解释性,同时在ImageNet上保持竞争力。
- Conclusion: 提出的方法在概念解释的忠实性、一致性和可解释性方面优于现有方法,同时保持模型性能。
[78] Feedback Alignment Meets Low-Rank Manifolds: A Structured Recipe for Local Learning
Arani Roy,Marco P. Apolinario,Shristi Das Biswas,Kaushik Roy
Main category: cs.LG
TL;DR: 提出了一种基于SVD分解的结构化局部学习框架,直接在低秩流形上训练深度神经网络,减少可训练参数数量,同时保持与反向传播相当的准确率。
- Motivation: 解决反向传播的全局误差传播和完全参数化带来的内存计算开销问题,以及直接反馈对齐方法在深层架构中反馈结构不明确和可扩展性差的问题。
- Method: 在SVD分解的权重矩阵低秩流形上训练,对SVD分量应用包含交叉熵、子空间对齐和正交正则化的复合损失函数,构建与SVD结构匹配的反馈矩阵。
- Result: 在CIFAR-10、CIFAR-100和ImageNet数据集上达到与反向传播相当的准确率,减少了原始DFA模型的可训练参数数量。
- Conclusion: 低秩流形上的局部学习是完整秩梯度训练的一个原则性和可扩展的替代方案。
cs.IT
[79] Resi-VidTok: An Efficient and Decomposed Progressive Tokenization Framework for Ultra-Low-Rate and Lightweight Video Transmission
Zhenyu Liu,Yi Ma,Rahim Tafazolli,Zhi Ding
Main category: cs.IT
TL;DR: Resi-VidTok是一个面向超低码率和轻量级视频传输的弹性令牌化框架,通过重组时空内容为重要性排序的离散令牌流,在受限信道条件下实现渐进编码、前缀可解码重建和优雅质量降级。
- Motivation: 在有限带宽和弱连接等恶劣信道条件下,无线网络中的实时视频传输仍然极具挑战性,现有深度模型难以满足需求。
- Method: 采用弹性1D令牌化流水线,集成差分时间令牌编码,支持从不完整令牌集可靠恢复;结合步长控制的帧稀疏化和轻量级解码器侧插值器;以及信道自适应源信道编码和调制方案。
- Result: 在低至0.0004的信道带宽比下保持稳健的视觉和语义一致性,实时重建速度超过30fps。
- Conclusion: Resi-VidTok在能效、延迟敏感和可靠性关键的无线应用中具有实用性。
q-bio.QM
[80] CT-Less Attenuation Correction Using Multiview Ensemble Conditional Diffusion Model on High-Resolution Uncorrected PET Images
Alexandre St-Georges,Gabriel Richard,Maxime Toussaint,Christian Thibaudeau,Etienne Auger,Étienne Croteau,Stephen Cunnane,Roger Lecomte,Jean-Baptiste Michaud
Main category: q-bio.QM
TL;DR: 该论文提出使用条件去噪扩散概率模型从非衰减校正PET图像生成高质量CT图像,以替代传统CT扫描进行PET衰减校正,减少辐射暴露和设备成本。
- Motivation: 传统PET/CT衰减校正方法存在额外辐射暴露、空间配准误差和设备成本高等问题,需要开发替代方案。
- Method: 采用条件去噪扩散概率模型,利用非衰减校正PET图像的三个正交视图,结合集成投票策略生成伪CT图像。
- Result: 在159个头颈部扫描数据上验证,伪CT图像质量显著提升,平均绝对误差为32±10.4 HU,PET重建误差为(1.48±0.68)%。
- Conclusion: 基于DDPM的方法能够生成高质量伪CT图像,有效替代传统CT进行PET衰减校正,减少辐射暴露和成本。
cs.CL
[81] Seeing Through the MiRAGE: Evaluating Multimodal Retrieval Augmented Generation
Alexander Martin,William Walden,Reno Kriz,Dengjia Zhang,Kate Sanders,Eugene Yang,Chihsheng Jin,Benjamin Van Durme
Main category: cs.CL
TL;DR: MiRAGE是一个用于评估多模态检索增强生成(RAG)的框架,通过InfoF1和CiteF1指标评估事实性、信息覆盖度和引用支持度。
- Motivation: 随着音视频媒体成为重要的信息来源,现有RAG评估主要针对文本,无法有效评估多模态推理场景,且缺乏对信息来源的验证。
- Method: 采用基于声明的评估方法,包含InfoF1(评估事实性和信息覆盖度)和CiteF1(评估引用支持和完整性),并开发了自动评估变体。
- Result: 人工应用MiRAGE时与外部质量判断高度一致,同时揭示了文本中心化评估方法的局限性。
- Conclusion: MiRAGE为多模态RAG评估奠定了基础,提供了开源实现和评估指南,推动了自动评估的发展。
cs.RO
[82] SCOUT: A Lightweight Framework for Scenario Coverage Assessment in Autonomous Driving
Anil Yildiz,Sarah M. Thornton,Carl Hildebrandt,Sreeja Roy-Singh,Mykel J. Kochenderfer
Main category: cs.RO
TL;DR: 提出了SCOUT,一种轻量级代理模型,直接从智能体的潜在传感器表示预测场景覆盖标签,避免了昂贵的人类标注或计算密集型大视觉语言模型的需求。
- Motivation: 现有场景覆盖评估方法依赖昂贵的人工标注或计算密集型大视觉语言模型,在大规模部署中成本高、效率低,需要更实用的解决方案。
- Method: 通过蒸馏过程训练SCOUT模型,学习近似LVLM生成的覆盖标签,利用预计算感知特征避免冗余计算,实现快速可扩展的场景覆盖估计。
- Result: 在真实自动驾驶导航场景的大规模数据集上评估,SCOUT在保持高精度的同时显著降低计算成本,为大规模覆盖分析提供了有效实用的替代方案。
- Conclusion: SCOUT代表了自主系统中高效场景覆盖监督的重要进展,虽然其性能依赖于LVLM生成训练标签的质量,但提供了可扩展的解决方案。
[83] SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation
Wang zhi,Yuyan Liu,Liu Liu,Li Zhang,Ruixuan Lu,Dan Guo
Main category: cs.RO
TL;DR: SynHLMA是一个用于生成手部语言操作铰接物体的框架,通过离散表示和语言嵌入在共享空间中建模手-物体交互序列,支持生成、预测和插值三种典型任务。
- Motivation: 现有手部抓取生成方法主要关注物体功能,但在铰接物体交互中需要同时考虑物体功能性和长期操作序列,以及物体变形过程中的动态变化。
- Method: 使用离散HAOI表示建模每个手-物体交互帧,结合自然语言嵌入,通过HAOI操作语言模型在共享表示空间中对齐抓取过程和语言描述,并采用关节感知损失确保手部抓取跟随铰接物体关节的动态变化。
- Result: 在HAOI-lang数据集上的实验表明,SynHLMA在手部抓取序列生成方面优于现有最先进方法,并展示了通过模仿学习实现机器人灵巧抓取的应用。
- Conclusion: SynHLMA框架能够有效生成铰接物体的手部语言操作序列,在生成、预测和插值任务中表现优异,为具身AI和机器人抓取应用提供了有力支持。
eess.IV
[84] DMVFC: Deep Learning Based Functionally Consistent Tractography Fiber Clustering Using Multimodal Diffusion MRI and Functional MRI
Bocheng Guo,Jin Wang,Yijie Li,Junyi Wang,Mingyu Gao,Puming Feng,Yuqian Chen,Jarrett Rushmore,Nikos Makris,Yogesh Rathi,Lauren J O'Donnell,Fan Zhang
Main category: eess.IV
TL;DR: 提出了一种名为DMVFC的深度多视图纤维聚类框架,利用多模态dMRI和fMRI数据进行功能一致的白质分区。
- Motivation: 现有纤维聚类方法主要使用纤维几何特征,忽略了功能信息和微观结构信息。fMRI可以测量白质中的神经活动,为纤维聚类提供有价值的多模态信息。
- Method: DMVFC包含两个主要组件:(1)多视图预训练模块,分别从纤维几何、微观结构测量和功能信号计算嵌入特征;(2)协作微调模块,同时优化嵌入差异。
- Result: 与两种最先进的纤维聚类方法相比,DMVFC在实现功能上有意义且一致的白质分区结果方面表现出优越性能。
- Conclusion: DMVFC能够有效整合白质纤维的几何和微观结构特征与沿纤维束的fMRI BOLD信号,实现功能一致的白质分区。
[85] CFL-SparseMed: Communication-Efficient Federated Learning for Medical Imaging with Top-k Sparse Updates
Gousia Habib,Aniket Bhardwaj,Ritvik Sharma,Shoeib Amin Banday,Ishfaq Ahmad Malik
Main category: eess.IV
TL;DR: CFL-SparseMed使用Top-k稀疏化技术减少联邦学习中的通信开销,在非IID医疗图像数据下保持模型精度,提高诊断准确性和患者护理质量。
- Motivation: 集中式医疗图像分类面临数据和隐私问题,联邦学习虽然能保护隐私但在异构非IID数据和高通信成本方面存在挑战。
- Method: 提出CFL-SparseMed方法,采用Top-k稀疏化技术,仅传输前k个梯度来减少通信开销。
- Result: 该方法有效解决了数据异构性问题,同时保持了模型准确性,提高了联邦学习效率并保护了隐私。
- Conclusion: CFL-SparseMed为医疗图像分类提供了一个高效的联邦学习解决方案,在非IID设置下改善了诊断准确性和患者护理。
[86] Transformers in Medicine: Improving Vision-Language Alignment for Medical Image Captioning
Yogesh Thakku Suresh,Vishwajeet Shivaji Hogale,Luca-Alexandru Zamfira,Anandavardhana Hegde
Main category: eess.IV
TL;DR: 提出基于transformer的多模态框架,用于生成MRI扫描的临床相关描述,在特定领域数据上表现优于现有方法。
- Motivation: 开发可扩展、可解释的自动化医学图像报告解决方案,提高MRI扫描描述的准确性和语义对齐。
- Method: 使用DEiT-Small视觉transformer作为图像编码器,MediCareBERT处理文本嵌入,自定义LSTM解码器,结合余弦-MSE混合损失和对比推理。
- Result: 在MultiCaRe数据集上测试,专注于脑部MRI数据时,描述准确性和语义对齐优于BLIP、R2GenGPT等现有方法。
- Conclusion: 领域特定数据能显著提升医学图像描述性能,提出的框架为自动化医疗报告提供了可行方案。
cs.HC
[87] Modelling the Interplay of Eye-Tracking Temporal Dynamics and Personality for Emotion Detection in Face-to-Face Settings
Meisam J. Seikavandi,Jostein Fimland,Fabricio Batista Narcizo,Maria Barrett,Ted Vucurevich,Jesper Bünsow Boldt,Andrew Burke Dittberner,Paolo Burelli
Main category: cs.HC
TL;DR: 提出了一种融合眼动序列、大五人格特质和情境刺激线索的多模态框架,用于预测感知情绪和感受情绪,在CREMA-D数据集上验证了模型性能优于基线方法。
- Motivation: 准确识别人类情绪对于自适应人机交互至关重要,但在动态对话式环境中仍然具有挑战性。需要区分感知情绪和感受情绪,并整合生理、特质和情境信息。
- Method: 使用神经网络模型捕捉时间性眼动动态,并将其与人格特质和刺激信息融合。73名参与者在观看CREMA-D数据集中的语音片段时提供眼动信号、人格评估和情绪评分。
- Result: 刺激线索显著增强感知情绪预测(宏观F1最高达0.77),而人格特质对感受情绪识别提供最大改进(宏观F1最高达0.58)。模型性能优于SVM和文献基线方法。
- Conclusion: 结合生理、特质和情境信息有助于解决情绪固有的主观性。通过区分感知和感受反应,该方法推进了多模态情感计算,为更个性化和生态有效的情绪感知系统指明了方向。
Powered by Deepseek & arXiv Daily AI Enhanced