Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] LoRA-Edge: Tensor-Train-Assisted LoRA for Practical CNN Fine-Tuning on Edge Devices
Hyunseok Kwak,Kyeongwon Lee,Jae-Jin Lee,Woojoo Lee
Main category: cs.CV
TL;DR: LoRA-Edge是一种参数高效微调方法,通过张量训练辅助的低秩适应,在边缘设备上实现CNN的轻量级微调,大幅减少可训练参数数量。
- Motivation: 在边缘应用中如人类活动识别,领域偏移问题需要设备端微调CNN,但完全微调在严格的内存、计算和能耗预算下不可行。
- Method: 对预训练卷积层应用TT-SVD,选择性更新输出侧核心并采用零初始化,最后将更新融合回密集核中,保持推理成本不变。
- Result: 在多种HAR数据集和CNN骨干上,LoRA-Edge仅更新最多1.49%的参数,就能达到完全微调准确率的95.3%以内,在Jetson Orin Nano上实现1.4-3.8倍的收敛加速。
- Conclusion: LoRA-Edge使得结构对齐、参数高效的设备端CNN适应在边缘平台上变得实用可行。
[2] SILVI: Simple Interface for Labeling Video Interactions
Ozan Kanbertay,Richard Vogg,Elif Karakoc,Peter M. Kappeler,Claudia Fichtel,Alexander S. Ecker
Main category: cs.CV
TL;DR: SILVI是一个开源标注软件,用于在视频数据中标注行为和交互,填补了现有工具在交互检测和定位方面的空白。
- Motivation: 现有开源标注工具要么支持行为标注但不定位个体,要么支持定位但不捕捉交互,无法满足理解动物社交和个体化行为的需求。
- Method: 开发SILVI软件,整合行为和交互标注功能,直接在视频数据中标注,生成适合训练和验证计算机视觉模型的结构化输出。
- Result: SILVI成功实现了行为和交互的联合标注,为精细行为分析提供了自动化方法,并可用于人类交互标注。
- Conclusion: SILVI通过连接行为生态学和计算机视觉,促进了精细行为分析自动化方法的发展,具有广泛的应用潜力。
[3] Noise Injection: Improving Out-of-Distribution Generalization for Limited Size Datasets
Duong Mai,Lawrence Hall
Main category: cs.CV
TL;DR: 该论文研究了在训练过程中使用基本噪声注入技术(高斯、斑点、泊松和椒盐噪声)来提高COVID-19胸部X光图像识别模型对分布外数据的泛化能力。
- Motivation: 深度学习模型在图像识别中容易学习源特定的伪影(捷径)而非合理的生物标志物,导致在分布外数据上泛化性能下降,特别是在COVID-19胸部X光检测中。
- Method: 在训练过程中应用四种基本噪声注入技术:高斯噪声、斑点噪声、泊松噪声和椒盐噪声,以增强模型对分布偏移的鲁棒性。
- Result: 噪声注入技术显著减少了分布内和分布外评估之间的性能差距,从0.10-0.20降低到0.01-0.06,基于AUC、F1、准确率、召回率和特异性等关键指标在十个随机种子上的平均结果。
- Conclusion: 基本噪声注入技术是提高COVID-19胸部X光识别模型对分布外数据泛化能力的有效方法。
[4] Investigating Robot Control Policy Learning for Autonomous X-ray-guided Spine Procedures
Florence Klitzner,Blanca Inigo,Benjamin D. Killeen,Lalithkumar Seenivasan,Michelle Song,Axel Krieger,Mathias Unberath
Main category: cs.CV
TL;DR: 该研究探索了在双平面X射线引导下脊柱手术中应用模仿学习策略的可行性,开发了一个高真实度的模拟环境,训练基于视觉信息的插管对齐策略,并在模拟和真实X射线图像上验证了方法的有效性。
- Motivation: 研究动机是探索模仿学习方法在X射线引导的脊柱手术(如脊柱器械植入)中的适用性,因为多视图X射线的解释复杂,传统方法面临挑战。
- Method: 开发了高真实度的模拟环境,收集正确轨迹和对应双平面X射线序列的数据集,训练基于视觉信息的模仿学习策略,用于规划和开环控制插管的逐步对齐。
- Result: 策略在68.5%的情况下首次尝试成功,能保持安全的椎弓根内轨迹,适应复杂解剖结构(包括骨折),对多种初始化具有鲁棒性,在真实X射线上也能产生合理轨迹。
- Conclusion: 虽然初步结果有前景,但在入口点精度方面存在局限,完全闭环控制需要更频繁的反馈机制。结合更强的先验知识和领域知识,这类模型可为轻量级、无CT的机器人术中脊柱导航提供基础。
[5] Desert Waste Detection and Classification Using Data-Based and Model-Based Enhanced YOLOv12 DL Model
Abdulmumin Sa'ad,Sulaimon Oyeniyi Adebayo,Abdul Jabbar Siddiqui
Main category: cs.CV
TL;DR: 提出基于轻量化YOLOv12结合自对抗训练和数据增强的实时目标检测框架,用于沙漠环境中的垃圾检测,在精度和效率方面取得显著提升。
- Motivation: 全球垃圾危机日益严重,传统垃圾收集方法在偏远环境效率低下且危险。现有计算机视觉研究主要关注城市环境和可回收垃圾,忽视了有机/危险垃圾和沙漠等未充分探索的地形。
- Method: 使用修剪轻量化的YOLOv12模型,集成自对抗训练(SAT)和专门的数据增强策略,在DroneTrashNet数据集上进行训练。
- Result: 在精度、召回率和平均精度(mAP)方面显著提升,同时实现低延迟和小模型尺寸,适合在资源受限的无人机上部署。与最先进的轻量级YOLO变体相比,在准确性和效率方面达到最佳平衡。
- Conclusion: 验证了数据中心和模型中心增强相结合的方法对于沙漠环境中稳健实时垃圾检测的有效性。
[6] Improving Diagnostic Performance on Small and Imbalanced Datasets Using Class-Based Input Image Composition
Hlali Azzeddine,Majid Ben Yakhlef,Soulaiman El Hazzat
Main category: cs.CV
TL;DR: 提出Class-Based Image Composition方法,通过将同类多张图像融合成Composite Input Images来增强训练数据,解决小样本、不平衡数据集和图像质量差导致的误判问题。
- Motivation: 解决小样本、不平衡数据集和输入图像质量差导致深度学习模型误判率高的问题,增强模型对细微疾病模式的区分能力。
- Method: 使用Class-Based Image Composition方法,将同类多张图像融合成3x1布局的Composite Input Images,构建平衡数据集Co-OCTDL,并与原始数据集在相同VGG16架构下进行对比实验。
- Result: 在OCTDL视网膜扫描数据集上,该方法将准确率提升至99.6%,F1-score达0.995,AUC达0.9996,显著降低了误判率。
- Conclusion: 该方法能有效提升模型在小样本、不平衡数据集上的预测质量,即使对于弱数据集也能产生高质量预测结果。
[7] I Detect What I Don't Know: Incremental Anomaly Learning with Stochastic Weight Averaging-Gaussian for Oracle-Free Medical Imaging
Nand Kumar Yadav,Rodrigue Rizk,William CW Chen,KC Santosh
Main category: cs.CV
TL;DR: 提出了一种无监督、无需专家标注的医学影像异常检测框架,通过增量扩展正常样本集,结合轻量级适配器更新和不确定性门控样本准入机制,在多个医学影像数据集上显著提升了异常检测性能。
- Motivation: 医学影像中的未知异常检测面临标注异常样本稀缺和专家监督成本高的挑战,需要开发无需异常标签的无监督方法。
- Method: 使用冻结的预训练视觉骨干网络,添加小型卷积适配器进行快速域适应。通过k近邻异常评分和双概率门控机制(距离z-score阈值和SWAG认知不确定性边界)确保增量扩展的安全性。
- Result: 在COVID-CXR数据集上ROC-AUC从0.9489提升到0.9982,F1从0.8048提升到0.9746;在Pneumonia CXR上ROC-AUC从0.6834提升到0.8968;在Brain MRI ND-5上ROC-AUC从0.6041提升到0.7269,PR-AUC从0.7539提升到0.8211。
- Conclusion: 该框架在真实世界标签稀缺的医学影像应用中表现出高效性和有效性,能够持续优化正常性概念的定义。
[8] Adaptive Temporal Refinement: Continuous Depth Allocation and Distance Regression for Efficient Action Localization
Ibne Farabi Shihab,Sanjeda Akter,Anuj Sharma
Main category: cs.CV
TL;DR: 提出了两个互补的贡献:边界距离回归(BDR)通过有符号距离回归替代分类实现信息理论最优定位,自适应时间细化(ATR)通过连续深度选择分配计算量,在THUMOS14上以更少计算量获得更好性能。
- Motivation: 当前时间动作定位方法对所有边界采用统一计算,忽略了不同边界难度的显著差异,导致计算效率低下。
- Method: 1. BDR:使用有符号距离回归替代边界分类,提供信息理论最优定位;2. ATR:通过连续深度选择τ∈[0,1]分配计算量,实现端到端可微分优化。
- Result: BDR在现有方法上仅需约50行代码即可实现1.8-3.1% mAP@0.7提升;ATR在THUMOS14上达到56.5% mAP@0.7(162G FLOPs),相比均匀处理的53.6%(198G FLOPs)提升2.9%且减少18%计算量。
- Conclusion: 该方法通过自适应计算分配显著提升了时间动作定位的效率和精度,特别是在边界异质性高的短动作上表现更佳,通过知识蒸馏有效降低了训练成本。
[9] Improving Multi-View Reconstruction via Texture-Guided Gaussian-Mesh Joint Optimization
Zhejia Cai,Puhua Jiang,Shiwei Mao,Hongkun Cao,Ruqi Huang
Main category: cs.CV
TL;DR: 提出了一种统一的几何和外观优化框架,通过高斯引导的网格可微分渲染同时优化网格几何(顶点位置和面)和顶点颜色,实现高质量3D重建。
- Motivation: 现有方法通常在几何精度(多视图立体)和真实感渲染(新视角合成)之间权衡,将几何和外观优化解耦,这阻碍了下游编辑任务。
- Method: 通过高斯引导的网格可微分渲染,利用输入图像的光度一致性和法线/深度图的几何正则化,同时优化网格几何和顶点颜色。
- Result: 获得了高质量的3D重建结果,可用于下游编辑任务如重光照和形状变形。
- Conclusion: 该框架实现了几何和外观的统一优化,为3D编辑应用提供了更好的基础。
[10] A Linear Fractional Transformation Model and Calibration Method for Light Field Camera
Zhong Chen,Changfeng Chen
Main category: cs.CV
TL;DR: 提出了一种基于线性分数变换参数α的光场相机标定方法,通过解耦主镜头和微透镜阵列,包含最小二乘解析解和非线性优化,并介绍了原始图像特征检测方法。
- Motivation: 光场相机内部参数的精确定标是3D重建的关键但具有挑战性的前提条件。
- Method: 提出线性分数变换参数α解耦主镜头和微透镜阵列,采用基于最小二乘的解析解和非线性优化,并引入原始图像特征检测方法。
- Result: 在物理和仿真数据上的实验结果验证了所提方法的性能,基于该模型的原始光场图像仿真速度更快。
- Conclusion: 该方法为数据驱动的深度学习方法提供了更快的仿真能力,相关代码可从作者网站获取。
[11] Room Envelopes: A Synthetic Dataset for Indoor Layout Reconstruction from Images
Sam Bahrami,Dylan Campbell
Main category: cs.CV
TL;DR: 本文提出了一个名为Room Envelopes的合成数据集,用于训练单目几何估计器预测可见表面和结构布局表面,从而理解场景范围和物体形状位置。
- Motivation: 现有的场景重建方法只能恢复可见表面,无法重建被遮挡的结构元素(如墙壁、地板、天花板)。这些结构元素相对容易预测,因为它们通常是平面、重复且简单的。
- Method: 创建合成数据集Room Envelopes,提供RGB图像和两个关联的点图:一个捕捉可见表面,另一个捕捉移除家具后的结构布局表面。使用这些数据进行前馈单目几何估计器的直接监督训练。
- Result: 该方法能够同时预测第一可见表面和第一布局表面,从而理解场景的完整范围和物体的形状位置。
- Conclusion: 通过Room Envelopes数据集,可以训练几何估计器理解场景的结构布局,填补现有方法在重建被遮挡表面方面的不足。
[12] Simple 3D Pose Features Support Human and Machine Social Scene Understanding
Wenshuo Qin,Leyla Isik
Main category: cs.CV
TL;DR: 人类依赖3D姿态信息进行社交互动判断,而大多数AI视觉模型缺乏这种能力。研究发现3D关节位置比当前AI模型表现更好,且简单的3D社交姿态特征就能有效预测人类社交判断。
- Motivation: 理解人类如何从视觉输入中快速提取社交互动信息,以及为什么先进的AI视觉系统在这方面仍然面临挑战。
- Method: 结合最先进的姿态和深度估计算法提取视频中人物的3D关节位置,并与AI视觉模型进行比较。推导出一组紧凑的3D社交姿态特征来描述面部位置和方向。
- Result: 3D关节位置表现优于大多数AI视觉模型。最小化的3D社交姿态特征与完整关节集预测能力相当,且能显著提升现成AI模型的性能。
- Conclusion: 人类社交场景理解依赖于3D姿态的显式表征,可以通过简单的结构化视觉空间原语来支持。
[13] CaRF: Enhancing Multi-View Consistency in Referring 3D Gaussian Splatting Segmentation
Yuwen Tao,Kanglei Zhou,Xin Tan,Yuan Xie
Main category: cs.CV
TL;DR: CaRF是一个完全可微分的框架,直接在3D高斯空间中操作,通过引入高斯场相机编码和训练配对视图监督,解决了多视图一致性问题,在多个基准测试中显著优于现有方法。
- Motivation: 现有的3D高斯分割方法依赖2D渲染伪监督和视图特定特征学习,导致跨视图一致性不足。需要开发直接在3D高斯空间中操作、能够实现多视图一致性的方法。
- Method: 提出CaRF框架:1)高斯场相机编码(GFCE)将相机几何融入高斯文本交互,显式建模视图依赖变化;2)训练配对视图监督(ITPVS)在校准视图间对齐高斯对数概率,缓解单视图过拟合。
- Result: 在Ref LERF、LERF OVS和3D OVS三个基准测试中,mIoU分别比最先进方法平均提升16.8%、4.3%和2.0%。
- Conclusion: CaRF实现了更可靠和视图一致的3D场景理解,对具身AI、AR/VR交互和自主感知具有潜在益处。
[14] PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection
Peiyao Wang,Weining Wang,Qi Li
Main category: cs.CV
TL;DR: 提出PhysCorr框架,通过PhysicsRM奖励模型和PhyDPO优化方法提升视频生成的物理一致性,解决现有模型物理合理性不足的问题。
- Motivation: 当前文本到视频生成模型在感知质量上取得进展,但常违反物理合理性原则,表现为不合理的物体动态、不连贯的交互和不真实的运动模式,限制了在具身AI、机器人和仿真领域的应用。
- Method: 提出PhysCorr统一框架:1) PhysicsRM - 首个双维度奖励模型,量化物体内部稳定性和物体间交互;2) PhyDPO - 基于对比反馈和物理感知重加权的直接偏好优化管道。
- Result: 在多个基准测试上的广泛实验表明,PhysCorr在保持视觉保真度和语义对齐的同时,显著提高了物理真实性。
- Conclusion: 这项工作向物理基础和可信的视频生成迈出了关键一步,提出的框架具有模型无关性和可扩展性,可集成到各种视频扩散和基于transformer的骨干网络中。
[15] GNN-MoE: Context-Aware Patch Routing using GNNs for Parameter-Efficient Domain Generalization
Mahmoud Soliman,Omar Abdelaziz,Ahmed Radwan,Anand,Mohamed Shehata
Main category: cs.CV
TL;DR: 提出了GNN-MoE方法,使用图神经网络路由器和Kronecker适配器增强参数高效微调,用于视觉Transformer的领域泛化
- Motivation: 标准微调方法在领域泛化任务中成本高昂且可能损害泛化性能,需要更高效的适配方法
- Method: 使用混合专家框架,通过图神经网络(GCN、GAT、SAGE)在补丁间图上进行动态路由,将补丁分配给专门专家,结合高效的Kronecker适配器
- Result: 在领域泛化基准测试中达到最先进或竞争性性能,同时保持高参数效率
- Conclusion: 基于图的上下文路由对于实现鲁棒、轻量级的领域泛化具有重要价值
[16] MedDChest: A Content-Aware Multimodal Foundational Vision Model for Thoracic Imaging
Mahmoud Soliman,Islam Osman,Mohamed S. Shehata,Rasika Rajapakshe
Main category: cs.CV
TL;DR: 提出了MedDChest,一个专门针对胸部影像优化的基础视觉Transformer模型,通过在120万张多模态医学图像上从头预训练,显著提升了胸部诊断任务的性能。
- Motivation: 解决视觉模型在医学影像中因使用自然图像预训练骨干网络而存在的领域差距问题,提升胸部影像诊断的准确性和效率。
- Method: 使用超过120万张多模态胸部影像(包括X光和CT)从头预训练ViT模型,并提出引导随机调整裁剪(Guided Random Resized Crops)这一内容感知数据增强策略。
- Result: MedDChest在多种下游诊断任务中显著优于基于ImageNet预训练的公开模型,证明了大规模领域内预训练结合领域特定数据增强的有效性。
- Conclusion: MedDChest为胸部诊断任务提供了强大且鲁棒的特征提取器,模型权重将公开以促进未来研究和应用。
[17] Near-Lossless 3D Voxel Representation Free from Iso-surface
Yihao Luo,Xianglong He,Chuanyu Pan,Yiwen Chen,Jiaqi Wu,Yangguang Li,Wanli Ouyang,Yuanming Hu,Guang Yang,ChoonHwai Yap
Main category: cs.CV
TL;DR: Faithful Contouring是一种稀疏体素化表示方法,支持2048+分辨率,无需将网格转换为场函数或提取等值面,实现近乎无损的几何保真度。
- Motivation: 现有基于等值面的体素化表示严重依赖水密化或渲染优化,不可避免地损害了几何保真度。
- Method: 提出Faithful Contouring稀疏体素化表示,设计双模式自编码器,支持可扩展且细节保持的形状重建。
- Result: 在直接表示方面达到10^-5级别的距离误差;在网格重建方面,Chamfer Distance减少93%,F-score提高35%。
- Conclusion: Faithful Contouring在3D学习任务中作为表示方法具有卓越的保真度,在准确性和效率方面均超越现有方法。
[18] A Hybrid Deep Learning Model for Robust Biometric Authentication from Low-Frame-Rate PPG Signals
Arfina Rahman,Mahesh Banavar
Main category: cs.CV
TL;DR: 提出了一种基于PPG信号的轻量级生物认证框架,使用低帧率指尖视频提取PPG信号,通过混合深度学习模型实现98%的认证准确率。
- Motivation: PPG信号因其非侵入性采集、固有的活性检测能力和适用于低成本可穿戴设备而受到生物认证领域的关注,但信号质量受运动伪影、光照变化和个体生理差异的挑战。
- Method: 采用标准预处理流程,包括基线漂移去除、PCA运动伪影抑制、带通滤波、傅里叶重采样和幅度归一化。将一维PPG信号通过连续小波变换转换为时频标量图,并开发了结合CVT、ConvMixer和LSTM的混合深度学习模型。
- Result: 在46名受试者上的实验结果显示认证准确率达到98%,验证了模型对噪声和个体间变异的鲁棒性。
- Conclusion: 该系统具有高效性、可扩展性和固有的活性检测能力,非常适合现实世界的移动和嵌入式生物安全应用。
Powered by Deepseek & arXiv Daily AI Enhanced