Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility
Honglin Lin,Chonghan Qin,Zheng Liu,Qizhi Pei,Yu Li,Zhanping Zhong,Xin Gao,Yanfeng Wang,Conghui He,Lijun Wu
Main category: cs.CV
TL;DR: 论文提出ImgCoder框架和SciGenBench评估基准,通过逻辑驱动的"理解-规划-编码"工作流提升科学图像合成的准确性,并验证高质量合成科学图像能有效增强多模态推理能力。
- Motivation: 当前文本到图像(T2I)模型生成的图像虽然视觉上合理但科学上不正确,存在视觉-逻辑分歧,限制了其在科学推理中的应用。需要解决科学图像合成的准确性问题。
- Method: 提出ImgCoder框架,采用"理解-规划-编码"的逻辑驱动工作流;建立SciGenBench评估基准,从信息效用和逻辑有效性两方面评估生成图像;分析像素生成和程序化合成两种范式。
- Result: 发现像素生成模型存在系统性失败模式,揭示了表达能力与精度之间的基本权衡;在严格验证的合成科学图像上微调大型多模态模型能获得一致的推理提升,显示出与文本领域类似的扩展趋势。
- Conclusion: 高保真科学图像合成是解锁大规模多模态推理能力的可行路径,逻辑驱动的程序化合成方法能有效解决科学图像生成的准确性问题,为科学推理提供可靠的多模态数据支持。
[2] Data-Efficient Meningioma Segmentation via Implicit Spatiotemporal Mixing and Sim2Real Semantic Injection
Yunhao Xu,Fuquan Zong,Yexuan Xing,Chulong Zhang,Guang Yang,Shilong Yang,Xiaokun Liang,Juan Yu
Main category: cs.CV
TL;DR: 提出一种双增强框架,结合空间流形扩展和语义对象注入,通过INR建模连续速度场和Sim2Real病灶注入,显著提升有限标注数据下的医学图像分割性能。
- Motivation: 医学图像分割性能越来越取决于数据利用效率而非原始数据量。对于脑膜瘤等复杂病理,需要充分利用有限高质量标注中的潜在信息,最大化现有数据集价值。
- Method: 提出双增强框架:1) 使用隐式神经表示(INR)建模连续速度场,通过对积分变形场进行线性混合,在变形空间内插值生成解剖学合理的变异;2) Sim2Real病灶注入模块,将病灶纹理移植到健康解剖背景中构建高保真仿真域,弥合合成增强与真实病理之间的差距。
- Result: 在混合数据集上的综合实验表明,该框架显著提升了nnU-Net和U-Mamba等最先进模型的数据效率和鲁棒性。
- Conclusion: 该框架为有限标注预算下的高性能医学图像分析提供了有效策略,通过空间流形扩展和语义对象注入的协同整合,最大化现有数据集价值。
[3] Diagnosis Support of Sickle Cell Anemia by Classifying Red Blood Cell Shape in Peripheral Blood Images
Wilkie Delgado-Font,Miriela Escobedo-Nicot,Manuel González-Hidalgo,Silena Herold-Garcia,Antoni Jaume-i-Capó,Arnau Mir
Main category: cs.CV
TL;DR: 提出基于外周血涂片图像分析的自动化红细胞分类方法,用于镰状细胞贫血诊断,通过Chan-Vese主动轮廓模型分割和形状因子分析实现红细胞形态分类。
- Motivation: 镰状细胞贫血等疾病导致红细胞变形,传统显微镜观察方法耗时、需要专家且主观误差率高,需要自动化解决方案来改善诊断效率和准确性。
- Method: 使用Chan-Vese主动轮廓模型分割图像中的红细胞,然后通过圆形形状因子(CSF)和椭圆形形状因子(ESF)进行形状分析,对正常、细长或其他变形的红细胞进行分类,并对簇中部分遮挡的细胞进行椭圆调整。
- Result: 实验结果显示F-measure值达到0.97(正常细胞)和0.95(细长细胞),优于现有方法,整体多类性能指标表现优异,适合临床治疗和诊断支持。
- Conclusion: 提出的自动化方法能有效分类红细胞形态,为镰状细胞贫血的诊断提供准确、高效的支持工具,具有临床应用价值。
[4] AMVICC: A Novel Benchmark for Cross-Modal Failure Mode Profiling for VLMs and IGMs
Aahana Basappa,Pranay Goel,Anusri Karra,Anish Karra,Asa Gilmore,Kevin Zhu
Main category: cs.CV
TL;DR: 研究者创建了AMVICC基准测试,系统比较多模态大语言模型和图像生成模型在视觉推理任务中的失败模式,发现模型在基本视觉概念理解上存在共享和特定失败模式。
- Motivation: 尽管机器学习快速发展,但视觉语言模型在理解或生成基本视觉概念(如物体方向、数量、空间关系)方面仍然存在不足,这凸显了基础视觉推理能力的差距。需要系统评估不同模态模型在视觉理解上的失败模式。
- Method: 通过将MMVP基准问题转化为显式和隐式提示,创建了AMVICC基准测试,用于分析不同模态的失败模式。测试了11个MLLMs和3个IGMs在九类视觉推理任务上的表现。
- Result: 失败模式在模型和模态间有共享性,但也有模型特定和模态特定的失败。图像生成模型在响应提示时难以操控特定视觉组件,特别是在显式提示下,表明对细粒度视觉属性的控制能力较差。
- Conclusion: 这项工作为未来的跨模态对齐研究奠定了基础,提供了一个框架来探究生成和解释失败是否源于共享的限制,以指导未来统一视觉语言建模的改进。研究结果直接适用于现有最先进模型在结构化视觉推理任务上的评估。
[5] Hybrid Deep Feature Extraction and ML for Construction and Demolition Debris Classification
Obai Alashram,Nejad Alagha,Mahmoud AlKakuri,Zeeshan Swaveel,Abigail Copiaco
Main category: cs.CV
TL;DR: 本文提出了一种混合视觉管道,结合深度特征提取与经典机器学习分类器,用于建筑垃圾自动分类,在真实数据集上达到99.5%的准确率。
- Motivation: 建筑业产生大量废弃物,有效分类对可持续废物管理和资源回收至关重要。需要开发自动化分类系统来处理建筑和拆除垃圾。
- Method: 收集了1800张平衡的高质量图像数据集,包含陶瓷/瓷砖、混凝土、垃圾/废物、木材四类。使用预训练的Xception网络提取深度特征,然后评估多种机器学习分类器(SVM、kNN、Bagged Trees、LDA、逻辑回归)。
- Result: 混合管道(Xception特征+简单分类器如线性SVM、kNN、Bagged Trees)达到最先进性能,准确率和宏F1分数高达99.5%,优于更复杂或端到端的深度学习方法。
- Conclusion: 该方法具有鲁棒性和现场部署优势,为未来与机器人和现场自动化系统集成提供了途径,对可持续废物管理有重要意义。
[6] MANGO: A Global Single-Date Paired Dataset for Mangrove Segmentation
Junhyuk Heo,Beomkyu Choi,Hyunjin Shin,Darongsae Kwon
Main category: cs.CV
TL;DR: 提出了MANGO数据集,包含42,703个标注图像-掩码对,覆盖124个国家,用于全球红树林监测的深度学习研究。
- Motivation: 现有红树林监测数据集存在局限性:许多只提供年度地图产品而非单日图像-掩码对、局限于特定区域而非全球覆盖、或未公开可用,这阻碍了深度学习在红树林检测中的进展。
- Method: 收集2020年红树林区域的Sentinel-2影像,使用目标检测驱动的方法选择与年度红树林掩码对齐的最佳单日观测,通过像素级坐标参考确保自适应和代表性的图像-掩码配对。
- Result: 构建了包含42,703个标注图像-掩码对的大规模全球数据集,覆盖124个国家,并提供了基于国家分离分割的多种语义分割架构基准。
- Conclusion: MANGO数据集解决了现有资源的局限性,为可扩展和可靠的全球红树林监测建立了基础,推动了深度学习在红树林保护中的应用。
[7] FP-THD: Full page transcription of historical documents
H Neji,J Nogueras-Iso,J Lacasta,MÁ Latre,FJ García-Marco
Main category: cs.CV
TL;DR: 提出一个用于转录15-16世纪拉丁文历史文献的管道,通过布局分析模型提取文本行,再使用OCR模型进行识别,保留特殊字符和符号。
- Motivation: 15-16世纪拉丁文历史文献的转录面临特殊挑战,需要保留具有特定含义的字符和特殊符号,以确保历史文本保持原始风格和意义。
- Method: 扩展现有的文本行识别方法,结合布局分析模型。首先使用布局分析模型分析历史文本图像提取文本行,然后通过OCR模型处理生成完整的数字化页面。
- Result: 该管道能够高效处理页面,并在多个数据集上验证有效。掩码自编码器能够有效处理不同类型文本,包括手写体、印刷体和多语言文本。
- Conclusion: 提出的管道方法能够有效转录历史文献,保留特殊特征,为历史文献的数字化处理提供了高效解决方案。
[8] Arabic Sign Language Recognition using Multimodal Approach
Ghadeer Alanazi,Abir Benabid
Main category: cs.CV
TL;DR: 该研究探索了结合Leap Motion和RGB摄像头的多模态方法识别阿拉伯手语,通过融合两种传感器数据提高识别准确率,在18个手语词上达到78%准确率。
- Motivation: 现有阿拉伯手语识别系统依赖单一传感器(如Leap Motion或RGB摄像头),存在复杂手部方向跟踪不足和3D手部运动识别不精确的问题,需要多模态方法来提高识别性能。
- Method: 采用双并行子网络架构:1)针对Leap Motion数据的自定义密集神经网络,包含dropout和L2正则化;2)基于微调VGG16模型的图像子网络,采用数据增强技术。两种模态的特征表示在融合模型中拼接,通过全连接层处理,最后使用SoftMax进行分类。
- Result: 在包含18个阿拉伯手语词的自定义数据集上,系统正确识别了13个词,总体准确率达到78%,初步验证了多模态融合在手语识别中的可行性。
- Conclusion: 多模态融合方法为阿拉伯手语识别提供了有前景的方向,但需要进一步优化系统和扩展数据集以提高性能。
[9] Interpretable and Sparse Linear Attention with Decoupled Membership-Subspace Modeling via MCR2 Objective
Tianyuan Liu,Libin Hou,Linyuan Wang,Bin Yan
Main category: cs.CV
TL;DR: 提出解耦成员矩阵和子空间矩阵的注意力机制DMSA,提升Transformer的可解释性和效率
- Motivation: 现有MCR2驱动的白盒Transformer中,成员矩阵和子空间矩阵紧密耦合,导致错误token投影下的冗余编码问题
- Method: 解耦MCR2目标中的成员矩阵和子空间矩阵功能关系,从优化目标的梯度展开推导出可解释的稀疏线性注意力算子DMSA
- Result: 在ToST中用DMSA替换注意力模块(称为DMST),在ImageNet-1K上比ToST提升1.08%-1.45% top-1准确率,计算效率更高
- Conclusion: DMSA注意力机制成功解决了MCR2中的耦合问题,实现了高效且可解释的视觉建模
[10] Atomic Depth Estimation From Noisy Electron Microscopy Data Via Deep Learning
Matan Leibovich,Mai Tan,Adria Marcos-Morales,Sreyas Mohan,Peter A. Crozier,Carlos Fernandez-Granda
Main category: cs.CV
TL;DR: 提出一种从噪声TEM图像中提取3D原子级信息的新方法,将深度估计转化为语义分割问题,使用深度学习网络生成像素级深度分割图
- Motivation: 传统TEM图像受噪声影响严重,难以提取3D原子级信息,需要一种能够从噪声图像中准确估计原子柱深度的方法
- Method: 将深度估计转化为语义分割问题,训练深度卷积神经网络,使用添加合成噪声的模拟数据生成像素级深度分割图
- Result: 在CeO2纳米颗粒的模拟图像和真实TEM数据上应用,深度估计结果准确、校准良好且对噪声具有鲁棒性
- Conclusion: 该方法能够从噪声TEM图像中有效提取3D原子级信息,为材料科学中的原子结构分析提供了新工具
[11] A Contrastive Pre-trained Foundation Model for Deciphering Imaging Noisomics across Modalities
Yuanjie Gu,Yiqun Wang,Chaohui Yu,Ang Xuan,Fan Wang,Zhi Lu,Biqin Dong
Main category: cs.CV
TL;DR: Noisomics框架通过对比预训练基础模型,将噪声从抑制对象转变为可解码的信息资源,仅需100个训练样本就能超越传统需要10万个样本的监督方法,实现零样本泛化。
- Motivation: 现代成像传感器将物理信号与复杂算法伪影纠缠在一起,传统方法需要大量监督数据来表征噪声,且将噪声视为干扰而非信息资源。需要一种能够系统解码噪声、减少数据依赖的方法。
- Method: 提出Noisomics框架,基于对比预训练基础模型,利用流形假设和合成噪声基因组,通过对比学习分离语义信号与随机扰动。该方法打破了传统深度学习的缩放定律。
- Result: 仅用100个训练样本就超越了需要100,000个样本的监督基线,数据依赖减少三个数量级。在12个多样化域外数据集上验证了强大的零样本泛化能力,估计误差减少63.8%,决定系数提高85.1%。
- Conclusion: 通过将噪声解码为多参数足迹,重新定义随机降级为重要的信息资源,无需设备校准即可实现精确成像诊断,应用范围从消费摄影到深层组织显微镜。
[12] SiMiC: Context-Aware Silicon Microstructure Characterization Using Attention-Based Convolutional Neural Networks for Field-Emission Tip Analysis
Jing Jie Tan,Rupert Schreiner,Matthias Hausladen,Ali Asgharzade,Simon Edler,Julian Bartsch,Michael Bachmann,Andreas Schels,Ban-Hoe Kwan,Danny Wee-Kiat Ng,Yan-Chai Hum
Main category: cs.CV
TL;DR: SiMiC使用注意力机制CNN自动从SEM图像中提取硅微结构特征,显著减少人工干预并提高测量一致性
- Motivation: 传统SEM分析需要人工评估微结构几何特征,效率低且可重复性差,需要自动化解决方案
- Method: 开发硅场发射尖端数据集,构建包含注意力机制的自定义CNN架构,用于多类微结构分类和尺寸预测
- Result: 与传统图像处理技术相比,SiMiC在保持可解释性的同时实现了高精度,建立了数据驱动的微结构分析框架
- Conclusion: 该框架为关联发射器几何形状与发射行为奠定了基础,可指导优化冷阴极和SEM电子源设计
[13] Summary of the Unusual Activity Recognition Challenge for Developmental Disability Support
Christina Garcia,Nhat Tan Le,Taihei Fujioka,Umang Dobhal,Milyun Ni'ma Shoumi,Thanh Nha Nguyen,Sozo Inoue
Main category: cs.CV
TL;DR: ISAS 2025举办了一项基于姿态数据的异常行为识别挑战赛,旨在通过非侵入式姿态估计数据自动识别发育障碍人士设施中的异常行为。40个团队使用从经典机器学习到深度学习的方法参与,采用LOSO评估策略,结果显示在噪声低维数据中建模罕见突发行为具有挑战性。
- Motivation: 该挑战赛旨在解决发育障碍人士设施中对异常行为自动识别的迫切需求,使用非侵入式姿态估计数据,避免隐私侵犯,同时应对真实世界数据中的类别不平衡和时间不规则性。
- Method: 挑战赛使用从视频记录中提取的骨骼关键点数据,参与者需区分正常和异常活动。采用Leave-One-Subject-Out (LOSO)评估策略确保主体无关的泛化能力,使用宏平均F1分数作为主要评估指标以处理类别不平衡问题。
- Result: 40个团队参与并提交了多样化方法,结果显示在噪声、低维数据中建模罕见、突发行为具有挑战性。强调了捕捉时间和上下文细微差别在行为建模中的重要性。
- Conclusion: 该挑战赛突显了在现实世界不平衡数据中识别异常行为的困难,为医疗保健和行为监测领域的社会责任AI应用提供了重要见解,有助于未来相关技术的发展。
[14] Single-Pixel Vision-Language Model for Intrinsic Privacy-Preserving Behavioral Intelligence
Hongjun An,Yiliang Song,Jiawei Shao,Zhe Sun,Xuelong Li
Main category: cs.CV
TL;DR: SP-VLM框架通过单像素传感和视觉语言模型实现隐私保护的环境监控,在保护个人身份的同时检测异常行为
- Motivation: 解决隐私敏感环境(如卫生间、更衣室)中传统监控受限的问题,在保护隐私的前提下实现安全监控
- Method: 提出单像素视觉语言模型(SP-VLM),通过低维单像素模态捕捉人体动态,结合视觉语言集成推断复杂行为模式
- Result: 单像素传感能有效抑制身份可识别性,使先进人脸识别系统失效,同时仍能提取行为语义,实现异常检测、人数统计和活动理解
- Conclusion: 找到了行为智能出现而个人身份仍受保护的实用采样率区间,为人权对齐的安全监控提供了可行路径
[15] Synthetic Data Guided Feature Selection for Robust Activity Recognition in Older Adults
Shuhao Que,Dieuwke van Dartel,Ilse Heeringa,Han Hegeman,Miriam Vollenbroek-Hutten,Ying Wang
Main category: cs.CV
TL;DR: 开发用于髋部骨折康复的稳健人类活动识别系统,通过合成数据提升老年患者活动监测准确性
- Motivation: 髋部骨折康复期间的身体活动监测对老年患者功能恢复至关重要,但现有基于可穿戴设备的监测系统主要针对中青年人群,在老年患者步态缓慢多变的情况下表现不可靠,需要开发专门针对老年人群的稳健活动识别系统
- Method: 研究纳入24名80岁以上健康老年人,在模拟自由生活条件下进行75分钟日常活动(行走、站立、坐、躺、姿势转换),佩戴腰部和大腿前侧两个加速度计。采用留一法交叉验证评估模型稳健性,利用合成数据提升模型泛化能力,开发特征干预模型(FIM)
- Result: FIM模型在合成数据辅助下取得可靠的活动识别效果:行走F1分数0.896、站立0.927、坐0.997、躺0.937、姿势转换0.816。相比无合成数据的对照组,FIM显著提升了具有高临床意义的姿势转换检测能力
- Conclusion: 初步结果证明了在老年人群中实现稳健活动识别的可行性,但需要在髋部骨折患者群体中进一步验证以评估所提监测系统的临床实用性
[16] Ego4OOD: Rethinking Egocentric Video Domain Generalization via Covariate Shift Scoring
Zahra Vaseqi,James Clark
Main category: cs.CV
TL;DR: 提出了Ego4OOD基准测试,用于评估自我中心视频动作识别的域泛化能力,通过聚类度量协变量偏移,并采用一对多二元训练目标提升性能。
- Motivation: 现有自我中心域泛化基准常混淆协变量偏移与概念偏移,难以可靠评估模型跨输入分布的泛化能力。自我中心视频动作识别面临类内时空变化大、特征分布长尾、动作与环境强相关等挑战。
- Method: 1) 从Ego4D构建Ego4OOD基准,包含八个地理域,强调可测量的协变量多样性,通过语义一致的时刻级动作类别减少概念偏移;2) 提出基于聚类的协变量偏移度量作为域难度的量化代理;3) 采用一对多二元训练目标,将多类动作识别分解为独立的二元分类任务,减少特征分布偏移下视觉相似类间的干扰。
- Result: 轻量级两层全连接网络在Argo1M和Ego4OOD上达到与最先进自我中心域泛化方法竞争的性能,参数更少且无需额外模态。实证分析显示协变量偏移度量与识别性能存在明确关系。
- Conclusion: 受控基准和量化域表征对于研究自我中心视频的分布外泛化至关重要。Ego4OOD基准和协变量偏移度量为评估域泛化能力提供了更可靠的框架,一对多二元训练目标能有效应对协变量偏移。
[17] A Computer Vision Pipeline for Iterative Bullet Hole Tracking in Rifle Zeroing
Robert M. Belcher,Brendan C. Degryse,Leonard R. Kosta,Christopher J. Lowrance
Main category: cs.CV
TL;DR: 提出基於電腦視覺的自動化彈孔檢測與迭代追蹤系統,用於步槍瞄準鏡校準,結合YOLOv8檢測和IoU分析,並引入新穎的數據增強和預處理技術。
- Motivation: 傳統步槍瞄準鏡校準(歸零)需要人工檢查彈孔,過程耗時且容易出錯,需要自動化解決方案來提高效率和準確性。
- Method: 使用YOLOv8進行小目標檢測,結合IoU分析來區分連續圖像中的彈孔。提出移除物體的數據增強技術模擬真實射擊序列,並使用ORB特徵進行透視校正預處理。
- Result: 系統在彈孔檢測上達到97.0%的平均精度,在將彈孔分配到正確射擊迭代上達到88.8%的準確率。
- Conclusion: 該系統成功實現了自動化彈孔檢測和迭代追蹤,不僅適用於步槍校準,也可擴展到其他需要時間序列區分視覺相似物體的應用領域。
[18] A Mechanistic View on Video Generation as World Models: State and Dynamics
Luozhou Wang,Zhifei Chen,Yihua Du,Dongyu Yan,Wenhang Ge,Guibao Shen,Xinli Xu,Leyi Wu,Man Chen,Tianshuo Xu,Peiran Ren,Xin Tao,Pengfei Wan,Ying-Cong Chen
Main category: cs.CV
TL;DR: 提出视频生成模型作为世界模型的新分类框架,包含状态构建和动态建模两大支柱,并倡导从视觉保真度评估转向功能基准测试。
- Motivation: 大规模视频生成模型已展现出物理连贯性,有望成为世界模型,但现有"无状态"视频架构与经典状态中心世界模型理论之间存在差距,需要建立桥梁。
- Method: 提出以状态构建和动态建模为核心的新分类法:状态构建分为隐式范式(上下文管理)和显式范式(潜在压缩);动态建模通过知识整合和架构重构分析。
- Result: 建立了连接视频生成与世界模型的分类框架,识别出两个关键前沿:通过数据驱动记忆和压缩保真度增强持久性,通过潜在因子解耦和推理先验整合推进因果性。
- Conclusion: 通过解决持久性和因果性挑战,该领域可以从生成视觉可信的视频演变为构建稳健、通用的世界模拟器,评估重点应从视觉保真度转向功能基准测试。
[19] Superpixel-Based Image Segmentation Using Squared 2-Wasserstein Distances
Jisui Huang,Andreas Alpers,Ke Chen,Na Lei
Main category: cs.CV
TL;DR: 提出一种针对强不均匀性图像的高效分割方法,采用两级聚类:先通过离散最优传输将像素聚合成超像素,再用Wasserstein距离贪婪合并为对象级分割。
- Motivation: 传统基于平均颜色距离的超像素合并策略在处理强不均匀性图像时效果有限,需要一种数学统一且能更好处理分布差异的分割框架。
- Method: 两级聚类方法:1) 将像素通过线性最小二乘分配问题(离散最优传输特例)聚合成超像素;2) 使用平方2-Wasserstein距离贪婪合并超像素为对象级分割。
- Result: 数值实验表明该方法在挑战性图像上提高了分割精度,同时保持了高计算效率。
- Conclusion: 基于最优传输的分布距离框架为图像分割提供了数学统一的表述,在强不均匀性情况下优于传统基于平均颜色的方法。
[20] GlassesGB: Controllable 2D GAN-Based Eyewear Personalization for 3D Gaussian Blendshapes Head Avatars
Rui-Yang Ju,Jen-Shiun Chiang
Main category: cs.CV
TL;DR: GlassesGB是一个支持3D头部虚拟形象可定制眼镜生成的框架,将2D生成式定制与3D头部渲染相结合,解决了VR应用中个性化眼镜设计的挑战。
- Motivation: 现有虚拟试戴系统大多只能在预定义的眼镜模板上操作,缺乏细粒度的用户驱动定制能力。虽然GlassesGAN支持个性化2D眼镜设计,但仅限于2D图像生成,无法满足3D VR应用的需求。
- Method: 结合3D高斯混合形状在头部重建中的成功经验,将2D生成式定制与3D头部虚拟形象渲染技术整合,提出GlassesGB框架,支持3D头部虚拟形象的可定制眼镜生成。
- Result: GlassesGB有效桥接了2D生成式定制与3D头部虚拟形象渲染,实现了VR应用中个性化眼镜设计的挑战,代码已在GitHub上开源。
- Conclusion: GlassesGB框架成功解决了现有虚拟试戴系统在3D个性化眼镜定制方面的局限性,为VR应用提供了更灵活的用户驱动眼镜设计能力。
[21] GRASP: Guided Region-Aware Sparse Prompting for Adapting MLLMs to Remote Sensing
Qigan Sun,Chaoning Zhang,Jianwei Zhang,Xudong Wang,Jiehui Xie,Pengcheng Zheng,Haoyu Wang,Sungyoung Lee,Chi-lok Andy Tai,Yang Yang,Heng Tao Shen
Main category: cs.CV
TL;DR: 提出GRASP方法,通过空间结构化软提示和问题引导的稀疏融合机制,解决MLLM在遥感图像上的过拟合和细节忽略问题,实现参数高效微调。
- Motivation: 现有MLLM微调方法直接应用于遥感图像时存在过拟合背景噪声或忽略目标细节的问题,主要由于遥感图像的大尺度变化、稀疏目标分布和复杂区域语义特征。
- Method: GRASP方法:1) 从冻结视觉标记网格提取空间块关联的空间结构化软提示;2) 通过问题引导的稀疏融合机制动态聚合任务特定上下文到紧凑全局提示;3) 使模型聚焦相关区域同时过滤背景噪声。
- Result: 在多个RSVQA基准测试中,GRASP相比现有微调和基于提示的方法实现了竞争性性能,同时保持了高参数效率。
- Conclusion: GRASP通过参数高效的微调策略有效解决了MLLM在遥感图像上的挑战,在保持性能的同时显著减少了参数需求。
[22] LoD Sketch Extraction from Architectural Models Using Generative AI: Dataset Construction for Multi-Level Architectural Design Generation
Xusheng Du,Athiwat Kongkaeo,Ye Zhang,Haoran Xie
Main category: cs.CV
TL;DR: 提出基于生成式AI的自动LoD草图提取框架,通过渐进简化高细节建筑模型,自动生成几何一致、层次连贯的多LoD表示,解决建筑设计中多细节层次建模的数据短缺问题。
- Motivation: 建筑设计需要跨多个细节层次(LoD)的表示,但传统LoD建模依赖人工操作,耗时费力且易产生几何不一致。生成式AI为从草图生成多级建筑模型提供了新可能,但缺乏高质量配对的LoD训练数据限制了其应用。
- Method: 提出自动LoD草图提取框架,集成计算机视觉技术和生成式AI方法,建立从详细表示到体积抽象的渐进提取流程。框架通过渐进简化高细节建筑模型,自动生成几何一致且层次连贯的多LoD表示。
- Result: 实验结果显示方法在LoD级别间保持强几何一致性:LoD3到LoD2的SSIM为0.7319,LoD2到LoD1的SSIM为0.7532;对应的归一化Hausdorff距离分别为图像对角线的25.1%和61.0%,表明在抽象过程中几何偏差得到控制。
- Conclusion: 该框架有效保留了全局结构,同时在不同LoD级别实现了渐进语义简化,为AI驱动的多级建筑生成和层次建模提供了可靠数据和技术支持。
[23] Performance uncertainty in medical image analysis: a large-scale investigation of confidence intervals
Pascaline André,Charles Heitz,Evangelia Christodoulou,Annika Reinke,Carole H. Sudre,Michela Antonelli,Patrick Godau,M. Jorge Cardoso,Antoine Gilson,Sophie Tezenas du Montcel,Gaël Varoquaux,Lena Maier-Hein,Olivier Colliot
Main category: cs.CV
TL;DR: 该研究通过大规模实证分析,评估了医学影像AI性能不确定性量化的置信区间方法,发现样本量需求、性能指标选择、聚合策略、问题类型和CI方法选择都会显著影响置信区间的可靠性和精确性。
- Motivation: 医学影像AI的性能不确定性量化对于可靠验证和临床转化至关重要,但社区对多种置信区间方法及其在不同场景下的行为了解有限。本研究旨在填补这一空白。
- Method: 在24个分割和分类任务上进行大规模实证分析,每个任务组使用19个训练模型,涵盖广泛的常用性能指标、多种聚合策略和多个广泛采用的置信区间方法。评估了每种CI方法在所有设置下的可靠性(覆盖率)和精确性(宽度)。
- Result: 发现了五个主要发现:1) 可靠CI所需的样本量从几十到几千例不等;2) CI行为受性能指标选择强烈影响;3) 聚合策略显著影响CI可靠性;4) 机器学习问题类型(分割vs分类)调节这些效应;5) 不同CI方法在不同用例中的可靠性和精确性不同。
- Conclusion: 这些结果为制定医学影像AI性能不确定性报告的未来指南提供了关键组成部分,强调了根据具体研究参数选择合适的CI方法、样本量和评估策略的重要性。
[24] StealthMark: Harmless and Stealthy Ownership Verification for Medical Segmentation via Uncertainty-Guided Backdoors
Qinkai Yu,Chong Zhang,Gaojie Jin,Tianjin Huang,Wei Zhou,Wenhui Li,Xiaobo Jin,Bo Huang,Yitian Zhao,Guang Yang,Gregory Y. H. Lip,Yalin Zheng,Aline Villavicencio,Yanda Meng
Main category: cs.CV
TL;DR: 提出StealthMark方法,用于在黑盒条件下验证医学分割模型的所有权,通过微妙调节模型不确定性而不改变分割输出,利用模型无关解释方法提取特征归因,在特定触发条件下显示可验证的QR码水印。
- Motivation: 医学数据标注成本高且受限于专家资源,隐私和伦理问题限制了数据共享,训练好的医学分割模型成为需要保护的知识产权。现有模型保护技术主要关注分类和生成任务,医学分割模型的保护研究不足。
- Method: 提出StealthMark方法:1) 在不改变最终分割输出的前提下微妙调节模型不确定性;2) 使用模型无关解释方法(如LIME)从模型输出中提取特征归因;3) 在特定触发条件下,这些解释会显示可验证的QR码水印;4) 水印设计为QR码便于识别和验证所有权。
- Result: 在四个医学影像数据集和五个主流分割模型上进行了广泛实验。结果表明方法有效、隐蔽且无害,对原始模型的分割性能影响极小。例如在SAM模型上,StealthMark在不同数据集上ASR均超过95%,同时Dice和AUC分数下降不到1%,显著优于基于后门的水印方法。
- Conclusion: StealthMark为医学分割模型提供了一种有效、隐蔽且无害的黑盒所有权验证方法,在保护模型知识产权的同时保持模型性能,具有实际部署的潜力。
[25] iFSQ: Improving FSQ for Image Generation with 1 Line of Code
Bin Lin,Zongjian Li,Yuwei Niu,Kaixiong Gong,Yunyang Ge,Yunlong Lin,Mingzhe Zheng,JianWei Zhang,Miles Yang,Zhao Zhong,Liefeng Bo,Li Yuan
Main category: cs.CV
TL;DR: iFSQ通过替换激活函数解决FSQ量化问题,发现4比特/维是离散与连续表示的最佳平衡点,AR模型收敛快但扩散模型上限更高
- Motivation: 当前图像生成领域分为基于离散token的自回归模型和基于连续潜变量的扩散模型,这种分裂源于VQ-VAE和VAE的区别,阻碍了统一建模和公平基准测试。FSQ提供了理论桥梁,但存在激活崩溃问题,需要在重建保真度和信息效率之间权衡。
- Method: 提出iFSQ方法,将原始FSQ的激活函数替换为分布匹配映射,强制均匀先验分布。这一简单策略只需一行代码,但数学上保证了最优的bin利用率和重建精度。使用iFSQ作为受控基准进行分析,并将REPA方法适配到AR模型中。
- Result: 发现两个关键洞察:1) 离散和连续表示的最佳平衡点约为每维4比特;2) 在相同重建约束下,AR模型初始收敛快,但扩散模型能达到更高的性能上限,表明严格的序列排序可能限制生成质量的上界。开发了LlamaGen-REPA。
- Conclusion: iFSQ通过简单的激活函数替换解决了FSQ的量化问题,为图像生成模型提供了统一的基准测试框架。研究发现离散和连续表示的最佳平衡点在4比特/维,AR模型收敛快但扩散模型上限更高,为模型设计提供了重要指导。
[26] Scaling medical imaging report generation with multimodal reinforcement learning
Qianchu Liu,Sheng Zhang,Guanghui Qin,Yu Gu,Ying Jin,Sam Preston,Yanbo Xu,Sid Kiblawi,Wen-wai Yim,Tim Ossowski,Tristan Naumann,Mu Wei,Hoifung Poon
Main category: cs.CV
TL;DR: UniRG是一个用于医学影像报告生成的通用强化学习框架,通过在公开胸片数据上训练,在权威ReXrank基准上取得了新的SOTA性能
- Motivation: 前沿模型在自然语言理解方面表现出色,但在多模态理解(特别是生物医学等高价值垂直领域)仍存在能力差距。医学影像报告生成是一个典型例子,监督微调容易过拟合到表面模式
- Method: 提出通用报告生成(UniRG)框架,利用强化学习作为统一机制,直接针对最终应用设计的评估指标进行优化,避免监督微调的过拟合问题
- Result: 在公开胸片数据上训练UniRG-CXR,在CXR报告生成任务中进行了全面评估。在权威ReXrank基准上,UniRG-CXR创造了新的整体SOTA,大幅超越先前最优方法
- Conclusion: UniRG框架通过强化学习直接优化评估指标,显著改善了监督微调的性能,并在不同机构和临床实践中获得了持久的泛化能力,为医学影像报告生成提供了有效的解决方案
[27] LGDWT-GS: Local and Global Discrete Wavelet-Regularized 3D Gaussian Splatting for Sparse-View Scene Reconstruction
Shima Salehi,Atharva Agashe,Andrew J. McFarland,Joshua Peeples
Main category: cs.CV
TL;DR: 提出一种结合全局与局部频率正则化的少样本3D重建方法,解决3D高斯泼溅模型在稀疏视角下的几何稳定性问题,并发布多光谱温室数据集和开源基准测试包。
- Motivation: 现有3D高斯泼溅(3DGS)模型在稀疏视角条件下存在几何不稳定和细节丢失的问题,需要一种能够同时稳定几何结构并保留精细细节的少样本3D重建方法。
- Method: 提出一种集成全局和局部频率正则化的新方法,通过频率域约束来稳定几何结构并保留细节;同时创建包含四个光谱波段的多光谱温室数据集,并开发开源基准测试包定义标准化少样本重建协议。
- Result: 在多光谱数据集和标准基准测试上的实验表明,该方法相比现有基线能够获得更清晰、更稳定且光谱一致的重建结果。
- Conclusion: 提出的频率正则化方法有效解决了3DGS在稀疏视角下的局限性,同时发布的数据集和基准测试包为3DGS方法的标准化评估提供了重要资源。
[28] Decoding Psychological States Through Movement: Inferring Human Kinesic Functions with Application to Built Environments
Cheyu Lin,Katherine A. Flanigan,Sirajum Munir
Main category: cs.CV
TL;DR: 提出了DUET数据集和运动学识别框架,用于隐私保护地测量社会资本相关的互动行为,填补了建筑环境研究中社会互动测量的方法空白。
- Motivation: 当前建筑环境研究中缺乏一致且隐私保护的社会互动测量方法,导致不同研究对"互动"的操作定义不一致,限制了设计干预效果的评估能力。
- Method: 引入DUET数据集,基于Ekman和Friesen的运动学分类法,捕捉12种二元互动行为;开发隐私保护的骨骼运动识别框架,使用迁移学习架构直接推断沟通功能。
- Result: 基准测试显示现有活动识别模型在沟通功能识别上存在困难;提出的框架能跨主体和情境泛化,并揭示运动学功能的结构化聚类和表征质量与分类性能的强关联。
- Conclusion: DUET数据集和识别框架为建筑环境研究提供了隐私保护的社会互动测量工具,能够评估设计干预对社会资本相关行为的影响,推动了该领域的方法发展。
[29] Structural Complexity of Brain MRI reveals age-associated patterns
Anzhe Cheng,Italo Ivo Lima Dias Pinto,Paul Bogdan
Main category: cs.CV
TL;DR: 将结构复杂度分析扩展到三维信号(特别是脑MRI),通过多尺度粗粒化量化信息损失,引入滑动窗口方法提高稳定性,发现结构复杂度随年龄系统性下降
- Motivation: 将结构复杂度分析框架扩展到三维信号处理,特别是脑磁共振成像,以捕捉体积数据的多尺度组织特征,解决传统块状方法在粗分辨率下不稳定的问题
- Method: 1. 将结构复杂度分析应用于三维信号;2. 通过逐步增大的空间尺度对信号进行粗粒化;3. 量化连续分辨率间的信息损失;4. 引入滑动窗口粗粒化方案替代传统块状方法,提高大尺度下的稳定性和平滑性
- Result: 1. 滑动窗口方法在粗分辨率下提供更平滑的估计和更好的鲁棒性;2. 分析中年至晚年的大规模结构MRI数据集发现,结构复杂度随年龄系统性下降;3. 最显著的效果出现在较粗的尺度上;4. 结构复杂度可作为预测脑MRI生物年龄的有效工具
- Conclusion: 结构复杂度是分析三维成像数据多尺度特征的可靠信号处理工具,在脑MRI中能有效捕捉与年龄相关的结构变化,并可用于预测生物年龄
[30] Spatiotemporal Semantic V2X Framework for Cooperative Collision Prediction
Murat Arda Onsu,Poonam Lohan,Burak Kantarci,Aisha Syed,Matthew Andrews,Sean Kennedy
Main category: cs.CV
TL;DR: 提出基于语义V2X的实时碰撞预测框架,使用V-JEPA生成时空语义嵌入替代原始视频传输,显著降低通信开销并提升预测性能。
- Motivation: 智能交通系统需要实时碰撞预测,但传统方法传输原始视频或高维传感器数据不切实际,受限于车联网通信带宽和延迟约束。
- Method: 构建语义V2X框架:路侧单元摄像头使用V-JEPA生成未来帧的时空语义嵌入,通过V2X链路传输到车辆,由轻量级注意力探针和分类器解码预测碰撞。
- Result: 实验表明,该框架在碰撞预测上实现10%的F1分数提升,同时传输需求相比原始视频降低四个数量级,验证了语义V2X通信的潜力。
- Conclusion: 语义V2X通信能够实现智能交通系统中协作、实时的碰撞预测,在保持预测准确性的同时显著减少通信开销。
[31] Semi-Supervised Domain Adaptation with Latent Diffusion for Pathology Image Classification
Tengyue Zhang,Ruiwen Ding,Luoting Zhuang,Yuxiao Wu,Erika F. Rodriguez,William Hsu
Main category: cs.CV
TL;DR: 提出一种基于潜在扩散模型的半监督域自适应框架,通过生成保留组织形态且具有目标域特征的合成图像,改善计算病理学中的域泛化问题。
- Motivation: 计算病理学中的深度学习模型常因域偏移而无法在不同队列和机构间泛化。现有方法要么无法利用目标域的无标签数据,要么依赖可能扭曲组织结构的图像翻译方法。
- Method: 提出半监督域自适应框架,使用在源域和目标域无标签数据上训练的潜在扩散模型,通过条件化基础模型特征、队列身份和组织制备方法,生成保留组织结构并引入目标域外观特征的合成图像。
- Result: 在肺腺癌预后预测任务中,该方法显著提升了目标域测试集性能,加权F1分数从0.611提升至0.706,宏观F1分数从0.641提升至0.716,且未降低源域性能。
- Conclusion: 基于目标感知的扩散模型合成数据增强为改善计算病理学中的域泛化提供了一种有前景且有效的方法。
[32] C-RADIOv4 (Tech Report)
Mike Ranzinger,Greg Heinrich,Collin McCarthy,Jan Kautz,Andrew Tao,Bryan Catanzaro,Pavlo Molchanov
Main category: cs.CV
TL;DR: C-RADIOv4是C-RADIO模型家族的最新版本,通过多教师蒸馏技术构建统一的学生模型,在相同计算复杂度下显著提升下游任务性能,并新增了SAM3模仿能力、任意分辨率支持和ViTDet选项。
- Motivation: 构建一个统一的学生模型,通过多教师蒸馏技术保留并改进多个教师模型的独特能力,在保持计算效率的同时提升关键下游任务的性能。
- Method: 基于AM-RADIO/RADIOv2.5设计,采用多教师蒸馏方法,使用SigLIP2、DINOv3和SAM3作为教师模型,训练了412M参数和631M参数两个变体。
- Result: 在核心指标上有所改进,获得了模仿SAM3的新能力,增强了任意分辨率支持,重新引入了ViTDet选项以提高高分辨率下的效率,并采用更宽松的许可证。
- Conclusion: C-RADIOv4模型家族在保持计算效率的同时,通过多教师蒸馏技术显著提升了性能,增加了新功能,为视觉任务提供了更强大和灵活的解决方案。
[33] Multi-stage Bridge Inspection System: Integrating Foundation Models with Location Anonymization
Takato Yasuno
Main category: cs.CV
TL;DR: 日本桥梁检测系统:结合SAM3进行钢筋腐蚀检测,DBSCAN自动补全,高斯模糊保护区域隐私,优化OCR精度,实现1.7秒/图的快速处理
- Motivation: 日本法规要求每五年对基础设施进行视觉检测,现场拍摄的损伤图像包含混凝土裂缝和钢筋暴露,常带有显示区域信息的施工标志。为确保基础设施安全使用而不引起公众焦虑,需要在准确提取损伤特征的同时保护区域隐私信息。
- Method: 1. 使用Segment Anything Model (SAM) 3进行钢筋腐蚀检测;2. 采用DBSCAN算法自动补全漏检区域;3. 施工标志区域检测并使用高斯模糊进行隐私保护;4. 四种预处理方法提升OCR精度;5. GPU优化实现快速处理
- Result: 系统实现每张图像1.7秒的快速处理速度,技术栈包括SAM3、PyTorch、OpenCV、pytesseract和scikit-learn,能够高效完成桥梁检测任务同时保护区域隐私信息
- Conclusion: 本文提出了一种开源的桥梁损伤检测系统,具备区域隐私保护功能,通过结合先进的计算机视觉技术和隐私保护措施,实现了高效、安全的桥梁基础设施监测
[34] FineVAU: A Novel Human-Aligned Benchmark for Fine-Grained Video Anomaly Understanding
João Pereira,Vasco Lopes,João Neves,David Semedo
Main category: cs.CV
TL;DR: FineVAU是一个新的视频异常理解基准,包含FineW3数据集和FVScore评估指标,专注于细粒度、领域特定的异常视频理解,解决了现有评估方法无法捕捉LVLM丰富视觉响应的局限性。
- Motivation: 现有视频异常理解(VAU)评估存在严重缺陷:基于n-gram的指标(如BLEU、ROUGE-L)无法捕捉LVLM响应的丰富视觉特性,而基于LLM的评估则过于关注语言质量而非事实相关性,导致与人类感知不一致的主观判断。
- Method: 1) 将VAU定义为三方面问题:事件(What)、参与实体(Who)、位置(Where);2) 提出FVScore评估指标,评估LVLM回答中关键视觉元素的存在,提供可解释的细粒度反馈;3) 创建FineW3数据集,通过结构化全自动流程增强现有人工标注,添加高质量细粒度视觉信息。
- Result: 人类评估显示FVScore指标与人类对异常感知的评估具有更好的对齐性。详细实验揭示了LVLM在需要空间和细粒度时间理解的异常事件感知方面存在关键局限性,尽管在粗粒度、静态信息和具有强视觉线索的事件上表现良好。
- Conclusion: FineVAU基准通过细粒度评估和数据集解决了VAU评估的挑战,揭示了当前LVLM在时空理解方面的不足,为未来视频异常理解研究提供了更可靠、人类对齐的评估框架。
[35] Inference-Time Loss-Guided Colour Preservation in Diffusion Sampling
Angad Singh Ahuja,Aarush Ram Anandh
Main category: cs.CV
TL;DR: 提出一种无需训练、推理时区域约束的颜色保持方法,通过ROI修复、背景潜在重施加和梯度引导,在CIE Lab和线性RGB空间中控制目标颜色分布
- Motivation: 文本到图像扩散系统在精确颜色控制方面存在持续失败,特别是在设计导向的工作流程中,输出必须满足用户指定的颜色目标。现有方法仅控制平均颜色,但会产生感知上显著的局部失败
- Method: 结合三种技术:1) ROI修复实现空间选择性;2) 背景潜在重施加防止ROI外颜色漂移;3) 使用CIE Lab和线性RGB复合损失的梯度引导。损失函数不仅控制ROI平均颜色,还通过CVaR风格和软最大值惩罚控制像素级误差分布的尾部
- Result: 该方法提供了实用的、无需训练的机制,用于目标颜色保持,可集成到标准Stable Diffusion修复流程中。相比仅控制平均颜色的基线方法,能更好地避免局部感知失败
- Conclusion: 提出的分布感知目标比仅控制平均颜色的方法更有效,通过推理时区域约束的颜色保持方法,实现了对预训练扩散模型的精确颜色控制,无需额外训练
[36] Cross360: 360° Monocular Depth Estimation via Cross Projections Across Scales
Kun Huang,Fang-Lue Zhang,Neil Dodgson
Main category: cs.CV
TL;DR: Cross360:一种基于交叉注意力的360度深度估计架构,通过切线投影与等距柱面投影的特征对齐,实现全局一致的深度估计
- Motivation: 现有360度深度估计方法难以平衡全局连续性和局部一致性,局部补丁特征缺乏全局感知,而全局表示无法解决补丁边界特征提取的不一致问题
- Method: 提出Cross360架构,包含:1)交叉投影特征对齐模块,使用交叉注意力将局部切线投影特征与等距柱面投影的360度视野对齐;2)渐进式注意力特征聚合模块,逐步细化多尺度特征
- Result: 在大多数基准数据集上显著优于现有方法,特别是在完整360度图像可用的场景中,证明了其在准确和全局一致深度估计方面的有效性
- Conclusion: Cross360通过交叉注意力机制有效整合局部和全局信息,解决了360度深度估计中的全局连续性和局部一致性问题,代码和模型已开源
[37] Fluxamba: Topology-Aware Anisotropic State Space Models for Geological Lineament Segmentation in Multi-Source Remote Sensing
Jin Bai,Huiyao Zhang,Qi Wen,Shengyang Li,Xiaolin Tian,Atta ur Rahman
Main category: cs.CV
TL;DR: Fluxamba是一种轻量级架构,通过拓扑感知特征校正框架解决地质线性特征分割中的拓扑不匹配问题,在多个基准测试中达到SOTA,同时大幅降低计算成本。
- Motivation: 现有状态空间模型(SSMs)依赖刚性的轴对齐扫描轨迹,与曲线目标存在拓扑不匹配,导致上下文碎片化和特征侵蚀,无法有效捕捉复杂各向异性拓扑中的长程依赖关系。
- Method: 提出Fluxamba架构,核心是结构通量块(SFB),包含各向异性结构门(ASG)和先验调制流(PMF),将特征方向与空间位置解耦,沿目标内在几何动态聚合上下文。还包含分层空间调节器(HSR)进行多尺度语义对齐,以及高保真聚焦单元(HFFU)最大化微弱特征的信噪比。
- Result: 在多个地质基准测试(LROC-Lineament、LineaMapper、GeoCrack)上达到最先进水平。在具有挑战性的LROC-Lineament数据集上,F1分数89.22%,mIoU 89.87%。仅3.4M参数和6.3G FLOPs,推理速度超过24 FPS,计算成本比重量级基线降低两个数量级。
- Conclusion: Fluxamba通过拓扑感知特征校正框架有效解决了地质线性特征分割中的拓扑不匹配问题,在分割保真度和机载部署可行性之间建立了新的帕累托前沿,为实际应用提供了高效解决方案。
[38] Dynamic Meta-Ensemble Framework for Efficient and Accurate Deep Learning in Plant Leaf Disease Detection on Resource-Constrained Edge Devices
Weloday Fikadu Moges,Jianmei Su,Amin Waqas
Main category: cs.CV
TL;DR: 提出动态元集成框架DMEF,通过自适应权重机制动态组合三个轻量级CNN模型,在资源受限的边缘设备上实现高精度植物病害检测。
- Motivation: 边缘设备(如物联网传感器、智能手机)的计算资源和能耗预算有限,限制了深度学习模型在植物病害检测中的部署。需要开发既高效又准确的解决方案。
- Method: 提出动态元集成框架DMEF,采用自适应权重机制动态组合MobileNetV2、NASNetMobile和InceptionV3三个轻量级CNN。通过优化准确率提升与计算效率之间的权衡,迭代更新集成权重,优先选择高性能低复杂度的模型。
- Result: 在马铃薯和玉米病害基准数据集上分别达到99.53%和96.61%的分类准确率,比独立模型和静态集成分别提升2.1%和6.3%。推理延迟<75ms,参数量<100万,适合边缘部署。
- Conclusion: DMEF在资源受限的边缘设备上实现了高精度植物病害诊断,弥合了高精度AI与实际田间应用的差距,具有可扩展的作物病害管理潜力。
[39] ClinNet: Evidential Ordinal Regression with Bilateral Asymmetry and Prototype Memory for Knee Osteoarthritis Grading
Xiaoyang Li,Runni Zhou
Main category: cs.CV
TL;DR: ClinNet:基于证据序数回归的膝关节骨关节炎分级框架,通过建模双侧不对称性、诊断记忆库和证据序数头,实现连续KL分级和不确定性估计
- Motivation: 膝关节骨关节炎(KOA)基于X光图像的分级具有挑战性,因为级间差异细微、标注存在不确定性,且疾病进展具有固有的序数性质。传统深度学习方法通常将其视为确定性多分类问题,忽略了退化的连续进展和专家标注的不确定性。
- Method: 提出ClinNet框架,包含三个关键组件:1)双侧不对称编码器(BAE)显式建模内外侧结构差异;2)诊断记忆库维护类别原型以稳定特征表示;3)基于正态逆伽马分布的证据序数头联合估计连续KL分级和认知不确定性。
- Result: ClinNet在实验中达到0.892的二次加权Kappa和0.768的准确率,统计显著优于现有最佳基线(p < 0.001)。模型的不确定性估计能成功识别分布外样本和潜在误诊。
- Conclusion: ClinNet通过将KOA分级建模为证据序数回归问题,不仅提高了分级性能,还提供了可靠的不确定性估计,为安全临床部署铺平了道路。
[40] SkyReels-V3 Technique Report
Debang Li,Zhengcong Fei,Tuanhui Li,Yikun Dou,Zheng Chen,Jiangping Yang,Mingyuan Fan,Jingtao Xu,Jiahua Wang,Baoxuan Gu,Mingshan Chang,Yuqiang Xie,Binjie Mao,Youqiang Zhang,Nuo Pang,Hao Zhang,Yuzhe Jin,Zhiheng Xu,Dixuan Lin,Guibin Chen,Yahui Zhou
Main category: cs.CV
TL;DR: SkyReels-V3是一个基于扩散Transformer的多模态上下文学习框架的条件视频生成模型,支持三种核心生成范式:参考图像到视频合成、视频扩展和音频引导视频生成,在视觉质量、指令跟随等关键指标上达到SOTA或接近SOTA性能。
- Motivation: 视频生成是构建世界模型的基础,而多模态上下文推理是衡量模型能力的关键测试。为了应对这一挑战,需要开发能够支持多种生成范式的统一视频生成模型。
- Method: 基于扩散Transformer构建统一的多模态上下文学习框架,支持三种核心范式:1)参考图像到视频合成:采用跨帧配对、图像编辑和语义重写的数据处理流程,结合图像视频混合训练和多分辨率联合优化;2)视频扩展:集成时空一致性建模与大规模视频理解;3)音频引导视频生成:训练首尾帧插入模式并重建关键帧推理范式。
- Result: SkyReels-V3在视觉质量、指令跟随和特定方面指标上达到或接近最先进水平,接近领先的闭源系统性能。模型能够生成高保真视频,保持主体身份一致性、时间连贯性和叙事一致性。
- Conclusion: SkyReels-V3展示了统一多模态上下文学习框架在条件视频生成中的有效性,为构建更强大的世界模型提供了重要基础,并在多种视频生成任务中展现了卓越性能。
[41] SymbolSight: Minimizing Inter-Symbol Interference for Reading with Prosthetic Vision
Jasmine Lesner,Michael Beyeler
Main category: cs.CV
TL;DR: SymbolSight框架通过优化视觉符号映射来减少视网膜假体阅读中的时间干扰,相比原生字母表将预测混淆降低了22倍中位数
- Motivation: 视网膜假体由于空间分辨率低和时间持久性导致阅读困难,特别是在序列字母呈现中,一个符号的余像会干扰下一个符号的感知,造成系统性识别错误。研究旨在通过优化视觉符号本身而非依赖硬件改进来缓解这种时间干扰。
- Method: 提出SymbolSight计算框架,使用模拟假体视觉(SPV)和神经代理观察器估计成对符号混淆度,然后利用语言特定的二元语法统计优化符号到字母的映射,选择能最小化频繁相邻字母间混淆的符号集。
- Result: 在阿拉伯语、保加利亚语和英语的模拟中,生成的异质符号集相对于原生字母表将预测混淆降低了22倍中位数,表明标准印刷体与序列低带宽假体视觉不匹配。
- Conclusion: 计算建模能有效缩小视觉编码的设计空间,为未来的心理物理和临床评估生成高潜力候选方案,优化符号映射是改善视网膜假体阅读性能的有效途径。
[42] Learning with Geometric Priors in U-Net Variants for Polyp Segmentation
Fabian Vazquez,Jose A. Nuñez,Diego Adame,Alissen Moreno,Augustin Zhan,Huimin Li,Jinghao Yang,Haoteng Tang,Bin Fu,Pengfei Gu
Main category: cs.CV
TL;DR: 提出几何先验引导模块(GPM),通过深度图将显式几何先验注入U-Net架构,提升息肉分割在低对比度或杂乱场景中的性能
- Motivation: 现有基于CNN、Transformer和Mamba的U-Net变体在息肉分割中难以捕捉几何和结构线索,特别是在低对比度或杂乱的结肠镜场景中,需要引入显式几何先验来提升分割准确性和鲁棒性
- Method: 1) 在模拟的ColonDepth数据集上微调VGGT模型来估计息肉图像的深度图;2) 设计GPM模块处理深度图,将几何先验编码到编码器的特征图中;3) 使用空间和通道注意力机制进一步细化几何先验,强调局部空间和全局通道信息;4) GPM为即插即用模块,可无缝集成到各种U-Net变体中
- Result: 在五个公共息肉分割数据集上的广泛实验表明,该方法在三个强基线模型上均取得了一致的性能提升
- Conclusion: 提出的GPM模块通过注入显式几何先验,有效提升了息肉分割的性能,特别是在具有挑战性的结肠镜场景中,为计算机辅助诊断提供了更准确的工具
[43] AGE-Net: Spectral--Spatial Fusion and Anatomical Graph Reasoning with Evidential Ordinal Regression for Knee Osteoarthritis Grading
Xiaoyang Li,Runni Zhou
Main category: cs.CV
TL;DR: AGE-Net:一种基于ConvNeXt的膝关节X光片KL分级框架,整合了谱空间融合、解剖图推理和差分细化,采用证据回归头和序数约束,在KL数据集上取得了0.9017的QWK分数。
- Motivation: 膝关节X光片的KL分级面临三个主要挑战:细微结构变化、长距离解剖依赖性和分级边界附近的模糊性。现有方法难以有效处理这些问题。
- Method: 提出AGE-Net框架,基于ConvNeXt架构,整合三个核心模块:谱空间融合(SSF)捕捉多尺度特征,解剖图推理(AGR)建模解剖依赖,差分细化(DFR)处理边界模糊。采用Normal-Inverse-Gamma证据回归头量化不确定性,并加入成对序数排序约束保持分级顺序。
- Result: 在膝关节KL数据集上,AGE-Net取得了0.9017 ± 0.0045的二次加权kappa(QWK)和0.2349 ± 0.0028的均方误差(MSE),优于强CNN基线。消融研究显示各模块均有贡献,同时展示了不确定性质量、鲁棒性和可解释性的评估。
- Conclusion: AGE-Net通过整合多模态特征融合、解剖图推理和差分细化,有效解决了KL分级中的挑战,实现了高精度和可靠的不确定性估计,为膝关节骨关节炎的自动评估提供了有力工具。
[44] TEXTS-Diff: TEXTS-Aware Diffusion Model for Real-World Text Image Super-Resolution
Haodong He,Xin Zhan,Yancheng Bai,Rui Lan,Lei Sun,Xiangxiang Chu
Main category: cs.CV
TL;DR: 提出Real-Texts数据集和TEXTS-Diff模型,解决真实世界文本图像超分辨率中文本区域恢复和背景重建质量的问题
- Motivation: 现有文本图像超分辨率方法面临两个主要问题:1)现有数据集中文本图像数据稀缺,导致文本区域恢复效果差;2)基于孤立文本样本的数据集限制了背景重建质量。需要构建更全面的真实世界文本图像数据集并开发能同时处理背景和文本区域的模型。
- Method: 构建Real-Texts大规模高质量数据集,包含中英文自然文本实例;提出TEXTS-Aware Diffusion Model (TEXTS-Diff),利用抽象概念提升对视觉场景中文本元素的理解,结合具体文本区域增强文本细节,减少文本区域失真和幻觉伪影。
- Result: 实验表明该方法在多个评估指标上达到最先进性能,在复杂场景中展现出优异的泛化能力和文本恢复准确性。
- Conclusion: 通过构建Real-Texts数据集和开发TEXTS-Diff模型,有效解决了真实世界文本图像超分辨率中的关键挑战,实现了背景和文本区域的高质量生成,代码、模型和数据集将开源。
[45] STARS: Shared-specific Translation and Alignment for missing-modality Remote Sensing Semantic Segmentation
Tong Wang,Xiaodong Zhang,Guanzhou Chen,Jiaqi Wang,Chenxi Liu,Xiaoliang Tan,Wenchao Guo,Xuyang Li,Xuanrui Wang,Zifan Wang
Main category: cs.CV
TL;DR: STARS是一个针对遥感多模态数据缺失问题的语义分割框架,通过非对称对齐机制和像素级语义采样对齐策略,有效解决了特征崩溃和类别不平衡问题。
- Motivation: 多模态遥感技术通过融合光学图像、SAR和DSM等异构数据来增强地表语义理解,但在实际应用中,模态数据缺失(如光学或DSM缺失)是一个常见且严重的挑战,会导致传统多模态融合模型性能下降。现有方法在处理缺失模态时仍面临特征崩溃和恢复特征过于泛化等限制。
- Method: 提出STARS框架,包含两个关键设计:1)非对称对齐机制,结合双向翻译和停止梯度,有效防止特征崩溃并降低对超参数的敏感性;2)像素级语义采样对齐(PSA)策略,结合类别平衡像素采样和跨模态语义对齐损失,缓解严重类别不平衡导致的对齐失败,提高少数类别识别能力。
- Result: STARS框架在处理不完整多模态输入时表现出鲁棒的语义分割性能,有效解决了现有方法中的特征崩溃和类别不平衡问题。
- Conclusion: STARS通过创新的非对称对齐机制和像素级语义采样对齐策略,为遥感多模态数据缺失问题提供了一个有效的解决方案,能够处理实际应用中常见的模态缺失情况,并提高语义分割的鲁棒性。
[46] Revisiting Lightweight Low-Light Image Enhancement: From a YUV Color Space Perspective
Hailong Yan,Shice Liu,Xiangtao Zhang,Lujian Yao,Fengxiang Yang,Jinwei Chen,Bo Li
Main category: cs.CV
TL;DR: 提出一种基于YUV色彩空间的轻量级低光图像增强方法,通过频率域分析发现Y通道主要丢失低频内容,UV通道受高频噪声影响,采用双流全局-局部注意力模块恢复Y通道,Y引导的局部感知频率注意力模块处理UV通道,以及引导交互模块进行特征融合。
- Motivation: 移动互联网时代,轻量级低光图像增强面临视觉质量与模型紧凑性的权衡。现有基于解耦策略的方法(如Retinex理论和YUV色彩空间变换)性能受限,因为它们忽视了通道特定的退化模式和跨通道交互。
- Method: 1) 频率域分析确认YUV色彩空间在低光图像增强中的优势;2) 发现Y通道主要丢失低频内容,UV通道受高频噪声影响;3) 提出YUV-based范式:双流全局-局部注意力模块处理Y通道,Y引导的局部感知频率注意力模块处理UV通道,引导交互模块进行特征融合。
- Result: 在多个基准测试中建立了新的最先进性能,以显著更少的参数数量提供卓越的视觉质量。
- Conclusion: 通过频率域分析揭示了YUV色彩空间中通道特定的退化模式,提出的方法有效解决了轻量级低光图像增强中视觉质量与模型紧凑性的权衡问题。
[47] NeRF-MIR: Towards High-Quality Restoration of Masked Images with Neural Radiance Fields
Xianliang Huang,Zhizhou Zhong,Shuhang Chen,Yi Xu,Juhong Guan,Shuigeng Zhou
Main category: cs.CV
TL;DR: NeRF-MIR:一种用于修复掩码图像的神经渲染方法,通过PERE策略优化光线发射,PIRE机制进行渐进式修复,以及动态加权损失函数,在掩码图像修复任务中表现出色。
- Motivation: NeRF在新视角合成方面表现出色,但在处理自然场景中常见的损坏图像(如掩码图像)时仍有改进空间。现有方法在处理掩码图像修复方面存在不足,需要专门针对NeRF的掩码图像修复方法。
- Method: 1. PERE(基于补丁的熵光线发射)策略:优化光线发射分布,有效学习复杂图像纹理;2. PIRE(渐进式迭代修复)机制:通过自训练过程逐步修复掩码区域;3. 动态加权损失函数:自动重新校准掩码区域的损失权重;4. 构建了三个掩码数据集用于训练和评估。
- Result: 在真实数据和构建的数据集上进行的大量实验表明,NeRF-MIR在掩码图像修复任务中优于现有方法,展示了NeRF在该领域的潜力。
- Conclusion: NeRF-MIR成功地将NeRF应用于掩码图像修复任务,通过创新的光线发射策略、渐进式修复机制和动态损失函数,有效解决了掩码图像修复问题,为NeRF在图像修复领域的应用开辟了新方向。
[48] HyDeMiC: A Deep Learning-based Mineral Classifier using Hyperspectral Data
M. L. Mamud,Piyoosh Jaysaval,Frederick D Day-Lewis,M. K. Mudunuru
Main category: cs.CV
TL;DR: 提出HyDeMiC卷积神经网络模型,用于高光谱矿物分类,在噪声环境下表现优异
- Motivation: 传统矿物分类方法(如判别分析、逻辑回归、支持向量机)在处理高光谱数据时面临环境噪声、传感器限制和高维计算复杂性的挑战,需要更鲁棒的解决方案
- Method: 开发HyDeMiC卷积神经网络模型,使用USGS库中115种矿物的实验室高光谱数据,通过卷积参考光谱与HSI传感器响应函数生成训练数据集,以三种含铜矿物作为案例研究,并在不同噪声水平(1%、2%、5%、10%)的合成2D高光谱数据集上评估
- Result: HyDeMiC在清洁和低噪声数据集上实现近乎完美的分类准确率(MCC = 1.00),在中等噪声条件下仍保持强劲性能,表现出良好的鲁棒性
- Conclusion: HyDeMiC模型在噪声环境下表现出色,具有实际高光谱成像应用的潜力,特别是在噪声是主要挑战的真实场景中
[49] PocketGS: On-Device Training of 3D Gaussian Splatting for High Perceptual Modeling
Wenzhi Guo,Guangchi Fang,Shu Yang,Bing Wang
Main category: cs.CV
TL;DR: PocketGS:一种移动端3D高斯泼溅建模方法,在资源受限的移动设备上实现高效高保真3D场景重建
- Motivation: 现有3D高斯泼溅方法依赖资源不受限的训练假设,无法在内存有限、训练时间短的移动设备上运行。需要解决移动端3D场景建模的效率、内存和保真度矛盾。
- Method: 提出三个协同设计的算子:G算子构建几何保真的点云先验;I算子注入局部表面统计信息以初始化各向异性高斯分布;T算子通过缓存中间结果和索引映射梯度散射实现稳定的移动端反向传播。
- Result: PocketGS在移动设备上超越了主流工作站3DGS基线,实现了高质量重建,支持完全在设备上的从采集到渲染的完整工作流。
- Conclusion: PocketGS成功解决了移动端3D高斯泼溅训练的效率、内存和保真度矛盾,为移动设备上的3D场景建模提供了实用解决方案。
[50] UCAD: Uncertainty-guided Contour-aware Displacement for semi-supervised medical image segmentation
Chengbo Ding,Fenghe Tang,Shaohua Kevin Zhou
Main category: cs.CV
TL;DR: UCAD提出了一种不确定性引导的轮廓感知位移框架,用于半监督医学图像分割,通过超像素生成解剖一致区域,并利用不确定性指导选择具有挑战性的区域进行位移,以增强一致性学习。
- Motivation: 现有半监督分割中的位移策略仅操作矩形区域,忽略了解剖结构,导致边界扭曲和语义不一致。需要一种能够保持轮廓感知语义并增强一致性学习的方法。
- Method: 1. 使用超像素生成与解剖边界对齐的解剖一致区域;2. 不确定性引导的选择机制,选择性地位移具有挑战性的区域以进行更好的一致性学习;3. 动态不确定性加权一致性损失,自适应稳定训练并有效正则化未标记区域。
- Result: 大量实验表明,UCAD在有限标注条件下,始终优于最先进的半监督分割方法,实现了卓越的分割准确性。
- Conclusion: UCAD通过结合超像素和不确定性指导,解决了现有位移策略的局限性,为半监督医学图像分割提供了一种有效的解决方案,在保持解剖结构一致性的同时提高了分割精度。
[51] Physical Prompt Injection Attacks on Large Vision-Language Models
Chen Ling,Kai Hu,Hangcheng Liu,Xingshuo Han,Tianwei Zhang,Changhai Ou
Main category: cs.CV
TL;DR: 提出首个物理提示注入攻击(PPIA),通过物理对象上的恶意视觉指令攻击大视觉语言模型,无需访问模型内部,攻击成功率高达98%
- Motivation: 现有提示注入攻击方法需要访问输入通道或了解用户查询,这在现实部署中很少成立。需要一种黑盒、查询无关的攻击方法,仅通过视觉观察就能影响LVLM行为
- Method: 结合离线选择高识别度和语义有效的视觉提示,以及基于时空注意力的环境感知策略放置,确保注入的提示既可见又能影响模型行为
- Result: 在10个最先进的LVLM上评估,包括视觉问答、规划和导航任务,在模拟和真实环境中攻击成功率高达98%,在不同物理条件(距离、视角、光照)下具有强鲁棒性
- Conclusion: PPIA是首个黑盒、查询无关的物理提示注入攻击,揭示了LVLM在开放物理环境中的安全漏洞,对现实世界智能系统的部署安全提出了重要警示
[52] ONRW: Optimizing inversion noise for high-quality and robust watermark
Xuan Ding,Xiu Yan,Chuanlong Xie,Yao Zhu
Main category: cs.CV
TL;DR: 基于扩散模型的高质量鲁棒水印框架,通过空文本优化和迭代去噪过程,在保持图像质量的同时增强水印对各种图像损坏的鲁棒性。
- Motivation: 现有深度学习水印方法虽然能隐藏水印且对图像质量影响小,但在传输过程中遇到图像损坏时缺乏鲁棒性,限制了实际应用价值。
- Method: 1) 通过空文本优化过程将干净图像转换为反转噪声;2) 在潜在空间优化反转噪声;3) 通过扩散模型的迭代去噪过程生成高质量水印图像;4) 引入自注意力约束和伪掩码策略防止图像原始语义失真。
- Result: 在COCO数据集上,该方法在12种不同图像变换中平均比稳定签名方法高出10%,在各种图像损坏下表现出优越性能。
- Conclusion: 提出的基于扩散模型的水印框架既能保持水印图像的高视觉质量,又能显著增强水印对各种图像损坏的鲁棒性,具有实际应用价值。
[53] SMV-EAR: Bring Spatiotemporal Multi-View Representation Learning into Efficient Event-Based Action Recognition
Rui Fan,Weidong Hao
Main category: cs.CV
TL;DR: 本文提出了一种改进的事件相机动作识别框架,通过平移不变的密集转换、双分支动态融合架构和生物启发的时序扭曲增强,在三个数据集上显著提升了准确率,同时减少了参数和计算量。
- Motivation: 现有的事件相机动作识别方法存在两个主要问题:1) 基于空间分箱的表示方法具有平移变异性,限制了性能;2) 早期简单拼接的融合架构无法有效建模不同视图间的互补性。需要重新审视时空多视图表示学习的关键设计阶段。
- Method: 提出了三个核心改进:1) 通过平移不变的密集转换将稀疏事件转换为时空多视图表示;2) 设计双分支动态融合架构,建模不同视图运动特征的样本级互补性;3) 引入生物启发的时序扭曲增强,模拟真实世界人类动作的速度变化。
- Result: 在HARDVS、DailyDVS-200和THU-EACT-50-CHL三个数据集上,分别取得了+7.0%、+10.7%和+10.2%的Top-1准确率提升,同时参数减少了30.1%,计算量降低了35.7%。
- Conclusion: 本文提出的框架通过重新设计时空多视图表示学习的关键组件,建立了一个新颖且强大的事件相机动作识别范式,在保持隐私保护和效率优势的同时,显著提升了识别性能。
[54] ReLE: A Scalable System and Structured Benchmark for Diagnosing Capability Anisotropy in Chinese LLMs
Rui Fang,Jian Li,Wei Chen,Bin Hu,Ying-Cong Chen,Xin Tang,Liang Diao
Main category: cs.CV
TL;DR: ReLE是一个可扩展的实时评估系统,用于诊断大语言模型在中文理解中的能力各向异性,通过混合评分机制和动态调度器,在减少70%计算成本的同时保持高排名相关性,揭示模型高度专业化而非普遍优越的特性。
- Motivation: 当前大语言模型在中文理解方面进展迅速,但准确评估其能力面临基准测试饱和和计算成本高昂的挑战。静态排行榜只能提供快照排名,往往掩盖了能力之间的结构性权衡,需要一种更高效、更精细的评估方法来诊断模型的能力各向异性。
- Method: 提出了ReLE系统,包含两个核心方法:1)符号基础混合评分机制,消除推理任务中基于嵌入的误判;2)基于Neyman分配和噪声校正的动态方差感知调度器,显著降低计算成本。系统评估了304个模型(189个商业模型,115个开源模型),覆盖207,843个样本的领域×能力正交矩阵。
- Result: ReLE系统将计算成本降低了70%,同时保持了ρ=0.96的排名相关性。分析显示聚合排名对权重方案高度敏感:模型在ReLE中的排名稳定性幅度为11.4,而传统基准约为5.0,证实现代模型高度专业化而非普遍优越。
- Conclusion: ReLE不是全面静态基准的替代品,而是作为模型演化景观的高频诊断监控工具,能够揭示模型的能力各向异性,为模型选择和部署提供更精细的评估视角。
[55] HAAF: Hierarchical Adaptation and Alignment of Foundation Models for Few-Shot Pathology Anomaly Detection
Chunze Yang,Wenjie Zhao,Yue Tang,Junbo Lu,Jiusong Ge,Qidong Liu,Zeyu Gao,Chen Li
Main category: cs.CV
TL;DR: HAAF框架通过跨层级缩放对齐机制解决病理图像分析中的粒度不匹配问题,在少样本场景下显著优于现有方法。
- Motivation: 精准病理学依赖检测特定感兴趣区域内的细粒度形态异常,这些局部纹理丰富的线索(而非全局上下文)驱动专家诊断推理。视觉语言模型虽具数据效率优势,但面临粒度不匹配问题:通用表示无法解析细微缺陷。现有方法将模态视为独立流,未能将语义提示锚定在ROI特定的视觉上下文中。
- Method: 提出分层适应与对齐框架(HAAF),核心是跨层级缩放对齐(CLSA)机制:首先视觉特征将上下文注入文本提示生成内容自适应描述符,然后这些描述符在空间上引导视觉编码器聚焦异常。同时采用双分支推理策略,整合语义分数与几何原型以确保少样本设置的稳定性。
- Result: 在四个基准测试中,HAAF显著优于最先进方法,并在低资源场景下能有效扩展至领域特定骨干网络(如CONCH)。
- Conclusion: HAAF通过层级适应与对齐机制成功解决了病理图像分析中的粒度不匹配问题,为少样本精准病理学提供了有效解决方案。
[56] Source-Free Domain Adaptation by Optimizing Batch-Wise Cosine Similarity
Harsharaj Pathak,Vineeth N Balasubramanian
Main category: cs.CV
TL;DR: 提出一种基于邻域签名的源自由域自适应方法,通过优化目标域样本预测的相似性和相异性,减少噪声邻居影响,在VisDA数据集上表现优异
- Motivation: 现有源自由域自适应方法大多依赖邻域一致性概念,但容易受到误导性邻域信息的影响而产生错误。需要探索如何学习更具信息性的聚类并减轻噪声邻居的影响。
- Method: 提出邻域签名概念,通过专门优化目标域样本预测的相似性和相异性的单一损失项来实现自适应,减少噪声邻居的负面影响。
- Result: 在具有挑战性的VisDA数据集上超越了现有方法,在其他基准数据集上也取得了有竞争力的结果。
- Conclusion: 通过邻域签名概念和专门设计的损失函数,能够有效学习信息性聚类并减轻噪声邻居影响,实现高效的源自由域自适应。
[57] Cloud-Enabled IoT System for Real-Time Environmental Monitoring and Remote Device Control Using Firebase
Abdul Hasib,A. S. M. Ahsanul Sarkar Akib
Main category: cs.CV
TL;DR: 本文提出了一种基于Google Firebase实时数据库的云使能物联网系统,用于环境监测和设备控制,具有低成本、高可靠性和实时同步的特点。
- Motivation: 物联网设备的普及为远程监控和控制应用创造了前所未有的机会,但传统监控系统在实时数据访问、远程可控性和云集成方面存在局限性。
- Method: 使用ESP32微控制器连接DHT22温湿度传感器和HC-SR04超声波距离传感器,通过Firebase实时数据库实现数据同步和远程控制两个LED指示灯。
- Result: 实验结果显示数据传输成功率99.2%,实时控制延迟低于1.5秒,支持持久化数据存储用于历史分析,总实现成本仅32.50美元。
- Conclusion: 该系统架构为从智能家居自动化到工业监控的各种物联网应用提供了可扩展框架,Firebase集成无需复杂服务器基础设施,使资源有限的开发者和研究人员也能实现高级物联网应用。
[58] CoT-Seg: Rethinking Segmentation with Chain-of-Thought Reasoning and Self-Correction
Shiu-hong Kao,Chak Ho Huang,Huaiqian Liu,Yu-Wing Tai,Chi-Keung Tang
Main category: cs.CV
TL;DR: CoT-Seg:无需训练的推理分割框架,结合思维链推理与自我校正,利用预训练MLLMs分解查询、提取语义、识别目标,并通过自我评估迭代优化分割结果
- Motivation: 现有推理分割方法在处理复杂查询和域外图像时表现不佳。受思维链推理启发(更难问题需要更长思考步骤),本文旨在探索一个能像人类一样逐步思考、查找信息、生成结果、自我评估并优化的系统
- Method: 提出CoT-Seg训练免费框架:1)利用预训练MLLMs(GPT-4o)分解查询为元指令;2)从图像提取细粒度语义;3)识别隐含或复杂提示下的目标对象;4)自我校正阶段:评估分割结果与原始查询的匹配度,识别不匹配并迭代优化掩码;5)可结合检索增强推理访问外部知识
- Result: 创建ReasonSeg-Hard数据集展示CoT-Seg处理挑战性案例的能力。结果表明,思维链推理与自我校正的结合显著提高了分割的可靠性和鲁棒性,特别是在模糊或易出错情况下
- Conclusion: 思维链推理与自我校正的结合为视觉语言集成驱动的分割提供了强大范式,无需训练即可显著提升复杂场景下的推理分割性能
[59] Coronary Artery Segmentation and Vessel-Type Classification in X-Ray Angiography
Mehdi Yousefzadeh,Siavash Shirzadeh Barough,Ashkan Fakharifar,Yashar Tayyarazad,Narges Eghbali,Mohaddeseh Mozaffari,Hoda Taeb,Negar Sadat Rafiee Tabatabaee,Parsa Esfahanian,Ghazaleh Sadeghi Gohar,Amineh Safavirad,Saeideh Mazloomzadeh,Ehsan khalilipur,Armin Elahifar,Majid Maleki
Main category: cs.CV
TL;DR: XCA血管分割与分类研究:通过图像增强、经典滤波器优化(SVR调参)和深度学习模型(FPN表现最佳),结合冠脉+导管联合监督,显著提升分割精度和血管类型识别准确率。
- Motivation: X射线冠状动脉造影是评估冠心病的临床金标准,但常规数据中血管分割困难限制了定量分析。低对比度、运动、透视缩短、重叠和导管干扰等因素影响分割质量,并导致跨中心域偏移。可靠的血管分割和类型标注对于血管特异性分析和解剖定位依赖的下游测量至关重要。
- Method: 1. 从670个序列中选择最佳帧(基于低强度直方图标准),应用联合超分辨率和增强处理;2. 基准测试经典血管滤波器(Meijering、Frangi、Sato),采用三种参数设置:每图像最优调参、全局均值设置、SVR预测参数;3. 神经网络基线包括U-Net、FPN和Swin Transformer,使用冠脉单独标注和冠脉+导管联合标注训练;4. 第二阶段进行血管类型识别(LAD、LCX、RCA);5. 在公开DCA1数据集上进行外部评估。
- Result: 1. SVR每图像调参相比全局均值显著提升所有经典滤波器Dice分数(如Frangi:0.759 vs. 0.741);2. 深度模型中FPN表现最佳,冠脉单独标注Dice为0.914±0.007,冠脉+导管联合标注提升至0.931±0.006;3. 在严格外部测试DCA1上,Dice下降至0.798(单独)和0.814(联合),轻量域内微调可恢复至0.881±0.014和0.882±0.015;4. 血管类型识别准确率:RCA 98.5%(Dice 0.844)、LAD 95.4%(0.786)、LCX 96.2%(0.794)。
- Conclusion: 学习型每图像调参能增强经典分割流程,而高分辨率FPN模型和联合标注监督提高了稳定性和外部迁移能力,只需适度适应即可获得良好性能。该方法为XCA定量分析提供了可靠的技术基础。
[60] ReflexSplit: Single Image Reflection Separation via Layer Fusion-Separation
Chia-Ming Lee,Yu-Fan Lin,Jing-Hui Jung,Yu-Jou Hsiao,Chih-Chung Hsu,Yu-Lun Liu
Main category: cs.CV
TL;DR: ReflexSplit是一个用于单图像反射分离的双流框架,通过跨尺度门控融合、层融合-分离块和课程训练来解决非线性混合下的传输-反射混淆问题。
- Motivation: 现有的单图像反射分离方法在非线性混合条件下存在传输-反射混淆问题,特别是在深度解码器层中,这是由于隐式融合机制和多尺度协调不足导致的。
- Method: 提出ReflexSplit双流框架,包含三个关键创新:1) 跨尺度门控融合(CrGF)自适应聚合语义先验、纹理细节和解码器上下文;2) 层融合-分离块(LFSB)交替进行融合和分离操作;3) 课程训练通过深度相关初始化和逐轮预热逐步加强分离能力。
- Result: 在合成和真实世界基准测试中展示了最先进的性能,具有优越的感知质量和鲁棒的泛化能力。
- Conclusion: ReflexSplit通过创新的双流架构和训练策略,有效解决了单图像反射分离中的非线性混合问题,实现了更好的层分离效果。
[61] PhaSR: Generalized Image Shadow Removal with Physically Aligned Priors
Chia-Ming Lee,Yu-Fan Lin,Yu-Jou Hsiao,Jing-Hui Jung,Yu-Lun Liu,Chih-Chung Hsu
Main category: cs.CV
TL;DR: PhaSR通过双级先验对齐解决阴影去除问题,包含物理对齐归一化和几何语义矫正注意力机制,在单光源到多光源环境下都能实现鲁棒性能。
- Motivation: 在不同光照条件下进行阴影去除需要将光照与内在反射率解耦,当物理先验未正确对齐时这一挑战尤为突出,特别是在多光源环境光下传统方法容易失效。
- Method: 提出PhaSR框架:1) 物理对齐归一化(PAN):通过灰度世界归一化、对数域Retinex分解和动态范围重组进行闭式光照校正,抑制色偏;2) 几何语义矫正注意力(GSRA):扩展差分注意力实现跨模态对齐,协调深度几何与DINO-v2语义嵌入以解决光照变化下的模态冲突。
- Result: 实验显示在阴影去除任务上具有竞争力,复杂度更低,并能泛化到环境光场景,在多光源照明下传统方法失效时仍能有效工作。
- Conclusion: PhaSR通过双级先验对齐机制成功解决了从单光源到多光源环境下的阴影去除问题,实现了鲁棒的性能和良好的泛化能力。
[62] BMDS-Net: A Bayesian Multi-Modal Deep Supervision Network for Robust Brain Tumor Segmentation
Yan Zhou,Zhen Huang,Yingqiu Li,Yue Ouyang,Suncheng Xiang,Zehua Wang
Main category: cs.CV
TL;DR: BMDS-Net是一个专注于临床鲁棒性和可信度的脑肿瘤分割框架,通过零初始化多模态融合、残差门控深度解码监督和贝叶斯微调策略,在模态缺失情况下保持稳定性能并提供不确定性估计。
- Motivation: 现有Transformer模型(如Swin UNETR)虽然在基准测试中表现优异,但在临床实践中存在两个关键问题:对缺失模态的敏感性和缺乏置信度校准。单纯追求理想数据上的高Dice分数无法满足真实医疗部署的安全要求。
- Method: 1. 构建鲁棒的确定性骨干网络:集成零初始化多模态上下文融合模块和残差门控深度解码监督机制;2. 引入内存高效的贝叶斯微调策略:将网络转换为概率预测器,提供体素级不确定性地图;3. 在BraTS 2021数据集上进行全面实验验证。
- Result: BMDS-Net不仅保持了竞争性的分割精度,更重要的是在基线模型失败的缺失模态场景中表现出卓越的稳定性,同时显著减少了Hausdorff距离,并提供不确定性地图供临床医生参考。
- Conclusion: BMDS-Net通过将临床鲁棒性和可信度置于简单指标最大化之上,为真实医疗环境中的脑肿瘤分割提供了一个统一框架,解决了现有模型在模态缺失和不确定性校准方面的局限性。
[63] FMIR, a foundation model-based Image Registration Framework for Robust Image Registration
Fengting Zhang,Yue He,Qinghao Liu,Yaonan Wang,Xiang Chen,Hang Zhang
Main category: cs.CV
TL;DR: FMIR是一个基于基础模型的医学图像配准框架,通过在单个数据集上训练就能实现领域内SOTA性能,同时在领域外图像上保持鲁棒配准能力。
- Motivation: 深度学习虽然极大提升了医学图像配准速度,但其临床应用的瓶颈在于泛化能力有限,特别是在医学数据集通常规模较小的情况下,难以推广到训练域之外。
- Method: FMIR结合了基于基础模型的特征编码器(用于提取解剖结构)和通用配准头,采用通道正则化策略,仅需在单个数据集上进行训练。
- Result: FMIR在领域内实现了SOTA性能,同时在领域外图像上保持了鲁棒的配准能力,展示了用有限资源构建可泛化医学成像基础模型的可行路径。
- Conclusion: 该研究为在资源有限的情况下构建可泛化的医学成像基础模型提供了一条可行的技术路径,代码已开源。
[64] Will It Zero-Shot?: Will It Zero-Shot?: Predicting Zero-Shot Classification Performance For Arbitrary Queries
Kevin Robbins,Xiaotong Liu,Yu Wu,Le Sun,Grady McPeak,Abby Stylianou,Robert Pless
Main category: cs.CV
TL;DR: 本文提出了一种结合文本和生成图像的方法来评估视觉语言模型在特定任务上的零样本性能,相比仅使用文本的方法能更准确地预测模型效果。
- Motivation: 视觉语言模型(如CLIP)虽然能让非专家用户通过简单命名类别来构建视觉分类器,但模型在不同领域的表现差异很大,用户缺乏直接评估所选模型是否适用于自己任务的方法。
- Method: 在先前仅使用文本比较评估模型性能的基础上,探索了生成与任务相关的合成图像来评估和优化零样本准确率预测的方法。通过结合生成图像来增强基线文本评分。
- Result: 实验表明,相比仅使用文本的方法,结合生成图像的方法能显著提高零样本性能预测的质量。同时,该方法还能为用户提供用于评估的图像类型反馈。
- Conclusion: 在标准CLIP基准数据集上的实验证明,这种基于图像的方法能帮助用户在没有标注样本的情况下,预测视觉语言模型是否适用于他们的应用场景。
[65] OTI: A Model-free and Visually Interpretable Measure of Image Attackability
Jiaming Liang,Haowei Liu,Chi-Man Pun
Main category: cs.CV
TL;DR: 本文提出了一种新的图像可攻击性度量方法——对象纹理强度(OTI),该方法无需模型先验知识,具有视觉可解释性,通过测量图像语义对象的纹理强度来评估图像对对抗攻击的抵抗能力。
- Motivation: 现有图像可攻击性度量方法存在两大局限:1)依赖模型代理提供先验知识(如梯度或最小扰动),但实际中许多任务特定模型不易获取;2)提取的特征缺乏视觉可解释性,难以直接理解与图像的关系。因此需要开发一种模型无关且视觉可解释的可攻击性度量方法。
- Method: 提出对象纹理强度(OTI)作为图像可攻击性的度量,通过测量图像语义对象的纹理强度来评估攻击难度。从决策边界和对抗扰动的中高频特性两个理论角度阐述OTI原理,该方法无需模型先验知识,具有视觉可解释性。
- Result: 综合实验表明OTI方法有效且计算高效。OTI为对抗机器学习社区提供了对可攻击性的视觉理解,能够有效评估图像对对抗攻击的抵抗能力。
- Conclusion: OTI是一种创新的模型无关且视觉可解释的图像可攻击性度量方法,解决了现有方法的局限性,在主动学习、对抗训练和攻击增强等应用中具有重要价值。
[66] Saliency Driven Imagery Preprocessing for Efficient Compression -- Industrial Paper
Justin Downes,Sam Saltwick,Anthony Chen
Main category: cs.CV
TL;DR: 提出基于显著图的可变速率卫星图像压缩方法,通过不同大小的平滑核处理不同显著区域,优化传统有损压缩标准
- Motivation: 卫星图像数据量巨大(每天数百TB),存储和带宽成本高。许多下游任务只关注图像中的小区域,但现有压缩方法对整个图像同等处理,无法根据任务需求优化编码
- Method: 使用显著图驱动的预处理技术,将不同量化显著级别映射到不同大小的平滑核,处理图像像素以优化下游压缩编码方案
- Result: 能够在单个大型卫星图像内实现可变速率压缩,使压缩方法能够根据任务需求聚焦重要区域
- Conclusion: 通过显著图引导的预处理技术,可以将传统有损压缩标准与任务特定需求结合,实现更高效的卫星图像压缩
[67] Sponge Tool Attack: Stealthy Denial-of-Efficiency against Tool-Augmented Agentic Reasoning
Qi Li,Xinchao Wang
Main category: cs.CV
TL;DR: 提出Sponge Tool Attack (STA)攻击方法,通过重写输入提示来干扰LLM的工具调用推理过程,造成计算开销而不改变任务语义
- Motivation: 现有研究主要关注增强LLM使用外部工具进行推理的能力,但忽视了工具调用过程可能受到恶意操纵的漏洞。需要探索这种代理推理方法的内在脆弱性
- Method: 提出Sponge Tool Attack (STA),在仅查询访问的严格假设下,通过重写输入提示来干扰代理推理。STA是一个迭代的多智能体协作框架,具有显式的重写策略控制,能够生成语义保真度高且看似良性的提示重写
- Result: 在6个模型(开源和闭源API)、12个工具、4个代理框架和13个数据集(涵盖5个领域)上的广泛实验验证了STA的有效性。STA能够将原本简洁高效的推理轨迹转换为冗长复杂的路径,造成显著计算开销
- Conclusion: STA揭示了LLM代理推理系统在工具调用过程中的安全漏洞,即使不修改底层模型或外部工具,仅通过提示重写就能有效干扰推理过程。这为未来开发更安全的代理系统提供了重要启示
[68] Stylizing ViT: Anatomy-Preserving Instance Style Transfer for Domain Generalization
Sebastian Doerrich,Francesco Di Salvo,Jonas Alle,Christian Ledig
Main category: cs.CV
TL;DR: 提出Stylizing ViT,一种新颖的Vision Transformer编码器,通过权重共享的注意力块同时处理自注意力和交叉注意力,实现医学图像风格化增强,提升域泛化能力
- Motivation: 医学图像分析中的深度学习模型由于数据异质性和稀缺性,在跨域和跨人口群体泛化方面存在困难。传统增强方法在显著域偏移下效果有限,现有风格化增强方法存在风格多样性不足或引入伪影的问题
- Method: 提出Stylizing ViT,一种Vision Transformer编码器,采用权重共享的注意力块设计,同一注意力块通过自注意力保持解剖结构一致性,同时通过交叉注意力执行风格迁移
- Result: 在组织病理学和皮肤病学的三个图像分类任务上,相比现有方法提升达13%的准确率,生成无伪影的感知可信图像。测试时增强可带来17%的性能提升
- Conclusion: Stylizing ViT通过创新的权重共享注意力设计,有效解决了医学图像风格化增强中的风格多样性和伪影问题,显著提升了域泛化能力,在训练和推理阶段均有显著效果
[69] SPACE-CLIP: Spatial Perception via Adaptive CLIP Embeddings for Monocular Depth Estimation
Taewan Cho,Taeryang Kim,Andrew Jaeyong Choi
Main category: cs.CV
TL;DR: SPACE-CLIP直接从冻结的CLIP视觉编码器中提取几何知识,通过双路径解码器结合语义和结构信息,在深度估计任务上显著超越现有CLIP方法。
- Motivation: CLIP在语义理解方面表现出色,但天生难以感知几何结构。现有方法通过文本提示查询CLIP,这种方式间接且低效。需要一种更直接的方法从CLIP中提取几何知识。
- Method: 提出SPACE-CLIP架构,使用双路径解码器:1) 语义路径通过FiLM动态调节高层特征;2) 结构路径从早期层提取细粒度空间细节。两条路径分层融合,完全绕过文本编码器。
- Result: 在KITTI基准测试中,SPACE-CLIP显著超越之前的CLIP基方法。消融研究证实双路径的协同融合对成功至关重要。
- Conclusion: SPACE-CLIP为重新利用大规模视觉模型提供了高效、架构优雅的蓝图,不仅是独立的深度估计器,更是可集成到下一代具身AI系统的空间感知模块。
[70] Training-Free Text-to-Image Compositional Food Generation via Prompt Grafting
Xinyue Pan,Yuhao Chen,Fengqing Zhu
Main category: cs.CV
TL;DR: 提出Prompt Grafting训练免费框架,通过两阶段布局提示解决多食物图像生成中的物体纠缠问题
- Motivation: 现实餐食图像通常包含多种食物,但现有文本到图像扩散模型在多食物生成时存在物体纠缠问题(如米饭和汤融合),这限制了图像饮食评估和食谱可视化等应用
- Method: 提出Prompt Grafting框架:1)第一阶段使用布局提示建立不同区域;2)第二阶段在布局稳定后将目标提示"嫁接"到相应区域;3)通过编辑布局排列控制哪些食物分离或混合
- Result: 在两个食物数据集上,该方法显著提高了目标物体的存在率,并提供了可控分离的定性证据
- Conclusion: Prompt Grafting框架有效解决了多食物图像生成中的物体纠缠问题,实现了可控的食物分离与混合,为图像饮食评估等应用提供了可靠的数据增强工具
[71] Uni-RS: A Spatially Faithful Unified Understanding and Generation Model for Remote Sensing
Weiyu Zhang,Yuan Hu,Yong Li,Yu Liu
Main category: cs.CV
TL;DR: Uni-RS模型解决遥感多模态模型的空间反转诅咒问题,通过空间布局规划、空间感知查询监督和图像-描述空间布局变化来提升文本到图像生成的空间忠实度。
- Motivation: 现有遥感多模态模型存在空间反转诅咒:虽然能准确识别和描述图像中的物体位置,但在文本到图像生成时无法忠实执行相同的空间关系,而这些空间关系是遥感图像的核心语义信息。
- Method: 1) 显式空间布局规划:将文本指令转化为空间布局计划,解耦几何规划与视觉合成;2) 空间感知查询监督:使可学习查询偏向于指令中明确指定的空间关系;3) 图像-描述空间布局变化:让模型接触系统性的几何一致空间变换。
- Result: 在多个基准测试中,该方法显著提升了文本到图像生成的空间忠实度,同时在图像描述、视觉定位和VQA等多模态理解任务上保持强大性能。
- Conclusion: Uni-RS是首个专门为遥感设计的统一多模态模型,通过显式处理理解与生成之间的空间不对称性,有效解决了空间反转诅咒问题。
[72] StyleDecoupler: Generalizable Artistic Style Disentanglement
Zexi Jia,Jinchao Zhang,Jie Zhou
Main category: cs.CV
TL;DR: StyleDecoupler是一个信息论框架,利用多模态和单模态视觉模型的差异来解耦艺术风格与语义内容,无需微调即可在冻结的视觉语言模型上实现风格特征分离。
- Motivation: 艺术风格与语义内容深度纠缠,难以单独表示。现有方法难以有效分离风格特征,需要一种能够解耦风格与内容的方法。
- Method: 利用多模态视觉模型编码风格和内容,而单模态模型抑制风格以关注内容不变特征的洞察。使用单模态表示作为纯内容参考,通过互信息最小化从多模态嵌入中分离纯风格特征。作为即插即用模块在冻结的视觉语言模型上运行,无需微调。
- Result: 在WeART(280K艺术作品,152种风格,1,556位艺术家)和WikiART数据集上实现了最先进的风格检索性能。支持风格关系映射和生成模型评估等应用。
- Conclusion: StyleDecoupler有效解耦了艺术风格与语义内容,为艺术风格分析和相关应用提供了强大的工具。发布了方法和WeART大规模基准数据集。
[73] An AI-enabled tool for quantifying overlapping red blood cell sickling dynamics in microfluidic assays
Nikhil Kadivar,Guansheng Li,Jianlu Zheng,John M. Higgins,Ming Dao,George Em Karniadakis,Mengjia Xu
Main category: cs.CV
TL;DR: 提出一個自動化深度學習框架,整合AI輔助註釋、分割、分類和實例計數,用於量化時間延遲顯微鏡數據中不同密度狀態下的紅血球群體,特別針對鐮刀型紅血球動態分析。
- Motivation: 理解鐮刀型紅血球動態需要準確識別不同生物物理條件下的形態轉變,特別是在密集堆疊和重疊的細胞群體中。傳統方法面臨手動註釋稀缺和細胞重疊的挑戰。
- Method: 使用Roboflow平台註釋實驗圖像生成標記數據集,訓練nnU-Net分割模型,結合分水嶺算法解決細胞重疊問題,實現自動化分割、分類和實例計數。
- Result: 框架僅需少量標記數據即可實現高分割性能,能追蹤鐮刀型紅血球分數的時序演化,將實驗通量提高兩倍以上,捕捉藥物依賴性鐮刀化行為,揭示細胞形態演化的機械生物學特徵。
- Conclusion: 這個AI驅動框架建立了一個可擴展且可重現的計算平台,用於研究細胞生物力學和評估微生理系統中的治療效果。
[74] Advancing Structured Priors for Sparse-Voxel Surface Reconstruction
Ting-Hsun Chi,Chu-Rong Chen,Chi-Tun Hsu,Hsuan-Ting Lin,Sheng-Yu Huang,Cheng Sun,Yu-Chiang Frank Wang
Main category: cs.CV
TL;DR: 提出一种结合3D高斯泼溅和稀疏体素栅格化的方法,通过体素初始化策略和多视角深度监督,在保持快速收敛的同时提升几何精度和表面完整性。
- Motivation: 现有两种显式表示方法各有优缺点:3D高斯泼溅收敛快且有几何先验,但表面保真度受限于点状参数化;稀疏体素栅格化能提供连续不透明度场和清晰几何,但均匀密集网格初始化收敛慢且未充分利用场景结构。需要结合两者优势。
- Method: 1. 提出体素初始化方法,将体素放置在合理位置并具有适当细节层次,为场景优化提供强起点;2. 提出精炼深度几何监督,将多视角线索转换为直接的每射线深度正则化,增强深度一致性而不模糊边缘。
- Result: 在标准基准测试中,相比先前方法在几何精度、细结构恢复和表面完整性方面都有改进,同时保持了快速收敛。
- Conclusion: 通过结合3D高斯泼溅和稀疏体素栅格化的优势,提出了一种既能快速收敛又能获得高质量几何重建的方法,在多个方面超越了现有技术。
[75] Implicit Neural Representation-Based Continuous Single Image Super Resolution: An Empirical Study
Tayyab Nasir,Daochang Liu,Ajmal Mian
Main category: cs.CV
TL;DR: 本文对基于隐式神经表示(INR)的任意尺度超分辨率方法进行了首次系统性实证研究,比较了现有技术,分析了训练配置的影响,并提出了新的损失函数来提升纹理保真度。
- Motivation: 目前缺乏对INR在任意尺度超分辨率(ASSR)中有效性的系统性实证研究。需要评估现有方法的真实性能增益,分析不同训练配置的影响,并为该领域建立基准和未来方向。
- Method: 1) 在多样化设置下比较现有INR技术;2) 提出统一框架和代码库确保可复现性;3) 研究训练配置对感知质量的影响;4) 提出新损失函数,惩罚强度变化同时保留边缘、纹理和细节。
- Result: 1) 近期复杂INR方法相比早期方法仅带来边际改进;2) 模型性能与训练配置强相关,这一因素被先前研究忽视;3) 提出的损失函数能提升纹理保真度;4) 缩放定律适用于INR-based ASSR,模型复杂度和数据多样性增加可预测性能提升。
- Conclusion: 训练配置对INR-based ASSR性能影响显著,不应被忽视。提出的损失函数能有效提升纹理质量。缩放定律在该领域适用,为未来研究提供了明确方向。需要更关注训练策略和损失函数设计,而非仅追求架构复杂性。
[76] Flatten The Complex: Joint B-Rep Generation via Compositional -Cell Particles
Junran Lu,Yuanqi Li,Hengji Li,Jie Guo,Yanwen Guo
Main category: cs.CV
TL;DR: 提出一种将B-Rep表示为k-cell粒子集合的新范式,通过解耦刚性层次结构,实现拓扑与几何的联合生成,支持无条件生成和条件任务。
- Motivation: B-Rep在CAD中广泛应用,但其生成建模面临挑战,因为B-Rep作为几何单元复合体具有异质性,将拓扑与几何纠缠在不同阶的单元中。现有方法通常采用级联序列处理这种层次结构,未能充分利用单元间的几何关系(如邻接和共享),限制了上下文感知和错误恢复能力。
- Method: 将B-Rep重新表述为组合k-cell粒子集合,将每个拓扑实体编码为粒子的组合,相邻单元在其界面共享相同的潜在表示,从而促进沿共享边界的几何耦合。使用多模态流匹配框架合成这些粒子集合,处理无条件生成和精确条件任务。
- Result: 实验表明,该方法能生成高保真CAD模型,在有效性和可编辑性方面优于现有方法。该表示法还能自然扩展到局部修复等下游任务,并支持直接合成非流形结构(如线框)。
- Conclusion: 通过解耦刚性层次结构,提出的表示法统一了顶点、边和面,实现了具有全局上下文感知的拓扑与几何联合生成,为B-Rep生成建模提供了新范式。
[77] The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation
Chenyu Mu,Xin He,Qu Yang,Wanshun Chen,Jiadi Yao,Huang Liu,Zihao Yi,Bo Zhao,Xingyu Chen,Ruotian Ma,Fanghua Ye,Erkun Yang,Cheng Deng,Zhaopeng Tu,Xiaolong Li,Linus
Main category: cs.CV
TL;DR: 提出一个端到端的智能体框架,将对话转换为电影视频,通过ScripterAgent将粗略对话转换为精细可执行脚本,再由DirectorAgent协调视频模型生成,解决现有模型在长叙事生成中的语义鸿沟问题。
- Motivation: 当前视频生成模型虽然能从简单文本提示生成视觉内容,但在从高级概念(如对话)生成长篇连贯叙事方面存在困难,存在"语义鸿沟"——创意想法与电影执行之间的差距。
- Method: 1. 构建ScriptBench基准数据集,包含丰富的多模态上下文,通过专家指导流程标注;2. 训练ScripterAgent将粗略对话转换为精细可执行的电影脚本;3. 使用DirectorAgent协调最先进的视频模型,采用跨场景连续生成策略确保长期一致性;4. 引入AI驱动的CriticAgent和新的视觉-脚本对齐(VSA)指标进行评估。
- Result: 该框架显著提高了所有测试视频模型的脚本忠实度和时间保真度。分析发现当前最先进模型在视觉壮观性和严格脚本遵循之间存在关键权衡,为自动化电影制作的未来提供了有价值的见解。
- Conclusion: 提出的端到端智能体框架成功弥合了对话到电影视频生成的语义鸿沟,通过分层方法(脚本生成→视频协调)实现了长篇连贯叙事生成,为自动化电影制作开辟了新方向。
[78] Learning Sewing Patterns via Latent Flow Matching of Implicit Fields
Cong Cao,Ren Li,Corentin Dumery,Hao Li
Main category: cs.CV
TL;DR: 提出基于隐式表示的缝纫图案建模方法,使用符号距离场表示面板边界和无符号距离场表示缝线端点,通过连续潜在空间实现可微分网格化,支持图案生成、图像估计和图案编辑等应用。
- Motivation: 缝纫图案是服装结构的基础,对时尚设计、制作和物理模拟至关重要。现有自动化图案生成方法难以准确建模,因为面板几何形状和缝线排列变化很大。
- Method: 1. 使用符号距离场表示面板边界,无符号距离场表示缝线端点;2. 将这些场编码到连续潜在空间,实现可微分网格化;3. 使用潜在流匹配模型学习面板组合分布;4. 通过缝线预测模块从提取的边缘段恢复缝线关系。
- Result: 能够准确建模和生成复杂结构的缝纫图案,相比现有方法提高了从图像估计缝纫图案的准确性,支持图案补全和重新拟合等应用。
- Conclusion: 该方法为数字时尚设计提供了实用的缝纫图案建模工具,能够处理复杂结构并支持多种应用场景。
[79] Frequency-aware Neural Representation for Videos
Jun Zhu,Xinfeng Zhang,Lv Tang,Junhao Jiang,Gai Zhang,Jia Wang
Main category: cs.CV
TL;DR: FaNeRV是一种频率感知的神经视频表示方法,通过显式解耦低频和高频分量,结合多分辨率监督和动态高频注入机制,显著提升了视频压缩的率失真性能。
- Motivation: 现有基于隐式神经表示(INR)的视频压缩方法存在固有的频谱偏差,倾向于低频分量,导致重建结果过度平滑且率失真性能不理想。
- Method: 1. 提出频率感知的神经表示(FaNeRV),显式解耦低频和高频分量;2. 采用多分辨率监督策略,通过分阶段监督引导网络逐步捕获全局结构和细粒度纹理;3. 引入动态高频注入机制,自适应强调挑战性区域;4. 设计频率分解网络模块,改善不同频带的特征建模。
- Result: 在标准基准测试中,FaNeRV显著优于最先进的INR方法,并在率失真性能上与传统编解码器具有竞争力。
- Conclusion: FaNeRV通过频率感知设计有效解决了INR的频谱偏差问题,为视频压缩提供了高质量的神经表示方法,在保持高效性的同时实现了更忠实的重建。
[80] Video Compression with Hierarchical Temporal Neural Representation
Jun Zhu,Xinfeng Zhang,Lv Tang,Junhao Jiang,Gai Zhang,Jia Wang
Main category: cs.CV
TL;DR: TeNeRV提出了一种分层时序神经视频表示方法,通过帧间特征融合和GoP自适应调制机制,有效捕捉视频中的短长期依赖关系,在率失真性能上优于现有INR方法。
- Motivation: 现有基于隐式神经表示(INR)的视频压缩方法通常将时间维度作为独立输入处理,限制了捕捉复杂时序依赖的能力。需要一种能够有效建模视频中短长期时间依赖关系的INR方法。
- Method: 提出TeNeRV方法,包含两个核心组件:1)帧间特征融合(IFF)模块,聚合相邻帧特征以增强局部时序一致性和捕捉细粒度运动;2)GoP自适应调制(GAM)机制,将视频划分为图像组并学习组特定先验,通过调制网络参数实现跨GoP的自适应表示。
- Result: 大量实验表明,TeNeRV在率失真性能上持续优于现有的INR方法,验证了所提方法的有效性。
- Conclusion: TeNeRV通过分层时序建模有效解决了INR方法在视频压缩中的时序依赖问题,为视频压缩提供了更高效的神经表示方法。
[81] Bridging Supervision Gaps: A Unified Framework for Remote Sensing Change Detection
Kaixuan Jiang,Chen Wu,Zhenghui Zhao,Chengxi Han
Main category: cs.CV
TL;DR: UniCD是一个统一的遥感变化检测框架,通过耦合架构协同处理有监督、弱监督和无监督任务,在共享编码器和多分支协作学习机制下,实现了异构监督信号的深度耦合。
- Motivation: 现实场景中像素级变化标签获取成本高昂,现有模型难以适应不同标注可用性的多样化场景,需要一个统一的框架来协同处理不同监督级别的变化检测任务。
- Method: UniCD采用共享编码器和三个监督特定分支:1)有监督分支引入时空感知模块实现双时相特征高效协同融合;2)弱监督分支构建变化表示正则化,引导模型从粗粒度激活向一致可分离的变化建模收敛;3)无监督分支提出语义先验驱动变化推断,将无监督任务转化为可控的弱监督路径优化。
- Result: 在主流数据集上的实验表明,UniCD在三个任务上都实现了最优性能,在弱监督和无监督场景下表现出显著的精度提升,在LEVIR-CD数据集上分别超过当前最优方法12.72%和12.37%。
- Conclusion: UniCD通过统一的耦合架构成功解决了不同监督级别变化检测任务的协同处理问题,消除了架构壁垒,实现了异构监督信号的深度耦合,为实际应用提供了灵活高效的解决方案。
[82] MV-S2V: Multi-View Subject-Consistent Video Generation
Ziyang Song,Xinyu Gong,Bangya Liu,Zelin Zhao
Main category: cs.CV
TL;DR: 提出了多视角主体到视频生成(MV-S2V)任务,通过多视角参考图像实现3D级别的主体一致性,解决了现有单视角方法的局限性。
- Motivation: 现有S2V方法仅限于单视角主体参考,这使得任务简化为S2I+I2V流程,未能充分利用视频主体控制的潜力。需要解决多视角参考下的3D主体一致性问题。
- Method: 1) 开发合成数据生成管道创建定制化训练数据,辅以小规模真实数据集;2) 提出时间偏移RoPE(TS-RoPE)来区分不同主体和同一主体的不同视角,解决条件生成中的混淆问题。
- Result: 框架在3D主体一致性方面表现优异,能够基于多视角参考图像生成高质量视觉输出,为主体驱动视频生成开辟了新方向。
- Conclusion: MV-S2V任务解决了现有S2V方法的局限性,通过多视角参考实现了更好的3D主体一致性,为视频生成领域提供了有意义的进展。
[83] Agreement-Driven Multi-View 3D Reconstruction for Live Cattle Weight Estimation
Rabin Dulal,Wenfeng Jia,Lihong Zheng,Jane Quinn
Main category: cs.CV
TL;DR: 使用多视角RGB图像和SAM 3D重建技术,结合集成回归模型,开发了一种非接触式、成本效益高的牛只活重估计算法,在低数据条件下实现了实用农场部署。
- Motivation: 传统的牛只活重测量方法(如手动称重或体况评分)需要人工处理牲畜,既影响生产效率又增加经济成本。需要开发一种非接触式、成本效益高的自动化解决方案。
- Method: 提出基于多视角RGB图像的3D重建管道:使用SAM 3D进行基于一致性引导的多视角融合生成单个点云,然后比较经典集成模型与深度学习模型在低数据条件下的表现。
- Result: SAM 3D多视角一致性融合方法优于其他3D生成技术,经典集成模型在农场实际场景中表现最稳定(R² = 0.69 ± 0.10,MAPE = 2.22 ± 0.56%),适合农场部署。
- Conclusion: 在农场环境中,提高3D重建质量比增加模型复杂度更重要,因为大规模3D数据生成具有挑战性。该方法为可扩展的农场部署提供了实用解决方案。
[84] ViTCoP: Accelerating Large Vision-Language Models via Visual and Textual Semantic Collaborative Pruning
Wen Luo,Peng Chen,Xiaotao Huang,LiQun Huang
Main category: cs.CV
TL;DR: ViTCoP:视觉与文本语义协同剪枝框架,通过视觉编码器冗余过滤和LLM分层逐步协同剪枝,高效保留关键视觉token,显著降低计算成本和内存消耗。
- Motivation: 现有视觉token剪枝方法存在局限性:要么在视觉编码器中过早剪枝丢失关键信息,要么在LLM中剪枝导致所选token间信息冗余。需要一种能同时解决这两个问题的高效剪枝方法。
- Method: 提出ViTCoP框架:1)在视觉编码器中进行冗余过滤;2)基于LLM分层特性进行逐步协同剪枝;3)引入K向量L2范数作为token显著性度量,确保与FlashAttention等加速技术兼容。
- Result: 在多种大型视觉语言模型上的实验表明,ViTCoP在图像和视频理解任务上超越现有方法,达到SOTA性能,同时显著降低推理延迟和GPU内存消耗。在极端剪枝率下优势更明显。
- Conclusion: ViTCoP通过视觉与文本语义协同剪枝,有效解决了现有方法的局限性,在保持性能的同时大幅降低计算成本,为LVLMs的高效部署提供了有效解决方案。
[85] VAE-REPA: Variational Autoencoder Representation Alignment for Efficient Diffusion Training
Mengmeng Wang,Dengyang Jiang,Liuzhuozheng Li,Yucheng Lin,Guojiang Shen,Xiangjie Kong,Yong Liu,Guang Dai,Jingdong Wang
Main category: cs.CV
TL;DR: 提出一种轻量级内在指导框架,利用预训练VAE特征加速扩散变换器训练,无需外部依赖,仅增加4%计算开销
- Motivation: 现有的扩散变换器训练加速方法(如REPA依赖外部编码器、SRA需要双模型设置)计算开销大,需要解决训练收敛效率低的问题
- Method: 利用现成的预训练VAE特征,通过轻量级投影层将扩散变换器的中间潜在特征与VAE特征对齐,使用特征对齐损失监督
- Result: 相比原始扩散变换器,提高了生成质量和训练收敛速度;与最先进的加速方法相当或更好;仅增加4% GFLOPs,无需外部指导模型成本
- Conclusion: 提出了一种简单有效的轻量级内在指导框架,通过利用预训练VAE特征加速扩散变换器训练,避免了外部依赖带来的计算开销
[86] Geometry-Grounded Gaussian Splatting
Baowen Zhang,Chenxing Jiang,Heng Li,Shaojie Shen,Ping Tan
Main category: cs.CV
TL;DR: 提出Geometry-Grounded Gaussian Splatting,将高斯原语视为随机实体,实现高质量的形状重建
- Motivation: 高斯泼溅在视角合成中表现出色,但现有方法在形状提取方面存在问题,多视角一致性差且对浮点噪声敏感
- Method: 建立理论框架将高斯原语视为随机实体,利用其体积特性渲染高质量深度图进行细粒度几何提取
- Result: 在公开数据集上取得了所有基于高斯泼溅方法中最好的形状重建结果
- Conclusion: 通过将高斯原语理论化为随机实体,为几何基础的高斯泼溅提供了原则性框架,实现了高质量的形状重建
[87] SynMind: Reducing Semantic Hallucination in fMRI-Based Image Reconstruction
Lan Yang,Minghan Yang,Ke Li,Honggang Zhang,Kaiyue Pang,Yi-Zhe Song
Main category: cs.CV
TL;DR: 提出SynMind框架,通过将fMRI信号解析为句子级语义描述,结合视觉先验来重建图像,解决了现有方法中语义错位的问题。
- Motivation: 现有fMRI图像重建方法虽然能生成逼真图像,但存在严重的语义错位问题——重要对象经常被替换或幻觉生成。现有方法过度依赖纠缠的视觉嵌入,优先考虑纹理和全局特征等低层外观线索,而忽视了明确的语义身份。
- Method: 1. 将fMRI信号解析为丰富的句子级语义描述,反映人类视觉理解的层次性和组合性;2. 利用基础视觉语言模型生成类似人类的多粒度文本表示,捕捉对象身份和空间组织;3. 提出SynMind框架,将这些明确的语义编码与视觉先验结合,以条件化预训练的扩散模型。
- Result: SynMind在大多数定量指标上优于最先进方法。通过将语义推理卸载到文本对齐模块,SynMind在使用更小的Stable Diffusion 1.4和单个消费级GPU的情况下,超越了基于SDXL的竞争方法。大规模人类评估证实SynMind产生的重建结果更符合人类视觉感知。神经可视化分析显示SynMind激活了更广泛、语义更相关的大脑区域。
- Conclusion: 通过重新思考明确语义解释在fMRI解码中的作用,SynMind框架成功解决了现有图像重建方法中的语义错位问题,实现了更准确、更符合人类感知的图像重建,同时提高了计算效率。
[88] Domain Generalization with Quantum Enhancement for Medical Image Classification: A Lightweight Approach for Cross-Center Deployment
Jingsong Xia,Siqi Wang
Main category: cs.CV
TL;DR: 提出轻量级量子增强域泛化框架,通过多域成像偏移模拟、域对抗训练和量子特征增强层,提升医学AI模型在未见目标域的泛化性能,无需真实多中心标注数据。
- Motivation: 医学影像AI模型在单中心/单设备上表现良好,但在真实世界跨中心部署时因域偏移导致性能下降,限制了临床泛化能力。需要解决域泛化问题而不依赖真实多中心标注数据。
- Method: 1) 基于MobileNetV2构建域不变编码器;2) 使用亮度、对比度、锐化和噪声扰动模拟多域成像偏移;3) 采用梯度反转的域对抗训练抑制域判别特征;4) 引入轻量级量子特征增强层,使用参数化量子电路进行非线性特征映射和纠缠建模;5) 推理时采用测试时间适应策略。
- Result: 在模拟多中心医学影像数据集上,该方法显著优于无域泛化或无量子增强的基线模型,在未见域上实现了降低的域特定性能方差、提升的AUC和灵敏度。
- Conclusion: 该方法展示了在有限计算资源下量子增强域泛化的临床潜力,为混合量子-经典医学影像系统提供了可行范式,能够提升模型在真实世界跨中心部署中的泛化能力。
[89] MV-SAM: Multi-view Promptable Segmentation using Pointmap Guidance
Yoonwoo Jeong,Cheng Sun,Yu-Chiang Frank Wang,Minsu Cho,Jaesung Choe
Main category: cs.CV
TL;DR: MV-SAM:基于点图实现多视角分割3D一致性的框架,无需显式3D网络或标注3D数据
- Motivation: 现有可提示分割模型(如SAM)扩展到视频和多视角图像时缺乏3D感知,导致结果不一致,需要昂贵的逐场景优化来保证3D一致性
- Method: 利用视觉几何模型从无位姿图像重建的3D点图,通过像素-点一一对应关系将图像和提示提升到3D空间;扩展SAM架构,将预训练编码器的图像嵌入提升为3D点嵌入,通过transformer解码器与3D提示嵌入进行交叉注意力计算
- Result: 在SA-1B数据集上训练,在NVOS、SPIn-NeRF、ScanNet++、uCo3D、DL3DV等基准测试中优于SAM2-Video,达到与逐场景优化基线相当的性能
- Conclusion: MV-SAM通过点图实现2D交互与3D几何的对齐,在多视角分割中实现3D一致性,无需显式3D网络或标注3D数据,具有良好的跨领域泛化能力
[90] VidLaDA: Bidirectional Diffusion Large Language Models for Efficient Video Understanding
Zhihao He,Tieyuan Chen,Kangyu Wang,Ziran Qin,Yang Shao,Chaofan Gan,Shijie Li,Zuxuan Wu,Weiyao Lin
Main category: cs.CV
TL;DR: VidLaDA是一个基于扩散语言模型的视频LLM,通过双向注意力捕获双向依赖关系,解决自回归模型中的因果掩码偏差问题,并引入MARS-Cache框架加速推理。
- Motivation: 标准自回归视频LLM存在因果掩码偏差,阻碍全局时空建模,导致理解效率低下。需要一种能捕获双向依赖关系的视频理解方法。
- Method: 1) 提出VidLaDA,基于扩散语言模型,利用双向注意力捕获双向依赖;2) 引入MARS-Cache框架,通过异步视觉缓存刷新和帧级分块注意力加速推理,同时通过锚点令牌保持全局连接性。
- Result: VidLaDA在性能上优于扩散基线模型,并与最先进的自回归模型(如Qwen2.5-VL和LLaVA-Video)相当,MARS-Cache实现了超过12倍的推理加速,且不损害推理准确性。
- Conclusion: VidLaDA通过扩散语言模型和双向注意力有效解决了自回归视频LLM的因果掩码偏差问题,MARS-Cache框架显著加速了推理过程,为视频理解提供了高效且准确的解决方案。
[91] Quran-MD: A Fine-Grained Multilingual Multimodal Dataset of the Quran
Muhammad Umar Salman,Mohammad Areeb Qazi,Mohammed Talha Alam
Main category: cs.CV
TL;DR: Quran MD是一个包含文本、语言和音频的多模态古兰经数据集,提供经文和单词级别的阿拉伯文本、英文翻译、音标转写以及32位不同诵经者的音频对齐数据。
- Motivation: 古兰经具有丰富的口述传统和诵经多样性,但缺乏一个整合文本、语言和音频的多模态数据集来支持计算研究和应用。
- Method: 构建了一个综合数据集,包含经文级别的阿拉伯文本、英文翻译、音标转写和32位诵经者的音频;单词级别提供对齐的阿拉伯文本、翻译、转写和音频片段。
- Result: 创建了首个全面的古兰经多模态数据集,支持NLP、语音识别、文本转语音、语言分析和数字伊斯兰研究等多种应用。
- Conclusion: 该数据集为古兰经诵经的计算研究提供了独特资源,支持ASR、tajweed检测、TTS、多模态嵌入、语义检索、风格转换和个性化辅导系统等应用。
[92] PEAfowl: Perception-Enhanced Multi-View Vision-Language-Action for Bimanual Manipulation
Qingyu Fan,Zhaoxiang Li,Yi Lu,Wang Chen,Qiu Shen,Xiao-xiao Long,Yinghao Cai,Tao Lu,Shuo Wang,Xun Cao
Main category: cs.CV
TL;DR: PEAfowl是一个用于双手操作的感知增强多视角视觉语言动作模型,通过几何感知的3D表示和迭代式文本感知读取机制,显著提升了在杂乱场景中的操作性能。
- Motivation: 现有视觉语言动作模型在双手操作中存在两个主要问题:1) 多视角特征通过视角无关的token拼接融合,导致3D空间理解能力弱;2) 语言作为全局条件注入,导致指令定位粗糙。这些限制了模型在遮挡、视角和场景变化下的泛化能力。
- Method: 1) 空间推理:预测每个token的深度分布,进行可微3D提升,聚合局部跨视角邻居形成几何基础、跨视角一致的表示;2) 指令定位:用Perceiver风格的文本感知读取机制替代全局条件,在冻结的CLIP视觉特征上进行迭代证据积累;3) 深度蒸馏:使用预训练深度教师模型进行仅训练时的深度蒸馏,为感知前端提供几何感知先验。
- Result: 在RoboTwin 2.0的域随机化设置下,PEAfowl比最强基线提升了23.0个百分点的成功率。真实机器人实验进一步证明了可靠的模拟到真实迁移能力,以及深度蒸馏带来的持续改进。
- Conclusion: PEAfowl通过几何感知的3D表示和迭代式文本感知读取机制,显著提升了双手操作在杂乱场景中的性能,实现了更好的空间理解和指令定位能力。
[93] Masked Depth Modeling for Spatial Perception
Bin Tan,Changjiang Sun,Xiage Qin,Hanat Adai,Zelin Fu,Tianxiang Zhou,Han Zhang,Yinghao Xu,Xing Zhu,Yujun Shen,Nan Xue
Main category: cs.CV
TL;DR: 提出LingBot-Depth深度补全模型,通过掩码深度建模利用视觉上下文优化深度图,在深度精度和像素覆盖方面超越顶级RGB-D相机
- Motivation: 空间视觉感知在自动驾驶和机器人操作等物理世界应用中至关重要,但RGB-D相机在硬件限制和挑战性成像条件下(如镜面或纹理缺失表面)难以获取准确的像素对齐度量深度
- Method: 提出LingBot-Depth深度补全模型,将深度传感器的不准确性视为反映几何模糊性的"掩码"信号,通过掩码深度建模利用视觉上下文优化深度图,并包含自动化数据整理流程进行可扩展训练
- Result: 模型在深度精度和像素覆盖方面超越顶级RGB-D相机,在下游任务实验中显示能提供RGB和深度模态的对齐潜在表示
- Conclusion: LingBot-Depth通过掩码深度建模有效解决深度传感器不准确问题,释放代码、检查点和300万RGB-深度对数据(200万真实数据和100万模拟数据)给空间感知社区
[94] Revisiting 3D Reconstruction Kernels as Low-Pass Filters
Shengjun Zhang,Min Chen,Yibo Wei,Mingyu Dong,Yueqi Duan
Main category: cs.CV
TL;DR: 该论文从信号处理角度重新审视3D重建,提出使用Jinc核函数作为理想低通滤波器来解决离散采样引起的频谱扩展问题,并通过调制核函数平衡空间效率和频域保真度。
- Motivation: 现有3D重建核函数(如高斯、指数、学生t分布)作为低通滤波器存在不理想的低通特性,导致高频分量与低频分量在离散信号频谱中重叠,这是离散采样引起的周期性频谱扩展的根本问题。
- Method: 引入Jinc核函数作为理想低通滤波器,在截止频率处具有瞬时降为零的幅度特性。针对Jinc核在空间域衰减速度慢的问题,进一步提出调制核函数来平衡空间效率和频域保真度。
- Result: 实验结果表明,Jinc核和调制核函数在渲染性能上表现出色,能够有效解决频谱重叠问题,实现更好的3D重建效果。
- Conclusion: 从信号处理视角重新审视3D重建问题,提出基于理想低通滤波器的核函数设计方法,通过Jinc核和调制核函数在空间效率和频域保真度之间取得良好平衡,为3D重建提供了新的解决方案。
[95] Feature-Space Generative Models for One-Shot Class-Incremental Learning
Jack Foster,Kirill Paramonov,Mete Ozay,Umberto Michieli
Main category: cs.CV
TL;DR: Gen1S:一种基于残差空间生成建模的少样本类增量学习方法,通过VAE或扩散模型学习基类残差分布作为结构先验,提升单样本新类识别能力
- Motivation: 解决单样本少样本类增量学习(FSCIL)的挑战性场景,其中模型只能获得每个新类的单个样本,且在基训练阶段后不允许进一步训练或模型修改,这使得新类泛化特别困难
- Method: 提出基于基类和新类嵌入具有结构相似性的假设,将原始嵌入空间映射到残差空间(减去类别原型),利用VAE或扩散模型学习基类残差的多模态分布,作为结构先验来提升新类识别
- Result: Gen1S方法在多个基准测试和骨干架构上一致地超越了现有技术水平,显著提高了新类识别性能
- Conclusion: 通过将生成建模应用于残差空间,利用基类结构相似性作为先验,可以有效解决单样本FSCIL的挑战,为少样本增量学习提供了新的有效方法
[96] Benchmarking Direct Preference Optimization for Medical Large Vision-Language Models
Dain Kim,Jiwoo Lee,Jaehoon Yun,Yong Hoe Koo,Qingyu Chen,Hyunjae Kim,Jaewoo Kang
Main category: cs.CV
TL;DR: 本文首次全面评估了医疗领域中的多种DPO变体,发现现有方法在医疗LVLM中对齐效果有限,并提出针对视觉误解错误的偏好构建策略,在视觉问答任务上提升3.6%。
- Motivation: 大型视觉语言模型在医疗应用中有巨大潜力,但部署受到对齐不足和可靠性问题的限制。虽然DPO已成为优化模型响应的有效框架,但在高风险医疗环境中的效果尚未充分探索,缺乏指导未来方法发展的实证基础。
- Method: 对医疗领域中的9种不同DPO变体进行全面评估,使用LLaVA-Med和HuatuoGPT-Vision两个医疗LVLM。基于评估结果,提出针对视觉误解错误的偏好构建策略作为概念验证。
- Result: 发现当前DPO方法在监督微调上的增益不一致,效果在不同任务和骨干网络间差异显著,且经常无法解决基本的视觉误解错误。提出的针对性策略在视觉问答任务上比现有最强DPO基线提升3.6%。
- Conclusion: 现有DPO方法在医疗LVLM中对齐效果有限,需要针对医疗领域特点开发更有效的对齐策略。提出的视觉误解错误针对性偏好构建策略展示了改进潜力,为未来研究提供了实证基础和开源框架。
[97] RemEdit: Efficient Diffusion Editing with Riemannian Geometry
Eashan Adhikarla,Brian D. Davison
Main category: cs.CV
TL;DR: RemEdit是一个基于扩散模型的图像编辑框架,通过黎曼流形导航和任务特定注意力剪枝,在保持语义保真度的同时实现实时编辑性能。
- Motivation: 现代生成式AI中的可控图像生成面临语义保真度和推理速度之间的关键权衡,现有方法难以同时实现高质量的语义编辑和实时性能。
- Method: 1. 将潜在空间视为黎曼流形,使用Mamba模块学习流形结构,计算精确的测地线路径进行平滑语义编辑;2. 采用双SLERP混合技术和视觉语言模型的目标感知提示增强;3. 引入任务特定的注意力剪枝机制,通过轻量级剪枝头保留编辑必需的特征,实现50%剪枝下的实时性能。
- Result: RemEdit超越了先前最先进的编辑框架,在保持50%剪枝的情况下仍能维持实时性能,为实用且强大的图像编辑设立了新基准。
- Conclusion: RemEdit通过黎曼流形导航和任务特定注意力剪枝的协同创新,成功解决了图像编辑中语义保真度与推理速度的权衡问题,实现了高质量实时编辑。
[98] From Specialist to Generalist: Unlocking SAM's Learning Potential on Unlabeled Medical Images
Vi Vu,Thanh-Huy Nguyen,Tien-Thinh Nguyen,Ba-Thinh Lam,Hoang-Thien Nguyen,Tianyang Wang,Xingjian Li,Min Xu
Main category: cs.CV
TL;DR: SC-SAM提出专家-通用框架,通过U-Net提供点提示和伪标签指导SAM适应医学图像,同时SAM作为通用监督器正则化U-Net,形成双向协同训练循环,在医学图像分割任务上取得SOTA结果。
- Motivation: 基础模型如SAM在医学图像适应上存在挑战:领域偏移、标签稀缺、PEFT无法利用未标记数据。传统模型如U-Net在半监督医学学习中表现出色,但其辅助PEFT SAM的潜力被忽视。
- Method: 提出SC-SAM专家-通用框架:U-Net作为专家提供点提示和伪标签指导SAM适应;SAM作为通用监督器正则化U-Net训练。两者形成双向协同训练循环,有效利用未标记数据。
- Result: 在前列腺MRI和息肉分割基准测试中取得SOTA结果,优于其他半监督SAM变体和MedSAM等医学基础模型,展示了专家-通用协作在标签高效医学图像分割中的价值。
- Conclusion: SC-SAM通过专家-通用协作框架有效解决了医学图像分割中的领域适应问题,证明了传统模型与基础模型协同工作的价值,为标签稀缺的医学图像分析提供了高效解决方案。
[99] DTC: A Deformable Transposed Convolution Module for Medical Image Segmentation
Chengkun Sun,Jinqian Pan,Renjie Liang,Zhengkang Fan,Xin Miao,Jiang Bian,Jie Xu
Main category: cs.CV
TL;DR: 提出了一种用于医学图像分割的新型上采样方法——可变形转置卷积(DTC),通过学习动态采样位置来提升特征重建和细节恢复能力。
- Motivation: 传统上采样方法(如转置卷积和线性插值)使用固定位置采样,可能无法捕捉预定义采样位置之外的结构信息,导致伪影或细节丢失。受可变形卷积启发,需要一种更灵活的上采样方法来提升医学图像分割性能。
- Method: 提出可变形转置卷积(DTC),通过学习动态坐标(采样位置)来生成高分辨率特征图。该方法可集成到现有的医学图像分割模型中,适用于2D和3D任务。
- Result: 在3D数据集(如BTCV15)和2D数据集(如ISIC18、BUSI)上的实验表明,DTC能有效提升解码器的特征重建和细节恢复能力,持续改进现有模型性能。
- Conclusion: DTC作为一种新型上采样方法,通过学习动态采样位置,能够更好地捕捉医学图像中的结构信息,提升分割模型的性能,特别是在特征重建和细节恢复方面表现出色。
[100] FlowMorph: Physics-Consistent Self-Supervision for Label-Free Single-Cell Mechanics in Microfluidic Videos
Bora Yimenicioglu,Vishal Manikanden
Main category: cs.CV
TL;DR: FlowMorph是一个物理一致的自监督框架,通过分析红细胞在微流控视频中的形态变化,学习无标签的力学代理参数k,用于评估红细胞力学特性。
- Motivation: 红细胞力学特性是血液和系统性疾病的重要生物标志物,但现有微流控分析方法依赖监督分割或手工特征,且未充分结合层流斯托克斯流动物理原理。
- Method: FlowMorph使用低维参数化轮廓建模每个细胞,通过可微分的"流中胶囊"模型结合层流平流和曲率正则化弹性松弛,优化损失函数耦合轮廓重叠、细胞内流一致性、面积守恒、壁约束和时间平滑性。
- Result: 在四个公开RBC微流控数据集上,FlowMorph实现平均轮廓IoU 0.905,显著改善面积守恒和壁约束违反。力学代理参数k能以AUC 0.863区分翻转和坦克履带运动,仅需200个RT-DC事件校准即可预测表观杨氏模量,MAE为0.118 MPa。
- Conclusion: FlowMorph提供了一个物理一致的自监督框架,能够从微流控视频中学习红细胞力学代理参数,为高通量细胞力学分析提供了新方法,具有良好的泛化能力和实际应用价值。
[101] UPLiFT: Efficient Pixel-Dense Feature Upsampling with Local Attenders
Matthew Walmer,Saksham Suri,Anirud Aggarwal,Abhinav Shrivastava
Main category: cs.CV
TL;DR: UPLiFT是一种通用像素密集轻量级特征变换架构,通过局部注意力算子实现高效的特征上采样,在保持低推理成本的同时达到SOTA性能。
- Motivation: 当前基于交叉注意力的特征上采样方法存在效率扩展问题,而早期的迭代上采样方法性能有限。需要一种既能保持高效推理成本,又能达到先进性能的特征上采样方法。
- Method: 提出UPLiFT架构和局部注意力算子,采用完全局部定义的注意力池化公式,通过迭代上采样方法稳定特征,避免交叉注意力的效率问题。
- Result: UPLiFT在保持较低推理成本的同时实现了最先进的性能,在生成下游任务中与最先进的耦合流匹配模型竞争,提供通用高效的特征上采样方案。
- Conclusion: 迭代上采样方法仍然可以与基于交叉注意力的方法竞争,UPLiFT通过局部注意力算子实现了高效且高性能的特征上采样,为创建更密集特征提供了通用解决方案。
[102] Domain-Expert-Guided Hybrid Mixture-of-Experts for Medical AI: Integrating Data-Driven Learning with Clinical Priors
Jinchen Gu,Nan Zhao,Lei Qiu,Lu Zhang
Main category: cs.CV
TL;DR: 提出DKGH-MoE框架,将数据驱动的MoE与基于临床先验知识(如医生注视模式)的专家指导MoE相结合,以解决医学领域小数据集限制问题,提升模型性能和可解释性。
- Motivation: 在医学等专业领域,MoE模型受限于小数据集,而临床实践中丰富的专家知识(如医生注视模式和诊断启发式)无法从有限数据中可靠学习。需要结合数据驱动学习和领域专家知识来获得互补优势。
- Method: 提出DKGH-MoE模块,包含两个组件:1)数据驱动MoE从原始影像数据提取新特征;2)领域专家指导MoE整合临床先验知识(特别是临床医生眼动注视线索),强调高诊断相关性区域。该模块是即插即用且可解释的。
- Result: 通过整合领域专家洞察与数据驱动特征,DKGH-MoE同时提升了模型性能和可解释性。
- Conclusion: DKGH-MoE框架成功地将数据驱动学习与领域专业知识统一起来,为医学影像分析提供了更稳健和临床意义更强的学习方法。
[103] MorphXAI: An Explainable Framework for Morphological Analysis of Parasites in Blood Smear Images
Aqsa Yousaf,Sint Sint Win,Megan Coffee,Habeeb Olufowobi
Main category: cs.CV
TL;DR: MorphXAI是一个可解释的寄生虫检测框架,将形态学监督整合到预测流程中,同时定位寄生虫并分析临床相关形态特征,提高检测性能并提供结构化解释。
- Motivation: 寄生虫感染是全球健康挑战,特别是在资源匮乏地区,诊断依赖劳动密集型人工检查血涂片和专家知识。现有深度学习模型虽然性能强但可解释性有限,现有解释方法主要是视觉热图或注意力图,无法捕捉临床医生依赖的形态特征。
- Method: 提出MorphXAI框架,将形态学监督直接整合到预测流程中,使模型能够同时定位寄生虫并表征临床相关属性,如形状、曲率、可见点计数、鞭毛存在和发育阶段。创建了包含三种寄生虫物种的临床医生标注数据集。
- Result: 实验结果表明,MorphXAI不仅提高了检测性能,还提供了结构化、具有生物学意义的解释,为可解释的寄生虫分析建立了新基准。
- Conclusion: MorphXAI框架通过统一寄生虫检测和细粒度形态分析,解决了现有深度学习模型在寄生虫诊断中可解释性不足的问题,为临床实践提供了更实用的工具。
[104] Strip-Fusion: Spatiotemporal Fusion for Multispectral Pedestrian Detection
Asiegbu Miracle Kanu-Asiegbu,Nitin Jotwani,Xiaoxiao Du
Main category: cs.CV
TL;DR: Strip-Fusion是一个用于多光谱行人检测的空间-时间融合网络,通过时间自适应卷积和KL散度损失来处理图像错位、光照变化和遮挡问题,在KAIST和CVC-14基准测试中表现优异。
- Motivation: 现有多光谱行人检测方法主要关注空间融合而忽略时间信息,且RGB和热成像图像对可能存在错位问题。行人在不同光照条件、遮挡等情况下检测困难。
- Method: 提出Strip-Fusion网络,集成时间自适应卷积动态加权时空特征;设计KL散度损失缓解可见光和热成像模态不平衡;开发后处理算法减少误报。
- Result: 在KAIST和CVC-14基准测试中表现优异,在严重遮挡和错位等挑战性条件下相比先前最先进方法有显著改进。
- Conclusion: Strip-Fusion通过时空融合和模态平衡处理,有效提升了多光谱行人检测在错位、光照变化和遮挡条件下的性能。
[105] Leveraging Persistence Image to Enhance Robustness and Performance in Curvilinear Structure Segmentation
Zhuangzhi Gao,Feixiang Zhou,He Zhao,Xiuju Chen,Xiaoxin Li,Qinkai Yu,Yitian Zhao,Alena Shantsila,Gregory Y. H. Lip,Eduard Shantsila,Yalin Zheng
Main category: cs.CV
TL;DR: 提出PIs-Regressor模块学习持久性图像(PI)表示拓扑特征,结合Topology SegNet在编码和解码阶段融合拓扑特征,将拓扑信息直接整合到网络架构而非辅助损失函数中,在医学图像曲线结构分割上取得SOTA性能。
- Motivation: 医学图像中曲线结构分割对临床分析至关重要,整合拓扑属性(如连通性)能提高分割准确性和一致性。然而,从持久性图(PD)中提取和嵌入拓扑属性具有挑战性,因为PD不可微分且计算成本高。现有方法主要通过手工设计的损失函数编码拓扑,跨任务泛化能力差。
- Method: 提出PIs-Regressor模块直接从数据中学习持久性图像(PI)——拓扑特征的有限、可微分表示。结合Topology SegNet,在编码和解码阶段融合这些拓扑特征,将拓扑信息直接整合到网络架构本身而非辅助损失函数中。该方法灵活,可与其他拓扑方法无缝结合。
- Result: 在三个曲线结构基准测试上展示了最先进的性能,在像素级准确性和拓扑保真度方面都表现出色。实验结果表明,整合拓扑特征增强了模型鲁棒性,能有效处理医学图像中的过度曝光和模糊等挑战。
- Conclusion: 通过将拓扑特征直接整合到网络架构中,而不是依赖手工设计的损失函数,提出了一种更鲁棒的医学图像曲线结构分割方法。该方法在保持灵活性的同时,显著提高了分割的准确性和拓扑一致性。
[106] Semi-Supervised Hyperspectral Image Classification with Edge-Aware Superpixel Label Propagation and Adaptive Pseudo-Labeling
Yunfei Qiu,Qiqiong Ma,Tianhua Lv,Li Fang,Shudong Zhou,Wei Yao
Main category: cs.CV
TL;DR: 提出一种结合空间先验信息和动态学习机制的新型半监督高光谱图像分类框架,通过边缘感知超像素标签传播和动态历史融合预测等方法,解决边界标签扩散和伪标签不稳定问题。
- Motivation: 半监督高光谱图像分类面临高标注成本和样本有限的挑战,存在边界标签扩散和伪标签不稳定的问题,需要提高分类鲁棒性和时空一致性。
- Method: 1) 边缘感知超像素标签传播模块:结合边缘强度惩罚和邻域校正策略;2) 动态历史融合预测方法:维护历史预测并动态加权;3) 自适应三方样本分类策略:基于置信度和一致性对样本分层利用;4) 动态可靠性增强伪标签框架:整合上述方法实现时空一致性优化。
- Result: 在四个基准数据集上的评估表明,该方法能够保持优越的分类性能,有效缓解标签扩散问题,提高伪标签稳定性和学习效率。
- Conclusion: 提出的框架通过空间先验信息与动态学习机制的协同作用,成功解决了半监督高光谱图像分类中的关键挑战,实现了时空一致性优化和鲁棒分类性能。
[107] Cross-Domain Transfer with Self-Supervised Spectral-Spatial Modeling for Hyperspectral Image Classification
Jianshu Chao,Tianhua Lv,Qiqiong Ma,Yunfei Qiu,Li Fang,Huifang Shen,Wei Yao
Main category: cs.CV
TL;DR: 提出无源域标注的自监督跨域迁移框架,通过S2Former模块实现光谱-空间协同建模,结合频率域约束和扩散对齐微调机制,在目标域少样本条件下实现高效适应
- Motivation: 现有自监督高光谱学习方法仍依赖源域标注且易受分布偏移影响,导致目标域泛化性能下降。需要解决无源域标注下的跨域迁移问题,在目标域少样本条件下实现高效适应。
- Method: 1. 自监督预训练阶段:设计Spatial-Spectral Transformer (S2Former)模块,采用双分支空间-光谱transformer和双向交叉注意力机制实现光谱-空间协同建模;提出Frequency Domain Constraint (FDC)通过实快速傅里叶变换和高频幅度损失保持频率域一致性。2. 微调阶段:引入Diffusion-Aligned Fine-tuning (DAFT)蒸馏机制,通过师生结构对齐语义演化轨迹,实现低标签条件下的鲁棒迁移学习。
- Result: 在四个高光谱数据集上的实验结果表明,该方法具有稳定的分类性能和强大的跨域适应能力,验证了在资源受限条件下的有效性。
- Conclusion: 提出的自监督跨域迁移框架能够在无源域标注的情况下学习可迁移的光谱-空间联合表示,在目标域少样本条件下实现高效适应,为资源受限的高光谱分析提供了有效解决方案。
[108] Text-Pass Filter: An Efficient Scene Text Detector
Chuang Yang,Haozhao Ma,Xu Han,Yuan Yuan,Qi Wang
Main category: cs.CV
TL;DR: 本文提出Text-Pass Filter (TPF)用于任意形状文本检测,通过模拟带通滤波器为每个文本构建特征-滤波器对,避免传统收缩-扩张策略的固有局限,并能自然分离粘连文本。
- Motivation: 现有基于收缩-掩码扩张策略的文本检测方法在收缩操作时会丢失文本边缘的视觉特征,混淆前景与背景差异,这给文本特征识别带来了固有局限。本文旨在解决这一问题。
- Method: 提出Text-Pass Filter (TPF):1) 模拟带通滤波器为每个文本构建独特的特征-滤波器对;2) 设计Reinforcement Ensemble Unit (REU)增强同一文本的特征一致性并扩大滤波器识别范围;3) 引入Foreground Prior Unit (FPU)提升前景与背景的区分能力。
- Result: 实验证明了REU和FPU的有效性,并展示了TPF的优越性能。该方法能够自然分离粘连文本,无需复杂的解码或后处理过程,适合实时文本检测。
- Conclusion: TPF通过直接分割整个文本区域避免了传统方法的固有局限,能够有效检测任意形状文本,特别是能够自然分离粘连文本,为实时文本检测提供了可行方案。
[109] Computational Framework for Estimating Relative Gaussian Blur Kernels between Image Pairs
Akbar Saadat
Main category: cs.CV
TL;DR: 提出一种零训练前向计算框架,通过解析表达式离散计算实现实时高斯模型应用,用于图像去模糊处理。
- Motivation: 在先前高斯模型验证的基础上,开发无需训练的实时计算框架,解决实际应用中图像去模糊问题。
- Method: 基于高斯核解析表达式的离散计算框架,通过相似度度量筛选多解,处理部分模糊图像对的情况。
- Result: 在真实图像上评估,合成模糊值估计的MAE低于1.7%,实际模糊图像强度与估计值的差异保持在2%以下。
- Conclusion: 提出的零训练框架在实时应用中有效,能够准确估计和恢复模糊图像,误差控制在较低水平。
[110] Spatial-Conditioned Reasoning in Long-Egocentric Videos
James Tribble,Hao Wang,Si-En Hong,Chaoyi Zhou,Ashish Bastola,Siyu Huang,Abolfazl Razi
Main category: cs.CV
TL;DR: 研究探索显式空间信号(如深度图)如何影响VLM在长时程第一人称视频中的空间推理能力,发现深度感知表示能提升安全关键任务的性能,但存在通用准确性与空间专业化之间的权衡。
- Motivation: 长时程第一人称视频存在视角漂移和缺乏持久几何上下文的问题,现有视觉语言模型在长序列空间推理能力有限,需要研究如何在不修改模型架构的情况下提升其空间理解能力。
- Method: 1) 创建Sanpo-D数据集,对Google Sanpo数据集进行细粒度重标注;2) 在导航导向的空间查询上对多个VLM进行基准测试;3) 将深度图与RGB帧融合,研究输入级归纳偏置对空间推理的影响。
- Result: 深度感知和空间基础表示能提升行人检测和障碍物检测等安全关键任务的性能,但存在通用准确性与空间专业化之间的权衡。
- Conclusion: 显式空间信号能有效提升VLM在长时程第一人称视频中的空间推理能力,深度融合方法为安全关键应用提供了有前景的方向。
[111] LungCRCT: Causal Representation based Lung CT Processing for Lung Cancer Treatment
Daeyoung Kim
Main category: cs.CV
TL;DR: 提出LungCRCT框架,利用因果表示学习分析肺癌进展的物理因果机制,实现因果干预分析并提升肿瘤分类性能
- Motivation: 肺癌早期症状不明显且与其他呼吸系统疾病症状相似,导致患者忽视早期进展。现有基于CNN或ViT的AI模型在肺癌检测方面表现良好,但由于相关依赖性和低可解释性等内在限制,难以扩展到肺癌治疗分析或因果干预分析模拟
- Method: 提出LungCRCT框架,采用基于图自编码器的因果发现算法,结合距离相关解缠和基于熵的图像重建细化,从肺癌进展的物理因果机制中提取因果表示
- Result: 框架不仅支持肺癌治疗的因果干预分析,还在恶性肿瘤分类任务中实现了93.91%的AUC得分,同时构建了鲁棒且极轻量的下游模型
- Conclusion: LungCRCT通过因果表示学习克服了传统深度学习模型在肺癌分析中的局限性,为肺癌治疗分析和早期检测提供了新的有效方法
[112] Forward Consistency Learning with Gated Context Aggregation for Video Anomaly Detection
Jiahao Lyu,Minghua Zhao,Xuewen Huang,Yifei Chen,Shuangli Du,Jing Hu,Cheng Shi,Zhiyong Lv
Main category: cs.CV
TL;DR: FoGA:一种轻量级视频异常检测模型,通过前向一致性学习和门控上下文聚合,仅需约200万参数,在边缘设备上实现高效检测,运行速度达155 FPS。
- Motivation: 现有视频异常检测方法大多依赖大规模模型追求极致精度,难以在资源受限的边缘设备上部署。同时,主流预测式方法仅使用单帧未来预测误差,忽略了更长期时间前向信息的丰富约束。
- Method: 提出基于Unet的轻量级模型,对连续帧进行特征提取,生成即时和前向预测。在跳跃连接中引入门控上下文聚合模块,动态融合编码器和解码器特征。使用新颖的前向一致性损失联合优化,并采用混合异常测量策略整合即时和前向帧的误差。
- Result: 实验表明该方法显著优于现有最先进方法,运行速度高达155 FPS,在性能和效率指标之间取得了优秀平衡。
- Conclusion: FoGA模型通过轻量化设计和前向一致性学习,为资源受限的边缘设备提供了高效准确的视频异常检测解决方案,实现了性能与效率的良好权衡。
[113] Agentic Very Long Video Understanding
Aniket Rege,Arka Sadhu,Yuliang Li,Kejie Li,Ramya Korlakai Vinayak,Yuning Chai,Yong Jae Lee,Hyo Jin Kim
Main category: cs.CV
TL;DR: EGAgent:基于实体场景图的智能体框架,用于长时程穿戴设备视频理解,通过结构化搜索和跨模态推理实现连续纵向视频分析。
- Motivation: 全天候个人AI助手需要超越短期孤立事件的连续纵向视频理解能力,现有方法受限于上下文窗口长度,缺乏对长视频流的组合式多跳推理能力。
- Method: 提出EGAgent框架,以实体场景图为核心表示人物、地点、物体及其时间关系,为规划智能体提供结构化搜索工具和混合视听搜索能力,实现跨模态时序一致推理。
- Result: 在EgoLifeQA数据集上达到57.5%的SOTA性能,在Video-MME(Long)数据集上获得74.1%的竞争性表现,验证了长时程视频理解的有效性。
- Conclusion: EGAgent通过实体场景图和智能体工具实现了对连续纵向视频流的深度理解,为全天候AI助手提供了有效的长时程视频分析解决方案。
[114] TempDiffReg: Temporal Diffusion Model for Non-Rigid 2D-3D Vascular Registration
Zehua Liu,Shihao Zou,Jincai Huang,Yanfang Zhang,Chao Tong,Weixin Si
Main category: cs.CV
TL;DR: 本文提出一种用于TACE手术的2D-3D血管配准方法,采用从粗到精的策略,结合结构感知PnP全局对齐和时间扩散模型进行血管形变,显著提高了配准精度。
- Motivation: TACE是肝癌治疗的首选方法,但由于术中血管导航复杂和解剖结构变异大,手术难度高。精确的2D-3D血管配准对于引导微导管和器械定位至关重要。
- Method: 提出从粗到精的配准策略:1)结构感知透视n点(SA-PnP)全局对齐模块建立2D-3D血管对应关系;2)TempDiffReg时间扩散模型利用时序上下文迭代进行血管形变,捕捉复杂解剖变异和局部结构变化。
- Result: 在23名患者626个多帧样本上评估,方法在精度和解剖合理性上均优于现有方法。具体指标:MSE 0.63mm,MAE 0.51mm,比最先进的现有方法分别降低66.7%和17.7%。
- Conclusion: 该方法能显著提高TACE手术中血管配准的精度,有助于经验不足的医生安全高效地完成复杂TACE手术,改善手术效果和患者护理。代码和数据已开源。
[115] YOLO-DS: Fine-Grained Feature Decoupling via Dual-Statistic Synergy Operator for Object Detection
Lin Huang,Yujuan Tan,Weisheng Li,Shitai Shan,Liu Liu,Bo Liu,Linlin Shen,Jing Yu,Yue Niu
Main category: cs.CV
TL;DR: YOLO-DS通过双统计协同算子(DSO)和门控模块,解决了YOLO系列缺乏对共享特征通道中异构对象响应显式建模的问题,在MS-COCO上相比YOLOv8获得1.1%-1.7%的AP提升,推理延迟仅轻微增加。
- Motivation: 现有YOLO检测器缺乏对共享特征通道中异构对象响应的显式建模,这限制了性能的进一步提升。不同对象在相同特征通道中可能表现出不同的响应模式,需要更精细的特征处理机制。
- Method: 提出YOLO-DS框架,核心是双统计协同算子(DSO),通过联合建模通道级均值和峰均差来解耦对象特征。基于DSO设计了两个轻量级门控模块:双统计协同门控(DSG)用于自适应通道级特征选择,多路径分段门控(MSG)用于深度级特征加权。
- Result: 在MS-COCO基准测试中,YOLO-DS在五个模型尺度(N,S,M,L,X)上均优于YOLOv8,AP提升1.1%到1.7%,推理延迟仅轻微增加。可视化、消融和对比研究验证了方法的有效性。
- Conclusion: YOLO-DS通过显式建模异构对象响应,实现了在保持高效率的同时显著提升检测性能,为单阶段目标检测提供了新的特征处理范式。
[116] \textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation
Weiye Zhu,Zekai Zhang,Xiangchen Wang,Hewei Pan,Teng Wang,Tiantian Geng,Rongtao Xu,Feng Zheng
Main category: cs.CV
TL;DR: NaVIDA是一个用于视觉语言导航的统一框架,通过逆动力学增强训练学习视觉变化与动作之间的因果关系,采用分层概率动作分块和熵引导机制来提升导航性能。
- Motivation: 现有VLN方法主要依赖反应式的状态-动作映射,没有显式建模动作如何因果性地改变后续视觉观察。缺乏这种视觉-动作因果关系导致代理无法预测自身动作引起的视觉变化,从而产生不稳定行为、弱泛化能力和轨迹上的累积误差。
- Method: 提出NaVIDA框架,包含三个核心组件:1)基于分块的逆动力学监督增强训练,学习视觉变化与对应动作的因果关系;2)分层概率动作分块(HPAC),将轨迹组织为多步分块,提供更长范围的视觉变化线索;3)熵引导机制自适应设置动作分块的执行范围,减少推理时的误差累积。
- Result: 实验表明NaVIDA在导航性能上优于现有最先进方法,且参数更少(30亿 vs 80亿)。真实机器人评估进一步验证了该方法的实际可行性和有效性。
- Conclusion: 通过显式建模视觉-动作因果关系并采用分层动作分块和自适应执行机制,NaVIDA能够显著提升VLN代理的稳定性、泛化能力和导航性能,同时减少参数需求。
[117] Multi-Perspective Subimage CLIP with Keyword Guidance for Remote Sensing Image-Text Retrieval
Yifan Li,Shiying Wang,Jianqiang Huang
Main category: cs.CV
TL;DR: MPS-CLIP:基于关键词引导的细粒度对齐遥感图像文本检索框架,通过LLM提取关键词、SamGeo生成语义子视角,结合G^2A适配器和MPR模块实现参数高效的多视角对比学习,在RSICD和RSITMD基准上达到SOTA性能。
- Motivation: 现有VLP模型(如CLIP)在遥感图像文本检索中主要依赖粗粒度全局对齐,忽略了遥感图像密集、多尺度的语义特征。同时,全参数微调计算成本高且易导致灾难性遗忘。
- Method: 1) 使用LLM提取核心语义关键词,指导SamGeo生成语义相关的子视角;2) 引入G^2A适配器高效适应冻结主干网络,捕获全局上下文和长距离依赖;3) MPR模块聚合局部线索为多视角嵌入;4) 混合多视角对比损失和加权三元组损失优化,动态选择最大响应视角抑制噪声。
- Result: 在RSICD和RSITMD基准测试中分别达到35.18%和48.40%的平均召回率(mR),显著优于全参数微调基线和近期竞争方法。
- Conclusion: MPS-CLIP成功将遥感图像文本检索范式从全局匹配转向关键词引导的细粒度对齐,以参数高效的方式实现了SOTA性能,解决了现有方法的计算成本和语义粒度不足问题。
[118] MindCine: Multimodal EEG-to-Video Reconstruction with Large-Scale Pretrained Models
Tian-Yi Zhou,Xuan-Hao Liu,Bao-Liang Lu,Wei-Long Zheng
Main category: cs.CV
TL;DR: MindCine:一个利用多模态联合学习和预训练大EEG模型解决EEG-视频重建中单模态和数据稀缺问题的新框架
- Motivation: 从EEG信号重建人类动态视觉感知具有重要研究意义,但现有方法面临两个主要问题:1)仅使用文本模态对齐EEG信号,忽略其他模态且容易过拟合;2)有限EEG-视频数据导致训练困难
- Method: 提出MindCine框架:1)采用多模态联合学习策略,在训练阶段整合超越文本的其他模态;2)利用预训练大EEG模型缓解数据稀缺问题,解码语义信息;3)设计带有因果注意力的Seq2Seq模型解码感知信息
- Result: 实验表明,MindCine在定性和定量评估上都优于现有最先进方法,验证了不同模态互补优势的有效性,以及利用大规模EEG模型通过缓解数据稀缺问题进一步提升重建性能
- Conclusion: MindCine通过多模态联合学习和预训练EEG模型,成功解决了EEG-视频重建中的单模态和数据稀缺问题,实现了在有限数据上的高保真视频重建
[119] QualiRAG: Retrieval-Augmented Generation for Visual Quality Understanding
Linhan Cao,Wei Sun,Weixia Zhang,Xiangyang Zhu,Kaiwei Zhang,Jun Jia,Dandan Zhu,Guangtao Zhai,Xiongkuo Min
Main category: cs.CV
TL;DR: QualiRAG是一个无需训练的检索增强生成框架,利用大语言模型的潜在感知知识进行视觉质量评估,通过动态生成四种互补知识源实现证据驱动的推理。
- Motivation: 当前视觉质量评估方法依赖监督微调或强化学习,需要大量人工标注且容易产生数据集特定偏差。需要一种无需训练的方法来利用大语言模型的潜在感知知识。
- Method: 提出QualiRAG框架,将问题分解为结构化请求,动态生成四种知识源:视觉元数据、主体定位、全局质量总结和局部质量描述,然后进行相关性感知检索实现证据驱动的推理。
- Result: 在视觉质量理解任务上显著优于开源通用大语言模型和VQA微调模型,在视觉质量比较任务上具有竞争力,无需任何任务特定训练。
- Conclusion: QualiRAG展示了无需训练即可利用大语言模型潜在知识进行视觉质量评估的有效性,为可解释质量理解提供了新范式。
[120] HomoFM: Deep Homography Estimation with Flow Matching
Mengfan He,Liangzheng Sun,Chunyu Li,Ziyang Meng
Main category: cs.CV
TL;DR: HomoFM:首次将流匹配技术引入单应性估计任务,通过建模连续点速度场将噪声分布变换为配准坐标,并加入梯度反转层增强跨域鲁棒性。
- Motivation: 现有深度单应性估计方法通常作为直接回归或迭代优化问题处理,难以捕捉复杂几何变换或在不同域间泛化。需要一种能处理复杂变换且具有跨域鲁棒性的新方法。
- Method: 提出HomoFM框架:1)将单应性估计重新表述为速度场学习问题,通过条件流轨迹恢复高精度变换;2)在特征提取主干中集成梯度反转层(GRL),学习域不变表示以增强跨域鲁棒性。
- Result: 在标准基准测试中,HomoFM在估计精度和鲁棒性方面均优于最先进方法,特别是在多模态匹配和变化光照等跨域场景中表现优异。
- Conclusion: HomoFM通过流匹配技术和域适应策略,为单应性估计提供了一种新颖有效的解决方案,显著提升了复杂几何变换处理和跨域泛化能力。
[121] Facial Emotion Recognition on FER-2013 using an EfficientNetB2-Based Approach
Sahil Naik,Soham Bagayatkar,Pavankumar Singh
Main category: cs.CV
TL;DR: 提出基于EfficientNetB2的轻量级面部情绪识别管道,通过两阶段训练策略和多种优化技术,在FER-2013数据集上达到68.78%准确率,参数量比VGG16少近10倍。
- Motivation: 现实场景中的面部情绪识别面临图像质量低、光照变化、姿态变化、背景干扰、类间差异小、标注噪声和严重类别不平衡等挑战。现有大型CNN模型(如VGG、ResNet)虽然准确率尚可,但计算成本高、内存需求大,限制了实时应用。
- Method: 使用EfficientNetB2构建轻量级管道,采用两阶段预热和微调训练策略。结合AdamW优化、解耦权重衰减、标签平滑(ε=0.06)减少标注噪声,使用裁剪类别权重缓解类别不平衡,并采用dropout、混合精度训练和实时数据增强。
- Result: 在FER-2013数据集上,使用87.5%/12.5%分层训练验证分割,保持官方测试集不变,达到68.78%的测试准确率。参数量比VGG16基线少近10倍,训练稳定且泛化能力强。
- Conclusion: 提出的轻量级方法在保持高准确率的同时大幅降低计算复杂度,适合实时和边缘计算应用,为现实场景中的面部情绪识别提供了实用解决方案。
[122] V-Loop: Visual Logical Loop Verification for Hallucination Detection in Medical Visual Question Answering
Mengyuan Jin,Zehui Liao,Yong Xia
Main category: cs.CV
TL;DR: 提出V-Loop框架,通过视觉逻辑循环验证来检测医疗VQA中的幻觉问题,无需训练且即插即用,显著优于现有方法
- Motivation: 多模态大语言模型在医疗VQA中表现出色,但输出存在幻觉风险(即与视觉事实矛盾的响应),这在高风险医疗场景中构成重大威胁。现有不确定性方法虽然计算高效,但本质上是间接的,因为它们估计图像-问题对的预测不确定性,而非验证特定答案的事实正确性。
- Method: 提出视觉逻辑循环验证(V-Loop)框架:1)MLLM生成主要问题的答案;2)从主要QA对中提取语义单元;3)基于答案单元生成验证问题来重新查询问题单元;4)强制视觉注意力一致性,确保主要问题和验证问题都依赖相同的图像证据;5)如果验证答案与预期语义内容匹配,逻辑循环闭合,表示事实基础;否则标记为幻觉。
- Result: 在多个医疗VQA基准测试和MLLM上的广泛实验表明,V-Loop始终优于现有的内省方法,保持高效性,并且与不确定性方法结合使用时能进一步提升性能。
- Conclusion: V-Loop通过双向推理过程形成视觉基础逻辑循环,直接验证事实正确性,为医疗VQA中的幻觉检测提供了有效的训练免费、即插即用解决方案。
[123] Vision-Language-Model-Guided Differentiable Ray Tracing for Fast and Accurate Multi-Material RF Parameter Estimation
Zerui Kang,Yishen Lim,Zhouyou Gu,Seung-Woo Ko,Tony Q. S. Quek,Jihong Park
Main category: cs.CV
TL;DR: 提出基于视觉语言模型(VLM)引导的框架,加速和稳定多材料参数估计,在可微分射线追踪(DRT)引擎中实现快速收敛和低误差。
- Motivation: 传统基于梯度的逆射线追踪方法对初始化敏感且在有限测量下计算成本高,需要更稳定高效的RF材料参数估计方法以支持6G系统中的电磁数字孪生。
- Method: 使用VLM解析场景图像推断材料类别,通过ITU-R材料表映射到定量先验,提供导电率初始化;VLM进一步选择信息丰富的发射器/接收器位置以促进多样化的材料区分路径;基于这些先验,DRT使用测量的接收信号强度进行梯度优化。
- Result: 在NVIDIA Sionna室内场景实验中,相比均匀或随机初始化及随机放置基线,收敛速度快2-4倍,最终参数误差低10-100倍,仅用少量接收器即可实现低于0.1%的平均相对误差。
- Conclusion: VLM提供的语义先验能有效指导基于物理的优化,实现快速可靠的RF材料估计,VLM引导的位置选择减少了准确恢复所需的测量次数。
[124] A multimodal vision foundation model for generalizable knee pathology
Kang Yu,Dingyu Wang,Zimu Yuan,Nan Zhou,Jiajun Liu,Jiaxin Liu,Shanggui Liu,Yaoyan Zheng,Huishu Yuan,Di Huang,Dong Jiang
Main category: cs.CV
TL;DR: OrthoFoundation是一个针对肌肉骨骼病理学的多模态视觉基础模型,使用120万未标注的膝关节X光和MRI图像进行自监督对比学习预训练,在14个下游任务中达到SOTA性能,并展现出卓越的跨解剖结构泛化能力。
- Motivation: 肌肉骨骼疾病是全球残疾的主要原因,需要精确的医学影像解读。当前骨科AI方法依赖任务特定的监督学习,存在碎片化、需要大量标注数据、跨模态和临床场景泛化能力不足等问题。该领域基础模型的发展受到大规模、高质量、开源肌肉骨骼数据集稀缺的限制。
- Method: 构建了包含120万未标注膝关节X光和MRI图像的预训练数据集,使用Dinov3骨干网络,通过自监督对比学习训练模型以获取稳健的放射学表征。
- Result: 在14个下游任务中达到SOTA性能:X光骨关节炎诊断准确率优异,MRI结构损伤检测排名第一。模型展现出卓越的标签效率,仅使用50%标注数据即可匹配监督基线。尽管在膝关节图像上预训练,但能出色地泛化到髋、肩、踝等其他解剖结构。
- Conclusion: OrthoFoundation代表了肌肉骨骼影像通用AI的重要进展。通过从大规模多模态数据中学习基础的、关节无关的放射学语义,克服了传统模型的局限性,为减少标注负担和提高临床诊断准确性提供了稳健框架。
[125] Co-PLNet: A Collaborative Point-Line Network for Prompt-Guided Wireframe Parsing
Chao Wang,Xuanying Li,Cheng Dai,Jinglei Feng,Yuxiang Luo,Yuqi Ouyang,Hao Qin
Main category: cs.CV
TL;DR: Co-PLNet:一种点线协同框架,通过空间提示编码和交叉引导解码实现线框解析,提高准确性和鲁棒性
- Motivation: 现有线框解析方法将线段和交点分开预测再后处理,导致不匹配和鲁棒性降低。需要一种协同框架来同时处理点和线,增强几何一致性。
- Method: 提出点线协同框架Co-PLNet,包括:1) Point-Line Prompt Encoder (PLP-Encoder)将早期检测转换为空间提示,编码几何属性为紧凑对齐的特征图;2) Cross-Guidance Line Decoder (CGL-Decoder)使用稀疏注意力机制,基于互补提示细化预测,强制点线一致性。
- Result: 在Wireframe和YorkUrban数据集上实验显示,准确性和鲁棒性持续提升,同时具有较好的实时效率,证明了该方法在结构化几何感知中的有效性。
- Conclusion: Co-PLNet通过点线协同的空间提示机制和交叉引导解码,解决了传统方法中点线不匹配的问题,实现了更准确、鲁棒的线框解析,适用于SLAM等下游任务。
[126] Depth to Anatomy: Learning Internal Organ Locations from Surface Depth Images
Eytan Kats,Kai Geissler,Daniel Mensing,Jochen G. Hirsch,Stefan Heldman,Mattias P. Heinrich
Main category: cs.CV
TL;DR: 提出基于学习的框架,从单张2D深度图像直接预测多个内部器官的3D位置和形状,用于自动化患者定位
- Motivation: 自动化患者定位对于优化扫描流程和提高患者吞吐量很重要。利用RGB-D相机捕获的深度信息可以估计内部器官位置,实现更准确高效的定位
- Method: 使用大规模全身MRI扫描数据集,合成深度图像与对应解剖分割配对,训练统一的卷积神经网络架构,直接从2D深度图像预测3D器官位置和形状
- Result: 方法能够准确定位包括骨骼和软组织在内的多种解剖结构,无需显式表面重建,展示了将深度传感器集成到放射学工作流程中的潜力
- Conclusion: 提出的学习框架通过从深度图像预测内部器官位置,为自动化患者定位提供了有效解决方案,有望简化扫描流程并提升患者体验
[127] Revisiting Aerial Scene Classification on the AID Benchmark
Subhajeet Das,Susmita Ghosh,Abhiroop Chatterjee
Main category: cs.CV
TL;DR: 本文综述了航空图像分类的机器学习方法,并提出了Aerial-Y-Net模型,在AID数据集上达到91.72%准确率
- Motivation: 航空图像在城乡规划和环境保护中至关重要,但由于其异质性(包含建筑、森林、山脉、空地等多种结构),开发鲁棒的场景分类模型仍然具有挑战性
- Method: 1. 文献综述:涵盖从手工特征(SIFT、LBP)到传统CNN(VGG、GoogLeNet)再到先进深度混合网络的方法;2. 提出Aerial-Y-Net:空间注意力增强的CNN,具有多尺度特征融合机制
- Result: 在AID数据集上评估,Aerial-Y-Net达到91.72%的准确率,优于多个基线架构
- Conclusion: 通过系统综述和提出新的注意力模型,本文为航空图像分类提供了全面的方法分析和有效的解决方案,Aerial-Y-Net在复杂场景分类中表现出色
[128] Contextual Range-View Projection for 3D LiDAR Point Clouds
Seyedali Mousavi,Seyedhamidreza Mousavi,Masoud Daneshtalab
Main category: cs.CV
TL;DR: 提出两种新的LiDAR点云到距离图像投影方法:CAP(中心感知投影)和CWAP(类别加权感知投影),通过融入实例中心和类别信息解决传统深度优先投影导致的信息丢失问题。
- Motivation: 传统LiDAR点云到距离图像的投影方法采用深度优先策略(保留最近点),忽略了语义相关性和对象结构,导致重要上下文信息丢失。需要更智能的投影策略来保留更多有用信息。
- Method: 提出两种机制:1) CAP:根据点到实例中心的距离调整深度值,优先保留实例中心点而非噪声边界点;2) CWAP:通过用户定义的类别权重优先处理特定对象类别,提供灵活的投影策略。
- Result: 在SemanticKITTI数据集上的评估显示,CAP在投影过程中保留了更多实例点,相比基线方法实现了最高3.1%的mIoU提升。CWAP能够增强目标类别的性能,同时对其他类别影响可忽略。
- Conclusion: 通过融入实例中心和类别信息的上下文感知投影策略,能够有效解决传统深度优先投影的信息丢失问题,提升LiDAR点云语义分割的性能,为3D感知任务提供更优的2D表示。
[129] SwipeGen: Bridging the Execution Gap in GUI Agents via Human-like Swipe Synthesis
Xuan Wang,Siyuan Su,Quantong Fu,Yongxiang Hu,Yangfan Zhou
Main category: cs.CV
TL;DR: 提出SwipeGen自动生成人类滑动交互的管道,构建首个GUI代理滑动执行能力基准,并开发GUISwiper代理,相比现有VLM基线提升214%
- Motivation: 现有GUI代理在滑动交互处理上过于简化,无法准确复制人类行为,成为任务完成的新瓶颈
- Method: 将人类滑动手势分解为多个可量化维度,提出SwipeGen自动化管道通过GUI探索合成人类滑动交互,构建基准,并开发GUISwiper代理
- Result: GUISwiper达到69.07%的滑动执行准确率,相比现有VLM基线提升214%
- Conclusion: 通过量化人类滑动行为并合成训练数据,能显著提升GUI代理的交互执行能力,解决现有代理的瓶颈问题
[130] A Tumor Aware DenseNet Swin Hybrid Learning with Boosted and Hierarchical Feature Spaces for Large-Scale Brain MRI Classification
Muhammad Ali Shah,Muhammad Mansoor Alam,Saddam Hussain Khan
Main category: cs.CV
TL;DR: 本文提出了一种高效的密集Swin混合(EDSH)框架用于脑肿瘤MRI分析,通过两个肿瘤感知实验设置分别解决不同肿瘤类型的诊断挑战,在大型MRI数据集上取得了98.50%的准确率和召回率。
- Motivation: 脑肿瘤MRI分析需要同时捕捉细粒度纹理模式和长距离上下文依赖,现有方法难以有效处理不同肿瘤类型的特异性特征(如弥漫性胶质瘤的不规则形状、边界不清,以及脑膜瘤和垂体瘤的明确肿块、特定位置等)。
- Method: 提出EDSH框架,包含两个肿瘤感知实验设置:1)增强特征空间(BFS)设置,通过独立定制的DenseNet和Swin分支学习互补的局部和全局表示,进行维度对齐、融合和增强;2)分层DenseNet-Swin架构,采用深度特征提取和双残差连接(DFE和DR),DenseNet作为主干CNN学习结构化局部特征,Swin_t模型学习全局肿瘤形态。
- Result: 在包含40,260张图像的大型MRI数据集上进行评估,EDSH框架在测试集上取得了98.50%的准确率和召回率,优于独立的CNN、Vision Transformer和其他混合方法。
- Conclusion: EDSH框架通过结合局部纹理特征学习和全局上下文建模,有效解决了不同脑肿瘤类型的特异性诊断挑战,为脑肿瘤MRI分析提供了一种高效准确的解决方案。
[131] PPISP: Physically-Plausible Compensation and Control of Photometric Variations in Radiance Field Reconstruction
Isaac Deutsch,Nicolas Moënne-Loccoz,Gavriel State,Zan Gojcic
Main category: cs.CV
TL;DR: 提出PPISP模块,通过物理可解释的ISP校正解决多视图3D重建中的光度不一致问题,实现新颖视角的逼真渲染和公平评估。
- Motivation: 多视图3D重建方法对相机光学特性和图像信号处理(ISP)变化引起的光度不一致非常敏感。现有方法如逐帧潜变量或仿射颜色校正缺乏物理基础,对新视角泛化能力差。
- Method: 提出物理可解释的ISP(PPISP)校正模块,通过基于物理的可解释变换解耦相机固有特性和拍摄依赖效应。训练专门的PPISP控制器预测新视角的ISP参数,类似于真实相机中的自动曝光和自动白平衡。
- Result: PPISP在标准基准测试中达到最先进性能,同时提供直观控制,并支持在可用时集成元数据。该方法无需真实图像即可实现新视角的逼真和公平评估。
- Conclusion: PPISP通过物理可解释的ISP校正有效解决了多视图3D重建中的光度不一致问题,实现了对新视角的更好泛化,为实际应用提供了更可靠的评估框架。
[132] Beyond Rigid: Benchmarking Non-Rigid Video Editing
Bingzheng Qu,Kehai Chen,Xuefeng Bai,Jun Yu,Min Zhang
Main category: cs.CV
TL;DR: 提出了首个专门评估非刚性视频编辑的基准NRVBench,包含高质量数据集、新评估指标NRVE-Acc和无需训练的基线方法VM-Edit,解决了现有方法在物理合理性和时间一致性方面的不足。
- Motivation: 当前文本驱动视频编辑在生成连贯非刚性变形方面存在挑战,常出现物理失真和时间闪烁问题,缺乏专门评估非刚性视频编辑的基准。
- Method: 1) 构建包含180个非刚性运动视频的数据集,涵盖6个物理类别,配备2340个细粒度任务指令和360个多项选择题;2) 提出基于视觉语言模型的评估指标NRVE-Acc,评估物理合规性、时间一致性和指令对齐;3) 提出无需训练的基线方法VM-Edit,采用双区域去噪机制实现结构感知控制。
- Result: 实验表明现有方法在保持物理合理性方面存在不足,而VM-Edit方法在标准和提出的指标上都取得了优异性能。
- Conclusion: NRVBench可作为推进物理感知视频编辑的标准测试平台,为解决非刚性视频编辑中的物理失真和时间一致性问题提供了系统评估框架。
[133] Q-Bench-Portrait: Benchmarking Multimodal Large Language Models on Portrait Image Quality Perception
Sijing Wu,Yunhao Li,Zicheng Zhang,Qi Jia,Xinyue Li,Huiyu Duan,Xiongkuo Min,Guangtao Zhai
Main category: cs.CV
TL;DR: Q-Bench-Portrait是首个专门针对人像图像质量感知的综合性基准测试,包含2,765个图像-问题-答案三元组,评估了25个MLLM在人像感知方面的能力,发现当前模型表现有限且不精确。
- Motivation: 当前多模态大语言模型在通用图像的低层视觉基准上表现出色,但针对具有独特结构和感知特性的人像图像的感知和评估能力尚未充分探索,需要专门的基准测试来评估和提升这方面的能力。
- Method: 构建Q-Bench-Portrait基准测试,包含2,765个图像-问题-答案三元组,涵盖多样的人像图像来源(自然、合成失真、AI生成、艺术、计算机图形)、全面的质量维度(技术失真、AIGC特定失真、美学)以及多种问题格式(单选、多选、判断、开放式),在全局和局部两个层面进行评估。
- Result: 评估了20个开源和5个闭源MLLM,发现当前模型在人像图像感知方面表现出一定能力,但性能仍然有限且不精确,与人类判断存在明显差距。
- Conclusion: Q-Bench-Portrait基准测试将促进通用和领域特定MLLM在人像图像感知能力方面的进一步研究,帮助缩小模型与人类判断之间的差距。
[134] OREHAS: A fully automated deep-learning pipeline for volumetric endolymphatic hydrops quantification in MRI
Caterina Fuster-Barceló,Claudia Castrillón,Laura Rodrigo-Muñoz,Victor Manuel Vega-Suárez,Nicolás Pérez-Fernández,Gorka Bastarrika,Arrate Muñoz-Barrutia
Main category: cs.CV
TL;DR: OREHAS是首个用于从常规3D MRI自动量化内淋巴积水的全自动流程,通过深度学习分割和临床对齐的工作流程,仅需少量标注即可实现可靠的体积测量。
- Motivation: 传统内淋巴积水量化需要人工干预,存在操作者依赖性和方法不一致的问题。临床软件syngo.via倾向于高估内淋巴体积,需要更准确、可重复的自动量化方法。
- Method: OREHAS整合了三个组件:切片分类、内耳定位和序列特异性分割,形成一个单一工作流程,直接从整个MRI体积计算每耳的内淋巴-前庭体积比。仅需每患者3-6个标注切片进行训练。
- Result: 在外部验证队列中,OREHAS Dice分数达到0.90(SPACE-MRC)和0.75(REAL-IR),与专家标注高度一致(VSI=74.3%),显著优于临床软件syngo.via(VSI=42.5%)。OREHAS的内淋巴体积更小且更符合生理实际。
- Conclusion: OREHAS证明了使用有限监督从标准MRI实现可靠、可重复的内淋巴积水量化的可行性,减少了操作者依赖性,确保了方法一致性,为大规模研究和临床诊断阈值重新校准提供了基础。
[135] Gaze Prediction in Virtual Reality Without Eye Tracking Using Visual and Head Motion Cues
Christos Petrou,Harris Partaourides,Athanasios Balomenos,Yannis Kopsinis,Sotirios Chatzis
Main category: cs.CV
TL;DR: 提出结合HMD运动信号和视觉显著性线索的VR注视预测框架,在无直接眼动追踪条件下提升预测精度,减少感知延迟。
- Motivation: VR应用中注视预测对降低传感器延迟和实现注视点渲染等技术至关重要,但直接眼动追踪常因硬件限制或隐私问题不可用,需要替代解决方案。
- Method: 使用UniSal轻量级显著性编码器提取视频帧的视觉特征,与HMD运动数据融合,通过时间序列预测模块(TSMixer或LSTM)预测未来注视方向。
- Result: 在EHTask数据集和商用VR硬件上的实验表明,该方法显著优于Center-of-HMD和Mean Gaze等基线方法,有效减少感知延迟。
- Conclusion: 该预测性注视建模方法在直接眼动追踪受限的VR环境中,能有效减少感知延迟并增强自然交互,为VR应用提供了实用的注视预测解决方案。
[136] Estimation of geometric transformation matrices using grid-shaped pilot signals
Rinka Kawano,Masaki Kawamura
Main category: cs.CV
TL;DR: 提出一种基于网格形导频信号的水印方法,通过分析图像变换后网格的畸变来估计几何变换矩阵,实现对裁剪等几何攻击的鲁棒同步。
- Motivation: 现有水印方法对裁剪攻击的鲁棒性不足,裁剪会改变图像原点,导致水印同步困难。需要一种能准确检测几何变换(特别是裁剪)的水印同步方法。
- Method: 嵌入网格形导频信号,水平和垂直线采用不同编码。当图像被变换时,网格也随之畸变。通过Radon变换分析畸变图像,估计网格角度和间隔,从而计算变换矩阵。不同编码的网格线有助于确定网格方向,减少歧义。
- Result: 在各项异性缩放、旋转、剪切和裁剪等攻击下进行仿真实验。结果显示,该方法能准确估计变换矩阵,在单一和复合攻击下均保持低误差。
- Conclusion: 提出的基于网格导频信号的水印方法能有效估计几何变换,实现对裁剪等几何攻击的鲁棒同步,解决了现有方法在裁剪攻击下同步困难的问题。
[137] ARMOR: Agentic Reasoning for Methods Orchestration and Reparameterization for Robust Adversarial Attacks
Gabriel Lee Jun Rong,Christos Korgialas,Dion Jia Xu Ho,Pai Chet Ng,Xiaoxiao Miao,Konstantinos N. Plataniotis
Main category: cs.CV
TL;DR: ARMOR框架使用VLM和LLM指导的智能体协同生成对抗攻击,通过动态调整攻击策略和参数,提升跨架构迁移性和攻击成功率。
- Motivation: 现有自动化攻击套件采用静态固定序列,缺乏战略适应性和语义感知能力,无法针对特定图像语义漏洞进行动态调整。
- Method: ARMOR框架通过VLM引导的智能体协同工作,使用CW、JSMA、STA三种对抗原语,通过共享的"Mixing Desk"合成扰动。LLM实时调整和重参数化并行攻击智能体,形成闭环系统。
- Result: 在标准基准测试中,ARMOR实现了改进的跨架构迁移性,可靠地欺骗黑白盒设置。对于盲目标生成混合输出,对于白盒目标使用置信度和SSIM评分选择最佳攻击或混合攻击。
- Conclusion: ARMOR框架通过智能体协同和语义感知的动态攻击策略,克服了传统静态攻击套件的局限性,提升了对抗攻击的适应性和效果。
[138] Efficient Complex-Valued Vision Transformers for MRI Classification Directly from k-Space
Moritz Rempe,Lukas T. Rotkopf,Marco Schlimbach,Helmut Becker,Fabian Hörst,Johannes Haubold,Philipp Dammann,Kevin Kröninger,Jens Kleesiek
Main category: cs.CV
TL;DR: 提出kViT:直接在k空间数据上进行分类的复数视觉Transformer,通过径向k空间分块策略解决架构与MRI物理的几何不匹配问题,实现与图像域方法相当的性能但计算效率大幅提升。
- Motivation: 当前深度学习MRI应用主要处理重建后的幅度图像,丢弃了相位信息且需要计算昂贵的变换。标准神经网络架构基于局部操作(卷积或网格分块),不适合k空间数据的全局、非局部特性。
- Method: 提出复数视觉Transformer(kViT),直接在k空间数据上执行分类。引入径向k空间分块策略,尊重频域中的频谱能量分布,解决当前架构与MRI物理之间的几何不匹配问题。
- Result: 在fastMRI和内部数据集上的实验表明,kViT的分类性能与最先进的图像域基线(ResNet、EfficientNet、ViT)相当。关键优势:对高加速因子具有更强的鲁棒性,训练时VRAM消耗最多减少68倍。
- Conclusion: kViT为资源高效、直接从扫描仪进行AI分析提供了新途径,实现了计算效率的范式转变,同时保持了与图像域方法竞争的性能。
[139] Larger than memory image processing
Jon Sporring,David Stansby
Main category: cs.CV
TL;DR: 针对超大规模图像数据(如PB级电子显微镜数据),提出基于流式处理的架构,通过领域特定语言自动优化I/O和内存使用,实现高效的大于内存的图像分析。
- Motivation: 处理PB级大规模图像数据时,性能主要受I/O限制,传统方法难以高效处理超出内存容量的数据集,需要新的架构来优化数据访问模式。
- Method: 提出流式处理架构,支持切片和分块两种数据表示;引入领域特定语言(DSL),通过编译时和运行时分析自动优化窗口大小、流水线融合、流操作和调度,最小化冗余数据访问。
- Result: 实现了近线性的I/O扫描和可预测的内存占用,显著提升了超大规模图像处理的吞吐量,无需将整个数据集加载到内存中。
- Conclusion: 流式处理架构结合DSL自动优化,为大于内存的图像分析提供了高效解决方案,特别适合依赖邻域值的算法,可集成现有工具并大幅提升处理性能。
[140] Comparative Evaluation of Machine Learning Algorithms for Affective State Recognition from Children's Drawings
Aura Loredana Dan
Main category: cs.CV
TL;DR: 该研究比较了三种深度学习模型(MobileNet、EfficientNet、VGG16)在儿童绘画情感识别任务中的表现,重点关注分类性能、鲁棒性和计算效率的权衡。
- Motivation: 自闭症谱系障碍(ASD)儿童在情感表达和沟通方面存在困难,传统评估方法具有侵入性、主观性且难以一致应用。早期识别儿童情感状态对ASD干预至关重要。
- Method: 采用迁移学习方法,在心理学专家标注的儿童绘画数据集上评估三种深度学习架构:MobileNet、EfficientNet和VGG16。建立统一实验框架分析分类性能、鲁棒性和计算效率。
- Result: 研究结果揭示了轻量级架构与深层架构在基于绘画的情感计算任务中的重要权衡,特别是在移动和实时应用场景中。不同模型在性能、鲁棒性和效率方面各有优劣。
- Conclusion: 该研究为儿童绘画情感识别提供了实用的模型比较框架,强调了在移动和实时应用场景中平衡模型性能与计算效率的重要性,为ASD早期情感评估提供了技术支持。
[141] On Procrustes Contamination in Machine Learning Applications of Geometric Morphometrics
Lloyd Austin Courtenay
Main category: cs.CV
TL;DR: 该研究揭示了传统GPA预处理在GMM机器学习应用中会导致统计依赖性和数据污染,提出了新的重对齐方法,并通过仿真分析了样本量、标志点密度和空间自相关对模型性能的影响。
- Motivation: 传统GMM分析中,通常先对所有标本进行GPA对齐,再将数据分割为训练集和测试集,这种做法可能引入统计依赖性并污染下游预测模型。研究者希望正式表征这种GPA诱导的污染效应。
- Method: 使用受控的2D和3D仿真实验,在不同样本量、标志点密度和异速生长模式下分析GPA污染效应。提出新的重对齐程序:测试标本在模型拟合前与训练集对齐,消除跨样本依赖性。使用线性和卷积回归模型分析标志点空间自相关的重要性。
- Result: 仿真揭示了样本量与标志点空间之间的稳健"对角线"关系,反映了各向同性变异下RMSE的缩放规律。发现当忽略标志点关系时,模型性能会下降。推导了Procrustes切空间自由度的解析斜率。
- Conclusion: GMM的ML应用需要仔细的预处理,提供了重对齐的实用指南,并阐明了Procrustes形状空间固有的基本统计约束。新方法能有效消除跨样本依赖性,提高模型可靠性。
[142] 3DGesPolicy: Phoneme-Aware Holistic Co-Speech Gesture Generation Based on Action Control
Xuanmeng Sha,Liyun Zhang,Tomohiro Mashita,Naoya Chiba,Yuki Uranishi
Main category: cs.CV
TL;DR: 3DGesPolicy:基于扩散策略的动作框架,通过连续轨迹控制生成整体协调的语音手势,结合GAP融合模块实现语音语义、身体动作和面部表情的细粒度对齐。
- Motivation: 现有方法在生成整体语音手势时存在身体动作语义不协调和空间不稳定问题,因为采用部分分解或帧级回归方法,导致手势与语音对齐不佳。
- Method: 将整体手势生成重新定义为连续轨迹控制问题,采用机器人学中的扩散策略;提出Gesture-Audio-Phoneme融合模块,深度融合多模态信号;将帧间变化建模为统一整体动作。
- Result: 在BEAT2数据集上的实验表明,3DGesPolicy在生成自然、富有表现力且高度语音对齐的整体手势方面优于现有最先进方法。
- Conclusion: 3DGesPolicy通过动作框架和GAP融合模块,有效解决了整体语音手势生成中的语义协调和空间稳定性问题,实现了更自然、表达力更强的手势生成。
[143] Fair-Eye Net: A Fair, Trustworthy, Multimodal Integrated Glaucoma Full Chain AI System
Wenbin Wei,Suyuan Yao,Cheng Huang,Xiangyu Gao
Main category: cs.CV
TL;DR: Fair-Eye Net是一个公平可靠的多模态AI系统,用于青光眼筛查、随访和风险预警,通过双流异构融合架构整合多种临床数据,减少诊断偏见并提高临床可靠性。
- Motivation: 青光眼是全球不可逆性失明的主要原因,但当前筛查和进展评估依赖单一测试或松散关联的检查,存在主观性和碎片化护理问题。高质量成像工具和专家资源的有限获取进一步影响了现实世界中的一致性和公平性。
- Method: 开发了Fair-Eye Net系统,整合眼底照片、OCT结构指标、视野功能指数和人口统计学因素,采用双流异构融合架构,配备不确定性感知的分层门控策略进行选择性预测和安全转诊,并通过公平性约束减少弱势亚组的漏诊。
- Result: 系统达到AUC 0.912(特异性96.7%),将种族假阴性差异减少73.4%(从12.31%降至3.28%),保持稳定的跨域性能,并实现3-12个月的早期风险预警(敏感性92%,特异性88%)。
- Conclusion: Fair-Eye Net将公平性作为主要目标进行优化,通过多任务学习实现临床可靠性,为临床转化和大规模部署提供了可复现的路径,有助于推进全球眼健康公平。
[144] DisasterInsight: A Multimodal Benchmark for Function-Aware and Grounded Disaster Assessment
Sara Tehrani,Yonghao Xu,Leif Haglund,Amanda Berg,Michael Felsberg
Main category: cs.CV
TL;DR: 提出了DisasterInsight基准测试,用于评估视觉语言模型在灾害分析任务中的表现,包括建筑功能分类、损坏程度分类、灾害类型分类、计数和结构化报告生成等任务。
- Motivation: 现有遥感视觉语言基准主要关注粗粒度标签和图像级识别,缺乏对实际人道主义工作流程所需的功能理解和指令鲁棒性的评估,需要更贴近实际灾害响应需求的评估框架。
- Method: 将xBD数据集重构为约112K个建筑中心实例,支持多任务指令多样化评估;提出DI-Chat模型,通过参数高效的LoRA方法在灾害特定指令数据上微调现有VLM骨干网络。
- Result: 实验显示现有通用和遥感VLM在各项任务上存在显著性能差距,特别是在损坏理解和结构化报告生成方面;DI-Chat在损坏程度分类、灾害类型分类和报告生成质量上取得显著改进,但建筑功能分类对所有模型仍具挑战性。
- Conclusion: DisasterInsight为研究灾害图像中的基础多模态推理提供了统一基准,强调了灾害分析中功能理解和结构化报告生成的重要性,并为领域适应的VLM开发提供了方向。
[145] From Cold Start to Active Learning: Embedding-Based Scan Selection for Medical Image Segmentation
Devon Levy,Bar Assayag,Laura Gaspar,Ilan Shimshoni,Bella Specktor-Fadida
Main category: cs.CV
TL;DR: 提出结合基础模型嵌入与聚类的主动学习冷启动策略,以及整合空间多样性的不确定性选择框架,在医学图像分割中显著提升低数据场景下的性能。
- Motivation: 医学图像分割标注耗时且需要专业知识,主动学习可缓解标注负担,但传统冷启动策略(基于多样性)和不确定性选择仍有改进空间。
- Method: 1) 冷启动阶段:结合基础模型嵌入与聚类,自动选择聚类数量并按比例采样,构建多样且有代表性的初始训练集;2) 主动学习阶段:整合空间多样性的不确定性选择框架;3) 提供直观可解释的可视化方法。
- Result: 在三个数据集(CheXmask、Montgomery、SynthStrip)上均优于基线方法:CheXmask数据集冷启动将Dice从0.918提升至0.929,Hausdorff距离从32.41降至27.66mm;主动学习将Dice从0.919提升至0.939,Hausdorff距离从30.10降至19.16mm。
- Conclusion: 提出的框架在低数据场景下持续提升分割精度,为医学图像分割的主动学习提供了更有效的冷启动和样本选择策略。
[146] GenAgent: Scaling Text-to-Image Generation via Agentic Multimodal Reasoning
Kaixun Jiang,Yuzheng Wang,Junjie Zhou,Pandeng Li,Zhihang Liu,Chen-Wei Xie,Zhaoyu Chen,Yun Zheng,Wenqiang Zhang
Main category: cs.CV
TL;DR: GenAgent是一个通过智能体框架统一视觉理解和生成的多模态模型,它将理解任务交给多模态模型处理,而将生成任务委托给图像生成模型作为可调用工具,通过自主多轮交互迭代优化输出。
- Motivation: 传统的统一模型面临昂贵的训练成本以及理解与生成之间的权衡问题,而现有的模块化系统受限于静态流水线,无法实现自主的多轮交互和迭代优化。
- Method: 采用智能体框架,将视觉理解与生成解耦:理解由多模态模型处理,生成通过调用图像生成模型作为工具实现。采用两阶段训练策略:1) 使用高质量工具调用和反思数据进行监督微调;2) 结合点式奖励(最终图像质量)和成对奖励(反思准确性)的端到端智能体强化学习,并通过轨迹重采样增强多轮探索。
- Result: GenAgent显著提升了基础生成器(FLUX.1-dev)在GenEval++(+23.6%)和WISE(+14%)上的性能。框架展现出三个关键特性:1) 跨工具泛化能力;2) 测试时扩展性;3) 任务自适应推理能力。
- Conclusion: GenAgent通过智能体框架有效统一了视觉理解和生成,避免了传统统一模型的训练成本和性能权衡问题,实现了自主的多轮交互和迭代优化,在多个基准测试中显著提升了生成性能。
[147] REMAC: Reference-Based Martian Asymmetrical Image Compression
Qing Ding,Mai Xu,Shengxi Li,Xin Deng,Xin Zou
Main category: cs.CV
TL;DR: 提出REMAC方法,通过参考图像引导的熵模块和参考解码器,利用火星图像间的强相似性,将计算复杂度从编码器转移到资源丰富的解码器,实现高效的火星图像压缩。
- Motivation: 现有学习方法在火星图像压缩中存在两个关键问题:1) 忽略火星上极其有限的计算资源;2) 未利用火星图像间强烈的图像间相似性来提升压缩性能。
- Method: 提出基于参考的火星非对称图像压缩方法(REMAC),包括参考引导的熵模块和参考解码器,利用参考图像的有用信息;采用深度多尺度架构建模长距离空间依赖;开发潜在特征回收机制缓解计算约束。
- Result: REMAC将编码器复杂度降低了43.51%,同时实现了0.2664 dB的BD-PSNR增益,优于现有最先进方法。
- Conclusion: REMAC通过利用火星图像的强相似性,将计算负担转移到资源丰富的解码器,在降低编码器复杂度的同时提升了压缩性能,适合火星探测的通信约束环境。
[148] Automated Landmark Detection for assessing hip conditions: A Cross-Modality Validation of MRI versus X-ray
Roberto Di Via,Vito Paolo Pastore,Francesca Odone,Siôn Glyn-Jones,Irina Voiculescu
Main category: cs.CV
TL;DR: 该研究验证了使用标准热图回归架构在MRI上实现与X射线相当的髋臼撞击症(FAI)自动评估,支持将自动化FAI评估整合到常规MRI工作流程中。
- Motivation: 临床筛查决策常基于角度测量,特别是FAI筛查传统上依赖X射线测量角度。然而,评估撞击区域的高度和范围需要MRI扫描的3D视图。两种模态为医生提供不同方面的信息,需要验证MRI是否也能实现与X射线相当的定位和诊断准确性。
- Method: 采用匹配队列验证研究(89名患者,配对MRI/X射线),使用标准热图回归架构评估跨模态临床等效性。在3D MRI体积的冠状视图中进行FAI评估,通过放置更多标志点实现体积分析。
- Result: MRI在cam型撞击的定位和诊断准确性方面达到与X射线等效的水平。该方法展示了在3D MRI体积冠状视图中进行FAI评估的临床可行性,为通过放置更多标志点进行体积分析开辟了可能性。
- Conclusion: 研究结果支持将自动化FAI评估整合到常规MRI工作流程中。代码已开源,为临床实践提供了可行的技术方案。
[149] Generative Diffusion Augmentation with Quantum-Enhanced Discrimination for Medical Image Diagnosis
Jingsong Xia,Siqi Wang
Main category: cs.CV
TL;DR: 提出SDA-QEC框架,结合简化扩散增强与量子增强分类,解决医学图像分类中的类别不平衡问题,在冠状动脉造影图像分类中达到98.33%准确率。
- Motivation: 真实医学数据集常存在严重类别不平衡,阳性样本远多于阴性样本,导致模型偏向多数类,少数类召回率低,影响诊断准确性并带来临床误诊风险。
- Method: 提出SDA-QEC框架:1) 使用轻量级扩散增强器为少数类生成高质量合成样本,平衡训练分布;2) 在MobileNetV2架构中嵌入量子特征层,通过希尔伯特空间中的高维特征映射增强模型判别能力。
- Result: 在冠状动脉造影图像分类任务中,SDA-QEC达到98.33%准确率、98.78% AUC和98.33% F1分数,显著优于ResNet18、MobileNetV2、DenseNet121和VGG16等经典基线。同时获得98.33%敏感性和98.33%特异性,实现临床部署所需的平衡性能。
- Conclusion: 该方法验证了在真实医学成像任务中整合生成增强与量子增强建模的可行性,为开发在小样本、高度不平衡和高风险诊断场景下高度可靠的医学AI系统提供了新的研究途径。
[150] AI-enabled Satellite Edge Computing: A Single-Pixel Feature based Shallow Classification Model for Hyperspectral Imaging
Li Fang,Tianyu Li,Yanghong Lin,Shudong Zhou,Wei Yao
Main category: cs.CV
TL;DR: 提出了一种用于高光谱图像分类的高效AI卫星边缘计算范式,采用轻量级非深度学习框架和少样本学习策略,通过两阶段像素级标签传播方案解决卫星平台资源限制和图像质量问题。
- Motivation: 高光谱成像卫星具有强大的光谱测量能力,但卫星下行链路传输速度成为灾害监测和应急测绘等快速响应应用的主要瓶颈。需要让卫星具备自主决策能力,同时面临卫星平台资源限制和传感器故障导致的图像质量问题。
- Method: 提出轻量级非深度学习框架结合少样本学习策略。开发了两阶段像素级标签传播方案:第一阶段通过构建锚点-像素亲和矩阵传播选定锚点标签获得初始像素标签;第二阶段基于稀疏图的闭式解替换迭代计算。还开发了基于秩约束的图聚类算法确定锚点标签。
- Result: 该方法能够在卫星边缘计算环境下实现高效的高光谱图像分类,仅利用像素级光谱特征而无需考虑空间结构信息,适应卫星平台资源限制并处理图像质量退化问题。
- Conclusion: 提出的AI卫星边缘计算范式使高光谱成像卫星具备自主决策能力,通过轻量级非深度学习框架和创新的标签传播方案,有效解决了传输瓶颈和资源限制问题,为灾害监测等快速响应应用提供了可行解决方案。
[151] Self-Refining Video Sampling
Sangwon Jang,Taekyung Ki,Jaehyeong Jo,Saining Xie,Jaehong Yoon,Sung Ju Hwang
Main category: cs.CV
TL;DR: 提出自精炼视频采样方法,利用预训练视频生成器作为自身精炼器,通过迭代内循环优化提升物理真实感,无需外部验证器或额外训练。
- Motivation: 现代视频生成器在处理复杂物理动态时仍存在困难,缺乏物理真实感。现有方法使用外部验证器或增强数据训练,计算成本高且难以捕捉细粒度运动。
- Method: 将预训练视频生成器解释为去噪自编码器,在推理时进行迭代内循环精炼。引入不确定性感知精炼策略,基于自一致性选择性地精炼区域,避免过度精炼导致的伪影。
- Result: 在先进视频生成器上的实验表明,该方法显著提升了运动连贯性和物理对齐,相比默认采样器和基于引导的采样器,获得了超过70%的人类偏好。
- Conclusion: 自精炼视频采样是一种简单有效的方法,能够利用现有视频生成器自身能力提升物理真实感,无需额外训练或外部验证器,显著改善视频生成质量。
[152] GimmBO: Interactive Generative Image Model Merging via Bayesian Optimization
Chenxi Liu,Selena Ling,Alec Jacobson
Main category: cs.CV
TL;DR: GimmBO:基于偏好贝叶斯优化的交互式适配器融合探索工具,用于扩散模型图像生成
- Motivation: 当前基于手动滑块调整的适配器融合方法在探索大规模设计空间时效率低下,难以从20-30个候选适配器中有效选择权重,需要更智能的探索工具
- Method: 提出GimmBO框架,采用两阶段贝叶斯优化后端,结合真实使用场景中的稀疏性和权重范围约束,提高高维空间中的采样效率和收敛性
- Result: 通过模拟用户和用户研究验证,相比贝叶斯优化和线搜索基线,GimmBO展现出改进的收敛性、高成功率,并展示了框架的扩展灵活性
- Conclusion: GimmBO为扩散模型适配器融合提供了有效的交互式探索工具,解决了手动调整的可扩展性问题,为大规模设计空间探索提供了实用解决方案
[153] AGSP-DSA: An Adaptive Graph Signal Processing Framework for Robust Multimodal Fusion with Dynamic Semantic Alignment
KV Karthikeya,Ashok Kumar Das,Shantanu Pal,Vivekananda Bhat K,Arun Sekar Rajasekaran
Main category: cs.CV
TL;DR: 提出AGSP-DSA框架,通过双图构建、谱图滤波和多尺度GCN实现鲁棒的多模态数据融合,在多个基准数据集上达到SOTA性能。
- Motivation: 针对异构多模态数据(文本、音频、图像)融合的挑战,需要处理模态间关系复杂、信息冗余以及缺失模态情况下的鲁棒性问题。
- Method: 采用双图结构学习模态内和模态间关系,使用谱图滤波增强信息信号,结合多尺度图卷积网络进行节点嵌入,并引入语义感知注意力机制动态调整各模态贡献。
- Result: 在CMU-MOSEI数据集上达到95.3%准确率、0.936 F1分数和0.924 mAP,比MM-GNN提升2.6%;在AVE和MM-IMDB数据集上也取得优异性能,在缺失模态场景下表现出良好泛化性和鲁棒性。
- Conclusion: AGSP-DSA框架在多模态学习中具有高效性,适用于情感分析、事件识别和多媒体分类任务,验证了图信号处理与动态语义对齐在多模态融合中的有效性。
[154] EFSI-DETR: Efficient Frequency-Semantic Integration for Real-Time Small Object Detection in UAV Imagery
Yu Xia,Chang Liu,Tianqi Xiang,Zhigang Tu
Main category: cs.CV
TL;DR: EFSI-DETR:用于无人机图像实时小目标检测的新框架,通过动态频率-空间协同网络和高效语义特征提取器,在VisDrone和CODrone基准上实现SOTA性能
- Motivation: 无人机图像中的实时小目标检测面临特征表示有限和多尺度融合效果不佳的挑战。现有方法未能充分利用频率信息,依赖静态卷积操作,限制了获取丰富特征表示的能力,阻碍了深度语义特征的有效利用。
- Method: 提出EFSI-DETR框架,包含两个核心组件:1) 动态频率-空间统一协同网络(DyFusNet),联合利用频率和空间线索进行鲁棒的多尺度特征融合;2) 高效语义特征集中器(ESFC),以最小计算成本实现深度语义提取。此外采用细粒度特征保留(FFR)策略,在融合过程中整合空间丰富的浅层特征以保留细节。
- Result: 在VisDrone和CODrone基准测试中,EFSI-DETR实现了最先进的性能,在VisDrone上AP和AP_s分别提升1.6%和5.8%,同时在单张RTX 4090 GPU上达到188 FPS的推理速度。
- Conclusion: EFSI-DETR通过动态频率-空间协同和高效语义特征提取,有效解决了无人机图像中小目标检测的挑战,在保持实时效率的同时显著提升了检测精度。
[155] Scale-Aware Self-Supervised Learning for Segmentation of Small and Sparse Structures
Jorge Quesada,Ghassan AlRegib
Main category: cs.CV
TL;DR: 提出一种尺度感知的自监督学习适应方法,通过小窗口裁剪增强来改善对小尺度、稀疏目标的图像分割性能
- Motivation: 现有自监督学习方法在分割大而均匀区域时表现良好,但在处理小尺度、稀疏或不规则目标时性能下降,需要针对目标尺度特性进行优化
- Method: 将小窗口裁剪集成到数据增强流程中,在预训练阶段放大关注精细尺度结构,在两种不同模态数据(地震成像和神经成像)上进行验证
- Result: 在断层分割任务上提升13%准确率,在细胞分割任务上提升5%准确率,而对大尺度特征(如地震相或组织区域)改善有限
- Conclusion: 自监督学习的有效性高度依赖于目标对象的尺度,需要根据目标大小和稀疏性来设计SSL方法,为科学成像领域提供更有效的表示学习框架
[156] Adaptive Domain Shift in Diffusion Models for Cross-Modality Image Translation
Zihao Wang,Yuzhou Chen,Shaogang Ren
Main category: cs.CV
TL;DR: 提出一种改进的跨模态图像翻译方法,通过空间变化的混合场和目标一致性恢复项,在反向扩散过程中保持语义一致性,减少去噪步骤并提高结构保真度。
- Motivation: 现有跨模态图像翻译方法存在脆弱性和效率低下的问题。标准扩散方法通常依赖单一的全局线性域转移,这迫使采样器遍历离流形的高成本区域,增加了校正负担并导致语义漂移。
- Method: 将域转移动态直接嵌入生成过程,在每一步反向步骤预测空间变化的混合场,并在漂移中注入显式的目标一致性恢复项。提供连续时间公式和精确解形式,推导出保持边缘一致性的实用一阶采样器。
- Result: 在医学影像、遥感和电致发光语义映射等翻译任务中,该框架提高了结构保真度和语义一致性,同时以更少的去噪步骤收敛。
- Conclusion: 通过将域转移动态直接集成到生成过程中,并引入空间变化的混合场和目标一致性恢复项,可以显著改善跨模态图像翻译的性能,减少语义漂移并提高效率。
[157] CONQUER: Context-Aware Representation with Query Enhancement for Text-Based Person Search
Zequn Xie
Main category: cs.CV
TL;DR: CONQUER是一个两阶段文本行人搜索框架,通过训练时的跨模态对齐增强和推理时的自适应查询优化,显著提升了检索性能。
- Motivation: 文本行人搜索在实际应用中面临跨模态差异和模糊查询的挑战,现有方法难以有效处理这些问题,特别是在跨域和不完整查询场景下。
- Method: 采用两阶段框架:训练阶段使用多粒度编码、互补对挖掘和基于最优传输的上下文引导匹配学习鲁棒嵌入;推理阶段通过即插即用的查询增强模块(锚点选择和属性驱动丰富)优化模糊或不完整查询。
- Result: 在CUHK-PEDES、ICFG-PEDES和RSTPReid数据集上,CONQUER在Rank-1准确率和mAP指标上均显著超越现有基线,在跨域和不完整查询场景下表现尤为突出。
- Conclusion: CONQUER为实际部署的文本行人搜索提供了一个实用有效的解决方案,通过训练和推理阶段的协同优化,有效解决了跨模态对齐和查询模糊性问题。
[158] Splat-Portrait: Generalizing Talking Heads with Gaussian Splatting
Tong Shi,Melonie de Almeida,Daniela Ivanova,Nicolas Pugeault,Paul Henderson
Main category: cs.CV
TL;DR: Splat-Portrait:基于高斯泼溅的3D说话头生成方法,无需3D监督或运动先验,通过音频驱动生成自然的唇部运动
- Motivation: 现有3D说话头生成方法依赖领域特定的启发式方法(如基于变形的面部运动表示先验),导致3D头像重建不准确,影响动画的真实性
- Method: 使用高斯泼溅表示静态3D重建,自动学习将单张肖像图像解耦为静态高斯泼溅和预测的2D背景,基于输入音频生成唇部运动,无需运动驱动先验,仅使用2D重建和分数蒸馏损失进行训练
- Result: 实验结果表明Splat-Portrait在说话头生成和新视角合成方面表现优异,视觉质量优于先前工作
- Conclusion: Splat-Portrait通过高斯泼溅方法有效解决了3D头部重建和唇部运动合成的挑战,无需3D监督或关键点,实现了高质量的说话头生成
[159] Are Video Generation Models Geographically Fair? An Attraction-Centric Evaluation of Global Visual Knowledge
Xiao Liu,Jiawei Zhang
Main category: cs.CV
TL;DR: 本文提出GAP框架评估文本到视频模型的地理公平性,发现Sora 2模型在全球视觉知识表达上比预期更均衡。
- Motivation: 当前文本到视频生成模型虽然能产生视觉上吸引人的结果,但尚不清楚这些模型是否编码了地理上公平的视觉知识。研究旨在探究这些模型的地理公平性和地理基础视觉知识。
- Method: 提出Geo-Attraction Landmark Probing (GAP)系统框架,构建GEOATTRACTION-500基准数据集(包含500个全球分布的旅游景点),整合全局结构对齐、细粒度关键点对齐和视觉语言模型判断等互补指标,并与人类评估进行验证。
- Result: 将GAP应用于最先进的文本到视频模型Sora 2,发现与常见的强烈地理偏见假设相反,该模型在不同地区、发展水平和文化群体之间表现出相对均匀的地理基础视觉知识水平,仅对景点知名度有微弱依赖。
- Conclusion: 当前文本到视频模型表达全球视觉知识比预期更均衡,这突显了它们在全球化部署应用中的潜力,同时也强调了随着系统发展需要持续评估的必要性。
[160] Low Cost, High Efficiency: LiDAR Place Recognition in Vineyards with Matryoshka Representation Learning
Judith Vilella-Cantos,Mauro Martini,Marcello Chiaberge,Mónica Ballesta,David Valiente
Main category: cs.CV
TL;DR: 提出MinkUNeXt-VINE,一种轻量级深度学习方法,在葡萄园环境中通过预处理和Matryoshka表示学习多损失方法超越现有技术,专注于低成本稀疏LiDAR输入和低维输出以实现实时高效性。
- Motivation: 农业环境由于非结构化特性和缺乏显著地标,定位具有挑战性。虽然农业环境在物体分类和分割方面已有研究,但在当前技术水平下,移动机器人的地点识别任务并不简单。
- Method: 提出MinkUNeXt-VINE方法,采用预处理和Matryoshka表示学习多损失方法,优先考虑增强性能的同时使用低成本稀疏LiDAR输入和低维输出,确保实时场景的高效率。
- Result: 该方法在葡萄园环境中超越了现有技术,在低成本低分辨率输入数据上表现出鲁棒性能,通过全面的消融研究验证了其效率权衡输出的有效性。
- Conclusion: MinkUNeXt-VINE方法在农业环境中实现了高效的地点识别,特别适用于低成本稀疏LiDAR输入,代码已公开供复现。
[161] SeNeDiF-OOD: Semantic Nested Dichotomy Fusion for Out-of-Distribution Detection Methodology in Open-World Classification. A Case Study on Monument Style Classification
Ignacio Antequera-Sánchez,Juan Luis Suárez-Díaz,Rosana Montes,Francisco Herrera
Main category: cs.CV
TL;DR: 提出SeNeDiF-OOD方法,基于语义嵌套二分融合的层次结构解决OOD检测中异质数据挑战,在MonuMAI建筑风格识别系统中验证有效性。
- Motivation: OOD检测是AI在开放世界可靠部署的基础需求,但现有单阶段检测器难以处理从低级损坏到语义偏移的异质OOD数据。
- Method: 提出SeNeDiF-OOD框架,将检测任务分解为二进制融合节点的层次结构,每层集成与特定语义抽象级别对齐的决策边界。
- Result: 在MonuMAI建筑风格识别系统的实验评估中,该方法显著优于传统基线,能有效过滤多样OOD类别同时保持分布内性能。
- Conclusion: 语义嵌套二分融合的层次方法能有效解决OOD检测中的异质数据挑战,为开放世界AI应用提供可靠解决方案。
cs.GR
[162] LoD-Structured 3D Gaussian Splatting for Streaming Video Reconstruction
Xinhui Liu,Can Wang,Lei Liu,Zhenghao Chen,Wei Jiang,Wei Wang,Dong Xu
Main category: cs.GR
TL;DR: StreamLoD-GS:基于LoD的3D高斯溅射框架,专为流式自由视点视频设计,通过层级结构、动态内容分离和量化残差优化,实现高效、高质量、低存储的实时流式渲染。
- Motivation: 自由视点视频重建虽然能实现逼真的3D场景可视化,但实时流式传输面临稀疏视图输入、高昂训练成本和带宽限制的瓶颈。现有3D高斯溅射技术虽提升了渲染速度,但流式自由视点视频还需要快速优化、稀疏约束下的高保真重建和最小存储占用。
- Method: 提出StreamLoD-GS框架,包含三个核心创新:1)基于锚点和八叉树的LoD结构3D高斯溅射,采用层级高斯丢弃技术确保高效稳定优化;2)基于GMM的运动分区机制,分离动态和静态内容,细化动态区域同时保持背景稳定;3)量化残差细化框架,显著降低存储需求而不影响视觉质量。
- Result: 大量实验表明,StreamLoD-GS在质量、效率和存储方面达到竞争性或最先进的性能水平。
- Conclusion: StreamLoD-GS成功解决了流式自由视点视频的关键挑战,通过创新的层级结构、动态内容分离和量化优化技术,实现了高质量、高效率、低存储的实时流式渲染解决方案。
cs.MM
[163] AI-based System for Transforming text and sound to Educational Videos
M. E. ElAlami,S. M. Khater,M. El. R. Rehan
Main category: cs.MM
TL;DR: 提出一种基于GAN的教育视频生成方法,通过语音识别、关键词提取和图像生成,最终合成完整教育视频,在视觉质量上优于现有方法。
- Motivation: 当前从文本或语音生成教育视频的技术仍具挑战性,现有深度学习方法在图像和视频生成方面已有探索,但针对教育领域的条件输入视频生成仍需改进。
- Method: 采用生成对抗网络(GAN)框架,分三阶段:1)语音识别转录输入;2)提取关键词并使用CLIP和扩散模型生成相关图像;3)将生成的图像合成为视频,并集成预录制或合成音频。
- Result: 与TGAN、MoCoGAN、TGANS-C等系统相比,获得28.75%的FID分数,表明视觉质量提升且优于现有方法。
- Conclusion: 提出的基于GAN的教育视频生成方法能够从文本或语音输入创建完整教育视频,在视觉质量和语义对齐方面表现优异,为教育内容生成提供了有效解决方案。
[164] Integrating Fine-Grained Audio-Visual Evidence for Robust Multimodal Emotion Reasoning
Zhixian Zhao,Wenjie Tian,Xiaohai Tian,Jun Zhang,Lei Xie
Main category: cs.MM
TL;DR: SABER-LLM是一个用于鲁棒多模态情感推理的框架,通过构建大规模情感推理数据集和结构化证据分解范式,解决了当前MLLMs在细粒度感知和跨模态融合方面的局限性。
- Motivation: 当前多模态大语言模型在细粒度感知方面存在显著限制,主要由于数据稀缺和跨模态融合不足,导致在复杂多模态交互中出现单模态主导和幻觉问题,特别是在视觉和听觉线索微妙、模糊或矛盾的情况下(如讽刺场景)。
- Method: 1. 构建SABER数据集:包含60万个视频片段,采用新颖的六维标注模式,联合捕捉视听线索和因果逻辑;2. 提出结构化证据分解范式:强制"感知-推理"分离,缓解单模态主导;3. 一致性感知直接偏好优化:在模糊或冲突的感知条件下显式鼓励模态间对齐。
- Result: 在EMER、EmoBench-M和SABER-Test上的实验表明,SABER-LLM显著优于开源基线模型,并在解码复杂情感动态方面达到了与闭源模型竞争的鲁棒性。
- Conclusion: SABER-LLM通过大规模数据集构建和结构化推理框架,有效解决了多模态情感分析中的细粒度感知和跨模态融合问题,为复杂社交场景中的情感推理提供了鲁棒的解决方案。
cs.LG
[165] TelcoAI: Advancing 3GPP Technical Specification Search through Agentic Multi-Modal Retrieval-Augmented Generation
Rahul Ghosh,Chun-Hao Liu,Gaurav Rele,Vidya Sagar Ravipati,Hazar Aouad
Main category: cs.LG
TL;DR: TelcoAI:针对3GPP技术规范的智能多模态RAG系统,通过代理式查询规划和多模态融合,在技术文档理解上实现显著性能提升
- Motivation: 3GPP技术规范具有复杂的层次结构、密集格式和多模态内容,现有方法难以处理复杂查询、视觉信息和文档间依赖关系,需要专门解决方案
- Method: 开发了TelcoAI系统,采用基于章节感知的分块、结构化查询规划、元数据引导检索以及文本与图表的融合处理
- Result: 在多个基准测试中达到87%召回率、83%声明召回率和92%忠实度,相比最先进基线提升16%
- Conclusion: 代理式和多模态推理在技术文档理解中效果显著,为实际电信研究和工程提供了实用解决方案
[166] Attention-Based Variational Framework for Joint and Individual Components Learning with Applications in Brain Network Analysis
Yifei Zhang,Meimei Liu,Zhengwu Zhang
Main category: cs.LG
TL;DR: CM-JIVNet是一个概率框架,通过多头注意力融合模块从配对的脑结构-功能连接数据中学习因子化潜在表示,有效分离共享和模态特异性信息,在跨模态重建和行为预测中表现优异。
- Motivation: 脑组织研究需要整合结构连接(SC)和功能连接(FC)等多模态数据,但面临高维非线性、复杂SC-FC耦合以及共享信息与模态特异性变化难以分离等挑战。
- Method: 提出跨模态联合-个体变分网络(CM-JIVNet),使用多头注意力融合模块捕获非线性跨模态依赖关系,同时分离独立的模态特异性信号,学习因子化潜在表示。
- Result: 在HCP-YA数据上验证,CM-JIVNet在跨模态重建和行为特征预测方面表现出优越性能,有效分离了联合和个体特征空间。
- Conclusion: CM-JIVNet为大规模多模态脑分析提供了一个鲁棒、可解释且可扩展的解决方案,能够有效解耦联合和个体特征空间。
[167] Thermodynamically Optimal Regularization under Information-Geometric Constraints
Laurent Caraffa
Main category: cs.LG
TL;DR: 该论文提出了一个统一的理论框架,将热力学最优性、信息几何和正则化联系起来,证明了在特定假设下,Fisher-Rao度量是信念空间上唯一允许的几何结构,热力学最优正则化对应于最小化到参考状态的Fisher-Rao距离平方。
- Motivation: 现代机器学习依赖于一系列经验上成功但理论上异质的正则化技术(如权重衰减、dropout、指数移动平均),同时训练大型模型的能量成本急剧增加,这引发了学习算法是否接近任何基本效率界限的问题。
- Method: 提出了一个统一的理论框架,基于三个明确假设:(A1) 最优性需要内在的、参数化不变的信息度量;(A2) 信念状态由已知约束下的最大熵分布建模;(A3) 最优过程是准静态的。在此框架下证明了条件最优性定理。
- Result: 证明了Fisher-Rao度量是信念空间上唯一允许的几何结构,热力学最优正则化对应于最小化到参考状态的Fisher-Rao距离平方。推导了高斯和圆形信念模型的诱导几何,分别得到双曲和von Mises流形,并显示经典正则化方案在结构上无法保证热力学最优性。
- Conclusion: 这项工作为机器学习中的正则化提供了一个原则性的几何和热力学基础,引入了学习的热力学效率概念,并提出了可实验验证的预测。
[168] SpatialMath: Spatial Comprehension-Infused Symbolic Reasoning for Mathematical Problem-Solving
Ashutosh Bajpai,Akshat Bhandari,Akshay Nambi,Tanmoy Chakraborty
Main category: cs.LG
TL;DR: SpatialMath框架通过将空间表示注入符号推理链,显著提升多模态小中型语言模型在视觉密集型数学问题(特别是几何问题)上的表现,相比基线提升达10个百分点。
- Motivation: 当前多模态小中型语言模型在视觉理解和数学推理方面存在局限,特别是在几何问题上,难以准确分解复杂视觉输入并将感知与结构化推理连接,导致性能不佳。
- Method: 提出SpatialMath框架,包含专门感知模块提取视觉图表中的空间基础表示,捕获关键几何结构和空间关系,然后将这些表示系统性地注入符号推理链,实现视觉理解感知的结构化推理。同时创建MATHVERSE-PLUS数据集,包含结构化视觉解释和逐步推理路径。
- Result: SpatialMath显著优于强大多模态基线,在视觉密集型设置下相比监督微调加数据增强提升达10个百分点。鲁棒性分析显示增强的空间表示直接提升推理准确性。
- Conclusion: 结构化感知到推理管道对于多模态小中型语言模型至关重要,空间表示的整合能有效提升视觉密集型数学问题的解决能力。
[169] EEG Foundation Models: Progresses, Benchmarking, and Open Problems
Dingkun Liu,Yuheng Chen,Zhu Chen,Zhenyao Cui,Yaozhi Wen,Jiayu An,Jingwei Luo,Dongrui Wu
Main category: cs.LG
TL;DR: 该论文对EEG基础模型进行了首次全面评估,比较了12个开源模型在13个数据集上的表现,发现线性探测通常不足、专业模型仍有竞争力、更大模型不一定带来更好性能。
- Motivation: EEG基础模型作为脑机接口的新范式,虽然发展迅速,但由于预训练目标、预处理方法和评估协议不一致,缺乏公平全面的比较。本文旨在填补这一空白,为实际部署提供指导。
- Method: 首先回顾50个代表性模型并建立统一分类框架,然后评估12个开源基础模型和竞争性专业基线模型,在13个EEG数据集上采用跨被试留一法和被试内少样本两种设置,比较全参数微调与线性探测,并分析模型规模与性能关系。
- Result: 研究发现:1)线性探测通常不足以获得最佳性能;2)从头训练的专业模型在许多任务上仍具有竞争力;3)在当前数据规模和训练实践下,更大的基础模型不一定带来更好的泛化性能。
- Conclusion: EEG基础模型领域需要更系统的评估标准和实践指南,当前模型在真实部署场景中的优势有限,未来研究应关注更有效的预训练策略和评估方法。
[170] treaming-dLLM: Accelerating Diffusion LLMs via Suffix Pruning and Dynamic Decoding
Zhongyu Xiao,Zhiwei Hao,Jianyuan Guo,Yong Luo,Jia Liu,Jie Xu,Han Hu
Main category: cs.LG
TL;DR: Streaming-dLLM是一个无需训练的高效推理框架,通过空间维度的衰减引导后缀建模和时间维度的动态置信感知策略,显著加速扩散大语言模型的推理速度,最高可达68.2倍加速。
- Motivation: 现有扩散大语言模型推理加速方法(如KV缓存重用或启发式解码)忽视了块状扩散过程中的内在低效性:空间冗余(对信息稀疏的后缀区域统一建模)和时间低效(在整个解码过程中使用固定的去噪调度)。
- Method: 1. 空间维度:引入衰减引导后缀建模,通过剪枝冗余的掩码标记来近似完整上下文;2. 时间维度:采用动态置信感知策略和提前退出机制,允许模型跳过已收敛标记的不必要迭代。
- Result: 实验表明Streaming-dLLM在保持生成质量的同时,实现了最高68.2倍的推理加速,证明了其在扩散解码中的有效性。
- Conclusion: Streaming-dLLM通过同时优化空间和时间维度,有效解决了扩散大语言模型推理中的内在低效问题,为高效扩散解码提供了实用的训练免费解决方案。
[171] Dissipative Learning: A Framework for Viable Adaptive Systems
Laurent Caraffa
Main category: cs.LG
TL;DR: 学习是内在耗散过程,遗忘和正则化不是启发式附加项而是自适应系统的结构要求。BEDS框架将学习建模为在耗散约束下压缩信念状态的演化,Fisher-Rao正则化是唯一热力学最优策略。
- Motivation: 传统机器学习将遗忘和正则化视为启发式技巧,缺乏理论基础。本文旨在从信息论、热力学和信息几何角度,为学习过程提供根本性的物理和数学基础,将学习重新框架为在耗散约束下维持可行信念状态的过程。
- Method: 提出BEDS(贝叶斯涌现耗散结构)框架,基于信息论、热力学和信息几何原理。核心是条件最优性定理,证明Fisher-Rao正则化(通过信息散度而非欧氏距离测量变化)是唯一热力学最优正则化策略。该框架统一了现有方法(Ridge、SIGReg、EMA、SAC)作为单一控制方程的特例。
- Result: 证明了Fisher-Rao正则化在热力学意义上是最优的,而欧氏正则化在结构上是次优的。该框架区分了BEDS可结晶问题(信念收敛到稳定平衡)和BEDS可维持问题(需要持续适应)。过拟合对应过度结晶,灾难性遗忘反映耗散控制不足。
- Conclusion: 学习应被重新框架为在耗散约束下维持可行信念状态的过程,为遗忘、正则化和稳定性提供了原则性视角。该框架自然扩展到持续学习和多智能体系统,其中可行性、适应稳定性和有限资源取代渐近最优性成为主要标准。
[172] Systematic Characterization of Minimal Deep Learning Architectures: A Unified Analysis of Convergence, Pruning, and Quantization
Ziwei Zheng,Huizhi Liang,Vaclav Snasel,Vito Latora,Panos Pardalos,Giuseppe Nicosia,Varun Ojha
Main category: cs.LG
TL;DR: 提出一种系统探索收敛、剪枝和量化关系的计算方法,发现尽管架构多样,性能基本不变且学习动态呈现三个稳定阶段,为图像分类中剪枝和低精度约束下的紧凑稳定模型选择提供指导。
- Motivation: 深度学习网络擅长分类,但确定能可靠完成任务的最小架构仍然具有挑战性。需要系统探索收敛、剪枝和量化之间的关系,为选择紧凑稳定模型提供指导。
- Method: 提出计算方法论:首先对大量架构进行结构化设计扫描,然后在代表性模型上评估收敛行为、剪枝敏感性和量化鲁棒性。针对复杂度递增的图像分类任务,在DNN、CNN和ViT上进行研究。
- Result: 尽管架构多样,性能基本不变;学习动态呈现三个稳定阶段:不稳定、学习和过拟合;识别了稳定学习所需的最小可学习参数;发现深度架构比浅层架构对剪枝更具韧性(参数冗余高达60%);量化对参数较少的模型影响更大,对更难的数据集影响更显著。
- Conclusion: 研究结果为在图像分类中,在剪枝和低精度约束下选择紧凑稳定模型提供了可操作的指导,揭示了架构多样性下的性能不变性和学习动态的普遍规律。
[173] Closing the Modality Gap Aligns Group-Wise Semantics
Eleonora Grassucci,Giordano Cicchetti,Emanuele Frasca,Aurelio Uncini,Danilo Comminiello
Main category: cs.LG
TL;DR: 论文提出模态间隙(modality gap)对群体级任务(如聚类)影响显著,而传统实例级任务(如检索)影响有限。作者开发了新方法来减少模态间隙,证明这能显著提升群体级任务性能。
- Motivation: CLIP等跨模态学习方法虽然能在语义层面对齐不同模态,但形成的潜在空间往往只是部分共享,存在结构不匹配的模态间隙。虽然这种间隙对实例级任务影响有限,但作者发现它对群体级任务有显著影响,需要深入研究。
- Method: 提出了一种新颖的方法来持续减少双模态设置中的模态间隙,并可以简单扩展到一般的n模态情况。该方法专门针对模态间隙的结构性不匹配问题。
- Result: 广泛评估表明:减少模态间隙对传统实例级任务仅带来边际或不一致的改进,但对群体级任务(如聚类)有显著提升。这揭示了模态间隙在语义分组任务中的关键作用。
- Conclusion: 模态间隙的影响在群体级任务中比实例级任务更为显著,这一发现可能重塑我们对模态间隙的理解,强调其在提升需要语义分组的任务性能中的关键作用。
[174] An Unsupervised Tensor-Based Domain Alignment
Chong Hyun Lee,Kibae Lee,Hyun Hee Yim
Main category: cs.LG
TL;DR: 提出基于张量的域对齐算法,通过对齐矩阵在不变子空间中对齐源和目标张量,使用斜流形约束提供更大灵活性,并加入方差保持正则化项,在速度和准确率上优于现有方法。
- Motivation: 传统基于张量的域对齐方法通常使用Stiefel流形约束,限制了方法的灵活性和适应性。需要开发更灵活的框架来提升域对齐的性能和效率。
- Method: 提出张量域对齐算法,通过对齐矩阵在不变子空间中对齐源和目标张量。采用斜流形约束替代传统Stiefel流形,提供更大灵活性。加入方差保持正则化项确保鲁棒性。框架具有通用性,可将现有张量域对齐方法作为特例。
- Result: 实验表明,该方法不仅提升了域对齐转换速度,还显著提高了分类准确率。在复杂域适应任务中优于当前最先进技术。
- Conclusion: 提出的基于斜流形约束的张量域对齐框架在灵活性和性能上优于传统方法,是复杂域适应任务的优选方案。
[175] Counterfactual Explanations on Robust Perceptual Geodesics
Eslam Zaher,Maciej Trzaskowski,Quan Nguyen,Fred Roosta
Main category: cs.LG
TL;DR: PCG提出了一种基于感知黎曼度量的反事实解释方法,通过追踪测地线生成语义有效、在流形上的反事实,解决了现有方法因距离度量选择不当导致的对抗性扰动问题。
- Motivation: 现有反事实解释方法存在距离度量选择模糊的问题,导致生成的扰动要么是语义上有意义的,要么是纯粹对抗性的。现有方法采用平坦或不对齐的几何结构,导致离流形伪影、语义漂移或对抗性崩溃。
- Method: 提出了感知反事实测地线(PCG)方法,使用从鲁棒视觉特征诱导的感知黎曼度量构造反事实,通过追踪测地线实现平滑、在流形上、语义有效的转换。
- Result: 在三个视觉数据集上的实验表明,PCG优于基线方法,并揭示了在标准度量下隐藏的失败模式。
- Conclusion: PCG通过感知对齐的黎曼几何解决了反事实解释中的度量模糊问题,能够生成语义有效且人类可理解的反事实解释。
[176] SMART: Scalable Mesh-free Aerodynamic Simulations from Raw Geometries using a Transformer-based Surrogate Model
Jan Hagnberger,Mathias Niepert
Main category: cs.LG
TL;DR: SMART是一种基于神经网络的替代模型,仅使用几何点云表示(无需仿真网格)即可预测任意查询位置的物理量,性能与依赖网格的方法相当甚至更优。
- Motivation: 现有方法存在两难:依赖仿真网格的方法预测误差小但网格生成成本高;无网格方法成本低但误差大。需要一种既高效又准确的替代模型。
- Method: SMART将几何和仿真参数编码到共享潜在空间,通过物理解码器关注编码器的中间潜在表示,通过跨层交互联合更新几何特征和物理场。
- Result: 实验表明SMART与依赖仿真网格的方法竞争且常优于它们,展示了工业级仿真的能力。
- Conclusion: SMART提供了一种高效准确的替代模型,仅需点云表示即可预测物理量,避免了昂贵的网格生成成本,适用于工业级物理仿真。
eess.IV
[177] Entropy-Guided Agreement-Diversity: A Semi-Supervised Active Learning Framework for Fetal Head Segmentation in Ultrasound
Fangyijie Wang,Siteng Ma,Guénolé Silvestre,Kathleen M. Curran
Main category: eess.IV
TL;DR: 提出一种用于胎儿头部超声分割的两阶段主动学习采样器EGAD,结合熵引导和一致性学习,在少量标注数据下实现高性能分割。
- Motivation: 胎儿超声数据因隐私和监管限制而稀缺,现有半监督学习方法通常采用随机选择标注数据,容易导致模型过拟合于同质化数据,性能受限。
- Method: 提出两阶段主动学习采样器EGAD:第一阶段使用预测熵选择最不确定的样本;第二阶段结合余弦相似度和互信息的协议-多样性评分进行精炼选择。同时采用特征下采样的一致性学习策略增强分割性能。
- Result: 在两个公开胎儿头部分割数据集上,使用5%和10%标注数据分别达到94.57%和96.32%的平均Dice分数,优于现有半监督学习方法,并在不同孕期数据上表现稳健。
- Conclusion: EGAD方法能有效解决胎儿超声数据稀缺问题,通过主动学习选择最具信息量的样本,结合一致性学习策略,在少量标注数据下实现高质量分割,具有临床应用价值。
[178] In-situ On-demand Digital Image Correlation: A New Data-rich Characterization Paradigm for Deformation and Damage Development in Solids
Ravi Venkata Surya Sai Mogilisetti,Partha Pratim Das,Rassel Raihan,Shiyao Lin
Main category: eess.IV
TL;DR: 提出了一种新型数字图像相关(DIC)分析范式——原位按需(ISOD)DIC,通过将相机控制集成到DIC流程中,根据变形程度动态调整成像帧率。
- Motivation: 传统DIC方法在实验力学中广泛应用,但存在固定帧率成像的局限性。当材料经历屈服、开裂等大变形时,固定帧率可能无法充分捕捉关键变形细节,而小变形时又可能浪费存储和分析资源。
- Method: 开发了ISOD DIC新范式,将相机控制集成到DIC处理流程中。核心思想是根据变形程度和变形速率动态调整相机成像帧率:在大变形或高变形速率时提高帧率,在小而慢的变形时保持较低帧率。
- Result: ISOD DIC实现了实时变形分析、可视化和闭环相机控制。在裂纹扩展实验中,相比传统DIC方法,ISOD DIC捕获的图像数量增加了约178%,显著增强了损伤检测的数据丰富度,同时避免了过度消耗存储空间和分析时间。
- Conclusion: ISOD DIC通过动态帧率调整,在不过度消耗资源的情况下显著提高了变形表征的数据质量,有助于更好地表征材料本构行为和损伤机制,为实验力学中的变形测量提供了更智能、高效的解决方案。
cs.CY
[179] Do VLMs Have a Moral Backbone? A Study on the Fragile Morality of Vision-Language Models
Zhining Liu,Tianyi Wang,Xiao Lin,Penghao Ouyang,Gaotang Li,Ze Yang,Hui Liu,Sumit Keswani,Vishwa Pardeshi,Huijun Zhao,Wei Fan,Hanghang Tong
Main category: cs.CY
TL;DR: 研究发现视觉语言模型(VLMs)的道德判断在文本和视觉扰动下极其脆弱,即使扰动不改变道德背景,模型立场也经常翻转,表明仅道德对齐不足,道德鲁棒性对负责任部署至关重要。
- Motivation: 尽管视觉语言模型(VLMs)的道德对齐已有显著进展,但其在真实场景中的道德判断稳定性仍不清楚。本研究旨在探究VLMs的道德鲁棒性,即在不改变底层道德背景的文本和视觉扰动下保持道德判断的能力。
- Method: 系统性地使用多种模型无关的多模态扰动来探测VLMs,分析不同扰动类型、道德领域和模型规模下的系统性脆弱性,并研究指令跟随强度与易受说服性之间的权衡关系。
- Result: 发现VLMs的道德立场高度脆弱,在简单操纵下经常翻转;揭示了跨扰动类型、道德领域和模型规模的系统性漏洞,包括指令跟随能力越强的模型越容易受到说服的"奉承权衡";轻量级推理时干预可以部分恢复道德稳定性。
- Conclusion: 仅道德对齐不足以保证VLMs的负责任部署,道德鲁棒性是必要标准。研究结果强调了在评估和部署VLMs时需要考虑其道德判断的稳定性。
physics.med-ph
[180] Benchmarking Deep Learning-Based Reconstruction Methods for Photoacoustic Computed Tomography with Clinically Relevant Synthetic Datasets
Panpan Chen,Seonyeong Park,Gangwon Jeong,Refik Mert Cam,Umberto Villa,Mark A. Anastasio
Main category: physics.med-ph
TL;DR: 该论文提出了一个用于光声计算机断层扫描(PACT)中基于深度学习的声学反演方法的标准化基准测试框架,包括开源合成数据集和评估策略,以解决现有方法缺乏标准化评估和临床相关性不足的问题。
- Motivation: 当前PACT中基于深度学习的图像重建方法缺乏标准化数据集,评估主要依赖传统图像质量指标,这些指标可能缺乏临床相关性。缺乏标准化的临床相关评估框架阻碍了公平比较,并引发了关于PACT报告进展的可重复性和可靠性的担忧。
- Method: 提出了一个基准测试框架,提供开源、解剖学上合理的合成数据集和评估策略。数据集包含超过11,000个二维随机乳腺对象,具有临床相关病变和不同建模复杂度的配对测量。评估策略结合了传统和基于任务的图像质量度量来评估保真度和临床效用。
- Result: 初步基准测试研究表明,该框架能够全面、定量地比较重建性能,并揭示了某些基于深度学习方法的重要局限性。尽管这些方法在传统图像质量指标上表现良好,但常常无法准确恢复病变,这突显了传统指标的不足,并强调了基于任务评估的必要性。
- Conclusion: 提出的基准测试框架通过整合临床相关的合成数据集和严格的评估协议,实现了对2D PACT中基于深度学习的声学反演方法的系统比较。它能够进行可重复、客观的评估,并促进PACT中的方法开发和系统优化。
[181] Automated HER2 scoring with uncertainty quantification using lensfree holography and deep learning
Che-Yung Shen,Xilin Yang,Yuzhu Li,Leon Lenk,Aydogan Ozcan
Main category: physics.med-ph
TL;DR: 提出一种紧凑、低成本的透镜自由全息平台,结合深度学习实现乳腺癌组织切片HER2表达的自动化评分,特别适合资源有限环境。
- Motivation: HER2表达评估对乳腺癌诊断、预后和治疗选择至关重要,但现有数字HER2评分方法依赖笨重昂贵的光学系统,限制了在资源有限环境的应用。
- Method: 开发紧凑型透镜自由全息平台,在RGB激光照明下捕获染色HER2组织切片的衍射图案,结合基于贝叶斯蒙特卡洛dropout的不确定性量化策略,提供每个预测的自主不确定性估计。
- Result: 在412个独特组织样本的盲测中,4类HER2分类准确率达84.9%,二元HER2评分准确率达94.8%,总体校正率为30.4%,有效通量约84 mm²/分钟。
- Conclusion: 该透镜自由全息方法为便携、高通量、成本效益高的HER2评分提供了实用途径,特别适合传统数字病理基础设施不可用的资源有限环境。
eess.SP
[182] ME-WARD: A multimodal ergonomic analysis tool for musculoskeletal risk assessment from inertial and video data in working plac
Javier González-Alonso,Paula Martín-Tapia,David González-Ortega,Míriam Antón-Rodríguez,Francisco Javier Díaz-Pernas,Mario Martínez-Zarzuela
Main category: eess.SP
TL;DR: ME-WARD是一个多模态工效学评估系统,通过处理运动捕捉数据实现RULA方法,支持IMU和深度学习姿态跟踪,在工业环境中验证了可靠性。
- Motivation: 传统工效学评估方法通常依赖专有设备,成本高且应用受限。需要开发一个灵活、可扩展的系统,能够整合多种运动捕捉技术,为资源有限的工业环境提供经济有效的解决方案。
- Method: 开发ME-WARD系统,实现RULA评估方法。系统设计为处理来自IMU运动捕捉系统和深度学习人体姿态跟踪模型的关节角度数据。在传送带装配的工业环境中进行验证,使用金标准IMU系统和先进的单目3D姿态估计系统进行对比实验。
- Result: ME-WARD产生的RULA分数与IMU衍生指标高度一致(特别是屈曲主导的动作),与单目系统性能相当。系统能够可靠评估高风险任务,如插入杆件和推动传送带组件,尽管在跟踪侧向和旋转运动方面存在局限性。
- Conclusion: ME-WARD展示了整合多种运动捕捉技术到统一工效学评估流程的潜力。通过支持低成本视频系统等多种输入源,这种多模态方法为资源受限的工业环境提供了可扩展、经济有效的解决方案,有望推动工效学评估的广泛应用。
cs.CL
[183] A Computational Approach to Visual Metonymy
Saptarshi Ghosh,Linfeng Liu,Tianyu Jiang
Main category: cs.CL
TL;DR: 本文首次对视觉转喻进行系统性计算研究,提出基于符号学理论的生成框架,并创建了首个视觉转喻数据集ViMET,揭示了多模态模型在理解间接视觉引用方面的显著局限性。
- Motivation: 图像常常传达超出其表面描绘的内容(如工具暗示职业、文物暗示传统),这种间接视觉引用(视觉转喻)需要观众通过关联线索恢复目标概念。目前缺乏对视觉转喻的计算研究,需要探索多模态模型理解这种间接视觉引用的能力。
- Method: 提出基于符号学理论的新颖框架,利用大语言模型和文生图模型生成转喻视觉表示。使用该框架构建ViMET数据集,包含2000个多项选择题,用于评估多模态模型的认知推理能力。
- Result: 实验结果显示人类表现(86.9%)与最先进的视觉语言模型(65.9%)之间存在显著差距,表明机器在解释间接视觉引用方面存在明显局限性。数据集已公开可用。
- Conclusion: 这是首次对视觉转喻进行系统性计算研究,创建了首个视觉转喻数据集ViMET,揭示了多模态模型在理解间接视觉引用方面的不足,为未来研究提供了重要基准和资源。
[184] TechING: Towards Real World Technical Image Understanding via VLMs
Tafazzul Nadeem,Bhavik Shangari,Manish Rai,Gagan Raj Gupta,Ashutosh Modi
Main category: cs.CL
TL;DR: 该论文提出了一种通过合成数据训练视觉语言模型来理解手绘技术图表的方法,显著提升了模型性能。
- Motivation: 专业人员在讨论中常手绘技术图表(如流程图、框图),但后续编辑需要重新绘制。现有视觉语言模型在理解技术图表方面表现不佳,而真实手绘图像数据稀缺难以进行有效微调。
- Method: 引入大规模合成数据集(模拟真实世界图像)训练视觉语言模型,提出多个自监督任务,在合成图像上微调Llama 3.2 11B-instruct模型得到LLama-VL-TUG。
- Result: LLama-VL-TUG将Llama 3.2 11B-instruct的ROUGE-L性能提升2.14倍,在真实手绘图像上,在8种图表类型中的7种实现最少编译错误,平均F1分数提升6.97倍。
- Conclusion: 通过合成数据训练视觉语言模型能有效提升对手绘技术图表的理解能力,为解决真实世界手绘图表识别和编辑问题提供了可行方案。
eess.AS
[185] Noise-Robust AV-ASR Using Visual Features Both in the Whisper Encoder and Decoder
Zhengyang Li,Thomas Graave,Björn Möller,Zehang Wu,Matthias Franz,Tim Fingscheidt
Main category: eess.AS
TL;DR: 基于Whisper ASR,提出双用途视觉融合方法(编码器和解码器均使用视觉特征),在噪声条件下显著提升视听语音识别的鲁棒性
- Motivation: 在视听自动语音识别系统中,将视觉特征融合到预训练的ASR中已被证明是提高噪声鲁棒性的有效方法。本研究旨在基于Whisper ASR开发更有效的视觉融合方法
- Method: 提出双用途视觉融合方法:在编码器中使用视觉特征学习视听交互,在解码器中使用视觉特征权衡模态重要性。在不同尺寸的Whisper模型上比较视觉融合方法,并进行消融研究
- Result: 双用途方法在噪声条件下表现优异:基于Whisper small相对改进35%(WER: 4.41% vs. 6.83%),基于Whisper medium相对改进57%(WER: 4.07% vs. 9.53%)。在LRS3 AV-ASR基准测试中,使用Whisper medium的双用途方法在MUSAN和NoiseX噪声条件下分别达到4.08%和4.43%的平均WER,创下新SOTA
- Conclusion: 提出的双用途视觉融合方法简单有效,能显著提升视听语音识别在噪声条件下的鲁棒性,在不同尺寸的Whisper模型上均表现优异,为噪声环境下的AV-ASR提供了新的解决方案
cs.HC
[186] Acoustic Field Video for Multimodal Scene Understanding
Daehwa Kim,Chris Harrison
Main category: cs.HC
TL;DR: 提出并探索视觉语言模型的新型多模态输入表示:声场视频,通过低成本波束成形麦克风阵列实时生成空间声强可视化,显著提升场景理解能力
- Motivation: 传统视频(RGB+立体声/单声道音频)在场景理解任务中存在局限性,而智能音箱、机器人和XR头显中已广泛使用的波束成形麦克风阵列的空间声学感知能力尚未被充分利用
- Method: 使用低成本波束成形麦克风阵列实时生成声场视频,将空间声强信息可视化,并与传统视频结合作为视觉语言模型的多模态输入
- Result: 在402个问答场景评估中,加入声场视频后,最先进的视觉语言模型正确率从38.3%提升至67.4%,显示出空间声学数据对场景理解的显著改进
- Conclusion: 空间声学信息为多模态推理提供了有前景且实用的方向,许多日常场景理解任务仅依赖视觉和音频输入仍存在约束不足的问题
cs.AR
[187] SPADE: A SIMD Posit-enabled compute engine for Accelerating DNN Efficiency
Sonu Kumar,Lavanya Vinnakota,Mukul Lokhande,Santosh Kumar Vishvakarma,Adam Teman
Main category: cs.AR
TL;DR: SPADE是一个统一的多精度SIMD Posit MAC架构,支持Posit(8,0)、(16,1)、(32,2)格式,通过层次化复用子模块实现硬件效率提升。
- Motivation: 边缘AI系统需要平衡数值精度、能效和硬件紧凑性的算术单元。Posit算术相比浮点和定点表示具有锥形精度、宽动态范围和更好的数值鲁棒性优势。
- Method: 提出SPADE架构,采用基于regime感知的lane-fused SIMD Posit数据通路,层次化复用Posit特定子模块(LOD、补码器、移位器、乘法器)跨8/16/32位精度,无需数据通路复制。
- Result: FPGA实现显示:Posit(8,0)减少45.13% LUT和80% slice;Posit(16,1)和(32,2)相比先前工作提升28.44%和17.47%;多精度支持仅增加6.9% LUT和14.9%寄存器开销。ASIC在28nm实现1.38GHz@6.1mW。
- Conclusion: SPADE在MNIST、CIFAR-10/100和字母数据集上验证了具有竞争力的推理精度,为边缘AI提供了高效的多精度Posit MAC解决方案。
cs.SD
[188] AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking
Xilin Jiang,Qiaolin Wang,Junkai Wu,Xiaomin He,Zhongweiyang Xu,Yinghao Ma,Minshuo Piao,Kaiyi Yang,Xiuwen Zheng,Riki Shimizu,Yicong Chen,Arsalan Firoozi,Gavin Mischler,Sukru Samet Dindar,Richard Antonello,Linyang He,Tsun-An Hsieh,Xulin Fan,Yulun Wu,Yuesheng Ma,Chaitanya Amballa,Weixiong Chen,Jiarui Hai,Ruisi Li,Vishal Choudhari,Cong Han,Yinghao Aaron Li,Adeen Flinker,Mounya Elhilali,Emmanouil Benetos,Mark Hasegawa-Johnson,Romit Roy Choudhury,Nima Mesgarani
Main category: cs.SD
TL;DR: AVMeme Exam是一个评估AI模型理解网络音视频文化含义的基准测试,包含1000多个标志性网络声音和视频,测试结果显示当前多模态大语言模型在无文本音乐、音效以及文化语境理解方面存在明显不足。
- Motivation: 网络音视频通过随时间变化的声音和动作传达意义,这超出了纯文本所能表达的范围。为了研究AI模型是否能在人类文化背景下理解这些信号,需要创建一个专门的评估基准。
- Method: 创建AVMeme Exam基准测试,包含1000多个标志性网络声音和视频(涵盖语音、歌曲、音乐和音效),每个meme配有独特的问答评估,涵盖从表面内容到语境、情感、使用方式和世界知识等多个理解层次,并包含原始年份、转录、摘要和敏感性等元数据。使用该基准系统评估最先进的多模态大语言模型,并与人类参与者进行比较。
- Result: 结果显示当前模型存在一致性的局限:在无文本音乐和音效方面表现不佳,与表面内容相比,在语境和文化思考方面存在困难。模型在文化语境理解方面与人类存在显著差距。
- Conclusion: 这些发现突显了人类对齐多模态智能的关键差距,呼吁开发能够超越表面感知、理解语境和文化的模型。项目页面:avmemeexam.github.io/public
[189] BanglaRobustNet: A Hybrid Denoising-Attention Architecture for Robust Bangla Speech Recognition
Md Sazzadul Islam Ridoy,Mubaswira Ibnat Zidney,Sumi Akter,Md. Aminur Rahman
Main category: cs.SD
TL;DR: BanglaRobustNet:基于Wav2Vec-BERT的混合去噪注意力框架,针对孟加拉语在噪声和说话人多样化条件下的ASR挑战,通过扩散去噪和上下文交叉注意力模块显著降低错误率。
- Motivation: 孟加拉语作为使用广泛的语言,在先进自动语音识别研究中代表性不足,尤其在噪声环境和说话人多样化条件下表现不佳,需要专门针对低资源、噪声敏感的语言环境设计鲁棒系统。
- Method: 提出BanglaRobustNet混合框架:1)扩散去噪模块抑制环境噪声同时保留孟加拉语特定语音特征;2)上下文交叉注意力模块基于说话人嵌入增强对不同性别、年龄和方言的鲁棒性;3)端到端训练,结合CTC损失、语音一致性和说话人对齐的复合目标函数。
- Result: 相比Wav2Vec-BERT和Whisper基线,在单词错误率(WER)和字符错误率(CER)上取得显著降低。在Mozilla Common Voice Bangla和增强噪声语音数据集上的评估验证了方法的有效性。
- Conclusion: BanglaRobustNet成为针对低资源、噪声敏感语言环境的鲁棒ASR系统,为孟加拉语语音识别研究提供了有效解决方案,填补了该语言在先进ASR研究中的空白。
cs.AI
[190] AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security
Dongrui Liu,Qihan Ren,Chen Qian,Shuai Shao,Yuejin Xie,Yu Li,Zhonghao Yang,Haoyu Luo,Peng Wang,Qingyu Liu,Binxin Hu,Ling Tang,Jilin Mei,Dadi Guo,Leitao Yuan,Junyao Yang,Guanxu Chen,Qihao Lin,Yi Yu,Bo Zhang,Jiaxuan Guo,Jie Zhang,Wenqi Shao,Huiqi Deng,Zhiheng Xi,Wenjie Wang,Wenxuan Wang,Wen Shen,Zhikai Chen,Haoyu Xie,Jialing Tao,Juntao Dai,Jiaming Ji,Zhongjie Ba,Linfeng Zhang,Yong Liu,Quanshi Zhang,Lei Zhu,Zhihua Wei,Hui Xue,Chaochao Lu,Jing Shao,Xia Hu
Main category: cs.AI
TL;DR: 提出AgentDoG框架,用于AI代理的安全监控与诊断,通过三维风险分类法构建细粒度安全基准,实现透明化风险根因分析
- Motivation: 当前护栏模型缺乏对AI代理自主工具使用和环境交互带来的复杂安全风险的感知能力和透明度,需要更精细的代理安全监控框架
- Method: 提出统一的三维风险分类法(来源、失效模式、后果),基于此构建细粒度代理安全基准ATBench,开发诊断式护栏框架AgentDoG,提供上下文监控和风险根因诊断
- Result: AgentDoG在多样复杂交互场景中实现最先进的代理安全调节性能,提供4B、7B、8B参数规模的Qwen和Llama模型变体,所有模型和数据集已开源
- Conclusion: AgentDoG框架通过结构化风险分类和透明化诊断,有效解决了AI代理安全监控的细粒度需求,超越了传统的二元标签方法,促进了有效的代理对齐
[191] AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning
Mingyang Song,Haoyu Sun,Jiawei Gu,Linjie Li,Luxin Xu,Ranjay Krishna,Yu Cheng
Main category: cs.AI
TL;DR: AdaReasoner是一个多模态模型家族,通过工具使用作为通用推理技能,而非特定工具或显式监督行为,在视觉推理任务中实现自适应工具选择和组合。
- Motivation: 人类在面对超出自身能力的问题时会使用工具,这为提高多模态大语言模型的视觉推理能力提供了有前景的范式。有效推理的关键在于知道使用哪些工具、何时调用它们以及如何在多步骤中组合它们,即使面对新工具或新任务时也是如此。
- Method: 1) 可扩展的数据整理流程,让模型接触长视野、多步骤的工具交互;2) Tool-GRPO强化学习算法,基于最终任务成功优化工具选择和序列;3) 自适应学习机制,动态调节工具使用频率。
- Result: AdaReasoner表现出强大的工具适应和泛化能力:能自主采用有益工具、抑制无关工具、根据任务需求调整工具使用频率,尽管从未被显式训练这样做。在多个基准测试中达到最先进性能,7B基础模型平均提升24.9%,在VSP和Jigsaw等任务上超越GPT-5等强大专有系统。
- Conclusion: AdaReasoner通过将工具使用作为通用推理技能学习,实现了自适应工具选择和组合,在多模态视觉推理任务中表现出强大的泛化能力和性能提升,为MLLMs的工具使用提供了新范式。
cs.RO
[192] Grasp-and-Lift: Executable 3D Hand-Object Interaction Reconstruction via Physics-in-the-Loop Optimization
Byeonggyeol Choi,Woojin Oh,Jongwoo Lim
Main category: cs.RO
TL;DR: 提出仿真循环优化框架,将视觉对齐的手部轨迹转换为物理可执行轨迹,使用稀疏关键帧参数化和CMA-ES优化器解决物理不可行问题
- Motivation: 现有手部操作数据集(如DexYCB和HO3D)主要针对视觉对齐优化,但在物理仿真中重放时会产生物理上不可行的交互(如穿透、接触丢失、不稳定抓握),需要将视觉演示转换为物理有效的轨迹
- Method: 提出仿真循环优化框架,将问题表述为可处理的黑盒优化问题。使用基于稀疏时间关键帧的低维样条表示参数化手部运动,采用无梯度优化器CMA-ES,将高保真物理引擎作为黑盒目标函数,在最大化物理成功率的同时最小化与原始人类演示的偏差
- Result: 相比MANIPTRANS等现有传输方法,该方法在重放时获得更低的手部和物体姿态误差,更准确地恢复手-物体物理交互,为视觉演示到物理有效轨迹的转换提供了通用可扩展方法
- Conclusion: 该方法能够生成对稳健策略学习至关重要的高保真数据,为将视觉演示转换为物理有效轨迹提供了通用且可扩展的解决方案
[193] A Pragmatic VLA Foundation Model
Wei Wu,Fan Lu,Yunnan Wang,Shuai Yang,Shi Liu,Fangjing Wang,Qian Zhu,He Sun,Yong Wang,Shuailei Ma,Yiyu Ren,Kejia Zhang,Hui Yu,Jingmei Zhao,Shuai Zhou,Zhenqi Qiu,Houlong Xiong,Ziyu Wang,Zechen Wang,Ran Cheng,Yong-Lu Li,Yongtao Huang,Xing Zhu,Yujun Shen,Kecheng Zheng
Main category: cs.RO
TL;DR: LingBot-VLA是一个基于约2万小时真实世界数据构建的视觉-语言-动作基础模型,在9种双臂机器人配置上进行训练,在3个机器人平台上完成100个任务测试,表现优于竞争对手,并提供了高效代码库和开源资源。
- Motivation: 开发一个能够在不同任务和平台间忠实泛化、同时确保成本效益(数据需求和GPU训练时间)的视觉-语言-动作基础模型,以推动机器人操作领域的发展。
- Method: 使用约20,000小时来自9种流行双臂机器人配置的真实世界数据训练LingBot-VLA模型,构建高效代码库实现每GPU每秒261个样本的吞吐量,比现有VLA代码库快1.5~2.8倍。
- Result: 在3个机器人平台上完成100个任务测试(每个任务130次后训练评估),模型表现明显优于竞争对手,展示了强大的性能和广泛的泛化能力,适合实际部署。
- Conclusion: LingBot-VLA在性能、泛化能力和效率方面表现出色,通过开源代码、基础模型和基准数据推动机器人学习领域发展,促进更具挑战性任务和健全评估标准的建立。
[194] Advances and Innovations in the Multi-Agent Robotic System (MARS) Challenge
Li Kang,Heng Zhou,Xiufeng Song,Rui Li,Bruno N. Y. Chen,Ziye Wang,Ximeng Meng,Stone Tao,Yiran Qin,Xiaohong Liu,Ruimao Zhang,Lei Bai,Yilun Du,Hao Su,Philip Torr,Zhenfei Yin,Ruihao Gong,Yejun Zeng,Fengjun Zhong,Shenghao Jin,Jinyang Guo,Xianglong Liu,Xiaojun Jia,Tianqi Shan,Wenqi Ren,Simeng Qin,Jialing Yang,Xiaoyu Ma,Tianxing Chen,Zixuan Li,Zijian Cai,Yan Qin,Yusen Qin,Qiangyu Chen,Kaixuan Wang,Zhaoming Han,Yao Mu,Ping Luo,Yuanqi Yao,Haoming Song,Jan-Nico Zaech,Fabien Despinoy,Danda Pani Paudel,Luc Van Gool
Main category: cs.RO
TL;DR: 该论文提出了MARS挑战赛,旨在解决多智能体机器人系统中的规划与控制问题,通过NeurIPS 2025研讨会推动具身AI多智能体协作的发展。
- Motivation: 随着具身AI向更复杂任务场景发展,多智能体系统框架变得至关重要。现有研究面临三大驱动力:智能体能力提升、通过任务委派提高系统效率、以及增强人机交互能力,需要专门挑战来推动多智能体协作研究。
- Method: 提出MARS挑战赛作为NeurIPS 2025 SpaVLE研讨会的一部分,聚焦两个关键领域:1) 使用视觉语言模型进行多智能体具身规划以协调任务;2) 在动态环境中执行机器人操作的政策实施。通过评估参赛方案来研究多智能体系统设计。
- Result: 挑战赛为多智能体具身系统的设计和协调提供了宝贵见解,通过参赛方案评估揭示了当前方法的优势和局限性,推动了协作AI系统的发展。
- Conclusion: MARS挑战赛成功促进了多智能体机器人系统的研究,为未来高级协作AI系统的开发做出了贡献,展示了多智能体框架在解决复杂具身任务中的关键作用。
quant-ph
[195] Differentiable Architecture Search for Adversarially Robust Quantum Computer Vision
Mohamed Afane,Quanjiang Long,Haoting Shen,Ying Mao,Junaid Farooq,Ying Wang,Juntao Chen
Main category: quant-ph
TL;DR: 提出混合量子-经典可微分量子架构搜索框架,通过联合优化电路结构和鲁棒性,增强量子神经网络对抗对抗性扰动和硬件噪声的能力。
- Motivation: 当前量子神经网络对对抗性扰动和硬件噪声极度敏感,现有鲁棒性技术要么牺牲干净准确率,要么需要过高计算资源,阻碍实际部署。
- Method: 提出混合量子-经典可微分量子架构搜索框架,在传统DQAS基础上增加轻量级经典噪声层,实现门选择和噪声参数的联合梯度优化。
- Result: 在MNIST、FashionMNIST和CIFAR数据集上,相比现有量子架构搜索方法,在干净和对抗性准确率上均取得一致提升;在各种攻击场景和实际量子噪声条件下保持优越性能;在真实量子硬件上验证了实用性。
- Conclusion: 策略性经典预处理结合可微分量子架构优化能显著增强量子神经网络鲁棒性,同时保持计算效率,为实际部署提供可行方案。
cs.CR
[196] Multimodal Privacy-Preserving Entity Resolution with Fully Homomorphic Encryption
Susim Roy,Nalini Ratha
Main category: cs.CR
TL;DR: 提出一种新型多模态框架,用于解决高合规性行业中的实体解析问题,在保护隐私的同时处理大规模异构数据,实现低错误率和计算可扩展性。
- Motivation: 高合规性行业(如政府和金融机构)需要进行安全的身份识别,但面临数据异构性(如个人标识符的语法变体)、数据量大、匹配精度和隐私保护等多重挑战,需要一种既能满足严格监管要求又能保证客户机密性的解决方案。
- Method: 采用多模态框架处理典型的大规模数据集,在整个匹配生命周期中保持个人身份信息的明文计算不可访问,通过密码学方法保证客户机密性,同时解决数据量、匹配保真度和隐私的三重挑战。
- Result: 实现了显著低的等错误率(equal error rate),在保持计算可扩展性的同时,使机构能够严格满足监管要求,并提供客户机密性的密码学保证。
- Conclusion: 该多模态框架成功解决了高合规性行业实体解析的核心挑战,在保护隐私的前提下实现了高效准确的大规模身份匹配,为政府和金融机构提供了可行的解决方案。
Powered by Deepseek & arXiv Daily AI Enhanced