Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Real-Time Intuitive AI Drawing System for Collaboration: Enhancing Human Creativity through Formal and Contextual Intent Integration
Jookyung Song,Mookyoung Kang,Nojun Kwak
Main category: cs.CV
TL;DR: 实时生成式绘图系统,通过分析草图的几何特征和语义内容,实现结构保持和风格内容感知的图像合成,支持多用户协作创作
- Motivation: 传统基于文本提示的生成系统主要捕捉高层上下文描述,无法同时处理草图的几何特征和语义意图,需要一种能同时理解形式意图和上下文意图的统一转换方法
- Method: 多阶段生成管道,联合调节几何特征(线条轨迹、比例、空间布局)和语义线索(通过视觉语言模型提取),结合轮廓保持的结构控制和风格内容感知的图像合成
- Result: 实现了低延迟的两阶段转换,支持触摸屏界面和多用户在共享画布上的协作,使不同艺术专业水平的用户都能参与同步共创
- Conclusion: 该系统重新定义了人机交互作为共同创作和相互增强的过程,为视觉创作提供了新的协作范式
[2] TTF-VLA: Temporal Token Fusion via Pixel-Attention Integration for Vision-Language-Action Models
Chenghao Liu,Jiachen Zhang,Chengxuan Li,Zhimu Zhou,Shixin Wu,Songfang Huang,Huiling Duan
Main category: cs.CV
TL;DR: 提出Temporal Token Fusion (TTF)方法,通过融合历史视觉信息来增强VLA模型在机器人操作任务中的性能,无需额外训练即可显著提升任务成功率。
- Motivation: 现有的VLA模型逐帧处理视觉输入,丢弃了机器人操作任务中宝贵的时间信息,使其容易受到视觉噪声影响且忽略了连续帧之间的连贯性。
- Method: TTF采用双维度检测(灰度像素差异分析和基于注意力的语义相关性评估),通过硬融合策略和关键帧锚定选择性融合时间token,防止错误累积。
- Result: 在LIBERO上平均提升4.0个百分点(72.4% vs 68.4%基准),SimplerEnv上相对提升4.8%,真实机器人任务上相对提升8.7%,且证明具有模型无关性。
- Conclusion: TTF方法有效提升了VLA模型的推理质量,同时发现选择性重用Query矩阵可以提升性能而非损害,为直接KQV矩阵重用策略提供了新方向。
[3] Seeing Like a Designer Without One: A Study on Unsupervised Slide Quality Assessment via Designer Cue Augmentation
Tai Inui,Steven Oh,Magdeline Kuan
Main category: cs.CV
TL;DR: 无监督幻灯片质量评估系统,结合专家视觉指标和CLIP-ViT嵌入,通过异常检测评价幻灯片质量,相关系数达0.83,超越现有视觉-语言模型。
- Motivation: 解决幻灯片质量评估依赖主观人工评分的问题,提供可扩展、实时的客观反馈机制。
- Method: 结合7个专家视觉设计指标(白色空间、色彩丰富度、边缘密度等)和CLIP-ViT嵌入,使用Isolation Forest异常分数进行评估。基于12k专业讲座幻灯片训练。
- Result: 在6个学术讲座(115张幻灯片)上,与人类视觉质量评分的Pearson相关系数达0.83,比现有视觉-语言模型强1.79-3.23倍。
- Conclusion: 结合低级设计线索和多模态嵌入能够精确近似观众对幻灯片质量的感知,实现可扩展的实时客观评估。
[4] Efficient Model-Based Purification Against Adversarial Attacks for LiDAR Segmentation
Alexandros Gkillas,Ioulia Kapsali,Nikos Piperigkos,Aris S. Lalos
Main category: cs.CV
TL;DR: 提出了一种针对2D范围视图LiDAR分割的高效对抗防御框架,通过可解释的净化网络实现强对抗鲁棒性且计算开销最小
- Motivation: 现有防御方法主要针对原始3D点云,而最先进的LiDAR分割管道多采用更高效的2D范围视图表示,但该领域的轻量级对抗防御研究不足
- Method: 提出基于数学优化问题的可解释净化网络框架,专门针对2D范围视图域的直接攻击制定防御方案
- Result: 在开放基准测试中达到竞争性性能,一致优于生成式和对抗训练基线方法,在真实演示车辆上验证了实际自动驾驶场景中的准确运行能力
- Conclusion: 该框架为2D范围视图LiDAR分割提供了高效且实用的对抗防御解决方案,具有重要的实际部署价值
[5] Object Detection with Multimodal Large Vision-Language Models: An In-depth Review
Ranjan Sapkota,Manoj Karkee
Main category: cs.CV
TL;DR: 这篇论文系统评了大型视觉-语言模型在物体检测领域的最新进展,分析了其架构创新、训练范式和性能优势,并展望了该技术的未来发展路径。
- Motivation: 通过融合语言和视觉信息,大型视觉-语言模型能够提升物体检测的适应性、上下文理解能力和氛围性,超越传统深度学习架构的限制。
- Method: 采用三步骨架进行系统评估:首先分析视觉语言模型在物体检测中的工作机理,然后讨论最新架构创新和训练方法,最后通过可视化对比与传统方法的性能差异。
- Result: 研究显示LVLMs在多样化场景下都显示出高效性能,包括定位和分割任务,预计将快速超越传统检测方法。同时也识别了当前模型存在的主要限制。
- Conclusion: 大型视觉-语言模型的最新进展已经并将继续对物体检测和机器人应用产生重大变革性影响,为该领域提供了明确的发展路径。
[6] Large VLM-based Stylized Sports Captioning
Sauptik Dhar,Nicholas Buoncristiani,Joe Anakata,Haoyu Zhang,Michelle Munson
Main category: cs.CV
TL;DR: 本文提出了一种针对体育领域图像字幕生成的两级微调视觉语言模型管道,解决了现有模型缺乏体育专业术语的问题,在Super Bowl LIX中实现了高效实时的体育新闻报道应用。
- Motivation: 现有的大型视觉语言模型在体育领域存在局限性,特别是缺乏体育专业术语知识,无法生成符合专业体育新闻报道风格的自然语言描述。
- Method: 采用两级微调的LVLM管道,专门针对体育图像字幕生成任务进行优化,提升模型对体育专业术语的理解和生成能力。
- Result: 相比其他方法,F1分数提升8-10%,BERT分数提升2-10%,具有较小的运行时内存占用和快速执行时间,在Super Bowl LIX中实现了每3-5秒处理6张图像的高效性能。
- Conclusion: 该管道成功解决了体育图像字幕生成的领域特定需求,证明了其在实时专业体育新闻报道中的实用价值,为体育领域的AI应用提供了有效解决方案。
[7] DemoBias: An Empirical Study to Trace Demographic Biases in Vision Foundation Models
Abu Sufian,Anirudha Ghosh,Debaditya Barman,Marco Leo,Cosimo Distante
Main category: cs.CV
TL;DR: DemoBias研究评估了大型视觉语言模型在生物特征人脸识别任务中的 demographic biases,发现PaliGemma和LLaVA在Hispanic/Latino、Caucasian和South Asian群体上存在较高差异,而BLIP-2表现相对一致。
- Motivation: 大型视觉语言模型在各种下游任务中表现出色,但在生物特征人脸识别中存在 demographic biases 问题,需要评估这些模型在不同 demographic groups 上的公平性表现。
- Method: 对三种预训练LVLM模型(LLaVA、BLIP-2、PaliGemma)进行微调和评估,使用自建的demographic-balanced数据集,采用BERTScores和Fairness Discrepancy Rate等指标量化性能差异。
- Result: 实验结果显示LVLMs存在 demographic biases,PaliGemma和LLaVA在Hispanic/Latino、Caucasian和South Asian群体上表现出较高差异,BLIP-2相对更一致。
- Conclusion: 该研究揭示了LVLMs在生物特征人脸识别任务中的公平性问题,强调了需要进一步改进模型以确保在不同 demographic groups 上的公平性能。
[8] Geo2Vec: Shape- and Distance-Aware Neural Representation of Geospatial Entities
Chen Chu,Cyrus Shahabi
Main category: cs.CV
TL;DR: Geo2Vec是一种新颖的空间表示学习方法,直接在原始空间操作,通过自适应采样和符号距离场编码,为所有地理实体类型生成紧凑、几何感知的统一表示,在形状表示、空间关系和效率方面均优于现有方法。
- Motivation: 现有空间表示学习方法要么只针对单一地理实体类型,要么需要将复杂实体分解为简单组件进行傅里叶变换,计算成本高且缺乏几何对齐,导致细粒度特征模糊。
- Method: 基于符号距离场(SDF)思想,直接在原始空间自适应采样点并编码其符号距离(外部为正,内部为负),无需实体分解。使用神经网络近似SDF,并提出了旋转不变的位置编码来建模高频空间变化。
- Result: 实验结果表明,Geo2Vec在形状和位置表示、捕捉拓扑和距离关系方面 consistently优于现有方法,在实际GeoAI应用中具有更高的效率。
- Conclusion: Geo2Vec提供了一种统一、高效且几何感知的空间表示学习方法,能够为各种地理实体类型生成鲁棒的嵌入空间,显著提升下游GeoAI模型的性能。
[9] Advancements in Crop Analysis through Deep Learning and Explainable AI
Hamza Khan
Main category: cs.CV
TL;DR: 本研究提出基于卷积神经网络的自动化方法,成功分类5种水稻品种并诊断4种叶部病害,结合可解释AI技术提升模型透明度,在农业质量检测中展现强大潜力。
- Motivation: 水稻作为全球重要主食,需要自动化解决方案来解决人工检测劳动密集、耗时且易出错的问题,确保粮食质量和消费者满意度。
- Method: 使用包含75000张图像的公开数据集,采用CNN、VGG16、ResNet50和MobileNetV2等深度学习模型,结合SHAP和LIME等可解释AI技术分析特征重要性。
- Result: 模型实现了高分类准确率,误分类极少,有效区分水稻品种并准确诊断叶部病害(褐斑病、稻瘟病、白叶枯病、东格鲁病)。
- Conclusion: 深度学习在农业应用中具有强大潜力,可解释AI技术增强了模型透明度和可靠性,为自动化作物质量检测和病害诊断系统的发展铺平道路。
[10] Sistema de Reconocimiento Facial Federado en Conjuntos Abiertos basado en OpenMax
Ander Galván,Marivi Higuero,Jorge Sasiain,Eduardo Jacob
Main category: cs.CV
TL;DR: 提出了一种基于联邦学习和OpenMax算法的人脸识别系统,用于开放集场景下的隐私保护和未知个体识别
- Motivation: 传统AI人脸识别在隐私保护和身份管理方面面临挑战,特别是在操作环境中出现未知个体时存在识别困难
- Method: 将OpenMax算法集成到联邦学习框架中,通过交换平均激活向量和局部距离度量来区分已知和未知个体
- Result: 实验验证了所提解决方案的有效性,展示了在分布式环境中增强隐私意识和鲁棒性人脸识别的潜力
- Conclusion: 该方法为开放集场景下的联邦学习人脸识别提供了有效的解决方案,能够同时处理已知和未知个体的识别问题
[11] Automated classification of natural habitats using ground-level imagery
Mahdis Tourian,Sareh Rowlands,Remy Vandaele,Max Fancourt,Rebecca Mein,Hywel T. P. Williams
Main category: cs.CV
TL;DR: 基于地面照片通过深度学习进行生境分类的方法,可大规模分类18种生境类型,平均F1分数达0.61
- Motivation: 需要准确的生物多样性保护和生态监测,传统卫星图像验证需野外生态学家,地面照片可提供更好的验证和大规模分类能力
- Method: 使用DeepLabV3-ResNet101模型,对地面照片进行预处理(调数、归一化、增强),重采样平衡训练数据,采用五折交叉验证
- Result: 模型在18个生境类型中表现良好,平均F1分数0.61,视觉区别度高的生境(如免土、沙地)F1分达0.90以上,混合类型分数较低
- Conclusion: 这种基于地面照片的计算方法具有很大潜力,可用于生态监测,并提供了网页应用便于实践者使用
[12] MIDAS: Multimodal Interactive Digital-human Synthesis via Real-time Autoregressive Video Generation
Ming Chen,Liyuan Cui,Wenyuan Zhang,Haoxian Zhang,Yan Zhou,Xiaohan Li,Xiaoqiang Liu,Pengfei Wan
Main category: cs.CV
TL;DR: 提出了一种基于自回归框架的交互式数字人视频生成方法,支持多模态输入控制和低延迟流式生成,通过大规模对话数据集和深度压缩编码器实现高效实时交互。
- Motivation: 现有交互式数字人视频生成方法存在高延迟、高计算成本和有限可控性等问题,难以满足实时交互需求。
- Method: 基于大型语言模型的自回归视频生成框架,接受音频、姿态和文本等多模态条件编码,输出空间和语义一致的表征来指导扩散头的去噪过程。构建了约20,000小时的大规模对话数据集,并引入压缩比高达64倍的深度压缩自编码器。
- Result: 在双工对话、多语言人像合成和交互式世界模型等实验中,该方法在低延迟、高效率和细粒度多模态可控性方面表现出优势。
- Conclusion: 该框架为实时交互式数字人视频生成提供了一种有效的解决方案,通过自回归建模和多模态控制实现了高质量的流式生成能力。
[13] Deep Data Hiding for ICAO-Compliant Face Images: A Survey
Jefferson David Rodriguez Chivata,Davide Ghiani,Simone Maurizio La Cava,Marco Micheletto,Giulia Orrù,Federico Lama,Gian Luca Marcialis
Main category: cs.CV
TL;DR: 该论文调查数字水印和隐写术作为ICAO合规面部图像的防篡改解决方案,分析现有技术潜力与局限,为现实身份系统部署提供指导
- Motivation: ICAO标准面部图像虽实现全球互操作性,但也容易被用于换脸和深度伪造等恶意用途,传统实时检测方法缺乏捕获后保护
- Method: 对最先进的数字水印和隐写术技术进行全面分析,评估其在ICAO标准约束下的适用性和效果
- Result: 识别了关键权衡因素,证明了这些技术能在不破坏ICAO合规性的前提下提供持续验证能力
- Conclusion: 数字水印和隐写术是有效的补充解决方案,可为ICAO合规面部图像提供持久的防篡改保护,适合现实身份验证系统部署
[14] PRISM: A Framework Harnessing Unsupervised Visual Representations and Textual Prompts for Explainable MACE Survival Prediction from Cardiac Cine MRI
Haoyang Su,Jin-Yi Xiang,Shaohao Rui,Yifan Gao,Xingyu Chen,Tingxuan Yin,Xiaosong Wang,Lian-Ming Wu
Main category: cs.CV
TL;DR: PRISM是一个自监督框架,整合心脏MRI影像和电子健康记录,通过运动感知多视图蒸馏和医学文本提示实现精准的心脏不良事件预测,在四个独立临床队列中超越现有方法。
- Motivation: 准确预测主要心脏不良事件(MACE)是心血管预后的核心挑战,需要整合多模态数据来提升预测精度。
- Method: PRISM框架通过运动感知多视图蒸馏提取时间同步的影像特征,并使用医学文本提示进行调制,整合非对比心脏电影MRI和结构化EHR数据进行生存分析。
- Result: 在四个独立临床队列中,PRISM在内部和外部验证中均超越经典生存预测模型和最先进的深度学习基线,发现了三个与MACE风险相关的影像特征。
- Conclusion: PRISM提供的影像和EHR组合表征为不同人群的心脏风险评估提供了宝贵见解,提示引导归因识别出高血压、糖尿病和吸烟是主要风险因素。
[15] EffNetViTLoRA: An Efficient Hybrid Deep Learning Approach for Alzheimer's Disease Diagnosis
Mahdieh Behjat Khatooni,Mohsen Soryani
Main category: cs.CV
TL;DR: EffNetViTLoRA模型结合CNN和Vision Transformer,使用完整ADNI MRI数据集进行阿尔茨海默病诊断,通过LoRA技术实现高效知识迁移,在三分类任务中达到92.52%准确率
- Motivation: 阿尔茨海默病早期诊断至关重要,但轻度认知障碍(MCI)诊断困难,现有研究多使用有限数据子集,需要更鲁棒和公正的诊断模型
- Method: 提出EffNetViTLoRA端到端模型,整合CNN和Vision Transformer捕捉MRI图像的局部和全局特征,使用完整ADNI T1加权MRI数据集训练,并采用LoRA技术适配预训练ViT模型
- Result: 在AD、MCI和CN三分类任务中达到92.52%的分类准确率和92.76%的F1分数,优于先前使用有限数据子集的方法
- Conclusion: 该方法提供了更可靠和临床相关的AD诊断模型,LoRA技术有效解决了预训练模型在领域差异时的适配问题,提高了模型泛化能力
[16] Concurrent validity of computer-vision artificial intelligence player tracking software using broadcast footage
Zachary L. Crang,Rich D. Johnston,Katie L. Mills,Johsan Billingham,Sam Robertson,Michael H. Cole,Jonathon Weakley,Adam Hewitt and,Grant M. Duthie
Main category: cs.CV
TL;DR: 研究评估商业计算机视觉和AI球员追踪软件在广播画面中的准确性,发现位置误差1.68-16.39米,速度误差0.34-2.38 m/s,建议使用战术镜头和720p/1080p分辨率
- Motivation: 验证商业计算机视觉和AI球员追踪软件使用广播画面测量球员位置、速度和距离的准确性,并评估摄像头画面和分辨率对精度的影响
- Method: 使用2022年卡塔尔世界杯比赛数据,比较三家商业追踪提供商与TRACAB Gen 5多摄像头系统的数据,计算均方根误差和平均偏差
- Result: 位置均方根误差1.68-16.39米,速度误差0.34-2.38 m/s,总比赛距离平均偏差-1745米(-21.8%)到1945米(24.3%)
- Conclusion: 计算机视觉和AI球员追踪软件在检测到球员时具有合理精度,建议使用战术镜头最大化球员检测,720p和1080p分辨率都适用
[17] JVLGS: Joint Vision-Language Gas Leak Segmentation
Xinlong Zhao,Qixiang Pang,Shan Du
Main category: cs.CV
TL;DR: 提出JVLGS框架,结合视觉和文本模态进行气体泄漏分割,通过后处理减少误报,在监督和少样本学习设置下均优于现有方法
- Motivation: 气体泄漏检测对公共安全至关重要,但现有视觉方法受限于气体云模糊和非刚性特性,缺乏有效检测手段
- Method: 联合视觉-语言的气体泄漏分割框架,整合视觉和文本模态的互补优势,包含后处理步骤减少噪声和非目标物体造成的误报
- Result: 在多样化场景实验中显著优于最先进的气体泄漏分割方法,在监督和少样本学习设置下均表现优异
- Conclusion: JVLGS框架通过多模态融合有效提升了气体泄漏检测的准确性和鲁棒性,解决了现有方法的局限性
[18] UNIFORM: Unifying Knowledge from Large-scale and Diverse Pre-trained Models
Yimu Wang,Weiming Zhuang,Chen Chen,Jiabo Huang,Jingtao Li,Lingjuan Lyu
Main category: cs.CV
TL;DR: UNIFORM框架通过投票机制整合异构预训练模型的集体知识,在无监督目标识别任务中显著提升性能,并展现出优异的可扩展性
- Motivation: 现有知识集成方法对预训练模型的架构和训练数据分布有强假设限制,无法有效利用异构模型的集体知识,存在数据和归纳偏差问题
- Method: 提出专门的投票机制,在logit层面整合能预测目标类别的教师模型,在特征层面利用任意标签空间学习的视觉表示,实现无约束的知识迁移
- Result: 大量实验表明UNIFORM相比强基线方法有效提升无监督目标识别性能,能够受益于100多个教师模型,而现有方法在较小规模就饱和
- Conclusion: UNIFORM框架成功解决了异构预训练模型知识整合的挑战,为利用大规模在线模型集体知识提供了有效解决方案
[19] Sat2Flow: A Structure-Aware Diffusion Framework for Human Flow Generation from Satellite Imagery
Xiangxu Wang,Tianhong Zhao,Wei Tu,Bowen Zhang,Guanzhou Chen,Jinzhou Cao
Main category: cs.CV
TL;DR: Sat2Flow是一个基于扩散模型的框架,仅使用卫星图像生成结构一致的OD流量矩阵,解决了现有方法对辅助数据依赖和空间拓扑敏感性的问题。
- Motivation: 现有OD流量生成方法存在两个关键局限:(1)依赖昂贵且覆盖有限的辅助特征数据;(2)对空间拓扑敏感,区域索引重排序会破坏生成流量的结构一致性。
- Method: 提出多核编码器捕捉多样化区域交互,采用排列感知扩散过程确保不同区域排序下的潜在表示对齐,通过联合对比训练目标和等变扩散训练实现结构一致性。
- Result: 在真实城市数据集上的实验表明,Sat2Flow在数值精度上优于物理基线和数据驱动基线,同时在索引置换下保持经验分布和空间结构。
- Conclusion: Sat2Flow为数据稀缺城市环境提供了可扩展的OD流量生成解决方案,消除了区域特定辅助数据依赖,同时保持结构不变性以实现稳健的移动性建模。
[20] Weed Detection in Challenging Field Conditions: A Semi-Supervised Framework for Overcoming Shadow Bias and Data Scarcity
Alzayat Saleh,Shunsuke Hatano,Mostafa Rahimi Azghadi
Main category: cs.CV
TL;DR: 该研究提出了一个诊断驱动的半监督框架,用于解决农业杂草自动管理中的环境挑战和数据标注成本问题,通过伪标签技术利用未标注数据提升模型鲁棒性,有效缓解了阴影偏差问题。
- Motivation: 解决深度学习模型在真实农田环境中性能下降的两个主要问题:具有挑战性的环境条件和高昂的数据标注成本,特别是在入侵性杂草管理领域。
- Method: 使用包含975张标注图像和10,000张未标注图像的独特数据集,首先建立强监督基线(ResNet分类和YOLO、RF-DETR检测),然后通过可解释性工具诊断发现阴影偏差问题,最后开发半监督管道利用伪标签技术训练模型。
- Result: 监督基线达到F1分数0.90和mAP50分数超过0.82;半监督框架不仅有助于缓解阴影偏差,还在召回率方面提供了实质性提升,这对于自动化喷洒系统中最小化杂草逃逸至关重要。
- Conclusion: 该研究提供了一个清晰且经过实地测试的框架,用于在精准农业复杂现实环境中开发、诊断和改进鲁棒的计算机视觉系统,特别是在低数据机制下表现出有效性。
[21] MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment
Zhiting Gao,Dan Song,Diqiong Jiang,Chao Xue,An-An Liu
Main category: cs.CV
TL;DR: TMR++ Aligned Preference Optimization (TAPO) 和 MotionFLUX 框架解决了文本驱动动作生成中的语义对齐和实时合成问题,通过偏好优化和确定性整流流匹配实现了高质量实时动作生成。
- Motivation: 现有文本驱动动作生成方法存在语义对齐不精确和多步推理效率低的问题,需要开发能够实现精确语义对齐和实时合成的新框架。
- Method: 提出TAPO框架通过迭代调整强化语义基础,使细微动作变化与文本修饰符对齐;提出MotionFLUX基于确定性整流流匹配,在噪声分布和动作空间之间构建最优传输路径,实现实时合成。
- Result: 实验结果表明,TAPO和MotionFLUX组成的统一系统在语义一致性和动作质量方面优于最先进方法,同时显著加速生成速度。
- Conclusion: 该研究提供了一个高效的文本驱动动作生成解决方案,解决了语义对齐和实时合成的关键挑战,代码和预训练模型将发布。
[22] CVBench: Evaluating Cross-Video Synergies for Complex Multimodal Understanding and Reasoning
Nannan Zhu,Yonghao Dong,Teng Wang,Xueqian Li,Shengjun Deng,Yijia Wang,Zheng Hong,Tiantian Geng,Guo Niu,Hanyan Huang,Xiongfei Yao,Shuaiwei Jiao
Main category: cs.CV
TL;DR: CVBench是首个专门评估多模态大语言模型在多视频间关系推理能力的综合基准,包含1000个QA对,涵盖三个层次:跨视频对象关联、事件关联和复杂推理。测试发现当前顶级模型如GPT-4o在因果推理任务上准确率仅为60%,远低于人类的91%,揭示了模型在跨视频上下文保留和实体消歧方面的根本瓶颈。
- Motivation: 虽然多模态大语言模型在单视频任务上表现良好,但其在多视频间的推理能力尚未得到充分探索,而这种能力对于多摄像头监控、跨视频程序学习等实际应用至关重要。
- Method: 构建CVBench基准,包含来自5个不同领域视频集群的1000个问题-答案对,分为三个层次:跨视频对象关联、跨视频事件关联和跨视频复杂推理。对10多个领先MLLM模型进行零样本和思维链提示的广泛评估。
- Result: 评估结果显示显著性能差距:顶级模型如GPT-4o在因果推理任务上仅达到60%准确率,而人类表现达到91%。分析揭示了当前MLLM架构的根本瓶颈,包括跨视频上下文保留不足和重叠实体消歧能力差。
- Conclusion: CVBench为诊断和推进多视频推理建立了严格框架,为下一代MLLM提供了架构洞察。该基准揭示了当前模型在多视频关系推理方面的局限性,并指明了未来改进的方向。
[23] WEBEYETRACK: Scalable Eye-Tracking for the Browser via On-Device Few-Shot Personalization
Eduardo Davalos,Yike Zhang,Namrata Srivastava,Yashvitha Thatigotla,Jorge A. Salas,Sara McFadden,Sun-Joo Cho,Amanda Goodwin,Ashwin TS,Gautam Biswas
Main category: cs.CV
TL;DR: WebEyeTrack是一个在浏览器中运行的轻量级视线追踪框架,通过集成模型驱动的头部姿态估计和少量样本校准学习,实现了接近商业级眼动仪的精度和实时性能。
- Motivation: 现有AI视线估计方法虽然在基准测试中表现优异,但与商业眼动仪存在实际应用差距,且网络摄像头方法因头部运动导致精度不足,需要解决模型大小、推理时间和隐私等问题。
- Method: 开发了WebEyeTrack框架,在浏览器中直接集成轻量级SOTA视线估计模型,结合基于模型的头部姿态估计和仅需9个校准样本的端侧少样本学习。
- Result: 在GazeCapture数据集上达到2.32厘米的误差范围,在iPhone 14上实现2.4毫秒的实时推理速度,性能达到SOTA水平。
- Conclusion: 该框架成功解决了现有方法的局限性,提供了高精度、实时且保护隐私的浏览器内视线追踪解决方案,代码已开源。
[24] MonoRelief V2: Leveraging Real Data for High-Fidelity Monocular Relief Recovery
Yu-Wei Zhang,Tongju Han,Lipeng Gao,Mingqiang Wei,Hui Liu,Changbao Li,Caiming Zhang
Main category: cs.CV
TL;DR: MonoRelief V2是一个端到端模型,能够从单张图像中直接恢复2.5D浮雕,在复杂材质和光照变化下表现出色。相比仅使用合成数据训练的V1版本,V2通过结合真实数据提升了鲁棒性、准确性和效率。
- Motivation: 解决从单张图像恢复2.5D浮雕的挑战,特别是在复杂材质和光照变化条件下。克服大规模真实数据集获取困难的问题,提升模型在真实场景中的性能。
- Method: 使用文本到图像生成模型生成约15,000张伪真实图像,并通过深度和法线预测融合获得深度伪标签。构建包含800个样本的小规模真实数据集,采用多视角重建和细节优化。在伪真实和真实数据集上进行渐进式训练。
- Result: 综合实验表明,MonoRelief V2在深度和法线预测方面达到了最先进的性能,展现出在下游应用中的强大潜力。
- Conclusion: MonoRelief V2通过结合合成数据和真实数据训练,成功提升了从单图像恢复2.5D浮雕的性能,为相关应用提供了有效的解决方案。
[25] FlowDet: Overcoming Perspective and Scale Challenges in Real-Time End-to-End Traffic Detection
Yuhang Zhao,Zixing Wang
Main category: cs.CV
TL;DR: FlowDet是一个基于DETR架构的高速端到端目标检测器,通过解耦编码器优化策略、几何可变形单元和尺度感知注意力模块,在保持高精度的同时显著降低计算成本,在Intersection-Flow-5k数据集上达到新的SOTA性能。
- Motivation: 解决端到端目标检测器在复杂场景(如交叉路口交通监控)中计算成本过高的问题,推动NMS-free检测器在实时应用中的发展。
- Method: 提出FlowDet检测器,采用解耦编码器优化策略,包含几何可变形单元(GDU)进行交通感知几何建模,以及尺度感知注意力(SAA)模块处理极端尺度变化。
- Result: 在Intersection-Flow-5k数据集上,相比RT-DETR基线,AP提升1.5%,AP50提升1.6%,同时GFLOPs减少63.2%,推理速度提升16.2%。
- Conclusion: FlowDet为构建高效准确的现实世界感知系统提供了新路径,在保持高精度的同时显著提升了计算效率。
[26] DNP-Guided Contrastive Reconstruction with a Reverse Distillation Transformer for Medical Anomaly Detection
Luhu Li,Bowen Lin,Mukhtiar Khan,Shujun Fu
Main category: cs.CV
TL;DR: 提出结合可训练编码器与原型引导重建的统一框架,通过多样性感知对齐损失解决原型崩溃问题,在医学图像异常检测中显著提升性能
- Motivation: 医学图像异常检测面临标注有限和领域差异挑战,现有重建方法依赖冻结预训练编码器限制了领域适应性,原型学习方法存在原型崩溃问题
- Method: 使用可训练编码器配合动量分支实现稳定领域自适应特征学习,轻量级原型提取器挖掘信息丰富的正常原型,通过注意力机制引导解码器进行精确重建,引入多样性感知对齐损失防止原型崩溃
- Result: 在多个医学成像基准测试中显著提升了表示质量和异常定位精度,优于现有方法,可视化和原型分配分析验证了抗崩溃机制的有效性
- Conclusion: 提出的统一框架有效解决了原型崩溃问题,提高了医学图像异常检测的性能和可解释性,为领域自适应特征学习提供了新思路
[27] Multimodal Prototype Alignment for Semi-supervised Pathology Image Segmentation
Mingxi Fu,Fanglei Fu,Xitong Ling,Huaitian Yuan,Tian Guan,Yonghong He,Lianghui Zhu
Main category: cs.CV
TL;DR: MPAMatch是一个新的病理图像分割框架,通过多模态原型引导的监督范式进行像素级对比学习,结合图像和文本原型与像素标签的双重对比学习,在结构和语义层面提供监督,显著提升了语义边界建模能力。
- Motivation: 病理图像分割面临语义边界模糊和像素级标注成本高的挑战。现有的半监督方法主要依赖图像模态内的扰动一致性,难以捕捉高级语义先验,特别是在结构复杂的病理图像中。
- Method: 提出MPAMatch框架,采用双对比学习方案:图像原型与像素标签之间、文本原型与像素标签之间的对比学习。重构TransUNet架构,用病理预训练基础模型Uni替换ViT主干网络。
- Result: 在GLAS、EBHI-SEG-GLAND、EBHI-SEG-CANCER和KPI数据集上的广泛实验显示,MPAMatch优于最先进方法,验证了其在结构和语义建模方面的双重优势。
- Conclusion: MPAMatch通过引入文本原型监督和双对比学习机制,有效解决了病理图像分割中的语义边界模糊问题,为半监督分割提供了新的解决方案。
[28] Interact-Custom: Customized Human Object Interaction Image Generation
Zhu Xu,Zhaowen Wang,Yuxin Peng,Yang Liu
Main category: cs.CV
TL;DR: 提出了定制化人机交互图像生成任务(CHOI),通过两阶段模型Interact-Custom实现目标人物和物体的身份保持与交互语义控制
- Motivation: 现有方法主要关注目标实体的外观保持,而忽略了目标实体之间的细粒度交互控制,需要开发能够同时保持身份特征和控制交互语义的模型
- Method: 首先构建包含相同人机对在不同交互姿态下的大规模数据集,然后设计两阶段模型Interact-Custom:首先生成描述交互行为的前景掩码来显式建模空间配置,然后在掩码指导下生成保持身份特征的目标人机交互图像
- Result: 在CHOI任务的定制化指标上进行了广泛实验,证明了方法的有效性
- Conclusion: 提出的Interact-Custom模型能够有效解决定制化人机交互图像生成任务,实现了身份保持和交互控制的平衡,并提供了高内容可控性
[29] High-Speed FHD Full-Color Video Computer-Generated Holography
Haomiao Zhang,Miao Cao,Xuan Yu,Hui Luo,Yanling Piao,Mengjie Qin,Zhangyuan Li,Ping Wang,Xin Yuan
Main category: cs.CV
TL;DR: 提出SGDDM和HoloMamba方案,解决全彩全息视频显示中的帧率与色彩保真度权衡问题,实现260+FPS的高质量全息视频生成
- Motivation: 现有学习方法产生过度平滑相位导致色彩串扰,帧间优化方法忽略时空相关性导致计算效率低下
- Method: SGDDM通过频率调制优化相位分布,HoloMamba采用轻量级非对称Mamba-Unet架构显式建模时空相关性
- Result: SGDDM实现高帧率高保真全彩显示,HoloMamba以260+FPS生成1080p全彩全息视频,比现有技术快2.6倍
- Conclusion: 提出的方案成功解决了全息视频生成中的关键限制,实现了高质量高帧率的全彩全息显示
[30] Guiding Noisy Label Conditional Diffusion Models with Score-based Discriminator Correction
Dat Nguyen Cong,Hieu Tran Bao,Hoang Thanh-Tung
Main category: cs.CV
TL;DR: 该论文提出了SBDC方法,一种基于判别器校正的引导技术,用于校正预训练条件扩散模型中的标签噪声问题,在保持计算效率的同时显著提升生成质量。
- Motivation: 大规模数据集中的手动标注错误会影响扩散模型的生成能力和可控性,但这个问题尚未得到充分研究,需要开发有效的校正方法。
- Method: 提出Score-based Discriminator Correction (SBDC)技术,利用对抗损失训练判别器,基于先验噪声检测技术评估样本真实性,并将引导限制在生成过程的早期阶段。
- Result: 在不同噪声设置下的实验表明,该方法优于现有最先进方法,计算效率高,仅略微增加推理时间,且无需重新训练扩散模型。
- Conclusion: SBDC方法有效解决了扩散模型中标签噪声问题,在保持高效性的同时显著提升了生成质量和可控性,为噪声校正提供了有效的解决方案。
[31] Generalizing Monocular 3D Object Detection
Abhinav Kumar
Main category: cs.CV
TL;DR: 该论文针对单目3D目标检测的泛化挑战,提出了多种创新方法:GrooMeD-NMS增强遮挡鲁棒性,DEVIANT主干网络提升数据集泛化能力,SeaBird方法解决大目标检测问题,并分析了相机高度外推的数学原理。
- Motivation: 单目3D目标检测在自动驾驶、增强现实等应用中至关重要,但现有模型在遮挡、数据集差异、大目标检测和相机参数变化等多样化场景中的泛化能力不足,需要系统性的解决方案。
- Method: 1) 提出数学可微的GrooMeD-NMS处理遮挡问题;2) 探索深度等变(DEVIANT)主干网络提升跨数据集泛化;3) 引入基于分割的SeaBird方法配合dice损失解决大目标检测;4) 数学分析相机高度外推问题。
- Result: 系统性地解决了单目3D检测在遮挡鲁棒性、跨数据集泛化、大目标检测和相机参数外推等多个维度的泛化挑战,提出了相应的有效解决方案。
- Conclusion: 该研究为单目3D目标检测的泛化问题提供了全面的解决方案框架,通过数学分析和创新方法设计,显著提升了模型在多样化实际场景中的适应能力和性能表现。
[32] Quantization Robustness to Input Degradations for Object Detection
Toghrul Karimov,Hassan Imani,Allan Kazakov
Main category: cs.CV
TL;DR: 这篇论文通过实验研究评估了不同精度格式下YOLO检测模型的稳健性,并提出了一种基于透度的量化检定策略,但该策略在大部分情况下并未带来一致的稳健性改善。
- Motivation: 质量化在资源受限设备上部署对象检测模型至关重要,但减少的精度对模型在实际环境中面对噪声、橡糊、压缩等输入透度的稳健性影响是个重要问题。
- Method: 进行了完整的实验研究,评估YOLO模型在多种精度格式(FP32、FP16、Dynamic UINT8、Static INT8)下的表现,并提出了一种透度感知的量化检定策略,在TensorRT检定过程中涉及清洁和合成透度图像的混合。
- Result: Static INT8 TensorRT引擎在清洁数据上带来显著速度提升(~1.5-3.3x)但准确度中等下降(~3-7% mAP50-95)。透度感知检定策略在大部分模型和透度条件下并未带来一致的稳健性改善,仅在某些噪声条件下的较大模型中观察到明显效果。
- Conclusion: 研究结果显示了提高量化模型稳健性的挑战性,为在非受控环境中部署量化检测器提供了有价值的见解。
[33] IELDG: Suppressing Domain-Specific Noise with Inverse Evolution Layers for Domain Generalized Semantic Segmentation
Qizhe Fan,Chaoyu Liu,Zhonghua Qiao,Xiaoqin Shen
Main category: cs.CV
TL;DR: 提出了IELDM和IELFormer框架,通过逆演化层抑制扩散模型生成缺陷,提升域泛化语义分割性能
- Motivation: 扩散模型生成的合成数据存在结构和语义缺陷,直接用于训练会导致分割模型性能下降和错误累积
- Method: 1) 在生成过程中集成逆演化层(IELs)来过滤不良生成模式;2) 在分割网络解码器中嵌入IELs抑制伪影传播;3) 引入多尺度频率融合模块增强跨尺度语义一致性
- Result: 在基准数据集上的大量实验表明,该方法相比现有方法实现了更优越的泛化性能
- Conclusion: 逆演化层能有效提升生成图像质量和分割模型泛化能力,多尺度频率融合进一步增强了跨域场景下的语义一致性
[34] Controllable Skin Synthesis via Lesion-Focused Vector Autoregression Model
Jiajun Sun,Zhen Yu,Siyuan Yan,Jason J. Ong,Zongyuan Ge,Lei Zhang
Main category: cs.CV
TL;DR: LF-VAR是一种可控皮肤图像合成模型,利用病变测量分数和类型标签指导生成高质量、临床相关的皮肤图像,在FID指标上比现有最佳方法提升6.3%。
- Motivation: 真实临床皮肤图像数据有限,现有合成方法生成质量低且缺乏对病变位置和类型的控制能力。
- Method: 采用多尺度病变聚焦VQVAE编码图像为离散潜在表示,结合视觉自回归Transformer进行图像合成,整合病变测量和类型作为条件嵌入。
- Result: 在七种病变类型上获得最佳FID分数(平均0.74),比之前SOTA方法提升6.3%。
- Conclusion: 该方法能有效生成高保真度、临床相关的合成皮肤图像,代码已开源。
[35] Divide, Weight, and Route: Difficulty-Aware Optimization with Dynamic Expert Fusion for Long-tailed Recognition
Xiaolei Wei,Yi Ouyang,Haibo Ye
Main category: cs.CV
TL;DR: DQRoute是一个针对长尾视觉识别问题的模块化框架,通过难度感知优化和动态专家协作来提升性能,特别是在稀有和困难类别上表现显著
- Motivation: 长尾视觉识别不仅面临类别不平衡问题,还存在不同类别学习难度差异大的挑战。简单的基于频率的类别重加权方法往往忽略了内在难以学习的类别
- Method: 1) 基于预测不确定性和历史性能估计类别难度;2) 使用自适应损失加权指导训练;3) 采用混合专家架构,每个专家专注于不同类别分布区域;4) 推理时通过专家特定的OOD检测器生成置信度分数来加权专家预测,实现输入自适应路由
- Result: 在标准长尾基准测试中,DQRoute显著提升了性能,特别是在稀有和困难类别上表现突出
- Conclusion: 将难度建模与去中心化专家路由相结合的方法在长尾视觉识别中具有显著优势
[36] Beyond BEV: Optimizing Point-Level Tokens for Collaborative Perception
Yang Li,Quan Yuan,Guiyang Luo,Xiaoyuan Fu,Rui Pan,Yujia Yang,Congzhang Shao,Yuewen Liu,Jinglin Li
Main category: cs.CV
TL;DR: CoPLOT是一个新颖的协作感知框架,使用点级优化token来处理无序、海量的点云数据,通过语义感知重排序、频域增强状态空间模型和邻域到自车对齐模块,在降低通信和计算开销的同时实现了最先进的性能。
- Motivation: 现有的协作感知方法通常使用2D鸟瞰图表示,丢弃了关键的3D结构信息,而点云数据具有无序、海量和位置敏感的特性,难以产生紧凑对齐的点级token序列来保留详细结构信息。
- Method: 提出点原生处理流水线:1)语义感知token重排序模块利用场景级和token级语义信息生成自适应1D重排序;2)频域增强状态空间模型捕获空间和频谱域的长程序列依赖;3)邻域到自车对齐模块结合全局代理级校正和局部token级细化来减轻定位噪声。
- Result: 在模拟和真实数据集上的广泛实验表明,CoPLOT在通信和计算开销更低的情况下,性能优于最先进的模型。
- Conclusion: CoPLOT通过点级优化token和创新的处理模块,有效解决了点云数据在协作感知中的挑战,实现了更好的性能同时降低了开销。
[37] UTAL-GNN: Unsupervised Temporal Action Localization using Graph Neural Networks
Bikash Kumar Badatya,Vipul Baghel,Ravi Hegde
Main category: cs.CV
TL;DR: 这篇论文提出了一种轻量级的无监督骨架基动作定位方法,利用空间-时间图神经网络表征学习本质运动动力学,通过动作动力学指标检测运动边界,在保持计算效率的同时达到了与有监督方法相当的性能。
- Motivation: 细粒度动作定位在未剪订体育视频中面临挑战,现有的有监督和弱监督方法需要大量注释数据和高容量模型,计算成本高且适应性差。需要一种轻量级、无监督的方案来应对这些挑战。
- Method: 提出了一种轻量级的无监督骨架基动作定位流程,使用关注机制空间-时间图卷积神经网络(ASTGCN)在姿势序列去噪任务上进行预训练,通过块状分区学习本质运动动力学。推理时使用新的动作动力学指标(ADM),直接从低维ASTGCN嵌入中计算,通过检测曲率波形中的折点来识别运动边界。
- Result: 在DSV跃水数据集上达到了82.66%的平均精确度(mAP)和29.09毫秒的平均定位延迟,与最优的有监督方法性能相当。方法在未见过的野外跃水视频中也表现出良好的演续性,无需重新训练。
- Conclusion: 该方法为嵌入式或动态环境中的轻量级实时动作分析系统提供了一种高效、无监督的解决方案,在保持计算效率的同时实现了与有监督方法相当的性能,具有强大的实际应用价值。
[38] IDF: Iterative Dynamic Filtering Networks for Generalizable Image Denoising
Dongjin Kim,Jaekyun Ko,Muhammad Kashif Ali,Tae Hyun Kim
Main category: cs.CV
TL;DR: 提出一种基于动态生成核的迭代图像去噪方法,通过特征提取、全局统计和局部相关性模块来预测像素级变化核,在仅使用单级高斯噪声训练的情况下,能够泛化到多种噪声类型和级别。
- Motivation: 现有深度学习方法依赖特定噪声分布,泛化能力有限,容易过拟合,需要大量训练数据和计算资源。需要一种更通用、高效且能处理未知噪声的去噪方法。
- Method: 使用特征提取模块获取噪声不变特征,通过全局统计和局部相关性模块捕获噪声特征和结构相关性,核预测模块生成像素级变化核,采用迭代动态滤波进行去噪。
- Result: 紧凑模型(约0.04M参数)在仅使用单级高斯噪声训练的情况下,在多种噪声类型和级别上都表现出色,证明了迭代动态滤波在实际图像去噪中的潜力。
- Conclusion: 动态核生成和迭代滤波的方法有效防止过拟合,提高对未知噪声的鲁棒性,为实际图像去噪提供了一种高效且通用的解决方案。
[39] Video-LevelGauge: Investigating Contextual Positional Bias in Large Video Language Models
Hou Xia,Zheren Fu,Fangcan Ling,Jiajun Li,Yi Tu,Zhendong Mao,Yongdong Zhang
Main category: cs.CV
TL;DR: Video-LevelGauge是一个专门评估大型视频语言模型位置偏见的基准测试,通过标准化探针和定制化上下文设置,系统分析了27个先进模型的性能表现。
- Motivation: 现有视频理解基准测试主要评估整体性能,忽略了位置偏见这一关键但未被充分探索的方面,需要专门工具来系统评估LVLM的上下文位置偏见。
- Method: 采用标准化探针和定制化上下文设置,灵活控制上下文长度、探针位置和上下文类型;结合统计测量和形态模式识别进行综合偏见分析;包含438个手动策划视频,生成1,177个多选题和120个开放式问题。
- Result: 发现许多领先开源模型存在显著位置偏见,通常表现出头部或邻近内容偏好;商业模型如Gemini2.5-Pro在整个视频序列中表现一致且出色;上下文长度、变化和模型规模的分析提供了缓解偏见的可行见解。
- Conclusion: Video-LevelGauge基准有效揭示了LVLM的位置偏见问题,为模型改进提供了重要指导,商业模型在一致性方面表现优异,开源模型需要进一步优化以减少位置偏见。
[40] Scalable Object Detection in the Car Interior With Vision Foundation Models
Bálint Mészáros,Ahmet Firintepe,Sebastian Schmidt,Stephan Günnemann
Main category: cs.CV
TL;DR: Error
- Motivation: Error
- Method: Error
- Result: Error
- Conclusion: Error
[41] Self-Rewarding Vision-Language Model via Reasoning Decomposition
Zongxia Li,Wenhao Yu,Chengsong Huang,Rui Liu,Zhenwen Liang,Fuxiao Liu,Jingxi Che,Dian Yu,Jordan Boyd-Graber,Haitao Mi,Dong Yu
Main category: cs.CV
TL;DR: Vision-SR1是一种自奖励方法,通过强化学习改善视觉语言模型的视觉推理能力,无需外部视觉监督,有效减少视觉幻觉和语言捷径问题。
- Motivation: 视觉语言模型存在视觉幻觉和语言捷径问题,现有方法依赖人工标注或外部模型监督,成本高且容易导致分布偏移。需要一种无需外部监督的自我改进方法。
- Method: 将VLM推理分解为视觉感知和语言推理两阶段:首先生成自包含的视觉感知,然后使用相同模型仅基于感知进行语言推理来计算奖励,结合最终输出监督进行训练。
- Result: 实验表明Vision-SR1在多种视觉语言任务中改善了视觉推理能力,减少了视觉幻觉和语言捷径依赖。
- Conclusion: Vision-SR1通过自奖励机制有效提升了视觉语言模型的视觉感知和推理能力,为无需外部监督的VLM改进提供了可行方案。
[42] Hardware-aware vs. Hardware-agnostic Energy Estimation for SNN in Space Applications
Matthias Höfflin,Jürgen Wassner
Main category: cs.CV
TL;DR: SNNs在数字实现中的能效优势被重新评估,硬件感知分析显示仅在神经形态硬件和高输入稀疏度下才有显著节能
- Motivation: 重新评估SNNs相对于传统ANNs的能效优势,特别是在数字实现和多输出回归任务中,质疑现有比较方法的透明度
- Method: 使用LIF神经元的膜电位进行SNN训练,在卫星位置估计任务上与CNN比较,采用硬件感知和硬件无关两种能效评估方法
- Result: SNN达到与CNN相当的MSE性能,硬件无关方法显示50-60%节能,但硬件感知分析表明仅在神经形态硬件和高输入稀疏度下才有实际节能
- Conclusion: 需要透明的评估方法和明确披露底层假设,以确保神经网络能效比较的公平性,数据特性和硬件假设对能效有重要影响
[43] A Frequency-Aware Self-Supervised Learning for Ultra-Wide-Field Image Enhancement
Weicheng Liao,Zan Chen,Jianyang Xie,Yalin Zheng,Yuhui Ma,Yitian Zhao
Main category: cs.CV
TL;DR: 本文提出了一种新的频率感知自监督学习方法,用于超广视地网膜图像增强,通过频率解耦图像去模糊和Retinex引导的照明补偿,有效保留病理细节并提高疾病诊断性能。
- Motivation: 超广视地网膜成像虽然提供了全面的视网膜视图,但常受到模糊和照明不均等质量问题影响,而现有的增强方法无法满足UWF图像保留病理细节的特殊需求。
- Method: 提出频率感知自监督学习方法,包含频率解耦图像去模糊模块和Retinex引导的照明补偿模块。前者采用非对称通道集成操作结合高低频率信息,后者提出颜色保持单元提供多尺度空间和频率信息。
- Result: 实验结果表明,该方法不仅提高了可视化质量,还通过恢复和缩正细小局部细节和不均匀强度,改善了疾病诊断性能。
- Conclusion: 这是首次尝试UWF图像增强的研究,为提高视网膜疾病管理提供了健壮且具有临床价值的工具。
[44] SAT: Supervisor Regularization and Animation Augmentation for Two-process Monocular Texture 3D Human Reconstruction
Gangjian Zhang,Jian Shu,Nanjie Yao,Hao Wang
Main category: cs.CV
TL;DR: SAT是一个单目纹理3D人体重建框架,通过两阶段处理和监督特征正则化模块,统一学习多种几何先验,并结合在线动画增强解决数据稀缺问题,实现高质量3D虚拟形象重建。
- Motivation: 单目2D图像存在几何模糊性,且3D人体训练数据稀缺,现有方法难以有效整合多种几何模态(如SMPL模型和法线贴图),导致视角不一致和面部扭曲等问题。
- Method: 提出两阶段重建框架SAT:1)使用监督特征正则化模块,通过多视角网络提供中间特征作为训练监督,更好地融合多种几何先验;2)设计在线动画增强模块,通过单次前传动画网络从原始3D数据在线生成大量样本用于训练。
- Result: 在两个基准测试上的大量实验表明,该方法相比最先进方法具有优越性,能够重建出高质量的纹理3D虚拟形象。
- Conclusion: SAT框架通过统一学习几何先验和在线数据增强,有效解决了单目3D人体重建中的几何模糊和数据稀缺问题,实现了更好的重建质量和视角一致性。
[45] Synthetic Image Detection via Spectral Gaps of QC-RBIM Nishimori Bethe-Hessian Operators
V. S. Usatyuk,D. A. Sapozhnikov,S. I. Egorov
Main category: cs.CV
TL;DR: 基于物理受启的无监督检测器,通过将图像特征映射到LDPC图并分析Bethe-Hessian谱间隔来区分真实和合成图像,无需合成数据标签且模型无关
- Motivation: 深度生成模型生成的图像越来越难以从真实照片中区分,影响媒体证据学和生物识别安全。目前的监督检测器面临新生成器和对抗处理的挑战,而无监督方法依赖低级统计线索容易被攻破
- Method: 将图像检测模型化为社区发现问题:使用预训练CNN提取特征并降维到32维,构建多边类型QC-LDPC图,将成对相似性转换为在Nishimori温度检定的边耦合,形成随机钥匙Ising模型,分析其Bethe-Hessian谱的特征间隔
- Result: 在二元分类任务(猫vs狗,男vs女)上达到94%以上准确率,无需任何标签合成数据或重新训练特征提取器。谱分析显示真实图像集有多个明显分离的谱间隔,而生成图像谱呈现凴缩状态
- Conclusion: 提出了一种新的无监督合成图像检测方法,通过LDPC图构建嵌入深度图像特征,并使用RBIM模型和Bethe-Hessian谱分析提供贝叶斯最优检测准则。该方法对新生成架构具有稳健性,为媒体证据学提供了可靠的无监督检测解决方案
[46] LabelGS: Label-Aware 3D Gaussian Splatting for 3D Scene Segmentation
Yupeng Zhang,Dezhi Zheng,Ping Lu,Han Zhang,Lei Wang,Liping xiang,Cheng Luo,Kaijun Deng,Xiaowen Fu,Linlin Shen,Jinbao Wang
Main category: cs.CV
TL;DR: LabelGS是一种增强3D高斯表示的方法,通过引入跨视角一致的语义掩码和遮挡分析模型,为3D高斯泼溅技术添加了对象标签分割能力,实现了22倍的训练加速。
- Motivation: 3D高斯泼溅技术(3DGS)虽然能够实现高保真重建和高效渲染,但缺乏3D分割能力,限制了其在需要场景理解任务中的应用。
- Method: 提出LabelGS方法,包括:1)跨视角一致的3D高斯语义掩码;2)遮挡分析模型避免优化过程中的过拟合;3)主高斯标注模型将2D语义先验提升到3D高斯;4)高斯投影过滤器避免标签冲突;5)随机区域采样策略优化3DGS过程。
- Result: 在3D场景分割任务中优于包括Feature-3DGS在内的最先进方法,在1440×1080分辨率下实现了22倍的训练加速。
- Conclusion: LabelGS成功解决了3DGS缺乏分割能力的问题,通过引入对象标签表示和优化策略,显著提升了分割性能和训练效率。
[47] FreeVPS: Repurposing Training-Free SAM2 for Generalizable Video Polyp Segmentation
Qiang Hu,Ying Zhou,Gepeng Ji,Nick Barnes,Qiang Li,Zhiwei Wang
Main category: cs.CV
TL;DR: 提出FreeVPS方法,通过训练无关模块改进SAM2模型,解决视频息肉分割中的时空建模与领域泛化平衡问题,在长时跟踪中避免误差累积。
- Motivation: 现有视频息肉分割方法难以平衡时空建模和领域泛化能力,限制了在真实临床场景中的应用。SAM2在长时息肉跟踪中存在误差累积问题,影响分割稳定性。
- Method: 采用track-by-detect范式,结合图像息肉分割模型的空间上下文和SAM2的时序建模能力。提出两个训练无关模块:内部关联过滤模块消除检测阶段的空间误差,外部关联优化模块自适应更新记忆库防止误差传播。
- Result: 在域内和域外场景中都达到了最先进的性能,在长未剪辑结肠镜视频中展示了强大的跟踪能力。
- Conclusion: FreeVPS通过协同工作模块稳定了SAM2,展现了在可靠临床分析中的潜在应用价值,成功解决了长时跟踪中的误差累积问题。
[48] Improving Generalization in Deepfake Detection with Face Foundation Models and Metric Learning
Stelios Mylonas,Symeon Papadopoulos
Main category: cs.CV
TL;DR: 基于人脸基础模型的鲁棒视频深度伪造检测框架,通过自监督学习和多数据集集成训练,结合三元组损失和属性监督,显著提升泛化能力
- Motivation: 深度伪造技术日益逼真和普及,对媒体真实性和信息完整性构成严重威胁。现有检测模型在训练分布之外泛化能力不足,特别是在真实场景中表现不佳
- Method: 利用FSFM自监督人脸基础模型,在多个深度伪造数据集上进行微调,结合三元组损失变体和基于操纵类型/数据集的属性监督方案
- Result: 在多样化评估基准上的广泛实验证明了方法的有效性,特别是在具有挑战性的真实世界场景中表现优异
- Conclusion: 该方法通过利用人脸基础模型的丰富表征和多策略训练,显著提升了深度伪造检测的泛化能力和鲁棒性
[49] POEv2: a flexible and robust framework for generic line segment detection and wireframe line segment detection
Chenguang Liu,Chisheng Wang,Yuhua Cai,Chuanhua Zhu,Qingquan Li
Main category: cs.CV
TL;DR: POEv2是一个改进的像素方向估计方法,可用于通用线段检测和线框线段检测,结合高效边缘检测器在三个公开数据集上达到最先进性能
- Motivation: 现有线段检测器分为通用线段检测器和线框线段检测器两类,由于设计目标不同,它们在对方任务上的性能不理想,需要一种能同时处理两种任务的鲁棒框架
- Method: 提出POEv2方法,是像素方向估计(POE)方法的改进版本,从边缘强度图检测线段,可与任何边缘检测器结合使用
- Result: 实验表明,POEv2与高效边缘检测器结合后,在三个公开数据集上实现了最先进的性能
- Conclusion: POEv2提供了一个统一的框架,既能进行通用线段检测,也能进行线框线段检测,具有很好的适应性和性能表现
[50] SPLF-SAM: Self-Prompting Segment Anything Model for Light Field Salient Object Detection
Qiyao Xu,Qiming Wu,Xiaowei Li
Main category: cs.CV
TL;DR: SPLF-SAM是一个自提示光场分割模型,通过统一多尺度特征嵌入块和多尺度自适应滤波适配器,解决了现有方法忽略提示信息提取和频域信息分析的问题,在光场显著目标检测任务中优于10个SOTA方法。
- Motivation: 现有模型在光场显著目标检测任务中往往忽略提示信息的提取,同时传统方法忽视频域信息分析,导致小目标被噪声淹没。
- Method: 提出了SPLF-SAM模型,包含统一多尺度特征嵌入块(UMFEB)用于识别不同尺寸的多目标,以及多尺度自适应滤波适配器(MAFA)通过学习频域特征防止小目标被噪声淹没。
- Result: 大量实验证明该方法在10个最先进的光场显著目标检测方法中表现出优越性能。
- Conclusion: SPLF-SAM通过创新的自提示机制和频域分析技术,有效解决了光场显著目标检测中的关键挑战,为相关领域提供了新的解决方案。
[51] FastAvatar: Towards Unified Fast High-Fidelity 3D Avatar Reconstruction with Large Gaussian Reconstruction Transformers
Yue Wu,Yufan Wu,Wen Li,Yuxi Lu,Kairui Feng,Xuanhong Chen
Main category: cs.CV
TL;DR: FastAvatar是一个快速3D虚拟人重建框架,能够在几秒内利用单张图像、多视角观测或单目视频等多种日常记录数据,通过单一统一模型重建高质量的3D高斯溅射模型。
- Motivation: 当前3D虚拟人重建面临时间复杂度过高、对数据质量敏感以及数据利用率低等挑战,需要一种能够灵活利用多样化输入数据并实现快速高质量重建的解决方案。
- Method: 采用大型高斯重建变换器,包含三个关键设计:变体VGGT风格变换器架构聚合多帧线索并注入初始3D提示;多粒度引导编码缓解动画引起的错位;通过地标跟踪和切片融合损失实现增量高斯聚合。
- Result: 实验表明,FastAvatar在质量和速度方面都优于现有方法,实现了质量-速度可调的高可用虚拟人建模范式。
- Conclusion: FastAvatar通过创新的变换器架构和增量重建机制,成功解决了3D虚拟人重建中的效率和质量问题,为实际应用提供了高质量的快速重建解决方案。
[52] BuzzSet v1.0: A Dataset for Pollinator Detection in Field Conditions
Ahmed Emam,Mohamed Elbassiouny,Julius Miller,Patrick Donworth,Sabine Seidel,Ribana Roscher
Main category: cs.CV
TL;DR: BuzzSet是一个新的大规模传粉昆虫图像数据集,包含7856张高分辨率图像和8000多个标注实例,用于支持自动化传粉昆虫监测。
- Motivation: 传粉昆虫对全球粮食生产和生态系统稳定至关重要,但其种群数量因人为和环境压力而下降,需要可扩展的自动化监测方法。
- Method: 使用YOLOv12模型生成初始标注并通过人工验证完善,所有图像预处理为256×256切片,采用RF-DETR基于transformer的目标检测器建立基准。
- Result: 模型在蜜蜂和大黄蜂类别上分别获得0.94和0.92的高F1分数,混淆矩阵显示类别间误分类极少,最佳mAP@0.50为0.559。
- Conclusion: BuzzSet为小目标检测、标签噪声下的类别分离和生态计算机视觉提供了有价值的基准数据集。
[53] AIM: Adaptive Intra-Network Modulation for Balanced Multimodal Learning
Shu Shen,C. L. Philip Chen,Tong Zhang
Main category: cs.CV
TL;DR: 本文提出AIM方法解决多模态学习中的优化偏差问题,通过自适应网络内调制实现平衡的多模态学习,在不抑制任何模态的情况下提升性能。
- Motivation: 现有不平衡多模态学习方法通常通过抑制主导模态来促进弱势模态,这影响了整体多模态性能。研究发现根本原因是网络内部的优化偏差问题。
- Method: 提出自适应网络内调制(AIM)方法:1)将主导模态未充分优化的参数解耦到辅助块中;2)鼓励在联合训练中依赖这些性能下降的块;3)根据网络深度自适应调整调制强度。
- Result: AIM在多个基准测试中优于最先进的不平衡模态学习方法,并在不同骨干网络、融合策略和优化器上表现出强大的泛化能力。
- Conclusion: AIM首次实现了在不抑制主导或弱势模态的情况下实现平衡的多模态学习,有效解决了网络内部优化偏差问题,为多模态学习提供了新的解决方案。
[54] The Return of Structural Handwritten Mathematical Expression Recognition
Jakob Seitz,Tobias Lengfeld,Radu Timofte
Main category: cs.CV
TL;DR: 本文提出了一种结构化手写数学表达式识别方法,通过自动标注系统和模块化识别系统,实现了符号到轨迹的显式对齐,在CROHME-2023基准测试中取得竞争性性能。
- Motivation: 现有基于编码器-解码器架构的大语言模型虽然擅长生成LaTeX,但缺乏符号到轨迹的显式对齐,这限制了错误分析、可解释性和需要选择性内容更新的空间感知交互应用。
- Method: 1) 使用神经网络将LaTeX方程映射到原始轨迹的自动标注系统,自动生成符号分割、分类和空间关系注释;2) 独立优化分割、分类和关系预测的模块化结构识别系统,结合基于图的轨迹排序、混合卷积-循环网络和基于transformer的校正。
- Result: 在CROHME-2023基准测试中实现了竞争性性能,能够生成完整的图结构,直接将手写轨迹与预测符号链接。
- Conclusion: 该方法通过结构化识别实现了符号到轨迹的显式对齐,为错误分析和可解释输出提供了透明性,对教育技术应用具有重要意义。
[55] MAPo : Motion-Aware Partitioning of Deformable 3D Gaussian Splatting for High-Fidelity Dynamic Scene Reconstruction
Han Jiao,Jiakai Sun,Yexing Xu,Lei Zhao,Wei Xing,Huaizhong Lin
Main category: cs.CV
TL;DR: MAPo提出一种动态场景重建新方法,通过动态分区策略和跨帧一致性损失,解决了传统变形方法在高动态区域渲染模糊和轻微运动失真的问题。
- Motivation: 传统变形场方法通过单一模型学习动态场景的时间变化,但在高动态区域容易产生模糊渲染和失去细微运动细节,因为单一模型无法有效表征多样化的运动模式。
- Method: MAPo框架采用动态评分策略,将3D高斯分为高动态和低动态两类。对高动态高斯进行时间递归分区,并为每个时间段复制变形网络,以专门学习细微运动。低动态高斯则作为静态处理以降低计算成本。同时通过跨帧一致性损失确保分区边界处的视觉连续性。
- Result: 实验结果显示,MAPo在保持类似计算成本的同时,完胜基线方法,特别是在复杂或快速运动的区域,获得了更高的渲染质量。
- Conclusion: MAPo通过动态分区策略和跨帧一致性优化,有效提升了3D高斯散点在动态场景重建中的表现,能够更好地捐捕复杂运动细节,为高保真动态渲染提供了有效解决方案。
[56] StableIntrinsic: Detail-preserving One-step Diffusion Model for Multi-view Material Estimation
Xiuchao Wu,Pengfei Zhu,Jiangjing Lyu,Xinguo Liu,Jie Guo,Yanwen Guo,Weiwei Xu,Chengfei Lyu
Main category: cs.CV
TL;DR: StableIntrinsic是一个用于多视角材质估计的一步扩散模型,能够生成高质量、低方差的材质参数,相比现有方法在多个指标上有显著提升
- Motivation: 现有的基于扩散模型的材质估计方法采用多步去噪策略,耗时且存在高方差问题,与确定性材质估计任务相冲突
- Method: 提出一步扩散模型StableIntrinsic,在像素空间应用基于材质特性的损失函数,并引入细节注入网络(DIN)来消除VAE编码造成的细节损失
- Result: 在PSNR指标上比现有最佳方法提升9.9%,金属和粗糙度的MSE分别降低44.4%和60.0%
- Conclusion: StableIntrinsic通过一步扩散和细节注入网络,实现了高质量、低方差的材质估计,显著优于现有方法
[57] Not Every Gift Comes in Gold Paper or with a Red Ribbon: Exploring Color Perception in Text-to-Image Models
Shay Shomer Chai,Wenxuan Peng,Bharath Hariharan,Hadar Averbuch-Elor
Main category: cs.CV
TL;DR: 本文针对文本到图像生成中多对象颜色语义对齐问题,提出了专门的图像编辑技术来改善多颜色提示的语义对齐效果。
- Motivation: 现有的文本到图像生成方法在处理复杂多对象提示时难以准确捕捉精确语义,特别是在颜色属性方面存在显著挑战。预训练模型在生成包含多个颜色属性的图像时表现不佳,现有的推理时技术和编辑方法也无法可靠解决这些语义不对齐问题。
- Method: 作者进行了关于颜色的案例研究,颜色作为与文本提示中对象相关联的基本属性,为严格评估提供了丰富的测试平台。他们引入了一种专门的图像编辑技术,专门针对包含多个颜色的提示中的多对象语义对齐问题。
- Result: 分析显示预训练模型在生成忠实反映多个颜色属性的图像方面存在困难,远不如单颜色提示的表现。提出的方法在各种基于扩散的文本到图像技术生成的图像上,通过广泛指标评估显著提升了性能。
- Conclusion: 该方法有效缓解了多对象语义对齐问题,特别是在处理包含多个颜色的文本提示时表现出色,为改进文本到图像生成中的语义保真度提供了有价值的解决方案。
[58] FusionSort: Enhanced Cluttered Waste Segmentation with Advanced Decoding and Comprehensive Modality Optimization
Muhammad Ali,Omar Ali AlSuwaidi
Main category: cs.CV
TL;DR: 提出了一种改进的编码器-解码器神经网络架构,通过综合注意力块、Mamba架构和数据融合块,显著提高了非生物降解废物分类的准确性和效率。
- Motivation: 废物管理中非生物降解材料的自动分类面临复杂多变的废物流挑战,需要更准确高效的分类系统。
- Method: 在现有编码器-解码器结构基础上,集成了综合注意力块(结合卷积和上采样操作)、Mamba架构的注意力机制,以及数据融合块(使用PCA降维处理多通道图像数据)。
- Result: 在RGB、高光谱、多光谱以及RGB与高光谱组合数据上的评估显示,该方法显著优于现有方法。
- Conclusion: 所提出的增强神经网络架构有效解决了复杂废物分类问题,在多种数据类型上都表现出优越性能。
[59] A bag of tricks for real-time Mitotic Figure detection
Christian Marzahl,Brian Napora
Main category: cs.CV
TL;DR: 这篇论文提出了一系列训练技巧,通过RTMDet单阶段检测器实现了高效、高准确的有丝切裂图识别,在多域数据集上获得了优秀的结果和速度平衡。
- Motivation: 解决组织学图像中有丝切裂图识别面临的挑战,包括扫描仪变异、染色协议差异、组织类型多样性以及干扰物存在等问题。
- Method: 基于RTMDet单阶段检测器,采用多域训练数据、平衡采样、谨慎数据增帽、以及针对坏死组织和废增的难样本挖掘技术来减少误检。
- Result: 在多个MF数据集上进行分组5折交叉验证,F1分数范围0.78-0.84。在MIDOG 2025挑战预测测试集上达到0.81的F1分数,超过更大模型。
- Conclusion: 该方法提供了准确性和速度之间的实用平衡,适合临床部署,并显示了对新领域的良好适应能力。
[60] Context-aware Sparse Spatiotemporal Learning for Event-based Vision
Shenqi Wang,Guangzhi Tang
Main category: cs.CV
TL;DR: 事件相机视觉新框架CSSL,通过上下文感知阈值动态调节神经元激活动,在保持高性能的同时实现极高的神经元激活稀疏度,适用于物体检测和光流估计任务。
- Motivation: 现有深度学习方法没有充分利用事件数据的稀疏特性,而神经网络在复杂任务上性能不足且激活稀疏度难以控制,限制了在边缘设备上的应用。
- Method: 提出上下文感知的稀疏时空间学习框架(CSSL),通过根据输入分布动态调节神经元激活阈值,无需显式稀疏约束即可降低激活密度。
- Result: 在事件基物体检测和光流估计任务中,CSSL达到了与最先进方法相当或更优的性能,同时保持极高的神经元激活稀疏度。
- Conclusion: CSSL框架为神经形处理实现高效的事件基视觉提供了关键技术,解决了性能与效率的平衡问题。
[61] AutoQ-VIS: Improving Unsupervised Video Instance Segmentation via Automatic Quality Assessment
Kaixuan Lu,Mehmet Onurcan Kaya,Dim P. Papadopoulos
Main category: cs.CV
TL;DR: AutoQ-VIS是一个无监督视频实例分割框架,通过质量引导的自训练方法,在无需人工标注的情况下实现了最先进的性能表现。
- Motivation: 视频实例分割需要像素级掩码和时间一致性标注,标注成本高昂。现有无监督方法依赖合成数据但存在合成到真实域的差距问题。
- Method: 建立伪标签生成和自动质量评估的闭环系统,通过质量引导的自训练实现从合成视频到真实视频的渐进式适应。
- Result: 在YouTubeVIS-2019验证集上达到52.6 AP50,比之前的SOTA方法VideoCutLER提升4.4%,且无需人工标注。
- Conclusion: 质量感知的自训练方法在无监督视频实例分割中具有可行性,成功弥合了合成到真实域的差距。
[62] ERSR: An Ellipse-constrained pseudo-label refinement and symmetric regularization framework for semi-supervised fetal head segmentation in ultrasound images
Linkuan Zhou,Zhexin Chen,Yufei Shen,Junlin Xu,Ping Xuan,Yixin Zhu,Yuqi Fang,Cong Cong,Leyi Wei,Ran Su,Jia Zhou,Qiangguo Jin
Main category: cs.CV
TL;DR: 提出ERSR半监督框架用于胎儿头部超声分割,通过双评分过滤、椭圆约束伪标签精炼和对称一致性正则化,在两个基准数据集上达到最先进性能
- Motivation: 胎儿头部超声自动分割对产前监测至关重要,但超声图像质量差和标注数据缺乏使鲁棒分割具有挑战性。现有半监督方法难以处理胎儿头部超声图像的特殊性,无法生成可靠伪标签和实施有效一致性约束
- Method: ERSR框架包含:1)双评分自适应过滤策略,使用边界一致性和轮廓规则性标准评估过滤教师输出;2)椭圆约束伪标签精炼,通过最小二乘椭圆拟合强化中心像素并抑制噪声;3)对称多一致性正则化,在扰动图像、对称区域和原始预测与伪标签间实施多层级一致性
- Result: 在HC18数据集上,使用10%和20%标注数据分别达到92.05%和95.36%的Dice分数;在PSFH数据集上,相同设置下分别达到91.68%和93.70%的Dice分数
- Conclusion: 该方法通过创新的伪标签生成和一致性约束机制,有效解决了胎儿头部超声分割中的标注数据缺乏和图像质量差的问题,在两个基准数据集上实现了最先进的性能表现
[63] Gradient Rectification for Robust Calibration under Distribution Shift
Yilin Zhang,Cai Xu,You Wu,Ziyu Guan,Wei Zhao
Main category: cs.CV
TL;DR: 通过频域视角分析分布偏移问题,提出低频筛波策略和梯度修正机制,在不需目标域信息的情况下提高模型在分布偏移环境下的检查准确性
- Motivation: 深度神经网络在分布偏移情况下容易产生过分自信的预测,影响在安全关键应用中的可靠性。现有方法需要目标域信息或模拟,在实际应用中有限
- Method: 从频域角度分析分布偏移对高频视觉线索的影响,提出低频筛波策略促进模型依赖域不变特征,并通过梯度基修正机制保持内部分布检查准确性
- Result: 在CIFAR-10/100-C和WILDS等合成和真实偏移数据集上验证,方法显著提高了分布偏移下的检查准确性,同时保持了良好的内部分布性能
- Conclusion: 该方法为在不需目标域信息的情况下提高深度模型在分布偏移环境中的可靠性提供了有效解决方案,具有实际应用价值
[64] Image Quality Assessment for Machines: Paradigm, Large-scale Database, and Models
Xiaoqi Wang,Yun Zhang,Weisi Lin
Main category: cs.CV
TL;DR: 这篇论文提出了一种机器视角中心的图像质量评估框架(MIQA),通过构建大规模数据库和区域感知模型,有效量化图像退化对机器视角系统性能的影响。
- Motivation: 机器视角系统在恶劣可见条件下容易出现性能退化,而传统基于人类视觉系统的图像质量评估方法并不适用于机器视角系统。
- Method: 构建了2.5M样本的MIQD数据库,涵盖75个视觉模型、250种退化类型和3个代表性视觉任务;提出区域感知MIQA(RA-MIQA)模型进行空间退化分析。
- Result: RA-MIQA在多个维度表现優异,在图像分类任务上一致性和准确性持平均提升13%以上,同时揭示了任务特定的退化敏感性。
- Conclusion: 研究证明传统HVS基于指标不适用于MVS质量预测,RA-MIQA框架为提高机器视角系统可靠性和机器中心图像处理奠定了基础。
[65] Ego-centric Predictive Model Conditioned on Hand Trajectories
Binjie Zhang,Mike Zheng Shou
Main category: cs.CV
TL;DR: 提出统一的两阶段预测框架,联合建模自我中心场景中的动作和视觉未来,通过手部轨迹条件化,实现动作预测和未来视频生成的统一处理。
- Motivation: 现有方法存在局限性:VLA模型只关注动作预测而缺乏对视觉场景影响的显式建模,视频预测模型生成未来帧时不基于特定动作条件,导致结果不真实或上下文不一致。需要同时预测下一个动作及其视觉结果来理解人-物交互和支持机器人规划。
- Method: 两阶段框架:第一阶段通过连续状态建模处理异构输入(视觉观察、语言、动作历史)并显式预测未来手部轨迹;第二阶段引入因果交叉注意力融合多模态线索,利用推断的动作信号指导基于图像的潜在扩散模型进行逐帧未来视频生成。
- Result: 在Ego4D、BridgeData和RLBench数据集上的大量实验表明,该方法在动作预测和未来视频合成方面均优于最先进的基线方法。
- Conclusion: 这是第一个统一处理自我中心人类活动理解和机器人操作任务的模型,能够显式预测即将发生的动作及其视觉后果,为egocentric场景提供了全面的预测能力。
[66] Multimodal Conditional MeshGAN for Personalized Aneurysm Growth Prediction
Long Chen,Ashiv Patel,Mengyun Qiao,Mohammad Yousuf Salmasi,Salah A. Hammouche,Vasilis Stavrinides,Jasleen Nagi,Soodeh Kalaie,Xiao Yun Xu,Wenjia Bai,Declan P. O'Regan
Main category: cs.CV
TL;DR: MCMeshGAN是一个多模态条件网格生成对抗网络,用于3D主动脉瘤生长预测,通过双分支架构结合局部KNN卷积网络和全局图卷积网络,在几何精度和临床直径估计方面优于现有方法。
- Motivation: 主动脉瘤进展的个性化准确预测对于及时干预至关重要,但由于需要同时建模复杂3D几何中的细微局部变形和全局解剖变化,这一任务仍然具有挑战性。
- Method: 提出MCMeshGAN,采用双分支架构:新颖的局部KNN卷积网络(KCN)保持精细几何细节,全局图卷积网络(GCN)捕获长程结构上下文。专用条件分支编码临床属性和目标时间间隔,生成解剖学合理的时间控制预测。
- Result: 在包含590个多模态记录的TAAMesh数据集上进行的广泛实验表明,MCMeshGAN在几何精度和临床重要直径估计方面始终优于最先进的基线方法。
- Conclusion: 该框架为临床可部署的个性化3D疾病轨迹建模提供了稳健的一步,源代码已公开。
[67] Self-supervised structured object representation learning
Oussama Hadjerci,Antoine Letienne,Mohamed Abbas Hedjazi,Adel Hafiane
Main category: cs.CV
TL;DR: 提出基于ProtoScale模块的自监督学习方法,通过语义分组、实例分离和层次结构构建结构化视觉表示,在目标检测任务中优于现有方法
- Motivation: 现有自监督学习方法在全局图像理解方面表现良好,但在捕捉场景结构化表示方面存在局限,特别是在密集预测任务中
- Method: 使用ProtoScale模块在多空间尺度上捕捉视觉元素,保持完整场景上下文(而非随机裁剪),结合语义分组、实例级分离和层次结构构建
- Result: 在COCO和UA-DETRAC数据集的目标检测任务中表现优异,即使使用有限标注数据和较少微调轮次也能超越最先进方法
- Conclusion: 该方法能够学习到以对象为中心的表征,显著提升监督式目标检测性能,证明了结构化表示学习的重要性
[68] TrajFusionNet: Pedestrian Crossing Intention Prediction via Fusion of Sequential and Visual Trajectory Representations
François G. Landry,Moulay A. Akhloufi
Main category: cs.CV
TL;DR: TrajFusionNet是一种基于Transformer的新模型,结合未来行人轨迹和车辆速度预测来预测行人过街意图,在推理时间和性能方面都达到最先进水平。
- Motivation: 随着自动驾驶车辆上路,准确预测行人过街意图成为重要研究课题,需要开发高效准确的预测模型来确保道路安全。
- Method: 提出TrajFusionNet模型,包含序列注意力模块(SAM)和视觉注意力模块(VAM)两个分支,分别从序列表示和视觉表示中学习,结合预测的行人轨迹和车辆速度信息。
- Result: 模型在三个常用数据集上达到最先进性能,同时具有最低的总推理时间(包括模型运行时间和数据预处理)。
- Conclusion: TrajFusionNet通过轻量级多模态融合,在行人过街意图预测任务中实现了性能和效率的双重优势,为自动驾驶系统提供了实用的解决方案。
[69] Sky Background Building of Multi-objective Fiber spectra Based on Mutual Information Network
Hui Zhang,Jianghui Cai,Haifeng Yang,Ali Luo,Yuqing Yang,Xiao Kong,Zhichao Ding,Lichan Zhou,Qin Han
Main category: cs.CV
TL;DR: 提出基于互信息的天空背景估计模型SMI,利用所有光纤光谱来估计天空背景,解决了传统方法依赖天空光纤平均光谱的局限性,在LAMOST光谱数据上验证了有效性。
- Motivation: 当前天空背景扣除主要依赖天空光纤光谱构建超级天空,但平均光谱缺乏对目标周围环境的建模,需要更精确的天空背景估计方法。
- Method: SMI模型包含两个主要网络:第一个网络使用波长校准模块从光谱中提取天空特征,解决特征偏移问题;第二个网络采用增量训练方法最大化不同光谱表示间的互信息来捕获共同成分,同时最小化相邻光谱表示间的互信息来获得个体成分。
- Result: 在LAMOST光谱上的实验结果表明,SMI能够在观测过程中获得更好的目标天空背景,特别是在蓝端表现更佳。
- Conclusion: SMI模型通过互信息和增量训练方法有效解决了天空背景估计问题,相比传统方法能提供更精确的天空背景扣除结果。
[70] Multispectral LiDAR data for extracting tree points in urban and suburban areas
Narges Takhtkeshha,Gabriele Mazzacca,Fabio Remondino,Juha Hyyppä,Gottfried Mandlburger
Main category: cs.CV
TL;DR: 本研究探索使用多光谱LiDAR和深度学习模型进行树木点提取,评估了三种先进模型,发现SPT模型在时间效率和准确性方面表现最佳,结合pNDVI和空间数据可显著降低错误率。
- Motivation: 城市树木动态监测对支持绿化政策和降低电力基础设施风险至关重要。虽然机载激光扫描技术推动了大规模树木管理,但复杂的城市环境和树木多样性仍带来挑战。
- Method: 使用多光谱LiDAR技术捕获3D空间和光谱数据,评估三种深度学习模型:Superpoint Transformer (SPT)、Point Transformer V3 (PTv3)和Point Transformer V1 (PTv1),并研究结合伪归一化植被指数(pNDVI)与空间数据的效果。
- Result: SPT模型表现出显著的时间效率和准确性,mIoU达到85.28%。结合pNDVI和空间数据实现了最高检测精度,与仅使用空间信息相比,错误率降低了10.61个百分点。
- Conclusion: 多光谱LiDAR和深度学习技术具有改善树木提取和进一步优化树木清单的潜力,为城市树木管理提供了有效的技术解决方案。
[71] PersonaAnimator: Personalized Motion Transfer from Unconstrained Videos
Ziyun Qian,Runyu Xiao,Shuyuan Tu,Wei Xue,Dingkang Yang,Mingcheng Li,Dongliang Kou,Minghao Han,Zizhi Chen,Lihua Zhang
Main category: cs.CV
TL;DR: 本文提出了PersonaAnimator框架,通过从无约束视频中学习个性化运动模式,解决了现有运动生成方法在风格学习、数据依赖和物理合理性方面的局限。
- Motivation: 现有方法存在三个主要问题:(1)姿态引导的运动迁移仅复制动作而不学习风格特征;(2)运动风格迁移严重依赖难以获取的动作捕捉数据;(3)生成的运动有时违反物理定律。
- Method: 提出PersonaAnimator框架,直接从无约束视频学习个性化运动模式,引入PersonaVid数据集(20个运动内容类别和120个运动风格类别),并采用物理感知的运动风格正则化机制确保物理合理性。
- Result: 大量实验表明,PersonaAnimator在运动迁移任务上优于现有最先进方法,为视频到视频运动个性化任务设立了新基准。
- Conclusion: 该工作开创了视频到视频运动个性化新任务,通过直接从视频学习个性化运动模式,解决了现有方法的局限性,并在效果和物理合理性方面取得了显著提升。
[72] Hyperspectral Sensors and Autonomous Driving: Technologies, Limitations, and Opportunities
Imad Ali Shah,Jiarong Li,Roshan George,Tim Brophy,Enda Ward,Martin Glavin,Edward Jones,Brian Deegan
Main category: cs.CV
TL;DR: 本文首次全面综述高光谱成像(HSI)在汽车ADAS/AD应用中的现状,分析216款商用HSI相机性能,发现仅有4款满足性能阈值且无一款符合AEC-Q100标准,揭示了HSI研究潜力与商业成熟度之间的显著差距。
- Motivation: 高光谱成像能够提供超越传统RGB成像的光谱分辨率,实现材料级别的场景理解,为高级驾驶辅助系统和自动驾驶应用提供变革性的感知能力,但需要系统评估其技术成熟度和实际应用可行性。
- Method: 采用定性综述方法,分析216款商用高光谱和多光谱成像相机,从帧率、空间分辨率、光谱维度和AEC-Q100温度标准符合性等关键汽车标准进行基准测试,并回顾近期HSI数据集和应用案例。
- Result: 分析显示仅有4款相机满足性能阈值,无一款符合AEC-Q100要求;当前HSI数据集在规模、光谱一致性、光谱通道数量和环境多样性方面存在局限,制约了感知算法开发和HSI真正潜力的验证。
- Conclusion: HSI在汽车应用中存在显著的研究潜力与商业成熟度差距,需要朝着实际集成到ADAS和自动驾驶系统的关键研究方向努力,包括改进相机性能、丰富数据集和解决环境适应性等问题。
[73] Streamlining the Development of Active Learning Methods in Real-World Object Detection
Moussa Kassem Sbeyti,Nadja Klein,Michelle Karg,Christian Wirth,Sahin Albayrak
Main category: cs.CV
TL;DR: 提出了一种基于对象相似性的度量方法OSS,用于目标检测中的主动学习,无需训练检测器即可评估AL方法效果,并选择代表性验证集,显著降低计算成本和提高评估可靠性。
- Motivation: 解决目标检测中主动学习方法评估的高计算成本(单次训练需282 GPU小时)和评估结果在不同验证集上不一致的可靠性问题,特别是在自动驾驶等安全关键系统中。
- Method: 开发了对象级集合相似性度量OSS,通过比较训练集与目标域的对象级特征相似性来评估AL方法效果,无需实际训练检测器。该方法可提前筛选无效AL方法并选择代表性验证集。
- Result: 在KITTI、BDD100K、CODA三个自动驾驶数据集上验证,使用EfficientDet和YOLOv3两种检测器架构,证明OSS能有效评估不确定性AL方法,显著降低计算成本。
- Conclusion: OSS是首个基于对象相似性统一目标检测中AL训练和评估策略的方法,具有检测器无关性、仅需标注对象裁剪、可与现有AL管道集成等优点,为实际应用提供了计算高效和评估可靠的框架。
[74] Integrating SAM Supervision for 3D Weakly Supervised Point Cloud Segmentation
Lechun You,Zhonghua Wu,Weide Liu,Xulei Yang,Jun Cheng,Wei Zhou,Bharadwaj Veeravalli,Guosheng Lin
Main category: cs.CV
TL;DR: 提出了一种利用2D基础模型分割掩码来增强稀疏3D标注的新方法,通过几何对应关系将2D分割传播到3D空间,并结合置信度和不确定性正则化来生成可靠的伪标签
- Motivation: 解决3D点云数据标注困难的问题,现有方法通常只关注3D域而忽略了2D和3D数据的互补性,且未能充分利用生成的伪标签或处理其中的噪声
- Method: 利用2D基础模型生成分割掩码,通过几何对应关系将2D分割传播到3D空间,扩展稀疏标注范围;应用置信度和不确定性一致性正则化选择可靠伪标签,并在3D掩码上进一步传播
- Result: 该方法有效利用了2D基础模型的强大能力,显著增加了可用标注数量,提高了3D弱监督分割的性能
- Conclusion: 通过桥接有限3D标注与强大2D基础模型之间的差距,提出了一种创新的3D弱监督分割策略,实现了性能提升
[75] WaveHiT-SR: Hierarchical Wavelet Network for Efficient Image Super-Resolution
Fayaz Ali,Muhammad Zawish,Steven Davy,Radu Timofte
Main category: cs.CV
TL;DR: 提出WaveHiT-SR方法,通过在小波变换中嵌入分层Transformer框架,使用自适应分层窗口替代静态小窗口,在降低计算复杂度的同时提升超分辨率性能
- Motivation: 现有基于Transformer的超分辨率方法使用固定小窗口的自注意力机制,存在二次计算复杂度和有限感受野的问题,限制了长距离依赖建模能力
- Method: 1) 使用自适应分层窗口替代静态小窗口;2) 利用小波变换将图像分解为多频段子带;3) 通过分层处理逐步重建高分辨率图像;4) 多级分解策略同时捕获低频细节和高频纹理
- Result: 在SwinIR-Light、SwinIR-NG和SRFormer-Light等模型上实现最先进的超分辨率结果,参数量更少、FLOPs更低、速度更快
- Conclusion: WaveHiT-SR通过结合小波变换和分层Transformer框架,有效解决了计算复杂度问题,同时提升了超分辨率性能,在效率和效果方面都表现出色
[76] KRETA: A Benchmark for Korean Reading and Reasoning in Text-Rich VQA Attuned to Diverse Visual Contexts
Taebaek Hwang,Minseo Kim,Gisang Lee,Seonuk Kim,Hyunjun Eun
Main category: cs.CV
TL;DR: KRETA是首个针对韩语的文本丰富视觉问答基准数据集,填补了低资源语言在视觉文本理解和推理评估方面的空白
- Motivation: 解决韩语等低资源语言缺乏文本丰富视觉问答基准的问题,现有基准主要集中在英语等高资源语言
- Method: 开发半自动化的VQA生成流水线,采用分步图像分解和七指标评估协议来确保数据质量,涵盖15个领域和26种图像类型
- Result: 创建了KRETA基准数据集,支持对视觉文本理解和推理能力的深入评估,为韩语VLM研究提供标准化测试平台
- Conclusion: KRETA不仅为韩语VQA研究提供重要基准,其可扩展的流水线方法也有助于其他语言类似基准的开发,推动多语言VLM研究发展
[77] Reimagining Image Segmentation using Active Contour: From Chan Vese Algorithm into a Proposal Novel Functional Loss Framework
Gianluca Guzzetta
Main category: cs.CV
TL;DR: 本文对Chan-Vese图像分割算法进行了全面研究,提出了基于活动轮廓的功能性分割损失方法,并与传统损失函数进行了性能比较。
- Motivation: 深入研究Chan-Vese算法的理论基础,并将其与现代计算机视觉方法结合,开发更有效的分割损失函数。
- Method: 采用离散化方案分析Chan-Vese模型的功能能量和偏微分方程,基于水平集函数实现,使用MATLAB和PyTorch进行实现。
- Result: 提出了基于活动轮廓的功能性分割损失方法,在常见计算机视觉分割数据集上进行了性能评估。
- Conclusion: 该方法为图像分割提供了新的损失函数设计思路,代码和材料已开源供研究使用。
[78] Assessing the Geolocation Capabilities, Limitations and Societal Risks of Generative Vision-Language Models
Oliver Grainge,Sania Waheed,Jack Stilgoe,Michael Milford,Shoaib Ehsan
Main category: cs.CV
TL;DR: 视觉-语言模型在图片地理定位上存在严重隐私风险,尤其是在社交媒体图片上达到61%的准确率,而通用街道图片表现弱弱
- Motivation: 识别视觉-语言模型在图片地理定位方面的能力、限制和潜在隐私风险,因为这些模型的准确性提升可能带来监视和追踪等严重隐私问题
- Method: 对25个最先进的视觉-语言模型在4个多样环境的标准图片数据集上进行全面评估,分析其地理定位能力
- Result: 当前VLM在通用街道图片上表现弱弱,但在类似社交媒体内容的图片上达到61%的高准确率,引发严重隐私担忧
- Conclusion: 视觉-语言模型的地理定位能力带来了急需关注的隐私风险,需要系统性的评估和监管措施来应对这些潜在社会风险
[79] GLSim: Detecting Object Hallucinations in LVLMs via Global-Local Similarity
Seongheon Park,Yixuan Li
Main category: cs.CV
TL;DR: GLSim是一个无需训练的对象幻觉检测框架,通过结合全局和局部嵌入相似性信号,在图像和文本模态之间实现更准确可靠的幻觉检测,显著优于现有方法。
- Motivation: 大型视觉语言模型中的对象幻觉问题严重影响了其在现实应用中的安全部署。现有方法通常单独采用全局或局部视角,限制了检测的可靠性。
- Method: GLSim框架利用图像和文本模态之间的互补性全局和局部嵌入相似性信号,无需训练即可进行对象幻觉检测。
- Result: 在全面的基准测试中,GLSim实现了卓越的检测性能,显著优于竞争基线方法。
- Conclusion: GLSim通过结合全局和局部视角,为对象幻觉检测提供了更准确可靠的解决方案,有助于提升视觉语言模型的安全部署。
[80] GS: Generative Segmentation via Label Diffusion
Yuhao Chen,Shubin Chen,Liang Lin,Guangrun Wang
Main category: cs.CV
TL;DR: GS(生成式分割)是一个新颖框架,将分割本身通过标签扩散公式化为生成任务,直接从噪声生成分割掩码,在语言驱动图像分割任务上达到最先进性能。
- Motivation: 现有方法主要将分割视为判别式问题或图像扩散的辅助过程,缺乏将分割本身作为主要生成目标的端到端框架。
- Method: 提出生成式分割框架GS,通过标签扩散直接生成分割掩码,以输入图像和语言描述为条件,实现端到端训练和空间语义保真度控制。
- Result: 在Panoptic Narrative Grounding基准测试中,GS显著优于现有的判别式和基于扩散的方法,创造了新的最先进水平。
- Conclusion: 将分割公式化为生成任务而非判别式问题是一个有前景的方向,GS框架为语言驱动分割任务提供了新的有效解决方案。
[81] Segmentation Assisted Incremental Test Time Adaptation in an Open World
Manogna Sreenivas,Soma Biswas
Main category: cs.CV
TL;DR: 本文提出了SegAssist框架,用于视觉语言模型的增量测试时适应,通过分割辅助的主动标注技术处理测试时出现的新类别和新域
- Motivation: 解决动态环境中部署的模型遇到未知对象和分布偏移时的泛化挑战,特别是测试时持续出现未见类别和未见域的问题
- Method: 结合单图像TTA方法和主动标注技术,提出训练无关的SegAssist模块,利用VLM的分割能力精化主动样本选择,优先选择可能属于未见类别的样本
- Result: 在多个基准数据集上的广泛实验表明,SegAssist能够有效提升VLM在需要持续适应新兴数据的真实场景中的性能
- Conclusion: SegAssist框架为视觉语言模型在动态环境中的增量测试时适应提供了有效的解决方案,特别是在处理同时出现的协变量偏移和标签偏移方面表现出色
[82] OpenM3D: Open Vocabulary Multi-view Indoor 3D Object Detection without Human Annotations
Peng-Hao Hsu,Ke Zhang,Fu-En Wang,Tao Tu,Ming-Feng Li,Yu-Lun Liu,Albert Y. C. Chen,Min Sun,Cheng-Hao Kuo
Main category: cs.CV
TL;DR: OpenM3D是一个无需人工标注的开词汇多视角室内3D目标检测器,通过2D诱导的体素特征和伪3D框生成技术,在精度和速度上超越现有方法
- Motivation: 开词汇3D目标检测领域主要基于3D点云方法,基于图像的方法探索有限,需要开发无需人工标注的高效检测器
- Method: 采用单阶段检测器架构,结合2D诱导体素特征、图嵌入技术生成3D伪框、体素-语义对齐损失,使用CLIP特征进行训练
- Result: 在ScanNet200和ARKitScenes基准测试中达到0.3秒每场景的速度,精度和速度均优于现有的两阶段方法和基线方法
- Conclusion: OpenM3D证明了无需人工标注的开词汇3D检测的可行性,通过高质量的伪框和特征对齐实现了高效准确的检测
[83] Patch Progression Masked Autoencoder with Fusion CNN Network for Classifying Evolution Between Two Pairs of 2D OCT Slices
Philippe Zhang,Weili Jiang,Yihao Li,Jing Zhang,Sarah Matta,Yubo Tan,Hui Lin,Haoshen Wang,Jiangtian Pan,Hui Xu,Laurent Borderie,Alexandre Le Guilcher,Béatrice Cochener,Chubin Ou,Gwenolé Quellec,Mathieu Lamard
Main category: cs.CV
TL;DR: 这是一份关于黄斑变性渗透性视网膜病变(AMD)进展监测的研究报告,参与MARIO挑战赛并在两个任务中获得前10名的成绩。
- Motivation: 及时诊断和一质性监测可以提高防治血管内皮生长因子(anti-VEGF)治疗黄斑变性渗透性视网膜病变的效果,进展追踪能够为患者制定个性化治疗方案。
- Method: 任务1:使用融合CNN网络和模型集成技术对连续OCT采集的2D切片进行分类。任务2:提出补丁进展遮码自动编码器,生成下次检查的OCT图像,然后使用任务1的方法分类进展情况。
- Result: 在MARIO挑战赛的两个任务中都获得了前10名的成绩,但因为部分团队成员与组委会有关联,不符合奖项评选资格。
- Conclusion: 研究开发的方法能够有效监测AMD病情进展,为临床诊疗提供了有力的技术支持,对个性化治疗方案的制定具有重要意义。
[84] PAUL: Uncertainty-Guided Partition and Augmentation for Robust Cross-View Geo-Localization under Noisy Correspondence
Zheng Li,Yanming Guo,WenZhe Liu,Xueyi Zhang,Zhaoyun Ding,Long Xu,Mingrui Lao
Main category: cs.CV
TL;DR: 本文提出PAUL框架解决跨视角地理定位中的噪声对应问题,通过不确定性学习和选择性增强来处理GPS漂移导致的图像对未对齐问题
- Motivation: 现有跨视角地理定位方法假设训练图像对完美对齐,但实际中GPS漂移等因素导致系统性的对齐偏移,只有部分对应关系存在,这种噪声对应问题在实际应用中普遍但研究较少
- Method: 提出PAUL框架,通过不确定性学习进行数据分区和增强:1)基于估计的数据不确定性进行不确定性感知协同增强;2)证据协同训练;3)选择性增强高对应置信度区域;4)利用不确定性估计优化特征学习
- Result: 综合实验验证了PAUL各组件有效性,在不同噪声比例下 consistently 优于其他竞争性噪声对应驱动方法
- Conclusion: PAUL框架有效解决了跨视角地理定位中的噪声对应问题,通过不确定性驱动的分区和增强策略,为噪声样本提供鲁棒监督,弥合了理想基准与实际应用之间的差距
[85] Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies
Zhixuan Liang,Yizhuo Li,Tianshuo Yang,Chengyue Wu,Sitong Mao,Liuao Pei,Xiaokang Yang,Jiangmiao Pang,Yao Mu,Ping Luo
Main category: cs.CV
TL;DR: Discrete Diffusion VLA是一种统一架构的视觉-语言-动作模型,使用离散扩散方法建模离散化动作块,通过渐进式精炼和二次重掩码实现自适应解码顺序和错误纠正,在多个基准测试中优于自回归和连续扩散基线。
- Motivation: 现有的VLA解码器要么采用固定的自回归顺序生成动作,要么在主干网络外附加连续扩散头,需要专门训练和迭代采样,阻碍了统一、可扩展架构的发展。
- Method: 提出离散扩散VLA,使用单一transformer策略,通过离散扩散建模离散化动作块,采用与VLM主干相同的交叉熵目标进行训练,支持并行解码和自适应解码顺序。
- Result: 在LIBERO上达到96.3%平均成功率,SimplerEnv Fractal上71.2%视觉匹配率,SimplerEnv Bridge上49.3%总体性能,优于自回归和连续扩散基线。
- Conclusion: 离散扩散动作解码器支持精确的动作建模和一致的训练,为将VLA扩展到更大模型和数据集奠定了基础。
[86] Seam360GS: Seamless 360° Gaussian Splatting from Real-World Omnidirectional Images
Changha Shin,Woong Oh Cho,Seon Joo Kim
Main category: cs.CV
TL;DR: 通过3D高斯拟合技术优化双鱼眼摄像机模型,解决全景图像编辑中的镜头分离和角度异常问题,生成无缝的新视角渲染效果
- Motivation: 消费级双鱼眼系统在全景图像生成中存在镜头分离和角度异常等问题,影响虚拟现实、机器人学和自主导航的应用质量
- Method: 将双鱼眼摄像机模型集成到3D高斯拟合流水线,通过联合优化3D高斯参数和模拟镜头间隔、角度异常的校准变量,实现对不完美全景输入的转换
- Result: 在真实数据集上的广泛评估显示,该方法能够从不完美图像生成无缝的渲染效果,表现超过现有的360度渲染模型
- Conclusion: 该框架不仅能够模拟双鱼眼摄像机产生的实际视觉效果,还能生成无缝的360度图像,为全景图像处理提供了有效的解决方案
[87] AudioStory: Generating Long-Form Narrative Audio with Large Language Models
Yuxin Guo,Teng Wang,Yuying Ge,Shijie Ma,Yixiao Ge,Wei Zou,Ying Shan
Main category: cs.CV
TL;DR: AudioStory是一个将大语言模型与文本到音频生成系统结合的框架,专门用于生成长篇叙事音频,具有时间连贯性和情感一致性。
- Motivation: 现有的文本到音频生成技术在生成长篇叙事音频时存在困难,缺乏时间连贯性和组合推理能力,需要一个新的框架来解决这些问题。
- Method: 使用大语言模型将复杂叙事查询分解为时间有序的子任务,采用解耦的桥接机制(语义对齐和连贯性保持)和端到端训练方法。
- Result: 在单音频生成和叙事音频生成任务上都超越了之前的基线方法,在指令跟随能力和音频保真度方面表现优异。
- Conclusion: AudioStory通过整合LLM和TTA系统,成功解决了长篇叙事音频生成的挑战,建立了新的基准数据集AudioStory-10K,为相关研究提供了重要贡献。
[88] Bridging Domain Gaps for Fine-Grained Moth Classification Through Expert-Informed Adaptation and Foundation Model Priors
Ross J Gardiner,Guillaume Mougeot,Sareh Rowlands,Benno I Simmons,Flemming Helsing,Toke Thomas Høye
Main category: cs.CV
TL;DR: 提出轻量级分类方法,结合专家标注数据和BioCLIP2知识蒸馏,在丹麦蛾类识别中实现高精度且计算成本低
- Motivation: 自动相机系统采集的蛾类图像标注对理解昆虫减少很重要,但野外图像与标准图像存在域偏移,准确物种识别具有挑战性
- Method: 结合有限专家标注的野外数据和BioCLIP2基础模型的知识蒸馏,使用ConvNeXt-tiny架构构建轻量级分类模型
- Result: 在101种丹麦蛾类的AMI相机系统实验中,BioCLIP2显著优于其他方法,蒸馏后的轻量模型达到相当精度且计算成本大幅降低
- Conclusion: 为高效昆虫监测系统开发提供实用指南,弥合细粒度分类的域差距
[89] CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning
Zeyi Sun,Yuhang Cao,Jianze Liang,Qiushi Sun,Ziyu Liu,Zhixiong Zhang,Yuhang Zang,Xiaoyi Dong,Kai Chen,Dahua Lin,Jiaqi Wang
Main category: cs.CV
TL;DR: CODA是一个可训练的组合框架,通过两阶段训练流程整合通用规划器和专业执行器,在科学计算GUI任务中实现了卓越的执行精度和跨领域泛化能力。
- Motivation: 解决GUI自主代理在科学计算领域面临的长期规划与精确执行之间的权衡问题,现有方法要么擅长规划但执行差,要么执行好但规划弱,且缺乏从经验中学习的能力。
- Method: 提出CODA框架,包含通用规划器Cerebrum和专业执行器Cerebellum。采用两阶段训练:专业化阶段使用解耦GRPO方法为每个科学应用训练专家规划器;泛化阶段聚合成功轨迹进行监督微调。
- Result: 在ScienceBenchmark的四个挑战性应用上评估,CODA显著超越基线方法,在开源模型中建立了新的最先进水平。
- Conclusion: CODA成功解决了科学计算GUI任务中规划与执行的权衡问题,通过可训练的组合框架实现了强大的执行能力和跨领域泛化性能。
cs.RO
[90] DATR: Diffusion-based 3D Apple Tree Reconstruction Framework with Sparse-View
Tian Qiu,Alan Zoubi,Yiyuan Lin,Ruiming Du,Lailiang Cheng,Yu Jiang
Main category: cs.RO
TL;DR: 提出了DATR两阶段框架,用于从稀疏视图重建苹果树3D模型,结合扩散模型和大重建模型,在真实和合成数据集上均优于现有方法,吞吐量提升360倍
- Motivation: 数字孪生应用需要高精度3D重建,但现有方法在野外稀疏和遮挡视图条件下表现不佳,特别是在农业场景中苹果树的重建面临挑战
- Method: 两阶段框架:第一阶段使用机载传感器和基础模型从复杂田间图像半自动生成树掩码;第二阶段使用扩散模型和大重建模型进行单图像到3D重建,通过Real2Sim数据生成器训练模型
- Result: 在真实和合成数据集上均优于现有3D重建方法,域特征估计达到工业级激光扫描仪水平,吞吐量提升约360倍
- Conclusion: DATR框架展示了构建可扩展农业数字孪生系统的强大潜力,能够高效处理野外稀疏视图条件下的树木重建任务
[91] Context-Aware Risk Estimation in Home Environments: A Probabilistic Framework for Service Robots
Sena Ishii,Akash Chikhalikar,Ankit A. Ravankar,Jose Victorio Salazar Luces,Yasuhisa Hirata
Main category: cs.RO
TL;DR: 提出了一个基于语义图传播算法的室内场景事故风险区域估计框架,通过对象级风险评估和上下文传播来提升服务机器人的风险感知能力
- Motivation: 随着机器人融入日常生活,特别是在家庭环境中,预测和应对环境危险对于确保用户安全、信任和有效的人机交互至关重要
- Method: 使用语义图传播算法建模对象级风险和上下文,每个对象作为具有风险分数的节点,风险基于空间邻近性和事故关系从高风险对象向低风险对象不对称传播
- Result: 在人工标注风险区域的数据集上验证,二元风险检测准确率达到75%,在涉及尖锐或不稳定物体的场景中与人类感知高度一致
- Conclusion: 该框架展示了上下文感知风险推理在增强机器人场景理解和主动安全行为方面的潜力,可作为未来上下文驱动安全决策系统的基础
cs.LG
[92] Efficient Multi-Source Knowledge Transfer by Model Merging
Marcin Osial,Bartosz Wójcik,Bartosz Zieliński,Sebastian Cygert
Main category: cs.LG
TL;DR: 提出基于奇异值分解的多源迁移学习框架,通过分解源模型为基本组件并选择最显著组件进行聚合,实现高效知识融合和迁移
- Motivation: 传统迁移学习忽视了利用在线大量可用模型的机会,现有方法在细粒度知识提取和聚合效率方面存在不足,无法处理大量源模型或高参数量模型
- Method: 使用奇异值分解将每个源模型分解为基本的一阶组件,然后从所有源中选择最显著的组件进行聚合,仅微调合并矩阵的主奇异值来适应目标任务
- Result: 该方法实现了高效的迁移学习,对输入级和参数空间的扰动具有鲁棒性(如噪声或剪枝源),计算扩展性良好
- Conclusion: 通过SVD分解和选择性聚合,解决了多源迁移学习中的效率和精度问题,为利用在线模型知识提供了有效途径
[93] Fine-Tuning Vision-Language Models for Neutrino Event Analysis in High-Energy Physics Experiments
Dikshant Sagar,Kaiwen Yu,Alejandro Yankelevich,Jianming Bian,Pierre Baldi
Main category: cs.LG
TL;DR: 基于LLaMA 3.2的视觉语言模型在高能物理中微子相互作用分类任务上表现优于传统CNN方法,支持多模态推理
- Motivation: 探索大型语言模型在多模态推理方面的潜力,特别是在高能物理实验中对中微子相互作用进行分类的任务
- Method: 使用基于LLaMA 3.2的视觉语言模型进行微调,将其性能与NOvA和DUNE实验中使用的CNN基线模型进行对比评估
- Result: VLM不仅达到或超过了CNN的性能,还支持更丰富的推理能力,并能更好地整合辅助文本或语义上下文
- Conclusion: 视觉语言模型为高能物理中的事件分类提供了一个有前景的通用骨干网络,为实验性中微子物理中的多模态方法铺平了道路
[94] NM-Hebb: Coupling Local Hebbian Plasticity with Metric Learning for More Accurate and Interpretable CNNs
Davorin Miličević,Ratko Grbić
Main category: cs.LG
TL;DR: NM-Hebb是一个两阶段训练框架,结合神经启发的局部可塑性和距离感知监督,提高CNN的准确性和可解释性,在多个数据集和骨干网络上实现显著性能提升。
- Motivation: 传统CNN依赖全局梯度优化,容易导致过拟合、冗余滤波器和可解释性降低。需要结合生物启发机制来改善这些问题。
- Method: 两阶段训练:阶段1在交叉熵损失基础上加入Hebbian正则器和可学习神经调节器;阶段2使用成对度量学习损失进行微调,压缩类内距离并扩大类间间隔。
- Result: 在CIFAR-10、CIFAR-100和TinyImageNet上,Top-1准确率提升2.0-10.0个百分点,NMI提升最高0.15,产生更结构化、选择性更强的特征。
- Conclusion: 结合局部Hebbian可塑性和基于度量的微调,可以产生更准确、更可解释的CNN,对资源受限和安全关键AI部署具有实际价值。
cs.CR
[95] A Technical Review on Comparison and Estimation of Steganographic Tools
Ms. Preeti P. Bhatt,Rakesh R. Savant
Main category: cs.CR
TL;DR: 这篇评论文章对图像隐文技术进行了分类,并通过实验比较了六种常用的图像隐文工具的性能效果。
- Motivation: 图像隐文技术在信息隐藏领域应用广泛,需要对市面上的隐文工具进行系统性评估和比较,以确定哪些工具更高效。
- Method: 选择六种常用的图像隐文工具,在相同的输入图像中嵌入特定文本。通过分析图像特征(大小、尺寸、像素值、直方图差异)来评估各工具的性能效果。
- Result: 实验结果显示所有六种工具表现相似,但某些软件在效率方面更优。性能评估主要基于图像特征的变化分析。
- Conclusion: 虽然各工具整体性能相近,但仍存在效率差异,这为用户选择适合的图像隐文工具提供了实验依据。
[96] Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered Smartphone Agents
Zhixin Lin,Jungang Li,Shidong Pan,Yibo Shi,Yue Yao,Dongliang Xu
Main category: cs.CR
TL;DR: 首个大规模智能手机代理隐私意识基准测试,涵盖7138个场景,显示主流代理隐私意识普遍不足(低于60%),闭源代理表现优于开源,Gemini 2.0-flash最佳(67%)。
- Motivation: 现有智能手机代理在自动化任务时被授予大量敏感个人信息访问权限,但对其隐私意识缺乏系统评估,需要全面了解这些代理的隐私保护能力。
- Method: 构建包含7138个场景的大规模基准测试,标注隐私类型、敏感度等级和位置信息,对7个主流智能手机代理进行系统评估。
- Result: 几乎所有代理的隐私意识表现都不理想(低于60%),闭源代理优于开源代理,Gemini 2.0-flash表现最佳(67%)。隐私检测能力与场景敏感度等级高度相关。
- Conclusion: 智能手机代理在效用与隐私之间存在不平衡的权衡,研究社区需要重新思考这一问题。基准测试代码和数据已开源。
[97] Addressing Deepfake Issue in Selfie banking through camera based authentication
Subhrojyoti Mukherjee,Manoranjan Mohanty
Main category: cs.CR
TL;DR: 本文探讨将已有的相机定位取证系统应用于深度伪造检测,以应对自拍银行中日益严重的伪造图像威胁
- Motivation: 随着深度学习技术的发展,伪造图像在自拍银行中构成严重威胁,欺诈者利用高度逼真的假身份绕过面部识别等生物识别系统
- Method: 使用已建立的取证识别系统(原用于图片相机定位)进行深度伪造检测
- Result: 未在摘要中明确说明具体结果
- Conclusion: 将现有的取证技术重新应用于深度伪造检测是应对自拍银行安全威胁的一种可行方法
q-bio.NC
[98] Saccade crossing avoidance as a visual search strategy
Alex Szorkovszky,Rujeena Mathema,Pedro Lencastre,Pedro Lind,Anis Yazidi
Main category: q-bio.NC
TL;DR: 研究发现视觉搜索中存在一种新的记忆依赖效应——自我交叉回避,即眼跳倾向于避免与早期扫描路径交叉,这种效应在个体间差异显著且最强时包含约7秒的路径历史。
- Motivation: 虽然视觉搜索看似随机,但存在多种眼动偏差,其中较长路径历史的影响难以量化。本研究旨在探索视觉搜索中基于记忆的路径依赖效应。
- Method: 使用运动生态学中常用的步骤选择框架,分析45秒"寻找沃尔多"任务的眼动数据,比较真实数据与无记忆空间统计模型生成的合成数据,并通过最大似然拟合和参数化概率模型进行验证。
- Result: 发现了自我交叉回避效应,效应大小与已知的历史依赖形式(如返回抑制)相当。具有较高交叉回避倾向的参与者表现出较小的眼跳长度和较短的注视持续时间。
- Conclusion: 交叉回避是一种局部定向策略,有助于促进和补充返回抑制,从而促进视觉场景的探索。
cs.CL
[99] MovieCORE: COgnitive REasoning in Movies
Gueter Josmy Faure,Min-Hung Chen,Jia-Fong Yeh,Ying Cheng,Hung-Ting Su,Yung-Hao Tang,Shang-Hong Lai,Winston H. Hsu
Main category: cs.CL
TL;DR: MovieCORE是一个新颖的视频问答数据集,专注于电影内容的深层认知理解,通过多智能体脑暴方法生成高质量问题,并提出ACE模块提升模型推理能力25%。
- Motivation: 现有视频问答数据集主要关注表层理解,缺乏对电影内容深层认知理解的测评,需要开发能够评估系统2思维的高质量数据集。
- Method: 采用多LLM智能体脑暴方法生成和精炼高质量问答对,开发认知测试评估数据集质量,并提出Agentic Choice Enhancement (ACE)模块增强现有视频语言模型的推理能力。
- Result: 成功构建了MovieCORE数据集,包含深度认知问题,ACE模块将模型推理能力提升达25%,为评估VQA模型在深层认知任务上的表现提供了全面方案。
- Conclusion: 该工作推动了AI系统对电影理解的发展,揭示了当前VQA模型在处理具有挑战性的电影内容问题时的能力与局限,为未来研究提供了重要基础。
[100] Bangla-Bayanno: A 52K-Pair Bengali Visual Question Answering Dataset with LLM-Assisted Translation Refinement
Mohammed Rakibul Hasan,Rafi Majid,Ahanaf Tahmid
Main category: cs.CL
TL;DR: 提出了Bangla-Bayanno数据集,这是孟加拉语的开源视觉问答数据集,包含52,650个问答对和4,750+图像,采用多语言LLM辅助翻译流程确保质量
- Motivation: 现有数据集多为特定领域手动标注或受限于特定答案格式,孟加拉语作为低资源语言在多模态AI研究中缺乏高质量基准数据集
- Method: 使用多语言大语言模型辅助的翻译精炼流程,避免人工翻译错误,确保清晰度。将问题分为三类答案类型:名词性、数量性和极性
- Result: 创建了包含52,650个问答对和4,750+图像的孟加拉语VQA数据集,克服了多语言来源的低质量翻译问题
- Conclusion: Bangla-Bayanno提供了最全面的开源高质量孟加拉语VQA基准,旨在推动低资源多模态学习研究,促进更具包容性的AI系统发展
[101] 11Plus-Bench: Demystifying Multimodal LLM Spatial Reasoning with Cognitive-Inspired Analysis
Chengzu Li,Wenshan Wu,Huanyu Zhang,Qingtao Li,Zeyu Gao,Yan Xia,José Hernández-Orallo,Ivan Vulić,Furu Wei
Main category: cs.CL
TL;DR: 本文提出了11Plus-Bench基准测试,系统评估多模态大语言模型的空间推理能力,发现当前MLLMs展现出空间认知的早期迹象,但与人类存在较大性能差距。
- Motivation: 人类认知过程中空间推理与感知紧密相关,但多模态大语言模型在这方面的能力尚未得到充分探索和评估。
- Method: 构建11Plus-Bench基准测试,基于真实标准化空间能力测试,包含细粒度专家标注的感知复杂度和推理过程,对14个MLLMs进行广泛实验并与人类表现对比。
- Result: 当前MLLMs表现出空间认知的早期迹象,认知努力与推理相关复杂度强相关,但实例级性能仍主要随机,而人类表现高度可预测且受抽象模式复杂度影响。
- Conclusion: 研究揭示了当前MLLMs在空间推理能力方面的新兴能力和局限性,为模型设计提供了可操作的见解。
cs.AI
[102] SWIRL: A Staged Workflow for Interleaved Reinforcement Learning in Mobile GUI Control
Quanfeng Lu,Zhantao Ma,Shuai Zhong,Jin Wang,Dahai Yu,Michael K. Ng,Ping Luo
Main category: cs.AI
TL;DR: SWIRL是一种分阶段的多智能体强化学习工作流,将MARL分解为单智能体RL任务序列,通过逐个更新智能体实现稳定训练和高效协调,在移动GUI控制和数学推理任务中表现优异
- Motivation: 现有单智能体方法存在结构限制,而多智能体强化学习(MARL)效率低下且与当前大视觉语言模型架构不兼容,需要新的多智能体系统训练框架
- Method: SWIRL采用分阶段交错强化学习工作流,将MARL重新表述为单智能体RL任务序列,每次只更新一个智能体而保持其他智能体固定
- Result: 在移动GUI控制任务中,SWIRL在高层和低层GUI基准测试上都表现出优越性能,同时在多智能体数学推理任务中也展现出强大能力
- Conclusion: SWIRL作为一个通用框架,具有开发高效、稳健多智能体系统的潜力,通过理论保证和实验验证证明了其有效性
astro-ph.IM
[103] Modeling spectral filtering effects on color-matching functions: Implications for observer variability
Luvin Munish Ragoo,Ivar Farup,Casper F. Andersen,Graham Finlayson
Main category: astro-ph.IM
TL;DR: 通过光谱筛波技术研究观察者变异性模型,发现单个黄色筛光片可以有效转换不同年龄观察者的颜色匹配函数,简化了实验复杂度。
- Motivation: 研究光谱筛波对颜色匹配函数的影响,探索观察者变异性的模型化方法,解释不同年龄观察者之间的颜色视觉差异。
- Method: 进行有无光谱筛波的颜色匹配实验,使用新颖计算方法估算筛光片透射率和转换矩阵,对比SB1955和ICVIO平均观察者颜色匹配函数。
- Result: 估算与测量的筛光片特性在中央波长区域呈现良好一致性,发现短波压制的黄色筛光片能够有效转换两个数据集。
- Conclusion: 观察者间的颜色匹配差异可归因于年龄相关的晶状体变黄,通过单个筛光片代替三个分离函数可以高效表征观察者变异性,降低实验复杂度。
cs.GR
[104] Fast Texture Transfer for XR Avatars via Barycentric UV Conversion
Hail Song,Seokhwan Yang,Woontack Woo
Main category: cs.GR
TL;DR: 提出了一种基于重心UV转换的快速面部纹理传输方法,相比传统方法速度提升7000倍以上,同时显著改善纹理质量
- Motivation: 传统仿射变换方法速度慢且容易产生视觉伪影,无法满足沉浸式XR应用中实时个性化需求
- Method: 使用重心UV转换技术,将整个UV映射预计算为单一变换矩阵,实现单次操作的纹理传输
- Result: 速度比基线方法快7000倍以上,显著消除了边界伪影,提高了最终纹理质量
- Conclusion: 该方法为沉浸式XR应用中的个性化提供了实用解决方案,代码已在线公开
eess.IV
[105] CellINR: Implicitly Overcoming Photo-induced Artifacts in 4D Live Fluorescence Microscopy
Cunmin Zhao,Ziyuan Luo,Guoye Guan,Zelin Li,Yiming Ma,Zhongying Zhao,Renjie Wan
Main category: eess.IV
TL;DR: CellINR框架通过隐式神经表示和盲卷积技术,有效解决4D活细胞荧光显微镜中的光漂白和光毒性问题,实现高质量细胞结构重建和伪影去除。
- Motivation: 4D活细胞荧光显微镜在长时间高强度照明下会产生光漂白和光毒性效应,导致图像伪影和细节丢失,影响图像连续性和定量分析。
- Method: 基于隐式神经表示的案例特定优化方法,采用盲卷积和结构增强策略,将3D空间坐标映射到高频域,精确建模细胞结构并区分真实信号与伪影。
- Result: CellINR在伪影去除和结构连续性恢复方面显著优于现有技术,首次提供了配对的4D活细胞成像数据集用于重建性能评估。
- Conclusion: 该方法为后续定量分析和生物学研究提供了坚实基础,代码和数据集将公开。
[106] 2D Ultrasound Elasticity Imaging of Abdominal Aortic Aneurysms Using Deep Neural Networks
Utsav Ratna Tuladhar,Richard Simon,Doran Mix,Michael Richards
Main category: eess.IV
TL;DR: 使用深度学习和超声波形成弹性成像技术,从AAAs的位移场推断血管壁弹性模量分布,提高脾主动脉椰盆破裂风险评估的准确性
- Motivation: 现有的最大直径方法不能充分反映血管壁材料属性对椰盆破裂风险的关键影响,需要无侵入的弹性成像技术来更准确评估AAA破裂风险
- Method: 基于有限元模拟生成多样化位移场和对应模量分布数据集,使用U-Net网络架构和标准化均方误差捕损函数,从位移场的轴向和侧向分量推断空间弹性模量分布
- Result: 在数字幻象数据中达到NMSE 0.73%,物理幻象实验中预测模量比与预期值绝精符合,与迭代方法相比性能相当但计算时间更短
- Conclusion: 深度学习方法能够从超声图像快速有效估计组织硬度,为AAA破裂风险评估提供了无侵入的快速解决方案
[107] MedVQA-TREE: A Multimodal Reasoning and Retrieval Framework for Sarcopenia Prediction
Pardis Moradbeiki,Nasser Ghadiri,Sayed Jalal Zahabi,Uffe Kock Wiil,Kristoffer Kittelmann Brockhattingen,Ali Ebrahimi
Main category: eess.IV
TL;DR: MedVQA-TREE是一个多模态框架,通过结合分层图像解释、门控特征融合和多跳多查询检索策略,在超声图像上实现99%的肌少症诊断准确率,比现有方法提升10%以上。
- Motivation: 现有肌少症超声诊断面临图像线索细微、标注数据有限以及缺乏临床上下文等挑战,需要开发能够整合视觉理解和临床知识的AI诊断系统。
- Method: 采用分层视觉模块(解剖分类、区域分割、图空间推理)、门控特征融合机制,以及基于UMLS的多跳多查询检索策略,整合PubMed和肌少症专业知识库的临床知识。
- Result: 在两个公开MedVQA数据集和自定义肌少症超声数据集上,模型达到99%的诊断准确率,比之前最先进方法性能提升超过10%。
- Conclusion: 结合结构化视觉理解和引导式知识检索的方法,能够有效提升AI辅助肌少症诊断的效果,证明了多模态融合在医疗诊断中的重要性。
[108] AT-CXR: Uncertainty-Aware Agentic Triage for Chest X-rays
Xueyang Li,Mingze Jiang,Gelei Xu,Jun Xia,Mengzhao Jia,Danny Chen,Yiyu Shi
Main category: eess.IV
TL;DR: AT-CXR是一个用于胸部X光片的不确定性感知智能体系统,通过估计置信度和分布拟合来进行自动化分诊决策,在准确性和选择性预测方面优于现有方法。
- Motivation: 当前AI医疗影像分诊系统在真正自主决策(何时停止、升级或推迟)方面研究不足,特别是在实际临床约束条件下。
- Method: 开发了两种路由设计:确定性规则路由器和LLM决策路由器,共享相同的输入和动作,通过逐步策略发出自动化决策或建议人工干预标签。
- Result: 在NIH ChestX-ray14数据集上,两种变体均优于零样本视觉语言模型和最先进的监督分类器,实现了更高的全覆盖率准确性和更好的选择性预测性能,同时满足临床延迟约束。
- Conclusion: 两种路由器提供了互补的操作点,使部署能够优先考虑最大吞吐量或最大准确性,为临床实践提供了实用的自动化分诊解决方案。
Powered by Deepseek & arXiv Daily AI Enhanced