Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Diagnosing Bottlenecks in Data Visualization Understanding by Vision-Language Models
Alexa R. Tartaglini,Satchel Grant,Daniel Wurgaft,Christopher Potts,Judith E. Fan
Main category: cs.CV
TL;DR: FUGU是一个数据可视化理解任务套件,用于诊断视觉语言模型在处理数据可视化时的错误来源。研究发现模型错误主要源于视觉-语言模块间的信息传递问题,即使视觉编码器能正确编码坐标信息,模型仍无法正确生成响应。
- Motivation: 当前视觉语言模型在数据可视化理解任务上表现不佳,但错误原因不明。研究旨在确定错误来源:是视觉信息编码、视觉-语言模块间信息传递,还是语言模块处理的问题。
- Method: 开发FUGU任务套件,使用激活修补和线性探针技术追踪信息流,分析三种广泛使用的视觉语言模型在不同提示策略下的表现。
- Result: 模型在生成单个数据点坐标时经常出错,这些初始错误导致最终响应错误。当提供正确坐标时性能显著提升。视觉编码器能正确编码坐标信息,但视觉-语言模块间信息传递存在问题。对于需要统计关系的任务,提供正确坐标反而降低性能。
- Conclusion: 当前视觉语言模型存在架构限制,在可靠的数据可视化理解方面面临重大挑战,即使微调也无法达到理想性能。
[2] Agro-Consensus: Semantic Self-Consistency in Vision-Language Models for Crop Disease Management in Developing Countries
Mihir Gupta,Pratik Desai,Ross Greer
Main category: cs.CV
TL;DR: 提出了一种成本效益高的自一致性框架,通过语义聚类和余弦相似度共识机制,提高视觉语言模型在农业图像描述中的可靠性,在PlantVillage数据集上取得了优于标准解码方法的性能。
- Motivation: 发展中国家农业病害管理面临专家资源有限、网络连接不可靠和成本限制等挑战,阻碍了大规模AI系统的部署,需要开发成本效益高的解决方案。
- Method: 使用轻量级预训练嵌入模型进行语义聚类,通过余弦相似度选择最一致的描述,并结合人机交互组件让用户确认作物类型以过滤错误生成。
- Result: 在800张作物病害图像上,单聚类共识方法在10个候选生成时达到83.1%的准确率,优于贪婪解码的77.5%;考虑多个聚类时,准确率可提升至94.0%。
- Conclusion: 该自一致性框架能有效提高视觉语言模型在农业图像描述任务中的可靠性,为资源受限环境下的农业病害管理提供了实用的解决方案。
[3] Proportion and Perspective Control for Flow-Based Image Generation
Julien Boudier,Hugo Caselles-Dupré
Main category: cs.CV
TL;DR: 提出了两个用于艺术控制的ControlNet:比例ControlNet通过边界框控制对象位置和大小,透视ControlNet通过消失线控制场景3D几何。
- Motivation: 现代文本到图像扩散模型生成高质量图像,但对输出的空间和几何结构控制有限。
- Method: 使用边界框控制对象位置和比例,使用消失线控制3D几何,利用视觉语言模型进行标注,专门算法进行条件图像合成。
- Result: 两个模块都提供了有效控制,但在复杂约束下存在局限性。
- Conclusion: 成功开发了专门的艺术控制模块,但复杂约束下的性能仍需改进。
[4] H2OFlow: Grounding Human-Object Affordances with 3D Generative Models and Dense Diffused Flows
Harry Zhang,Luca Carlone
Main category: cs.CV
TL;DR: H2OFlow是一个无需人工标注的3D人机交互感知框架,通过合成数据学习接触、方向和空间占用等多维交互特征,优于依赖人工标注的现有方法。
- Motivation: 解决现有3D交互感知方法依赖人工标注数据、成本高且主要局限于接触分析,忽略方向和空间占用等关键交互维度的问题。
- Method: 使用3D生成模型合成数据,通过点云上的密集扩散过程学习基于3D流量的表示,全面学习接触、方向和空间占用等交互特征。
- Result: H2OFlow在定量和定性评估中表现出色,能有效泛化到真实世界物体,在3D交互感知建模方面超越依赖人工标注或网格表示的方法。
- Conclusion: H2OFlow证明了仅使用合成数据就能全面学习3D交互感知的可行性,为计算机视觉和机器人学提供了更高效、更全面的交互理解解决方案。
[5] OCR-Quality: A Human-Annotated Dataset for OCR Quality Assessment
Yulong Zhang
Main category: cs.CV
TL;DR: OCR-Quality是一个包含1000个PDF页面的人类标注数据集,用于评估OCR质量,涵盖学术论文、教科书、电子书和多语言文档等多种场景,采用4级评分系统进行质量标注。
- Motivation: 解决现实应用中可靠OCR质量评估的关键需求,为OCR验证系统的训练和评估提供基准。
- Method: 从多样化真实场景中采样PDF页面转换为PNG图像,使用先进视觉语言模型处理,并采用4级评分系统进行人工标注。
- Result: 创建了一个包含详细源信息、标注指南和代表性案例的公开数据集,可在Hugging Face平台获取。
- Conclusion: OCR-Quality数据集填补了OCR质量评估领域的空白,为开发可靠的OCR验证系统提供了重要资源。
[6] Face-MakeUpV2: Facial Consistency Learning for Controllable Text-to-Image Generation
Dawei Dai,Yinxiu Zhou,Chenghang Li,Guolai Jiang,Chengfang Zhang
Main category: cs.CV
TL;DR: Face-MakeUpV2是一个面部图像生成模型,通过构建大规模数据集、引入3D面部渲染和全局特征通道,解决了文本到图像模型中面部属性泄漏和物理一致性问题。
- Motivation: 当前文本到图像模型在响应局部语义指令时存在面部属性泄漏和物理一致性不足的问题,需要开发能够保持面部ID和物理特征一致性的生成模型。
- Method: 1. 构建包含约100万图像-文本-掩码对的大规模数据集FaceCaptionMask-1M;2. 使用通用文本到图像预训练模型作为骨干网络;3. 引入3D面部渲染通道和全局面部特征通道;4. 设计语义对齐和感知损失两个优化目标。
- Result: 广泛实验表明,Face-MakeUpV2在保持面部ID和参考图像物理一致性方面实现了最佳整体性能。
- Conclusion: Face-MakeUpV2在可靠和可控的面部编辑应用中具有实际潜力。
[7] Ageing Drift in Binary Face Templates: A Bits-per-Decade Analysis
Abdelilah Ganmati,Karim Afdel,Lahcen Koutti
Main category: cs.CV
TL;DR: 该论文研究了紧凑二进制人脸模板的纵向稳定性,量化了年龄漂移(以每十年比特数表示),发现64位和128位模板的年龄漂移中位数分别为1.357和2.571比特/十年,并讨论了这对智能卡和卡上匹配部署的影响。
- Motivation: 研究紧凑二进制人脸模板在时间维度上的稳定性,量化年龄变化对模板匹配性能的影响,为智能卡等资源受限设备的长期部署提供指导。
- Method: 使用现代人脸CNN提取浮点嵌入,通过PCA-ITQ压缩为64位和128位二进制码;在AgeDB数据集上,为每个至少有3个不同年龄的身份构建所有真实配对,拟合汉明距离与绝对年龄差的线性模型。
- Result: 在566个身份中,64位模板的年龄漂移中位数为1.357比特/十年,128位模板为2.571比特/十年;分布主要为正值,表明类内距离随时间有小幅系统性增加;漂移随码长增加而增加,较短码在固定决策阈值下更具年龄稳定性。
- Conclusion: 紧凑二进制人脸模板存在系统性年龄漂移,这对长期部署有重要影响;提出了定期重新注册和对经验不稳定比特位进行针对性奇偶校验等简单缓解措施;提供了代码和CSV文件支持可复现性。
[8] Bridging Accuracy and Interpretability: Deep Learning with XAI for Breast Cancer Detection
Bishal Chhetri,B. V. Rathish Kumar
Main category: cs.CV
TL;DR: 提出了一个可解释的深度学习框架,用于通过乳腺肿块细针穿刺图像的定量特征进行乳腺癌早期检测,在保持高精度的同时提供模型解释。
- Motivation: 解决深度学习模型在临床应用中因黑盒特性而难以被采纳的问题,需要在保持高分类性能的同时提供可解释性。
- Method: 使用ReLU激活函数、Adam优化器和二元交叉熵损失的深度神经网络,结合SHAP和LIME等模型无关的XAI技术进行特征归因和可视化。
- Result: 模型达到0.992的准确率、1.000的精确率、0.977的召回率和0.988的F1分数,显著优于传统算法,并识别出细胞核凹点是影响分类的最重要特征。
- Conclusion: 该框架成功弥合了深度学习模型性能与可解释性之间的差距,为乳腺癌的临床诊断提供了既准确又可解释的解决方案。
[9] EdgeSync: Accelerating Edge-Model Updates for Data Drift through Adaptive Continuous Learning
Runchu Donga,Peng Zhao,Guiqin Wang,Nan Qi,Jie Lin
Main category: cs.CV
TL;DR: EdgeSync是一种高效的边缘模型更新方法,通过改进样本过滤和动态训练管理,解决实时视频分析中模型精度下降和更新延迟问题。
- Motivation: 实时视频分析系统中,边缘设备部署的轻量级模型会因数据特征随时间变化(如光照、天气条件变化)而导致精度下降。现有方法存在计算密集的重新训练过程导致更新延迟,以及新模型与当前视频流数据分布不匹配的问题。
- Method: EdgeSync通过结合时效性和推理结果来增强样本过滤,确保训练样本与当前视频内容更相关;同时采用动态训练管理模块优化模型更新的时间和顺序。
- Result: 在多样复杂的真实世界数据集上的评估表明,EdgeSync相比现有方法精度提升约3.4%,相比传统方法提升约10%。
- Conclusion: EdgeSync通过高效的样本过滤和动态训练管理,有效解决了边缘模型更新中的延迟和精度问题,显著提升了实时视频分析系统的性能。
[10] Promptable Fire Segmentation: Unleashing SAM2's Potential for Real-Time Mobile Deployment with Strategic Bounding Box Guidance
Emmanuel U. Ugwu,Zhang Xinming
Main category: cs.CV
TL;DR: 该论文首次全面评估了SAM2变体在火焰分割任务中的表现,发现边界框提示策略优于自动和单点方法,其中Box+MP组合在Khan数据集上达到最高性能(mIoU 0.64,Dice 0.75)。轻量级变体TinySAM和MobileSAM更适合边缘部署。
- Motivation: 火焰分割面临火焰边界不规则、边缘半透明和强度变化大的挑战。虽然SAM模型在跨域泛化方面表现出色,但其在火焰分割任务中的有效性,特别是在移动部署约束下的表现,尚未得到充分探索。
- Method: 系统评估了四种SAM2.1变体(tiny、small、base_plus、large)和移动导向变体(TinySAM、MobileSAM),在三个火焰数据集上使用多种提示策略:自动、单正点、单正点+单负点、多正点、边界框及其混合变体。
- Result: 边界框提示策略始终优于自动和单点方法,Box+MP在Khan数据集上获得最高平均IoU(0.64)和Dice系数(0.75)。轻量级变体显著降低了内存和计算成本。
- Conclusion: 这项工作为在火焰监测系统中部署可提示分割模型提供了关键见解,并为未来领域特定SAM应用研究建立了基准。
[11] Noise Aggregation Analysis Driven by Small-Noise Injection: Efficient Membership Inference for Diffusion Models
Guo Li,Yuyang Yu,Xuemiao Xu
Main category: cs.CV
TL;DR: 提出了一种针对扩散模型的高效成员推理攻击方法,基于注入轻微噪声并评估噪声分布的聚合程度来区分训练集和非训练集样本。
- Motivation: 扩散模型(如Stable Diffusion)的广泛使用带来了隐私风险,特别是成员推理攻击可能确定特定数据样本是否用于模型训练过程。
- Method: 通过向测试图像注入轻微噪声,分析模型预测的噪声分布聚合程度来确定成员身份。核心直觉是训练集样本在扩散过程特定时间步的预测噪声模式更聚合,而非训练集样本的预测噪声更离散。
- Result: 该方法在多个数据集上表现出优越性能,且对大规模文本到图像扩散模型在ASR和AUC指标上显示出更好的攻击效果,证明了方法的可扩展性。
- Conclusion: 该方法相比现有方法需要更少访问目标扩散模型,实现了高效且可扩展的成员推理攻击。
[12] Multi-Agent Pose Uncertainty: A Differentiable Rendering Cramér-Rao Bound
Arun Muthukkumar
Main category: cs.CV
TL;DR: 提出了一种基于可微分渲染器的相机位姿估计协方差下界计算方法,通过将渲染器视为测量函数,在流形上线性化图像形成过程,得到渲染感知的Cramér-Rao下界。
- Motivation: 位姿估计在计算机视觉和机器人领域至关重要,但目前很少有工作对密集或学习模型下的位姿进行严格的不确定性量化。
- Method: 将可微分渲染器作为测量函数,在流形上对小的位姿扰动进行线性化图像形成过程,推导出渲染感知的Cramér-Rao下界。
- Result: 该方法可简化为经典的捆绑调整不确定性,确保与视觉理论的连续性,并能自然地扩展到多智能体设置,通过融合不同相机的Fisher信息。
- Conclusion: 这种统计公式在下游任务中具有应用价值,如协作感知和无需显式关键点对应关系的新视图合成。
[13] EventFormer: A Node-graph Hierarchical Attention Transformer for Action-centric Video Event Prediction
Qile Su,Shoutai Zhu,Shuai Zhang,Baoyu Liang,Chao Tong
Main category: cs.CV
TL;DR: 提出了AVEP任务和EventFormer模型,用于视频事件预测,通过节点-图层次注意力机制捕捉事件间关系和论元共指关系,在构建的大规模结构化数据集上优于现有视频预测模型。
- Motivation: 人类事件多以视频形式记录而非文本脚本,但视觉领域缺乏相关研究。现有视频预测任务缺乏复杂逻辑和丰富语义信息,需要新的任务和模型来处理视频事件预测。
- Method: 提出EventFormer模型,采用节点-图层次注意力机制,能够同时捕捉事件与其论元之间的关系以及论元间的共指关系。构建了包含35K标注视频和178K视频片段的大型结构化数据集。
- Result: 在AVEP任务上,EventFormer模型优于多种SOTA视频预测模型和LVLMs,证明了任务的复杂性和数据集的价值。
- Conclusion: AVEP任务和EventFormer模型为视频事件预测提供了有效的解决方案,通过结构化表示和层次注意力机制成功处理了复杂的事件关系。
[14] Mismatch reconstruction theory for unknown measurement matrix in imaging through multimode fiber bending
Le Yang
Main category: cs.CV
TL;DR: 提出了一种新的失配重建理论,解决多模光纤成像中测量矩阵未知时的图像重建问题,通过设计匹配和校准算法构建新的测量矩阵。
- Motivation: 多模光纤成像需要测量值与测量矩阵严格匹配才能重建图像,但实际应用中由于系统配置未知或光纤弯曲后难以实时对准,导致传统重建算法失效。
- Method: 提出失配方程,设计匹配和校准解决方案算法来构建新的测量矩阵,并提供了详细的数学证明。
- Result: 实验表明在低噪声水平下,构建的矩阵可用于传统重建算法,成功重建原始图像,算法具有一定鲁棒性。
- Conclusion: 该理论解决了测量矩阵未知时的图像重建问题,分析了噪声、计算精度和正交性对重建性能的影响,讨论了局限性和潜在应用。
[15] Exploring the design space of diffusion and flow models for data fusion
Niraj Chaudhari,Manmeet Singh,Naveen Sudharsan,Amit Kumar Srivastava,Harsh Kamath,Dushyant Mahajan,Ayan Paul
Main category: cs.CV
TL;DR: 本研究探索了扩散和流模型在数据融合中的设计空间,特别关注DMSP-OLS和VIIRS夜间灯光数据的融合。研究发现基于UNet的扩散模型在保持空间细节和生成高保真融合图像方面表现最佳,并提供了噪声调度器和量化技术的实用指导。
- Motivation: 数据融合在卫星遥感等领域至关重要,能够整合多源信息提升数据质量和洞察力。本研究旨在探索扩散和流模型在卫星遥感数据融合中的应用潜力。
- Method: 采用多种2D图像到图像生成模型,包括UNET、扩散模型和流模型架构,评估它们在卫星遥感数据融合中的有效性,并研究噪声调度器选择和量化技术优化。
- Result: 基于UNet的扩散模型在保持精细空间细节和生成高保真融合图像方面表现最佳,同时量化技术可以在不牺牲性能的情况下优化内存效率和计算成本。
- Conclusion: 研究为数据融合任务(特别是遥感应用)提供了选择最有效扩散和流模型架构的实用见解,并推荐利用噪声调度策略来提升融合质量。
[16] 2D_3D Feature Fusion via Cross-Modal Latent Synthesis and Attention Guided Restoration for Industrial Anomaly Detection
Usman Ali,Ali Zia,Abdul Rehman,Umer Ramzan,Zohaib Hassan,Talha Sattar,Jing Wang,Wei Xiang
Main category: cs.CV
TL;DR: 提出MAFR框架,通过多模态注意力驱动融合恢复技术,结合RGB图像和点云数据进行工业异常检测,在多个基准测试中达到最先进水平。
- Motivation: 工业异常检测中融合2D和3D数据具有优势,但跨模态的鲁棒融合仍然具有挑战性,需要开发新的融合方法。
- Method: 使用共享融合编码器构建统一潜在空间,然后通过注意力引导的模态特定解码器进行重建,通过测量输入特征与重建特征之间的误差来定位异常。
- Result: 在MVTec 3D-AD和Eyecandies基准测试中分别达到0.972和0.901的平均I-AUROC,在少样本学习设置中表现优异。
- Conclusion: MAFR提供了一种融合视觉和几何信息的原理性方法,提升了工业异常检测的鲁棒性和准确性。
[17] Token-Level Inference-Time Alignment for Vision-Language Models
Kejia Chen,Jiawen Zhang,Jiacong Hu,Kewei Gao,Jian Lou,Zunlei Feng,Mingli Song
Main category: cs.CV
TL;DR: TITA是一个轻量级框架,通过训练奖励模型来近似VLM分布,在推理时提取隐式偏好信号作为对数概率比,提供token级自回归反馈,有效减少幻觉问题。
- Motivation: 现有视觉语言模型输出容易产生与视觉输入不符的幻觉文本,而现有的对齐方法要么依赖昂贵的微调,要么只能提供粗粒度的延迟反馈。
- Method: 冻结基础VLM,训练奖励模型来近似其分布。在推理时,提取奖励模型和目标VLM之间的对数概率比作为隐式偏好信号,提供密集的自回归反馈。
- Result: 在LLaVA-1.5-7B和13B上的广泛评估显示,在12个基准测试中持续提升,MMVet提升8.6%,POPE提升6.7%。在Qwen2.5-VL-7B和DeepSeek-VL2-27.5B上也显示出可比的提升,特别是在幻觉减少和VQA准确性方面,且推理开销可忽略。
- Conclusion: TITA作为推理时直接偏好优化的变体,能够在不重新训练主干网络的情况下提供token级纠正信号,有效增强通用理解能力并减少幻觉。
[18] Xihe: Scalable Zero-Shot Time Series Learner Via Hierarchical Interleaved Block Attention
Yinbo Sun,Yuchen Fang,Zhibo Zhu,Jia Li,Yu Liu,Qiwen Deng,Jun Zhou,Hang Yu,Xingyu Lu,Lintao Ma
Main category: cs.CV
TL;DR: 提出了HIBA架构和Xihe模型系列,通过分层块间和块内稀疏注意力有效捕捉时间序列的多尺度依赖关系,在零样本迁移中取得SOTA性能
- Motivation: 现有时间序列基础模型直接采用跨领域架构,限制了有效捕捉时间序列数据固有的多尺度时间依赖关系,特别是在零样本迁移到不同模式和采样策略的数据集时表现不佳
- Method: 提出分层交错块注意力(HIBA),使用分层块间和块内稀疏注意力:块内注意力促进局部信息交换,块间注意力跨块操作以捕捉全局时间模式交互和动态演化
- Result: Xihe-tiny(9.5M参数)在GIFT-Eval基准测试中超越多数当代TSFMs,Xihe-max(1.5B)建立了新的零样本SOTA性能,大幅超越先前最佳结果
- Conclusion: HIBA架构具有出色的泛化能力和架构优势,在整个参数谱系中表现一致优异
[19] AI-Boosted Video Annotation: Assessing the Process Enhancement
Juan Gutiérrez,Ángel Mora,Pablo Regodón,Silvia Rodriguez,José Luis Blanco
Main category: cs.CV
TL;DR: 该研究探索了在视频标注中集成AI自动能力来增强人机协作标注,通过使用Label Studio和零样本预标注技术,在UCF-Crime数据集上测试,结果显示预标注能减少35%的标注时间并保持相似质量。
- Motivation: 研究旨在通过集成AI自动能力来简化视频标注任务,减轻标注人员负担并评估其性能,关注标注过程的实际影响、AI组件集成及其结果评估。
- Method: 采用单次迭代方案,使用Label Studio和AI驱动的零样本预标注技术,在UCF-Crime数据集上进行异常活动检测标注测试。
- Result: 使用预标注数据后,70%的标注人员标注时间减少35%,同时保持相似标注质量。标注结果在不同标注人员间更一致,且更好地匹配视频帧的自然聚类。
- Conclusion: AI驱动的预标注能够优化视频标注流程,提升效率并保持质量,使标注人员更高效且产生更一致的标注结果。
[20] Morphology-Aware KOA Classification: Integrating Graph Priors with Vision Models
Marouane Tliba,Mohamed Amine Kerkouri,Yassine Nasser,Nour Aburaed,Aladine Chetouani,Ulas Bagci,Rachid Jennane
Main category: cs.CV
TL;DR: 提出了一种结合解剖结构图表示和视觉特征的多模态框架,通过互信息最大化实现几何图嵌入与放射特征的融合,显著提升膝骨关节炎分类准确率。
- Motivation: 传统深度学习模型难以捕捉膝骨关节炎在X光片中的细微形态学特征,需要引入解剖结构先验知识来改进诊断准确性。
- Method: 使用Segment Anything Model分割解剖结构,构建形态学图表示,通过互信息最大化将几何感知的图嵌入与放射特征对齐。
- Result: 在Osteoarthritis Initiative数据集上,准确率达到近80%,比单模态基线提升10%,比现有最优方法提升8%准确率和11% F1分数。
- Conclusion: 将解剖结构整合到放射学分析中对膝骨关节炎严重程度分级至关重要。
[21] It Takes Two to Tango: Two Parallel Samplers Improve Quality in Diffusion Models for Limited Steps
Pedro Cisneros-Velarde
Main category: cs.CV
TL;DR: 提出一种使用两个并行采样器在有限去噪步骤下提高扩散模型采样质量的方法,通过适当整合连续时间步的信息来提升图像质量。
- Motivation: 在有限去噪步骤(即扩散模型评估次数受限)的情况下,如何提高采样图像的质量。
- Method: 使用两个并行采样器在连续时间步进行去噪,并适当整合它们的信息到潜在图像中。该方法简单易实现,即插即用,模型无关,无需额外微调或外部模型。
- Result: 通过自动化和人工评估验证了该方法对不同扩散模型的有效性,发现朴素的信息整合会降低采样质量,且增加更多并行采样器不一定能进一步提升质量。
- Conclusion: 在有限去噪步骤下,两个并行采样器的适当信息整合可以有效提高扩散模型的采样质量,但需要精心设计整合策略,且并非采样器越多越好。
[22] Frame-Difference Guided Dynamic Region Perception for CLIP Adaptation in Text-Video Retrieval
Jiaao Yu,Mingjie Han,Tao Gong,Jian Zhang,Man Lan
Main category: cs.CV
TL;DR: 提出FDA-CLIP框架,利用帧差生成动态区域掩码,引导模型关注关键动态区域并抑制静态背景冗余,提升文本-视频检索性能
- Motivation: 现有文本-视频检索方法依赖大规模标注数据且存在模态鸿沟问题,现有CLIP适应方法缺乏对动态视频特征的增强和静态冗余特征的抑制
- Method: 使用帧差生成动态区域掩码,作为Alpha通道输入Alpha-CLIP,引导模型关注语义关键动态区域
- Result: 实验表明帧差引导的视频语义编码能有效平衡检索效率和准确性
- Conclusion: FDA-CLIP框架通过动态区域关注机制,有效解决了视频检索中的模态鸿沟和静态冗余问题
[23] Activating Visual Context and Commonsense Reasoning through Masked Prediction in VLMs
Jiaao Yu,Shenwei Li,Mingjie Han,Yifei Yin,Wenzheng Song,Chenghao Jia,Man Lan
Main category: cs.CV
TL;DR: 该论文提出了一种新的微调任务MPCC,通过重建被遮挡图像中的语义内容来增强多模态模型的视觉上下文和常识推理能力,并开发了RFPS训练方法来提升模型的泛化推理能力。
- Motivation: 当前推理模型主要关注单模态语言任务,在多模态场景特别是视觉语言任务中存在适应不足的问题,无法充分利用视觉上下文和常识知识,限制了跨多模态环境的推理泛化能力。
- Method: 提出了MPCC微调任务,通过重建被遮挡图像的语义内容来整合视觉上下文和常识推理;开发了RFPS训练方法,并构建了MPCC Eval评估基准来系统评估模型性能。
- Result: 所提出的方法不仅提升了模型性能,还增强了在分布外和跨任务场景中的泛化推理能力。
- Conclusion: MPCC任务和RFPS训练方法为多模态模型的通用推理能力奠定了基础,解决了当前模型在视觉语言任务中推理能力不足的问题。
[24] Semantic Relation-Enhanced CLIP Adapter for Domain Adaptive Zero-Shot Learning
Jiaao Yu,Mingjie Han,Jinkun Jiang,Junyu Dong,Tao Gong,Man Lan
Main category: cs.CV
TL;DR: 提出SRE-CLIP适配器框架,通过语义关系结构损失和跨模态对齐保持策略,解决CLIP在领域自适应零样本学习中的两个核心挑战,在I2AwA和I2WebV基准上达到最先进性能。
- Motivation: 现有范式无法平衡跨领域迁移和跨类别泛化,需要领域自适应零样本学习(DAZSL)。虽然视觉语言模型(如CLIP)在DAZSL领域具有固有优势,但当前研究未能充分利用其潜力。
- Method: 提出语义关系增强的CLIP(SRE-CLIP)适配器框架,包含语义关系结构损失和跨模态对齐保持策略,解决跨类别知识转移效率低和跨模态对齐在目标域微调中退化的问题。
- Result: 作为首个基于CLIP的DAZSL方法,SRE-CLIP在I2AwA和I2WebV基准上达到最先进性能,显著优于现有方法。
- Conclusion: SRE-CLIP框架有效解决了CLIP在DAZSL应用中的核心挑战,为数据受限场景下的深度学习模型训练提供了有效解决方案。
[25] Embodied Navigation with Auxiliary Task of Action Description Prediction
Haru Kondoh,Asako Kanezaki
Main category: cs.CV
TL;DR: 提出将语言描述动作作为辅助任务融入机器人导航强化学习,通过知识蒸馏解决缺乏真实数据的问题,在保持高导航性能的同时实现动作描述。
- Motivation: 当前多模态机器人导航系统决策过程复杂且不透明,可解释性与性能存在权衡,需要既能解释决策又保持高性能的方法。
- Method: 将动作描述作为强化学习的辅助任务,利用预训练视觉语言模型进行知识蒸馏,解决缺乏真实描述数据的问题。
- Result: 在多种导航任务中都能描述动作并保持高导航性能,在语义视听导航任务中达到最先进性能。
- Conclusion: 该方法成功解决了可解释性与性能的权衡问题,为构建可靠的多模态导航系统提供了有效途径。
[26] Hybrid Deep Learning Framework for Enhanced Diabetic Retinopathy Detection: Integrating Traditional Features with AI-driven Insights
Arpan Maity,Aviroop Pal,MD. Samiul Islam,Tamal Ghosh
Main category: cs.CV
TL;DR: 本文提出了一种结合传统特征提取和深度学习的混合诊断框架,用于增强糖尿病视网膜病变检测,通过整合可解释的临床数据和深度学习特征,超越了单独的深度学习方法。
- Motivation: 糖尿病视网膜病变是糖尿病的主要并发症,在印度等高糖尿病患病率国家尤为严重。早期筛查至关重要,因为该病在初期阶段无症状,但可能导致不可逆的视力丧失。
- Method: 采用混合诊断框架,结合传统手工特征提取和深度学习。手工特征捕捉关键临床标志物,而深度学习自动化层次模式识别,两者协同工作提高早期诊断准确性。
- Result: 该模型在分类性能上超越了单独的深度学习方法,减少了假阴性结果,实现了更准确的糖尿病视网膜病变筛查。
- Conclusion: 这种多模态AI驱动方法能够实现可扩展、准确的糖尿病视网膜病变筛查,对于糖尿病负担重的地区尤为重要。
[27] Comparative Analysis of Object Detection Algorithms for Surface Defect Detection
Arpan Maity,Tamal Ghosh
Main category: cs.CV
TL;DR: 该论文比较了六种目标检测算法在NEU-DET表面缺陷检测数据集上的性能,发现YOLOv11在准确率和速度方面表现最优,平均准确率比其他方法高出70%。
- Motivation: 比较不同目标检测算法在工业质量控制中的金属表面缺陷检测任务上的性能,为实际应用选择最有效的模型。
- Method: 在NEU-DET表面缺陷检测数据集上评估YOLOv11、RetinaNet、Fast R-CNN、YOLOv8、RT-DETR和DETR六种算法的检测准确率、速度和鲁棒性。
- Result: YOLOv11表现出最佳性能,平均准确率比其他方法高70%,在检测小表面缺陷方面更快更高效。
- Conclusion: YOLOv11在NEU数据集上的表面缺陷检测任务中表现卓越,其准确率和速度优势使其成为最有效的模型。
[28] SITS-DECO: A Generative Decoder Is All You Need For Multitask Satellite Image Time Series Modelling
Samuel J. Barrett,Docko Sow
Main category: cs.CV
TL;DR: SITS-DECO是一个基于GPT风格解码器架构的生成式地球观测基础模型,通过统一序列框架处理多任务EO数据,无需任务特定适配。
- Motivation: 解决现有EO基础模型需要额外适配、结构僵化的问题,借鉴大语言模型的统一序列预测方法。
- Method: 使用GPT风格解码器架构,通过符号提示在统一架构中执行监督和自监督任务,专注于密集时间序列建模。
- Result: 在作物类型分类任务(PASTIS-R)上超越了更大的EO基础模型,证明了密集时间序列建模的重要性。
- Conclusion: 展示了数据驱动的建模范式,能力源于训练数据的多样性和结构而非架构复杂性,为未来生成式EO基础模型提供了概念桥梁。
[29] Gestura: A LVLM-Powered System Bridging Motion and Semantics for Real-Time Free-Form Gesture Understanding
Zhuoming Li,Aitong Liu,Mengxi Jia,Tengxiang Zhang,Dell Zhang,Xuelong Li
Main category: cs.CV
TL;DR: Gestura是一个端到端的自由手势理解系统,通过预训练大视觉语言模型、地标处理模块和思维链推理策略,显著提升了自由手势识别的准确性和响应速度。
- Motivation: 现有的GestureGPT解决方案在识别准确性和响应时间方面存在局限,需要开发更高效的自由手势理解系统来改善人机交互体验。
- Method: 结合预训练大视觉语言模型对齐手势与语义概念,引入地标处理模块嵌入手部解剖先验知识,采用思维链推理策略进行逐步语义推断。
- Result: Gestura实现了稳健且适应性强的自由手势理解能力,并开发了首个开源自由手势意图推理数据集,包含超过30万个标注问答对。
- Conclusion: Gestura系统通过多组件协同工作,显著提升了自由手势理解的性能,为无约束手势交互提供了有效解决方案。
[30] Prompt fidelity of ChatGPT4o / Dall-E3 text-to-image visualisations
Dirk HR Spennemann
Main category: cs.CV
TL;DR: 本研究分析了ChatGPT4o/DALL-E3文本到图像生成系统的提示保真度,发现15.6%的属性未按提示正确渲染,年龄描绘错误率最高。
- Motivation: 评估AI文本到图像生成系统是否准确呈现提示中明确指定的属性,以了解其保真度和潜在偏见问题。
- Method: 使用两个公共数据集(200个文化创意产业女性工作者和230个博物馆策展人的可视化图像),评估个人属性(年龄、头发)、外观(着装、眼镜)和随身物品(姓名标签、剪贴板)的准确性。
- Result: DALL-E3在15.6%的属性(n=710)中偏离了提示规范,随身物品错误率最低,个人外观中等,人物自身描绘(特别是年龄)错误率最高。
- Conclusion: 研究证明了可测量的提示到图像保真度差距,这对偏见检测和模型评估具有重要意义。
[31] Wavelet-based GAN Fingerprint Detection using ResNet50
Sai Teja Erukude,Suhasnadh Reddy Veluru,Viswa Chaitanya Marella
Main category: cs.CV
TL;DR: 提出基于小波变换和ResNet50的GAN图像检测方法,通过Haar和Daubechies小波滤波器预处理图像,在频域中识别GAN生成图像的独特伪影。
- Motivation: GAN生成图像的检测在数字图像取证中具有重要挑战,需要开发有效方法来区分真实图像和GAN生成图像。
- Method: 使用离散小波变换(DWT)预处理图像,采用Haar和Daubechies小波滤波器将图像转换为多分辨率表示,然后输入ResNet50网络进行分类。
- Result: Haar和Daubechies预处理模型的准确率分别达到93.8%和95.1%,显著高于空间域模型的81.5%。Daubechies模型表现最佳。
- Conclusion: GAN生成图像在小波域具有独特的伪影特征,小波域分析是检测GAN图像的有效方法,为未来深度伪造检测系统开发提供了潜力。
[32] Explainable Deep Learning in Medical Imaging: Brain Tumor and Pneumonia Detection
Sai Teja Erukude,Viswa Chaitanya Marella,Suhasnadh Reddy Veluru
Main category: cs.CV
TL;DR: 提出一个可解释的深度学习框架,使用ResNet50和DenseNet121检测脑部MRI肿瘤和胸部X光肺炎,集成Grad-CAM提供热力图可视化,DenseNet121性能更好且注意力更集中于病理区域。
- Motivation: 深度学习在医学影像诊断中潜力巨大,但大多数模型缺乏可解释性,阻碍了临床信任和采用。
- Method: 使用ResNet50和DenseNet121卷积神经网络,在Kaggle数据集(7,023张脑部MRI和5,863张胸部X光)上训练,集成Grad-CAM生成热力图可视化。
- Result: DenseNet121性能优于ResNet50:脑肿瘤检测准确率94.3% vs 92.5%,肺炎检测准确率89.1% vs 84.4%。Grad-CAM显示DenseNet121更专注于核心病理区域。
- Conclusion: 结合深度学习和可解释AI为开发可靠、可解释且临床有用的诊断工具提供了有前景的路径。
[33] Precise classification of low quality G-banded Chromosome Images by reliability metrics and data pruning classifier
Mojtaba Moattari
Main category: cs.CV
TL;DR: 提出基于可靠性阈值指标和精心设计特征的染色体分类方法,在低质量图像条件下显著提升分类精度,特别适用于资源有限的实验室环境。
- Motivation: 解决在低成本系统和低质量图像设置下染色体分类精度不足的问题,特别是在偏远病理实验室中高质量训练数据难以获取的情况。
- Method: 使用可靠性阈值指标和精心设计的特征,结合深度Alex-Net神经网络、SVM、K最近邻及其级联流水线,对半直染色体进行自动过滤。
- Result: 分类精度显著提升,对具有常见缺陷和易位的染色体分类准确率超过90%,在极低质量G带数据库上验证了方法的有效性。
- Conclusion: 所提出的阈值指标和剪枝方法特别适合贫困国家和低预算病理实验室的核型分析设施,能够有效防止低质量图像下的假阳性检测。
[34] Structured and Abstractive Reasoning on Multi-modal Relational Knowledge Images
Yichi Zhang,Zhuo Chen,Lingbing Guo,Lei Liang,Wen Zhang,Huajun Chen
Main category: cs.CV
TL;DR: 提出了STAR-64K数据集和两阶段训练框架,用于增强多模态大语言模型在结构化抽象推理任务上的能力,使小模型在STAR任务上超越GPT-4o。
- Motivation: 解决多模态大语言模型在视觉模态抽象信息理解和推理方面的挑战,特别是多模态关系知识的结构化抽象推理任务目前研究不足。
- Method: 开发了自动STAR数据引擎合成带有多模态关系知识的图像,构建包含64K高质量多模态指令样本的数据集,并提出两阶段能力增强训练框架。
- Result: 实验显示,两阶段增强框架使3B/7B小模型在STAR任务上显著超越GPT-4o,并对不同设计的有效性、数据可迁移性和可扩展性进行了深入分析。
- Conclusion: 该研究填补了大规模高质量数据和能力增强方法学的双重空白,为多模态结构化抽象推理提供了有效解决方案。
[35] A Flow Model with Low-Rank Transformers for Incomplete Multimodal Survival Analysis
Yi Yin,Yuntao Shou,Zao Dai,Yun Peng,Tao Meng,Wei Ai,Keqin Li
Main category: cs.CV
TL;DR: 提出结合低秩Transformer和基于流的生成模型的新框架,用于处理不完整多模态医疗数据的生存分析,通过类别特定流实现跨模态分布对齐,提高模态重建的可靠性。
- Motivation: 现实世界多模态医疗数据常存在模态不完整问题,现有方法直接推断缺失模态但忽略了模态间的分布差异,导致重建结果不一致且不可靠。
- Method: 使用类别特定流进行跨模态分布对齐,通过可逆结构和精确密度建模构建分布一致的缺失模态潜在空间;设计轻量级低秩Transformer建模模态内依赖关系,缓解高维模态融合的过拟合问题。
- Result: 在完整模态设置下达到最先进性能,在不完整模态场景下保持鲁棒且优越的准确性。
- Conclusion: 该方法能有效处理多模态医疗生存分析中的模态缺失问题,通过分布对齐和轻量Transformer设计实现了鲁棒且准确的预测性能。
[36] Towards Accurate and Efficient Waste Image Classification: A Hybrid Deep Learning and Machine Learning Approach
Ngoc-Bao-Quang Nguyen,Tuan-Minh Do,Cong-Tam Phan,Thi-Thu-Hong Phan
Main category: cs.CV
TL;DR: 该研究比较了三种垃圾图像分类方法:传统机器学习、深度学习和混合方法。混合方法(深度学习特征提取+传统分类器)在三个公开数据集上表现最佳,准确率高达100%,同时通过特征选择减少95%以上特征维度,实现更快训练和推理。
- Motivation: 垃圾自动分类是全球废物管理的关键组成部分,但目前缺乏系统性的基准测试来整合机器学习、深度学习和高效混合解决方案。
- Method: 比较三种范式:(1) 基于手工特征的机器学习算法;(2) 深度学习架构(ResNet变体和EfficientNetV2S);(3) 混合方法(使用深度模型进行特征提取,结合SVM和逻辑回归等传统分类器)。
- Result: 混合方法在三个数据集上表现最优:TrashNet和精炼家庭垃圾数据集达到100%准确率,垃圾分类数据集达到99.87%准确率,超越了现有最佳基准。特征选择在不影响准确率的情况下减少95%以上特征维度。
- Conclusion: 该研究为垃圾分类建立了更可靠的基准,并提出了一个高效的混合框架,在保持高准确率的同时降低推理成本,适合在资源受限环境中进行可扩展部署。
[37] Evaluating ChatGPT's Performance in Classifying Pneumonia from Chest X-Ray Images
Pragna Prahallad,Pranathi Prahallad
Main category: cs.CV
TL;DR: 评估GPT-4o在零样本设置下对胸部X光图像进行NORMAL/PNEUMONIA分类的能力,发现简洁的特征导向提示可获得74%准确率,而推理导向提示表现较差。
- Motivation: 探索ChatGPT等大型语言模型在医学图像解读方面的潜力,特别是在零样本设置下的表现,为未来临床应用提供参考。
- Method: 使用平衡测试集(400张图像,每类200张),比较四种不同提示设计(从最小指令到详细推理提示)在零样本分类中的性能。
- Result: 简洁的特征导向提示达到最高分类准确率74%,而推理导向提示表现较差,表明模型在医学图像诊断方面的可靠性仍有限。
- Conclusion: ChatGPT在医学图像解读方面显示出初步潜力,但需要进一步改进视觉推理和领域适应能力才能安全应用于临床实践。
[38] Improving the Physics of Video Generation with VJEPA-2 Reward Signal
Jianhao Yuan,Xiaofeng Zhang,Felix Friedrich,Nicolas Beltran-Velez,Melissa Hall,Reyhane Askari-Hemmat,Xiaochuang Han,Nicolas Ballas,Michal Drozdzal,Adriana Romero-Soriano
Main category: cs.CV
TL;DR: 该技术报告介绍了在ICCV 2025感知测试研讨会上获得PhysicsIQ挑战赛冠军的方案,通过将SSL预训练的视频世界模型VJEPA-2与最先进的视频生成模型MAGI-1结合,利用VJEPA-2作为奖励信号来指导生成过程,将视频生成的物理合理性提高了约6%。
- Motivation: 当前最先进的视频生成模型在物理理解方面存在严重限制,经常产生不合理的视频。视觉真实性并不等同于物理理解,而直觉物理理解已证明可以通过自然视频的自监督学习预训练来获得。
- Method: 在MAGI-1视频生成模型的基础上,结合最近提出的视频联合嵌入预测架构2(VJEPA-2),利用VJEPA-2作为奖励信号来指导视频生成过程。
- Result: 通过使用VJEPA-2作为奖励信号,成功将最先进视频生成模型的物理合理性提高了约6%。
- Conclusion: SSL预训练的视频世界模型可以有效提升视频生成模型的物理合理性,证明了将物理理解能力集成到视频生成系统中的可行性。
[39] RatioWaveNet: A Learnable RDWT Front-End for Robust and Interpretable EEG Motor-Imagery Classification
Marco Siino,Giuseppe Bonomo,Rosario Sorbello,Ilenia Tinnirello
Main category: cs.CV
TL;DR: RatioWaveNet通过可训练的理性小波变换前端增强CNN-Transformer主干网络,在脑机接口运动想象任务中显著提升了最难被试者的解码性能,同时保持计算效率。
- Motivation: 解决基于运动想象的脑机接口在非侵入式EEG信号解码中面临的非平稳性、低信噪比和个体差异等挑战,特别是在最难被试者上的可靠性问题。
- Method: 提出RatioWaveNet模型,包含可训练的理性小波变换前端进行多分辨率子带分解,结合多核CNN提取局部时空特征,分组查询注意力编码器处理长程上下文,以及紧凑TCN头进行因果时间整合。
- Result: 在BCI-IV-2a和BCI-IV-2b数据集上,RatioWaveNet显著提升了最难被试者的准确率(2a:+0.17/+0.42个百分点,2b:+1.07/+2.54个百分点),同时保持平均性能增益和较低计算开销。
- Conclusion: 可训练小波前端是增强基于Transformer的脑机接口的有效插件,能够在不牺牲效率的情况下提高最坏情况下的可靠性。
[40] Modal Aphasia: Can Unified Multimodal Models Describe Images From Memory?
Michael Aerni,Joshua Swanson,Kristina Nikolić,Florian Tramèr
Main category: cs.CV
TL;DR: 论文提出了模态失语症现象,即统一多模态模型在视觉上能准确记忆概念,但在文字描述中却会混淆关键细节,尽管同时接受了图像和文本训练。
- Motivation: 研究当前统一多模态模型中存在的系统性分离问题,这些模型虽然在视觉模态上表现良好,但在文本模态中却出现概念混淆,这可能对AI安全框架构成风险。
- Method: 通过合成数据集上的受控实验,在多种架构中验证模态失语症现象,并展示仅基于文本对齐的模型仍能生成不安全图像的风险。
- Result: 实验证实模态失语症是当前统一多模态模型的基本属性,而非训练伪影。模型能完美复制标志性电影艺术品,但在文字描述中混淆关键细节。
- Conclusion: 模态失语症揭示了多模态模型的内在局限性,单一模态的安全对齐可能不足以防止有害概念通过其他模态传播,这对AI安全框架构成实际威胁。
[41] SCoPE VLM: Selective Context Processing for Efficient Document Navigation in Vision-Language Models
Gyubeum Lim,Yemo Koo,Vijay Krishna Madisetti
Main category: cs.CV
TL;DR: SCoPE VLM是一个文档导航专家模型,通过链式滚动机制选择性导航文档,专注于相关片段,大幅减少内存使用并模拟人类阅读行为。
- Motivation: 解决视觉语言模型在长上下文视觉信息理解上的挑战,特别是在GUI控制和网页导航等代理任务中。现有方法通常忽视决策导向的文档理解,且内存消耗大,不适合本地部署。
- Method: 提出链式滚动机制选择性递归导航文档;构建专用数据生成管道创建信息丰富的链式滚动轨迹;使用情景组相对策略优化的强化学习方法减少训练与推理差距。
- Result: 方法显著减少内存使用,有效模拟人类阅读行为,是首个在多页文档问答中明确建模代理阅读模式的框架。
- Conclusion: SCoPE VLM通过创新的链式滚动机制和专用训练方法,提升了多模态代理在文档导航任务中的能力,为长上下文视觉理解提供了实用解决方案。
[42] Poisson Flow Consistency Training
Anthony Zhang,Mahmut Gokmen,Dennis Hein,Rongjun Ge,Wenjun Xia,Ge Wang,Jin Chen
Main category: cs.CV
TL;DR: 提出了Poisson Flow一致性训练(PFCT)方法,使Poisson Flow一致性模型(PFCM)能够独立训练,无需依赖预训练的PFGM++模型,并在低剂量CT图像去噪任务中表现出色。
- Motivation: 现有的Poisson Flow一致性模型(PFCM)只能通过蒸馏方式训练,这限制了其在多种数据模态中的潜力。研究目标是开发一种能够独立训练PFCM的方法。
- Method: 利用扰动核去除对预训练PFGM++的依赖,引入正弦离散化调度和Beta噪声分布以提高适应性和样本质量。
- Result: 在低剂量CT图像去噪任务中,模型在LPIPS和SSIM指标上改善了图像质量,去噪效果与一致性模型等相媲美。
- Conclusion: PFCT被证明是一种有效的PFCM训练方法,在CT图像去噪中展现出竞争力,为生成建模领域提供了更灵活的方法框架。
[43] A Multi-Stage Hybrid Framework for Automated Interpretation of Multi-View Engineering Drawings Using Vision Language Model
Muhammad Tayyab Khan,Zane Yong,Lequn Chen,Wenhe Feng,Nicholas Yew Jin Tan,Seung Ki Moon
Main category: cs.CV
TL;DR: 提出三阶段混合框架,使用现代检测和视觉语言模型自动解释2D多视图工程图,实现布局分割、注释检测和语义内容解析。
- Motivation: 解决复杂多视图工程图解释的挑战,包括布局变化、方向多样和混合符号文本内容,传统方法难以有效处理。
- Method: 三阶段框架:1) YOLOv11-det进行布局分割;2) YOLOv11-obb进行方向感知注释检测;3) 两个基于Donut的VLM进行语义解析(字母型VLM提取文本,数值型VLM解释定量数据)。
- Result: 字母型VLM F1分数0.672,数值型VLM F1分数0.963,在文本和定量解释方面表现优异。开发了两个专用数据集(1000张布局检测,1406张注释级训练)。
- Conclusion: 该框架为智能工程图分析提供了可扩展解决方案,统一的JSON输出便于与CAD和制造数据库集成。
[44] LSF-Animation: Label-Free Speech-Driven Facial Animation via Implicit Feature Representation
Xin Lu,Chuanqing Zhuang,Chenxi Jin,Zhengda Lu,Yiqun Wang,Wu Liu,Jun Xiao
Main category: cs.CV
TL;DR: LSF-Animation是一个无需显式情感和身份标签的语音驱动3D面部动画框架,通过从语音中隐式提取情感信息、从中性面部网格中捕获身份特征,实现了对未见说话者和情感状态的更好泛化能力。
- Motivation: 现有方法依赖显式的一热编码来表示身份和情感,限制了泛化能力,且忽略了语音中固有的情感线索,影响了动画的自然度和适应性。
- Method: 提出LSF-Animation框架,隐式从语音提取情感信息,从中性面部网格捕获身份特征;引入分层交互融合块(HIFB),使用融合令牌集成双变换器特征,有效融合情感、运动和身份线索。
- Result: 在3DMEAD数据集上的广泛实验表明,该方法在情感表现力、身份泛化和动画真实感方面超越了现有最先进方法。
- Conclusion: LSF-Animation通过消除对显式情感和身份特征的依赖,实现了更好的泛化能力和更自然的动画生成,为语音驱动的3D面部动画提供了有效解决方案。
[45] Addressing Corner Cases in Autonomous Driving: A World Model-based Approach with Mixture of Experts and LLMs
Haicheng Liao,Bonan Wang,Junxian Yang,Chengyue Wang,Zhengbin He,Guohui Zhang,Chengzhong Xu,Zhenning Li
Main category: cs.CV
TL;DR: WM-MoE是世界模型驱动的运动预测框架,通过统一感知、时间记忆和决策来解决高风险极端场景的挑战,在多个基准数据集上优于现有方法。
- Motivation: 现有模型在安全关键极端场景中表现不佳,因为训练数据中常见场景过度代表且泛化能力有限,需要提升自动驾驶在罕见但关键情况下的预测可靠性。
- Method: 构建紧凑场景表示,结合LLM增强长期推理,使用轻量级时间分词器将轨迹映射到LLM特征空间,引入MoE分解复杂场景,路由器分配场景到专门专家进行意图推断和反事实推演。
- Result: 在四个基准数据集上的广泛实验表明,WM-MoE始终优于最先进基线,在极端场景和数据缺失条件下保持鲁棒性。
- Conclusion: 基于世界模型的架构为自动驾驶中稳健和可泛化的运动预测提供了前景。
[46] AI Powered Urban Green Infrastructure Assessment Through Aerial Imagery of an Industrial Township
Anisha Dutta
Main category: cs.CV
TL;DR: 提出了一种基于人工智能和计算机视觉的高效方法,利用无人机航拍图像准确估算城市树冠覆盖率,为城市规划提供数据支持。
- Motivation: 传统城市树冠覆盖率评估方法存在技术限制、难以扩展、数据处理困难等问题,需要更高效准确的技术手段来支持城市规划和环境监测。
- Method: 采用基于深度学习的对象图像分析方法,结合高性能云平台处理高分辨率无人机图像,准确识别和分割绿色树冠。
- Result: 该方法能够准确估算城市尺度的树冠覆盖率,为城市林业管理提供有价值的数据,支持树木种植优化和碳汇潜力评估。
- Conclusion: 通过将人工智能技术整合到可持续城市规划中,可以创建更具韧性的城市环境,为更绿色健康的未来做出贡献。
[47] TernaryCLIP: Efficiently Compressing Vision-Language Models with Ternary Weights and Distilled Knowledge
Shu-Hao Zhang,Wei-Cheng Tang,Chen Wu,Peng Hu,Nan Li,Liang-Jie Zhang,Qi Zhang,Shao-Qun Zhang
Main category: cs.CV
TL;DR: TernaryCLIP是一个轻量级计算框架,将CLIP模型的视觉和文本编码器权重转换为三元格式,实现高效推理和存储优化,同时保持多模态任务的性能。
- Motivation: 近年来图像-文本对比建模模型(如CLIP)受到广泛关注,但全精度模型在资源受限设备上部署困难。本文旨在通过极重量化实现大模型在资源受限设备上的高效部署。
- Method: 提出TernaryCLIP框架,将CLIP的视觉和文本编码器权重转换为三元格式,结合量化感知训练和蒸馏模块,防止精度下降并支持低成本高效计算。
- Result: 实验表明TernaryCLIP可实现99%三元化权重、1.58位表示、16.98倍压缩比、2.3倍推理加速、16倍存储减少、10倍内存优化和60%稀疏度,在41个常用数据集上保持零样本图像分类和图像-文本检索任务的性能。
- Conclusion: 这项工作证明了极重量化在大规模多模态模型中的可行性,支持在资源受限设备上的有效高效部署。
[48] Generative AI in Depth: A Survey of Recent Advances, Model Variants, and Real-World Applications
Shamim Yazdani,Akansha Singh,Nripsuta Saxena,Zichong Wang,Avash Palikhe,Deng Pan,Umapada Pal,Jie Yang,Wenbin Zhang
Main category: cs.CV
TL;DR: 这篇论文是关于深度学习生成模型的综述,主要涵盖GANs、VAEs和DMs三种主流模型,提出了一个综合分类法来组织文献,并讨论了技术进展、伦理问题和未来研究方向。
- Motivation: 随着生成模型的快速发展,研究数量激增、应用领域扩展和技术挑战未解决,使得保持对该领域最新进展的了解变得困难。
- Method: 引入一个全面的分类法来组织文献,为理解GANs、VAEs和DMs的发展提供统一框架,包括它们的变体和组合方法。
- Result: 突出了提高生成输出质量、多样性和可控性的关键创新,反映了生成式人工智能的扩展潜力。
- Conclusion: 除了总结技术进展外,还考察了伦理问题,包括滥用风险和合成媒体的社会影响,并提出了持续挑战和未来研究方向。
[49] Sprint: Sparse-Dense Residual Fusion for Efficient Diffusion Transformers
Dogyun Park,Moayed Haji-Ali,Yanyu Li,Willi Menapace,Sergey Tulyakov,Hyunwoo J. Kim,Aliaksandr Siarohin,Anil Kag
Main category: cs.CV
TL;DR: SPRINT是一种高效的扩散变换器训练方法,通过稀疏-密集残差融合和两阶段训练策略,在保持生成质量的同时实现高达75%的token丢弃,显著降低训练成本。
- Motivation: 扩散变换器(DiTs)虽然提供最先进的生成性能,但其二次训练成本使得大规模预训练极其昂贵。现有的token丢弃方法要么参数繁重,要么在高丢弃率下效果不佳。
- Method: SPRINT利用浅层和深层网络的互补作用:浅层处理所有token捕获局部细节,深层操作稀疏子集以减少计算,通过残差连接融合输出。采用两阶段训练:长掩码预训练和短全token微调。
- Result: 在ImageNet-1K 256x256上,SPRINT实现9.8倍训练节省,FID/FDD指标相当。推理时,其路径丢弃指导(PDG)几乎减半FLOPs同时提升质量。
- Conclusion: SPRINT为高效DiT训练提供了一个简单、有效且通用的解决方案。
[50] LiteDiff
Ruchir Namjoshi,Nagasai Thadishetty,Vignesh Kumar,Hemanth Venkateshwara
Main category: cs.CV
TL;DR: Lite-Diff是一种轻量级扩散模型微调方法,通过冻结基础模型权重并优化小型残差适配器模块,在医学影像等数据稀缺领域实现高效迁移学习。
- Motivation: 扩散模型在图像合成方面表现出色,但在医学影像等专业领域微调面临挑战:领域特定数据有限、完整模型适配计算成本高。
- Method: 在冻结的扩散U-Net中集成轻量级适配层,结合潜在形态自编码器(用于领域特定潜在一致性)和像素级判别器(用于对抗对齐)增强训练。
- Result: 在三个胸部X光数据集上的实验表明,Lite-Diff相比完整微调实现了更优的适配效率,在最小数据设置下显著减少计算开销并缓解过拟合。
- Conclusion: 该框架为扩散模型的迁移学习提供了有前景的方向,促进了其在各种低数据领域的部署。
[51] FlowOpt: Fast Optimization Through Whole Flow Processes for Training-Free Editing
Or Ronai,Vladimir Kulikov,Tomer Michaeli
Main category: cs.CV
TL;DR: FlowOpt是一个零阶优化框架,将整个流匹配过程视为黑盒,无需反向传播即可在整个采样路径上进行优化,用于图像编辑任务。
- Motivation: 由于扩散和流匹配模型采样过程的迭代性质,直接使用基于梯度的优化来控制最终生成的图像在计算上不切实际,现有方法通常需要分别操作每个时间步。
- Method: 提出FlowOpt框架,采用零阶优化方法,将整个流过程视为黑盒,无需反向传播,允许用户监控中间优化结果并执行早停。
- Result: 在图像编辑任务中,FlowOpt在图像反演和直接引导编辑方面都达到了最先进的结果,同时使用的神经网络函数评估次数与现有方法相当。
- Conclusion: FlowOpt提供了一个高效且实用的优化框架,适用于流匹配模型的受控生成任务,具有收敛保证和实际应用价值。
[52] Reconnaissance Automatique des Langues des Signes : Une Approche Hybridée CNN-LSTM Basée sur Mediapipe
Fraisse Sacré Takouchouang,Ho Tuong Vinh
Main category: cs.CV
TL;DR: 基于CNN-LSTM混合架构的手语识别系统,使用Mediapipe提取手势关键点,实现实时手势翻译,平均准确率达92%
- Motivation: 手语在聋人社区沟通中至关重要,但常被边缘化,限制了医疗、教育等基本服务的获取
- Method: 采用CNN-LSTM混合架构,使用Mediapipe进行手势关键点提取,基于Python、TensorFlow和Streamlit开发实时手势翻译系统
- Result: 系统平均准确率达到92%,对"你好"、"谢谢"等明显手势表现良好,但"呼叫"和"是"等视觉相似手势存在混淆
- Conclusion: 这项工作为医疗、教育和公共服务等领域的应用开辟了有趣的前景
[53] Caption-Driven Explainability: Probing CNNs for Bias via CLIP
Patrick Koller,Amil V. Dravid,Guido M. Schuster,Aggelos K. Katsaggelos
Main category: cs.CV
TL;DR: 提出了一种基于标题的XAI方法,通过将独立模型集成到CLIP模型中,识别对模型预测贡献最大的主导概念,提高机器学习模型的鲁棒性。
- Motivation: 解决传统显著性映射方法在重叠像素空间中可能误导的问题,避免模型被虚假特征干扰,提高模型对抗协变量偏移的鲁棒性。
- Method: 采用新颖的网络手术方法,将待解释的独立模型集成到对比语言-图像预训练(CLIP)模型中,生成基于标题的解释。
- Result: 该方法能够识别对模型预测贡献最大的主导概念,有效降低独立模型受到协变量偏移影响的风险。
- Conclusion: 提出的基于标题的XAI方法为开发鲁棒机器学习模型做出了重要贡献,通过概念层面的解释避免了像素级显著性映射的局限性。
[54] VLM-SlideEval: Evaluating VLMs on Structured Comprehension and Perturbation Sensitivity in PPT
Hyeonsu Kang,Emily Bao,Anjan Goswami
Main category: cs.CV
TL;DR: 提出了VLM-SlideEval框架,评估视觉语言模型在幻灯片理解方面的能力,发现现有模型在像素级提取和跨幻灯片叙事结构理解方面表现不佳。
- Motivation: 视觉语言模型越来越多地用于评估多模态内容,包括演示幻灯片,但它们在幻灯片特定理解方面的能力尚未得到充分探索。
- Method: 开发了VLM-SlideEval评估框架,从三个维度测试VLMs:元素级提取、对几何/样式/文本扰动的鲁棒性,以及从乱序幻灯片恢复叙事顺序的高级理解能力。
- Result: VLMs在像素级提取方面表现不佳,在受控扰动下显示出非平凡的协议、保真度和一致性,在单幻灯片内容理解方面表现较好,但不能可靠地捕捉跨幻灯片的叙事结构。
- Conclusion: 当前VLMs在幻灯片评估方面存在局限性,需要开发经过校准的、包含批评者的评估器,以驱动智能管道中的迭代优化和选择。
[55] Human-Centric Anomaly Detection in Surveillance Videos Using YOLO-World and Spatio-Temporal Deep Learning
Mohammad Ali Etemadi Naeen,Hoda Mohammadzade,Saeed Bagheri Shouraki
Main category: cs.CV
TL;DR: 提出一种结合人类中心预处理和时空建模的深度学习框架,用于监控视频中的多类异常检测,在UCF-Crime数据集上达到92.41%的平均准确率。
- Motivation: 解决监控视频异常检测面临的挑战:异常事件多样性、类别不平衡和场景依赖性视觉干扰。
- Method: 使用YOLO-World检测人类实例,ByteTrack进行身份跟踪,高斯模糊抑制背景,InceptionV3提取空间特征,BiLSTM捕获时序动态。
- Result: 在五类异常检测任务中平均测试准确率达92.41%,各类别F1分数均超过0.85,表现出良好的泛化能力和抗类别不平衡能力。
- Conclusion: 前景聚焦的预处理策略显著提升了真实监控场景中的异常识别性能。
[56] Capturing Gaze Shifts for Guidance: Cross-Modal Fusion Enhancement for VLM Hallucination Mitigation
Zheng Qi,Chao Shang,Evangelia Spiliopoulou,Nikolaos Pappas
Main category: cs.CV
TL;DR: 提出GIFT方法解决VLMs中的幻觉问题,通过跟踪视觉注意力变化生成显著性图,在解码时同时增强对显著视觉信息和用户查询的关注,实现平衡的跨模态融合。
- Motivation: 现有方法仅按比例放大视觉token注意力,忽视了视觉注意力汇问题(注意力被错误分配到任务无关区域)和跨模态融合平衡问题,导致错误区域被放大且无法正确理解用户查询。
- Method: GIFT方法预先计算整体视觉显著性图,通过跟踪用户查询理解过程中的视觉注意力正向变化("注视转移"),利用该图在每一步解码时同时增强对显著视觉信息和用户查询的关注。
- Result: 广泛实验表明GIFT有效缓解了VLMs在生成和分类任务中的幻觉问题,相比贪婪解码最高提升20.7%,同时保持通用视觉语言性能且计算开销低。
- Conclusion: GIFT通过平衡的跨模态融合有效解决了视觉注意力汇问题,显著减少VLMs的幻觉生成,是一种简单有效的方法。
[57] Scanner-Agnostic MRI Harmonization via SSIM-Guided Disentanglement
Luca Caldera,Lara Cavinato,Francesca Ieva
Main category: cs.CV
TL;DR: 提出了一种基于图像的3D T1加权脑MRI协调框架,通过解耦解剖内容和扫描仪/站点特异性变化来减少多中心研究中的变异性。
- Motivation: MRI扫描仪型号、采集协议和成像站点的差异导致多中心研究分析不一致和泛化性差,需要一种方法来协调不同站点的图像数据。
- Method: 使用基于结构相似性指数(SSIM)的可微损失函数,将图像亮度、对比度和结构分量分开评估,通过多风格目标进行协调训练。
- Result: 协调后图像在保持解剖保真度的同时实现了跨采集设置的强对齐:结构SSIM达0.97,亮度SSIM达0.98-0.99,脑年龄预测误差从5.36年降至3.30年,阿尔茨海默病分类AUC从0.78提升至0.85。
- Conclusion: 该框架增强了跨站点图像一致性,保持了解剖保真度,并显著改善了下游模型性能,为大规模多中心神经影像研究提供了稳健且可泛化的解决方案。
[58] Mitigating Coordinate Prediction Bias from Positional Encoding Failures
Xingjian Tao,Yiwei Wang,Yujun Cai,Yihong Luo,Jing Tang
Main category: cs.CV
TL;DR: 该论文研究了多模态大语言模型在坐标预测任务中的位置编码问题,发现高分辨率输入会导致位置编码弱化和方向性偏差,并提出了无需训练的测试时校正方法VPSG。
- Motivation: 多模态大语言模型在视觉语言任务中表现出色,但在精确坐标预测方面存在困难,特别是在高分辨率输入下位置编码会弱化并产生方向性偏差。
- Method: 通过分析位置编码扰动对模型行为的影响,提出VPSG方法:使用打乱的位置编码进行辅助解码来隔离位置无关倾向,然后作为负面证据指导数字预测,同时通过轻量级有限状态机保持坐标格式。
- Result: 在ScreenSpot-Pro数据集上的实验表明,VPSG方法能够可靠地改善坐标预测性能,证明了位置编码鲁棒性对多模态大语言模型空间推理的重要性。
- Conclusion: 位置编码的鲁棒性是影响多模态大语言模型空间推理能力的关键因素,VPSG方法能够有效校正坐标预测中的方向性偏差。
[59] Discovering Latent Graphs with GFlowNets for Diverse Conditional Image Generation
Bailey Trang,Parham Saremi,Alan Q. Wang,Fangrui Huang,Zahra TehraniNasab,Amar Kumar,Tal Arbel,Li Fei-Fei,Ehsan Adeli
Main category: cs.CV
TL;DR: Rainbow是一个条件图像生成框架,通过将输入条件分解为多样的潜在表示来生成多样化的图像,解决了条件不确定性导致的多种可能输出问题。
- Motivation: 传统方法通过修改随机种子或多样化输入提示来生成多样性图像,但难以区分有意义的差异或受限于语言可解释的多样性。需要一种能处理条件不确定性并生成多样化合理图像的方法。
- Method: 将潜在图集成到提示表示计算中,使用生成流网络参数化该图,利用其高级图采样能力捕获不确定性并生成多样化的轨迹,从而产生不同的条件表示和对应的输出图像。
- Result: 在自然图像和医学图像数据集上的评估表明,Rainbow在图像合成、图像生成和反事实生成任务中,在多样性和保真度方面都有所提升。
- Conclusion: Rainbow框架能够有效处理条件不确定性,生成多样化且高质量的条件图像,适用于任何预训练的条件生成模型。
[60] GRAID: Enhancing Spatial Reasoning of VLMs Through High-Fidelity Data Generation
Karim Elmaaroufi,Liheng Lai,Justin Svegliato,Yutong Bai,Sanjit A. Seshia,Matei Zaharia
Main category: cs.CV
TL;DR: GRAID是一个基于2D几何基元生成高质量视觉问答数据集的框架,避免了3D重建误差和生成幻觉,在空间推理任务上显著提升了模型性能。
- Motivation: 现有的视觉语言模型在空间推理任务上表现不佳,主要原因是现有数据生成方法存在3D重建误差和生成幻觉问题,导致数据集质量较低。
- Method: GRAID仅使用标准物体检测器输出的2D边界框来确定定性空间关系,避免了3D重建和生成式方法的问题。
- Result: 在BDD100k、NuImages和Waymo数据集上生成了850万个高质量VQA对,人类验证准确率达到91.16%,相比现有方法的57.6%有显著提升。微调后的模型在空间推理任务上实现了47.5%和37.9%的准确率提升。
- Conclusion: GRAID框架能够生成高质量的空间推理数据集,显著提升视觉语言模型的空间推理能力,并具有良好的泛化性能。
[61] CogStereo: Neural Stereo Matching with Implicit Spatial Cognition Embedding
Lihuang Fang,Xiao Hu,Yuchen Zou,Hong Zhang
Main category: cs.CV
TL;DR: CogStereo是一个新颖的立体匹配框架,通过嵌入隐式空间认知来改进具有挑战性区域(如遮挡或弱纹理)的视差估计,无需依赖数据集特定先验。
- Motivation: 当前深度立体匹配方法在基准数据集上表现良好,但在零样本泛化方面不及其他视觉任务中的基础模型。需要解决遮挡、弱纹理等挑战性区域的问题。
- Method: 使用单目深度特征作为先验,将隐式空间认知嵌入到优化过程中。采用双条件优化机制,结合像素级不确定性和认知引导特征,实现全局一致的误匹配校正。
- Result: 在Scene Flow、KITTI、Middlebury、ETH3D、EuRoc和真实世界数据集上的广泛实验表明,CogStereo不仅达到最先进结果,还在跨域泛化方面表现出色。
- Conclusion: CogStereo将立体视觉推向认知驱动的方法,即使在几何信息不足的区域也能确保结构一致的视差估计。
[62] Mint: A Simple Test-Time Adaptation of Vision-Language Models against Common Corruptions
Wenxuan Bao,Ruxi Deng,Jingrui He
Main category: cs.CV
TL;DR: CLIP模型在分布偏移下会出现嵌入方差崩溃现象,导致性能下降。本文提出Mint方法,通过最大化伪标签的类间方差来提升嵌入质量,在多个基准测试中有效改善性能。
- Motivation: 预训练视觉语言模型如CLIP在零样本泛化方面表现良好,但对输入损坏引起的分布偏移很脆弱。研究发现损坏会导致嵌入方差崩溃,这与性能下降密切相关。
- Method: 提出Mint方法,一种简单的测试时自适应方法,使用均值累加器和梯度累加器在线最大化基于伪标签的类间方差。该方法在小批量下也能有效工作。
- Result: Mint方法在多个损坏基准测试和CLIP架构中一致地提升了性能,证明了最大化类间方差可以有效增强嵌入质量。
- Conclusion: 嵌入方差崩溃是CLIP在分布偏移下性能下降的关键原因,通过最大化类间方差可以有效缓解这一问题,Mint方法为此提供了简单有效的解决方案。
[63] egoEMOTION: Egocentric Vision and Physiological Signals for Emotion and Personality Recognition in Real-World Tasks
Matthias Jammot,Bjöern Braun,Paul Streli,Rafael Wampfler,Christian Holz
Main category: cs.CV
TL;DR: 提出了egoEMOTION数据集,这是首个结合自我中心视觉和生理信号与密集情感和人格自我报告的数据集,包含50多小时来自43名参与者的记录,定义了三个基准任务:连续情感分类、离散情感分类和特质级人格推断。
- Motivation: 当前自我中心视觉基准主要忽略影响人类决策和行动的情感状态,专注于物理活动、手-物交互和注意力建模,假设中性情感和统一人格,限制了视觉系统捕捉行为关键内部驱动因素的能力。
- Method: 使用Meta的Project Aria眼镜记录超过50小时的同步眼动追踪视频、头戴式光电容积描记、惯性运动数据和生理基线,参与者完成情感诱发任务和自然活动,同时使用Circumplex模型和Mikels轮以及大五人格模型自我报告情感状态。
- Result: 研究表明,在现实世界情感预测中,基于经典学习的方法作为简单基线,通过自我中心视觉系统捕获的信号比处理生理信号产生更好的估计。
- Conclusion: 该数据集将情感和人格确立为自我中心感知的核心维度,为情感驱动的行为、意图和交互建模开辟了新方向。
[64] STG-Avatar: Animatable Human Avatars via Spacetime Gaussian
Guangan Jiang,Tianzi Zhang,Dong Li,Zhenjun Zhao,Haoang Li,Mingrui Li,Hongyu Wang
Main category: cs.CV
TL;DR: STG-Avatar是一个基于3DGS的高保真可动画人体化身重建框架,通过结合时空高斯和线性混合蒙皮来解决非刚性物体细节和动态区域表示问题。
- Motivation: 从单目视频创建逼真的可动画人体化身对于推进人机交互和增强沉浸式虚拟体验至关重要。现有3DGS方法在准确表示非刚性物体细节和动态区域方面仍有困难。
- Method: 提出刚性-非刚性耦合变形框架,将时空高斯与线性混合蒙皮协同集成。LBS通过驱动全局姿态变换实现实时骨骼控制,STG通过3D高斯的时空自适应优化进行补充,并使用光流识别高动态区域指导自适应密集化。
- Result: 实验结果表明,该方法在重建质量和操作效率方面持续优于最先进的基线方法,在保持实时渲染能力的同时实现了优越的定量指标。
- Conclusion: STG-Avatar框架成功解决了3DGS人体化身在非刚性变形和动态区域表示方面的挑战,为高质量可动画人体化身重建提供了有效解决方案。
[65] LOC: A General Language-Guided Framework for Open-Set 3D Occupancy Prediction
Yuhang Gao,Xiang Xiang,Sheng Zhong,Guoyou Wang
Main category: cs.CV
TL;DR: LOC是一个通用的语言引导3D场景理解框架,支持监督和自监督学习,通过密集对比学习增强开放集识别能力,在nuScenes数据集上表现出色。
- Motivation: 解决3D数据集有限导致视觉语言模型在3D场景理解中应用受限的问题,提升开放集识别能力。
- Method: 使用多帧LiDAR点云融合、泊松重建填补空洞、KNN分配语义,引入密集对比学习(DCL)避免特征同质化,结合CLIP特征空间进行体素特征预测。
- Result: 在nuScenes数据集上实现高性能,对已知类别实现高精度预测,无需额外训练数据即可区分未知类别。
- Conclusion: LOC框架有效解决了3D场景理解中的数据限制问题,通过语言引导和对比学习显著提升了开放集识别性能。
[66] Attention Residual Fusion Network with Contrast for Source-free Domain Adaptation
Renrong Shao,Wei Zhang,Jun Wang
Main category: cs.CV
TL;DR: 提出ARFNet框架,通过注意力残差融合、全局-局部注意力对比和动态质心评估来缓解SFDA中的负迁移和域偏移问题。
- Motivation: 解决源自由域自适应中负迁移和域偏移对模型性能提升的阻碍问题。
- Method: 使用注意力机制捕获目标对象判别区域,通过空间和通道注意力实现跨层注意力残差融合和自蒸馏,对比全局-局部表示提升类别感知能力,采用动态质心评估策略获取可信质心和伪标签。
- Result: 在五个不同规模的基准测试中,该方法超越了其他技术,在SFDA基准上取得了优越性能。
- Conclusion: ARFNet框架通过注意力残差融合、对比学习和动态质心评估,有效缓解了SFDA中的负迁移和域偏移问题,实现了优异的性能表现。
[67] I2-NeRF: Learning Neural Radiance Fields Under Physically-Grounded Media Interactions
Shuhong Liu,Lin Gu,Ziteng Cui,Xuangeng Chu,Tatsuya Harada
Main category: cs.CV
TL;DR: I2-NeRF是一个新颖的神经辐射场框架,通过反向分层上采样策略和统一辐射传输公式,在媒体退化条件下增强等距和各向同性度量感知能力。
- Motivation: 现有NeRF模型主要依赖物体中心采样,缺乏对3D物理世界等距和各向同性度量的感知能力,特别是在媒体退化环境(如水下、雾霾、低光场景)中表现不佳。
- Method: 提出反向分层上采样策略实现近均匀3D空间采样以保持等距性;建立统一的辐射传输公式,将发射、吸收和散射统一到受比尔-朗伯衰减定律控制的粒子模型中;通过组合直接辐射和媒体诱导的内散射辐射来扩展至复杂媒体环境。
- Result: 在真实世界数据集上的实验表明,该方法相比现有方法显著提高了重建保真度和物理合理性,并能估计媒体属性(如水深)。
- Conclusion: I2-NeRF框架通过改进采样策略和辐射传输建模,成功增强了在媒体退化条件下的等距和各向同性度量感知能力,为生成式AI的3D物理世界感知提供了有效解决方案。
[68] HARMONY: Hidden Activation Representations and Model Output-Aware Uncertainty Estimation for Vision-Language Models
Erum Mushtaq,Zalan Fabian,Yavuz Faruk Bakman,Anil Ramakrishna,Mahdi Soltanolkotabi,Salman Avestimehr
Main category: cs.CV
TL;DR: 提出了HARMONY框架,通过联合利用多模态融合信息和VLM输出分布来评估视觉语言模型生成结果的可靠性,在多个基准测试中优于现有方法。
- Motivation: 现有不确定性估计方法要么依赖输出概率分布,要么利用隐藏表示训练MLP模型,但都难以捕捉语义和文本标记之间的复杂多模态关系,且容易受到语言先验的影响。
- Method: HARMONY框架同时利用模型激活中的融合多模态信息和VLM的输出分布,将模型的内部视觉理解信念与生成的标记概率结合来评估可靠性。
- Result: 在A-OKVQA、VizWiz和PathVQA三个开放VQA基准测试中,使用LLaVa-7b、LLaVA-13b和InstructBLIP三个VLMs进行实验,HARMONY在AUROC上提升高达4%,在PRR上提升6%,达到最先进水平。
- Conclusion: 联合利用模型内部信念和输出概率分布可以显著提升视觉语言模型的不确定性估计性能,HARMONY框架为高风险应用中的VLM可靠性评估提供了有效解决方案。
[69] Scaling Non-Parametric Sampling with Representation
Vincent Lu,Aaron Truong,Zeyu Yun,Yubei Chen
Main category: cs.CV
TL;DR: 提出了一种简单的非参数生成模型,基于自然图像的三个原则,无需训练即可生成高质量图像样本。
- Motivation: 尽管图像生成模型在规模和逼真度上取得了显著进展,但其内部机制仍然不透明。本研究旨在剥离复杂的工程技巧,探索自然图像的基本结构原理。
- Method: 基于自然图像的三个原则(空间非平稳性、低层规律性、高层语义),设计了一个非参数生成模型,从每个像素的局部上下文窗口定义其分布。
- Result: 该模型在MNIST上生成高保真样本,在CIFAR-10上生成视觉上引人注目的图像,尽管架构极简且无需训练。
- Conclusion: 这种简单性与强大性能的结合指向了自然图像结构的最小理论,并为理解神经网络生成模型的泛化机制提供了洞见。
[70] MOGRAS: Human Motion with Grasping in 3D Scenes
Kunal Bhosikar,Siddharth Katageri,Vivek Madhavaram,Kai Han,Charu Sharma
Main category: cs.CV
TL;DR: 提出了MOGRAS数据集,用于在3D场景中生成逼真的全身抓取动作,并通过简单有效的方法改进了现有方法在场景感知生成方面的表现。
- Motivation: 现有方法要么只能生成3D场景中的全身动作但缺乏精细抓取能力,要么能生成精确抓取动作但忽略了3D场景,需要解决在3D场景中生成物理合理的全身抓取动作这一挑战。
- Method: 引入MOGRAS大规模数据集,包含预抓取全身行走动作和最终抓取姿态;提出简单有效的方法来适配现有方法在3D场景中的工作。
- Result: 通过大量定量和定性实验验证了数据集的有效性,并展示了所提方法带来的显著改进。
- Conclusion: MOGRAS数据集和提出的方法为更逼真的人-场景交互铺平了道路。
[71] LongCat-Video Technical Report
Meituan LongCat Team,Xunliang Cai,Qilong Huang,Zhuoliang Kang,Hongyu Li,Shijun Liang,Liya Ma,Siyu Ren,Xiaoming Wei,Rixu Xie,Tong Zhang
Main category: cs.CV
TL;DR: LongCat-Video是一个136亿参数的基础视频生成模型,在多个视频生成任务中表现优异,特别擅长高效生成高质量长视频,是构建世界模型的第一步。
- Motivation: 视频生成是构建世界模型的关键路径,高效的长视频推理能力是其中的核心能力。
- Method: 基于Diffusion Transformer (DiT)框架的统一架构,支持文本到视频、图像到视频和视频延续任务;采用从粗到细的时空生成策略和块稀疏注意力机制;使用多奖励RLHF训练。
- Result: 模型能够在几分钟内生成720p、30fps的视频,在生成长达数分钟的视频时保持高质量和时间一致性,性能与最新的闭源和领先开源模型相当。
- Conclusion: LongCat-Video代表了向世界模型迈出的重要一步,其代码和模型权重已公开,将加速该领域的发展。
[72] TrajGATFormer: A Graph-Based Transformer Approach for Worker and Obstacle Trajectory Prediction in Off-site Construction Environments
Mohammed Alduais,Xinming Li,Qipei Mei
Main category: cs.CV
TL;DR: 该论文提出了一种集成YOLOv10n和DeepSORT的框架,以及两种新颖的轨迹预测模型TrajGATFormer和TrajGATFormer-Obstacle,用于建筑工地工人和障碍物的轨迹预测,以提高施工安全性。
- Motivation: 随着建筑行业对更快、更安全、更高效流程的需求增长,场外施工带来了新的安全风险,因为工人、机械和移动障碍物之间密切互动。传统方法难以适应建筑环境的动态性和不可预测性,而现有数据驱动方法在捕捉长期行为和空间社交背景方面仍面临挑战。
- Method: 使用YOLOv10n进行精确的目标检测,DeepSORT进行目标跟踪,提出两种轨迹预测模型:TrajGATFormer(仅预测工人轨迹)和TrajGATFormer-Obstacle(预测工人和障碍物轨迹),两者都采用Transformer编码器-解码器架构和图注意力网络来捕捉时空交互。
- Result: TrajGATFormer在4.8秒预测范围内达到ADE 1.25米和FDE 2.3米;TrajGATFormer-Obstacle达到更高精度,ADE 1.15米和FDE 2.2米。两种模型相比传统方法分别将ADE和FDE降低了35%和38%。
- Conclusion: 所提出的框架和模型在建筑工地轨迹预测方面表现出色,能够有效捕捉复杂的时空交互,为开发碰撞避免系统提供了可靠的技术基础,显著提升了施工安全性。
[73] DynamicTree: Interactive Real Tree Animation via Sparse Voxel Spectrum
Yaokun Li,Lihe Ding,Xiao Chen,Guang Tan,Tianfan Xue
Main category: cs.CV
TL;DR: DynamicTree是首个能够生成3D高斯溅射树木长期交互动画的框架,使用紧凑稀疏体素谱表示树木运动,支持实时交互响应。
- Motivation: 在虚拟现实、游戏和世界仿真中生成动态交互的3D树木存在挑战,现有方法难以生成复杂真实树木的逼真4D运动。
- Method: 基于3D高斯溅射重建的树木,使用稀疏体素谱生成网格运动,然后将高斯绑定到变形网格上,同时支持外力下的快速模态分析。
- Result: 方法实现了逼真且响应迅速的树木动画,在视觉质量和计算效率上显著优于现有方法。
- Conclusion: DynamicTree框架成功解决了树木动态生成问题,并引入了首个大规模合成4D树木数据集4DTree,为相关研究提供了重要基础。
[74] GALA: A GlobAl-LocAl Approach for Multi-Source Active Domain Adaptation
Juepeng Zheng,Peifeng Zhang,Yibin Wen,Qingmei Li,Yang Zhang,Haohuan Fu
Main category: cs.CV
TL;DR: 本文提出了一种多源主动领域自适应方法(MS-ADA),通过GALA策略结合全局k-means聚类和局部选择标准,仅需1%的目标域标注就能达到接近全监督的性能。
- Motivation: 现有领域自适应方法在性能上与全监督学习仍有较大差距,多源领域自适应虽然能利用更丰富的源域信息,但需要进一步通过选择性获取目标域标注来提升性能。
- Method: 提出GALA策略,包含全局k-means聚类步骤和基于聚类的局部选择标准,能够同时处理类间多样性和多源域变化问题,无需额外可训练参数即可集成到现有DA框架中。
- Result: 在三个标准DA基准测试上的实验表明,GALA始终优于先前的主动学习和主动DA方法,仅使用1%的目标域标注就能达到接近全监督上界的性能。
- Conclusion: MS-ADA是一个实用且具有挑战性的设置,GALA策略通过互补方式有效解决了多源主动领域自适应的关键问题,实现了高效的标注利用。
[75] Enpowering Your Pansharpening Models with Generalizability: Unified Distribution is All You Need
Yongchuan Cui,Peng Liu,Hui Zhang
Main category: cs.CV
TL;DR: 提出UniPAN方法,通过统一的分布策略增强全色锐化模型的泛化能力,解决深度学习模型在不同卫星传感器上的性能退化问题。
- Motivation: 现有深度学习全色锐化模型在训练数据上表现优异,但由于传感器特性和成像条件差异,在未见卫星数据上性能显著下降,缺乏泛化性。
- Method: 构建分布变换函数,将不同来源的像素归一化到相同分布。模型在变换后的域上训练,测试时新数据也进行相应变换以匹配训练分布。
- Result: 大量实验验证了UniPAN的有效性,显著提升了深度全色锐化模型在不同卫星传感器上的性能。
- Conclusion: UniPAN通过统一分布策略成功增强了全色锐化模型的泛化能力,实现了"一次训练,永久部署"的目标。
[76] Audio Frequency-Time Dual Domain Evaluation on Depression Diagnosis
Yu Luo,Nan Huang,Sophie Yu,Hendry Xu,Jerry Wang,Colin Wang,Zhichao Liu,Chen Zeng
Main category: cs.CV
TL;DR: 该研究利用语音信号和深度学习模型开发抑郁症智能评估诊断算法,通过频域-时域双模态特征实现抑郁症分类任务,取得了优异性能。
- Motivation: 抑郁症作为典型精神障碍已成为严重影响公共健康的普遍问题,但其防治面临诊断程序复杂、标准模糊、就诊率低等挑战,阻碍及时评估和干预。
- Method: 采用语音作为生理信号,利用其频域-时域双模态特征结合深度学习模型,开发抑郁症智能评估诊断算法。
- Result: 实验结果表明,该方法在抑郁症诊断分类任务中取得了优异性能。
- Conclusion: 为抑郁症的评估、筛查和诊断提供了新的思路和方法。
[77] Diffusion-Driven Two-Stage Active Learning for Low-Budget Semantic Segmentation
Jeongin Kim,Wonho Bae,YouLee Han,Giyeong Oh,Youngjae Yu,Danica J. Sutherland,Junhyug Noh
Main category: cs.CV
TL;DR: 提出一种两阶段主动学习方法,使用预训练扩散模型提取多尺度特征,通过分层候选选择和熵增强分歧评分,在极低像素预算下实现高效语义分割。
- Motivation: 语义分割需要密集像素级标注,成本高昂,特别是在极低标注预算下。本文旨在解决低预算主动学习的语义分割问题。
- Method: 两阶段选择流程:第一阶段使用MaxHerding进行分层候选选择,第二阶段计算熵增强分歧评分(eDALD)来选择信息量最大的像素进行标注。
- Result: 在四个基准数据集(CamVid、ADE-Bed、Cityscapes、Pascal-Context)上的实验表明,该方法在极端像素预算下显著优于现有基线方法。
- Conclusion: 通过解耦多样性和不确定性,该方法仅用少量标注像素就能实现高分割精度,为低预算语义分割提供了有效解决方案。
[78] DiffusionLane: Diffusion Model for Lane Detection
Kunyang Zhou,Yeqin Shao
Main category: cs.CV
TL;DR: 提出了一种基于扩散模型的车道线检测方法DiffusionLane,将车道检测任务建模为参数空间中的去噪扩散过程,通过混合解码策略和辅助训练头提升检测性能。
- Motivation: 传统车道检测方法在复杂场景下性能有限,需要一种能够处理噪声和不确定性的新方法。扩散模型在图像生成中表现出色,可以借鉴其去噪思想来提升车道检测的鲁棒性。
- Method: 1. 在车道参数空间添加高斯噪声,通过渐进去噪恢复目标车道;2. 设计混合扩散解码器,结合全局和局部解码器;3. 训练阶段使用辅助头增强编码器特征表示。
- Result: 在四个基准数据集上表现优异:Carlane领域自适应数据集上超越现有方法至少1%准确率;CULane上F1分数81.32%;Tusimple上准确率96.89%;LLAMAS上F1分数97.59%。
- Conclusion: DiffusionLane展示了强大的泛化能力和有前景的检测性能,证明了扩散模型在车道检测任务中的有效性。
[79] Real-Time Semantic Segmentation on FPGA for Autonomous Vehicles Using LMIINet with the CGRA4ML Framework
Amir Mohammad Khadem Hosseini,Sattar Mirzakuchaki
Main category: cs.CV
TL;DR: 基于FPGA的实时语义分割实现,采用轻量级LMIINet架构和CGRA4ML硬件框架,在Cityscapes数据集上达到90%像素精度和45% mIoU,实时运行速度20FPS。
- Motivation: 解决计算机视觉中语义分割在实时应用(如自动驾驶)中的关键挑战:在计算和硬件约束下实现高精度。
- Method: 使用量化感知训练(QAT)进行8位精度训练,采用CGRA4ML硬件框架,简化跳跃连接,使用硬件友好操作(深度可分离卷积、1A-1卷积),重新设计Flatten Transformer部分。
- Result: 在ZCU104 FPGA板上实现20FPS实时性能,延迟50.1ms,内存占用减少4倍,达到90%像素精度和45% mIoU。
- Conclusion: CGRA4ML框架为在FPGA上实现先进语义分割网络提供了可行路径,在保持竞争力的精度同时,在能效方面优于传统GPU解决方案。
[80] Accident Anticipation via Temporal Occurrence Prediction
Tianhao Zhao,Yiyang Zou,Zihao Mao,Peilun Xiao,Yulin Huang,Hongda Yang,Yuxuan Li,Qun Li,Guobin Wu,Yutian Lin
Main category: cs.CV
TL;DR: 提出了一种新的事故预测范式,从当前帧风险评分转向直接估计多个未来时间步的事故分数,使用精确标注的事故时间戳作为监督,显著提升了预测准确性。
- Motivation: 现有方法使用模糊的二元监督(将所有事故视频帧标记为正样本),而实际上风险随时间连续变化,导致不可靠学习和误报。
- Method: 使用片段级编码器联合建模时空动态,以及基于Transformer的时间解码器,通过专用时间查询同时预测所有未来时间范围的事故分数。
- Result: 在现实误报率约束下,该方法在召回率和事故时间预测方面均实现了优越性能。
- Conclusion: 该新范式通过精确的时间监督和多时间步预测,有效解决了事故预测中的误报问题,提升了道路安全预警的实用性。
[81] GSAlign: Geometric and Semantic Alignment Network for Aerial-Ground Person Re-Identification
Qiao Li,Jie Li,Yukang Zhang,Lei Tan,Jing Chen,Jiayi Ji
Main category: cs.CV
TL;DR: 提出GSAlign网络解决空对地行人重识别问题,通过可学习薄板样条模块和动态对齐模块联合处理几何变形和语义错位,在CARGO数据集上取得显著性能提升。
- Motivation: 空对地行人重识别面临极端视角差异、遮挡和域差距等挑战,现有方法在处理严重姿态变化和空间错位方面存在局限。
- Method: GSAlign包含两个关键组件:可学习薄板样条模块自适应扭曲行人特征以补偿几何变化,动态对齐模块估计可见性感知表示掩码以减轻遮挡影响。
- Result: 在CARGO数据集四种匹配协议上,GSAlign相比先前最优方法在空对地设置中mAP提升18.8%,Rank-1准确率提升16.8%。
- Conclusion: GSAlign通过联合处理几何和语义对齐,有效解决了空对地行人重识别中的视角差异和遮挡问题,取得了显著性能改进。
[82] WAON: Large-Scale and High-Quality Japanese Image-Text Pair Dataset for Vision-Language Models
Issa Sugiura,Shuhei Kurita,Yusuke Oda,Daisuke Kawahara,Yasuo Okabe,Naoaki Okazaki
Main category: cs.CV
TL;DR: WAON是一个包含约1.55亿个样本的大规模高质量日语图文对数据集,通过精细的数据收集和处理流程构建,在日语文化图像分类任务上表现优于现有数据集。
- Motivation: 大规模高质量的图文对数据集对视觉语言模型发展至关重要,但目前缺乏专门的日语高质量数据集。
- Method: 从Common Crawl收集数据,采用过滤和去重等技术构建数据集,并创建WAON-Bench评估基准,使用SigLIP2模型进行微调实验。
- Result: WAON在WAON-Bench上的表现优于ReLAION日语子集,在多个日语文化基准测试中达到最先进性能。
- Conclusion: WAON数据集能有效提升日语视觉语言模型的性能,特别是在日语文化相关任务上表现优异。
[83] CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning
Tianhui Liu,Hetian Pang,Xin Zhang,Jie Feng,Yong Li,Pan Hui
Main category: cs.CV
TL;DR: CityRiSE是一个基于纯强化学习的大视觉语言模型框架,用于从街景和卫星图像中推理城市社会经济状况,通过精心设计的多模态数据和可验证奖励机制,显著提升了预测准确性和泛化能力。
- Motivation: 现有的大视觉语言模型在从视觉数据中进行准确且可解释的社会经济预测方面仍存在困难,需要开发新的方法来充分利用这些模型的潜力。
- Method: 提出CityRiSE框架,采用纯强化学习方法,通过精心设计的多模态数据和可验证奖励机制,引导模型关注语义上有意义的视觉线索,实现结构化、目标导向的推理。
- Result: 实验表明CityRiSE显著优于现有基线方法,在预测准确性和泛化能力方面都有显著提升,特别是在未见过的城市和指标预测上表现优异。
- Conclusion: 这项工作展示了结合强化学习和大视觉语言模型在可解释、通用城市社会经济感知方面的巨大潜力。
[84] GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping
Jing Wang,Jiajun Liang,Jie Liu,Henglin Liu,Gongye Liu,Jun Zheng,Wanyuan Pang,Ao Ma,Zhenyu Xie,Xintao Wang,Meng Wang,Pengfei Wan,Xiaodan Liang
Main category: cs.CV
TL;DR: GRPO-Guard通过比率归一化和梯度重加权解决GRPO强化学习中重要性比率分布偏移问题,防止隐式过优化,提升生成质量。
- Motivation: 现有GRPO框架中重要性比率分布存在左移和不一致问题,导致PPO裁剪机制失效,模型进入隐式过优化阶段,虽然代理奖励上升但图像质量和文本对齐等关键指标下降。
- Method: 提出GRPO-Guard方法,包含比率归一化恢复平衡的重要性比率分布,以及梯度重加权策略均衡不同噪声条件下的策略梯度更新。
- Result: 在多个扩散模型和代理任务上的实验表明,GRPO-Guard显著减少过优化,同时保持甚至提升生成质量。
- Conclusion: GRPO-Guard作为一种受调控的裁剪机制,能够稳定优化过程,有效缓解隐式过优化问题,无需依赖繁重的KL正则化。
[85] Beyond Augmentation: Leveraging Inter-Instance Relation in Self-Supervised Representation Learning
Ali Javidani,Babak Nadjar Araabi,Mohammad Amin Sadeghi
Main category: cs.CV
TL;DR: 提出一种将图论融入自监督表示学习的新方法,通过构建KNN图捕获样本间关系,并使用GNN进行表示精炼,在多个数据集上优于现有方法
- Motivation: 传统自监督学习方法只关注样本内变化,忽略了重要的样本间关系,需要一种能同时捕获样本内和样本间关系的方法
- Method: 在预训练阶段为教师和学生流构建KNN图,节点表示样本及其潜在表示,边编码样本间相似性;预训练后进行表示精炼,使用GNN在多个跳数间传播信息
- Result: 在CIFAR-10、ImageNet-100和ImageNet-1K数据集上分别实现了7.3%、3.2%和1.0%的准确率提升
- Conclusion: 基于图的机制在自监督表示学习中非常有效,能够显著提升模型性能
[86] Moving Beyond Diffusion: Hierarchy-to-Hierarchy Autoregression for fMRI-to-Image Reconstruction
Xu Zhang,Ruijie Quan,Wenguan Wang,Yi Yang
Main category: cs.CV
TL;DR: MindHier提出了一种从粗到细的fMRI到图像重建框架,通过分层自回归建模解决了现有扩散方法中固定引导导致层次神经信息崩溃的问题。
- Motivation: 现有基于扩散的方法通常将fMRI活动映射到单个高层嵌入,并在整个生成过程中将其作为固定引导。这种方法会压缩层次神经信息,并且与图像重建的阶段需求不匹配。
- Method: MindHier包含三个核心组件:分层fMRI编码器提取多级神经嵌入、层次到层次对齐方案与CLIP特征建立层间对应关系、尺度感知的从粗到细神经引导策略将嵌入注入到匹配尺度的自回归过程中。
- Result: 在NSD数据集上的实验表明,MindHier相比基于扩散的基线方法实现了更好的语义保真度、4.67倍的推理速度提升,以及更确定性的结果。
- Conclusion: MindHier通过分层重建过程提供了一种高效且认知对齐的替代方案,能够先合成全局语义再细化局部细节,类似于人类视觉感知过程。
[87] GeoDiffusion: A Training-Free Framework for Accurate 3D Geometric Conditioning in Image Generation
Phillip Mueller,Talip Uenlue,Sebastian Schmidt,Marcel Kollovieh,Jiajie Fan,Stephan Guennemann,Lars Mikelsons
Main category: cs.CV
TL;DR: GeoDiffusion是一个无需训练的图像生成框架,通过3D几何先验实现精确的几何控制,核心组件GeoDrag提升了基于拖拽编辑的准确性和速度。
- Motivation: 解决传统3D编辑方法耗时且需要专业技能,以及当前基于图像的生成方法在几何条件控制上缺乏精度的问题。
- Method: 使用类别特定的3D对象作为几何先验定义关键点和参数相关性,通过渲染参考图像确保视角一致性,结合风格迁移满足外观要求,核心是GeoDrag组件。
- Result: 在几何引导任务和DragBench通用指令上实现了精确的几何修改,提升了拖拽编辑的准确性和速度。
- Conclusion: GeoDiffusion能够在各种迭代设计工作流中实现精确的几何修改,为工程产品设计和创意产业提供了有效的几何控制解决方案。
[88] EndoSfM3D: Learning to 3D Reconstruct Any Endoscopic Surgery Scene using Self-supervised Foundation Model
Changhao Zhang,Matthew J. Clarkson,Mobarak I. Hoque
Main category: cs.CV
TL;DR: 提出了一种自监督单目深度估计框架,通过改进Depth Anything V2模型来联合预测深度、姿态和内参,解决了内窥镜手术中内参标定的挑战。
- Motivation: 内窥镜手术场景的3D重建对于增强场景感知、实现AR可视化和支持图像引导手术中的上下文感知决策至关重要。然而,在真实手术环境中,内参标定受到无菌约束和专用内窥镜连续变焦和旋转的限制,现有方法大多不估计内参参数。
- Method: 通过改进Depth Anything V2模型,构建自监督单目深度估计框架,联合预测深度、姿态和内参。引入了基于注意力的姿态网络和权重分解低秩适应策略,用于高效微调DA2模型。
- Result: 在SCARED和C3VD公共数据集上的验证表明,该方法在自监督单目深度估计和3D重建方面优于当前最先进方法。
- Conclusion: 该方法成功将内参估计集成到自监督深度估计框架中,为内窥镜手术场景的准确可靠3D重建提供了有效解决方案。
[89] T2SMark: Balancing Robustness and Diversity in Noise-as-Watermark for Diffusion Models
Jindong Yang,Han Fang,Weiming Zhang,Nenghai Yu,Kejiang Chen
Main category: cs.CV
TL;DR: T2SMark是一种基于尾部截断采样的两阶段水印方案,解决了现有噪声水印方法在鲁棒性和生成多样性之间的平衡问题。
- Motivation: 现有的噪声水印方法在鲁棒性和生成多样性之间存在权衡:一些方法通过严格约束初始噪声采样获得强鲁棒性但降低用户体验,而其他方法保持多样性但过于脆弱。
- Method: 提出T2SMark,采用尾部截断采样技术,将比特专门嵌入到可靠的尾部区域,同时随机采样中心区域以保持潜在分布。两阶段框架通过将随机生成的会话密钥集成到两个加密管道中来确保采样多样性。
- Result: 在U-Net和DiT骨干的扩散模型上评估,T2SMark在鲁棒性和多样性之间实现了最佳平衡。
- Conclusion: T2SMark通过创新的尾部截断采样和两阶段框架,成功解决了噪声水印方法在鲁棒性和多样性之间的权衡问题。
[90] Efficient Large-Deformation Medical Image Registration via Recurrent Dynamic Correlation
Tianran Li,Marius Staring,Yuchuan Qiao
Main category: cs.CV
TL;DR: 提出了一种基于循环相关性的可变形图像配准框架,通过动态重定位匹配区域来高效处理大变形,在保持高精度的同时显著降低了计算成本。
- Motivation: 传统卷积网络缺乏直接建模体素对应关系的能力,而现有的体素到区域匹配方法由于局部性限制难以捕捉大变形所需的长距离对应关系。
- Method: 采用循环相关框架,在每一步进行低成本局部匹配,利用估计的偏移量指导下一个搜索区域,结合轻量级循环更新模块和特征解耦来抑制语义冗余。
- Result: 在脑部MRI和腹部CT数据集上的实验表明,该方法在精度和计算效率之间取得了良好平衡,在非仿射OASIS数据集上仅使用9.5%的FLOPs且运行速度快96%的情况下达到可比性能。
- Conclusion: 所提出的循环相关框架能够高效处理大变形配准问题,在保持高精度的同时显著提升了计算效率,为医学图像配准提供了有效的解决方案。
[91] A Fully Interpretable Statistical Approach for Roadside LiDAR Background Subtraction
Aitor Iglesias,Nerea Aranjuelo,Patricia Javierre,Ainhoa Menendez,Ignacio Arganda-Carreras,Marcos Nieto
Main category: cs.CV
TL;DR: 提出了一种完全可解释且灵活的统计方法,用于路边LiDAR数据的背景减除,旨在增强自动驾驶中基于基础设施的感知能力。
- Motivation: 增强自动驾驶中基于基础设施的感知能力,需要一种能够适应不同类型LiDAR传感器和配置的灵活背景减除方法。
- Method: 引入高斯分布网格(GDG)对背景空间统计进行建模,并使用基于此表示的滤波算法将LiDAR点分类为前景或背景。支持多种LiDAR类型,包括多线360度和MEMS传感器。
- Result: 在公开的RCooper数据集上评估,该方法在准确性和灵活性方面优于最先进技术,即使使用最少的背景数据也能表现出色。
- Conclusion: 该方法的高效实现确保了在低资源硬件上的可靠性能,使得可扩展的实际部署成为可能。
[92] Top-Down Semantic Refinement for Image Captioning
Jusheng Zhang,Kaitong Cai,Jing Yang,Jian Wang,Chengpei Tang,Keze Wang
Main category: cs.CV
TL;DR: 提出了TDSR框架,将图像描述重新定义为分层规划问题,通过高效的MCTS算法显著减少对大型视觉语言模型的调用频率,同时提升描述质量。
- Motivation: 解决大型视觉语言模型在图像描述任务中存在的矛盾:强大的单步生成能力导致决策短视,难以在保持全局叙事连贯性的同时捕捉丰富细节。
- Method: 将图像描述建模为马尔可夫决策过程,提出基于视觉引导并行扩展和轻量级价值网络的高效蒙特卡洛树搜索算法,并采用自适应早停机制。
- Result: 在DetailCaps、COMPOSITIONCAP和POPE等多个基准测试中,TDSR作为即插即用模块显著提升了现有VLM的性能,在细粒度描述、组合泛化和幻觉抑制方面达到最先进或极具竞争力的结果。
- Conclusion: TDSR框架通过分层规划方法有效解决了VLM在图像描述中的根本性挑战,在保持高质量规划的同时大幅降低了计算开销。
[93] 3D Roadway Scene Object Detection with LIDARs in Snowfall Conditions
Ghazal Farhani,Taufiq Rahman,Syed Mostaquim Ali,Andrew Liu,Mohamed Zaki,Dominique Charlebois,Benoit Anctil
Main category: cs.CV
TL;DR: 该研究分析了汽车级LiDAR在雪天条件下的性能退化,开发了基于物理的模型来模拟不同降雪率对LiDAR信号的影响,并评估了降雪对预训练物体检测模型性能的影响。
- Motivation: LiDAR在恶劣天气条件下性能显著下降,特别是在降雪条件下,但目前缺乏对各种天气条件下信号退化程度的量化分析。
- Method: 开发基于物理的模型研究LiDAR在雪天条件下的失效模式,分析不同降雪率下的信号衰减,并利用模型将晴天数据转换为模拟雪天场景,生成合成数据。
- Result: 建立了能够模拟不同降雪率对LiDAR信号影响的物理模型,生成了代表不同降雪条件的合成数据,并评估了降雪对物体检测模型性能的影响。
- Conclusion: 该研究量化了降雪对LiDAR性能的影响,为改善自动驾驶系统在恶劣天气条件下的感知能力提供了理论基础和数据支持。
[94] Benchmarking Egocentric Multimodal Goal Inference for Assistive Wearable Agents
Vijay Veerabadran,Fanyi Xiao,Nitin Kamra,Pedro Matias,Joy Chen,Caley Drooff,Brett D Roads,Riley Williams,Ethan Henderson,Xuanyi Zhao,Kevin Carlberg,Joseph Tighe,Karl Ridgeway
Main category: cs.CV
TL;DR: WAGIBench是一个用于评估视觉语言模型在可穿戴辅助代理中目标推断能力的基准测试,包含29小时多模态数据和3,477条记录,人类准确率达93%,而最佳VLM仅84%。
- Motivation: 解决可穿戴辅助代理中的目标推断问题,消除用户与代理交互所需的工作量,填补该领域研究空白。
- Method: 收集包含视觉、音频、数字和纵向上下文观察的多模态数据集,评估多种现代视觉语言模型在目标推断任务上的表现。
- Result: 人类表现(93%)优于最佳VLM(84%),更大模型表现更好但实用性仍有限(仅55%时间生成相关目标),相关模态信息能提升性能而无关模态影响较小。
- Conclusion: WAGIBench为可穿戴辅助代理的目标推断提供了重要基准,当前VLM性能仍有很大提升空间,多模态信息对模型性能有积极影响。
[95] SemiETPicker: Fast and Label-Efficient Particle Picking for CryoET Tomography Using Semi-Supervised Learning
Linhan Wang,Jianwen Dou,Wang Li,Shengkun Wang,Zhiwu Xie,Chang-Tien Lu,Yinlin Chen
Main category: cs.CV
TL;DR: 提出了一种快速、标签高效的半监督框架,用于冷冻电子断层扫描中的粒子挑选任务,通过结合热图监督检测模型和师生协同训练机制,显著提升了性能。
- Motivation: 冷冻电子断层扫描结合子体积平均是唯一能在分子分辨率下解析细胞内蛋白质结构的成像方式,但粒子挑选任务依赖耗时的手动标注,导致大量未标记断层图未被充分利用。
- Method: 框架包含两个组件:(1) 受关键点检测启发的端到端热图监督检测模型;(2) 师生协同训练机制,在稀疏标注条件下提升性能。还引入了多视图伪标签和CryoET特定的DropBlock增强策略。
- Result: 在大规模CZII数据集上的广泛评估表明,该方法比监督基线提高了10%的F1分数,证明了半监督学习在利用未标记CryoET数据方面的潜力。
- Conclusion: 该半监督框架有效利用了未标记的冷冻电子断层扫描数据,显著提升了粒子挑选性能,为解决该领域的主要瓶颈提供了有前景的解决方案。
[96] DynaPose4D: High-Quality 4D Dynamic Content Generation via Pose Alignment Loss
Jing Yang,Yufeng Yang
Main category: cs.CV
TL;DR: DynaPose4D:结合4D高斯泼溅和类别无关姿态估计的创新框架,从单张静态图像生成高质量的4D动态内容,解决了传统方法在时间依赖建模和动态几何变化捕捉方面的局限性。
- Motivation: 现有的2D和3D生成模型在从单张静态图像生成高质量4D动态内容方面存在挑战,传统方法难以建模时间依赖性和准确捕捉动态几何变化,特别是在考虑相机视角变化时。
- Method: 提出DynaPose4D框架,整合4D高斯泼溅技术和类别无关姿态估计技术。首先使用3D高斯泼溅从单张图像构建3D模型,然后基于选定视图的一次性支持预测多视角姿态关键点,利用监督信号增强运动一致性。
- Result: 实验结果显示DynaPose4D在动态运动生成中实现了优秀的连贯性、一致性和流畅性。
- Conclusion: 研究不仅验证了DynaPose4D框架的有效性,还表明了其在计算机视觉和动画制作领域的潜在应用价值。
[97] Single-Teacher View Augmentation: Boosting Knowledge Distillation via Angular Diversity
Seonghoon Yu,Dongjun Nam,Dina Katabi,Jeany Son
Main category: cs.CV
TL;DR: 提出一种基于角度多样性的知识增强方法,通过为单个教师网络添加多个分支来生成多样化视角,避免使用多个教师网络的高计算成本。
- Motivation: 现有知识蒸馏方法需要多个教师网络来获得多样性视角,导致计算成本高昂。本文旨在开发一种成本效益高的知识增强方法,通过单个教师网络生成多样化视角。
- Method: 在单个教师网络上附加多个分支生成多视角,引入两种角度多样性目标:约束的视角间多样性损失(最大化增强视角间角度同时保持与原始教师输出的接近性)和视角内多样性损失(鼓励视角在原始输出周围均匀分布)。
- Result: 实验结果表明,该方法在多种配置下超越了现有的知识增强方法,并且能够以即插即用的方式与其他知识蒸馏框架兼容,持续提升泛化性能。
- Conclusion: 提出的角度多样性知识增强方法有效提高了知识蒸馏性能,通过理论分析证明了该方法能增加集成成员的多样性并降低集成期望损失的上界,从而实现更有效的蒸馏。
[98] GateFuseNet: An Adaptive 3D Multimodal Neuroimaging Fusion Network for Parkinson's Disease Diagnosis
Rui Jin,Chen Chen,Yin Liu,Hongfu Sun,Min Zeng,Min Li,Yang Gao
Main category: cs.CV
TL;DR: 提出GateFuseNet,一种自适应3D多模态融合网络,整合QSM和T1w图像用于帕金森病诊断,通过门控融合模块实现选择性特征调制,在准确率和AUC上优于现有方法。
- Motivation: 传统基于幅度的MRI模态(如T1w)对帕金森病病理敏感性较低,而定量磁化率成像(QSM)能更好地量化深部灰质核团中的铁沉积,但现有方法未能充分利用这两种模态的优势。
- Method: GateFuseNet采用自适应3D多模态融合网络,包含门控融合模块,学习模态特定注意力权重和通道级门控向量,实现选择性特征调制,增强ROI感知特征并抑制无关信号。
- Result: 方法在准确率(85.00%)和AUC(92.06%)上优于三种现有最先进方法,消融研究验证了ROI引导、多模态集成和融合定位的贡献,Grad-CAM可视化确认模型聚焦于临床相关病理区域。
- Conclusion: GateFuseNet通过有效整合QSM和T1w图像,显著提升了帕金森病诊断性能,证明了多模态融合和自适应特征选择在神经影像分析中的价值。
[99] Open Multimodal Retrieval-Augmented Factual Image Generation
Yang Tian,Fan Liu,Jingyuan Zhang,Wei Bi,Yupeng Hu,Liqiang Nie
Main category: cs.CV
TL;DR: ORIG是一个用于事实图像生成(FIG)的代理式开放多模态检索增强框架,通过迭代检索和过滤网络多模态证据,逐步整合精炼知识到增强提示中,显著提升事实一致性和图像质量。
- Motivation: 大型多模态模型在生成逼真图像方面取得显著进展,但在涉及细粒度属性或时间敏感事件时经常产生与可验证知识相矛盾的输出。传统的检索增强方法依赖静态来源和浅层证据整合,无法基于准确且不断发展的知识进行生成。
- Method: ORIG框架迭代地从网络检索和过滤多模态证据,逐步将精炼知识整合到增强提示中指导生成。
- Result: 实验表明,ORIG在事实一致性和整体图像质量方面显著优于强基线模型。
- Conclusion: ORIG展示了开放多模态检索在事实图像生成方面的潜力,为解决多模态模型的事实矛盾问题提供了有效方案。
[100] AesCrop: Aesthetic-driven Cropping Guided by Composition
Yen-Hong Wong,Lai-Kuan Wong
Main category: cs.CV
TL;DR: AesCrop是一个基于VMamba图像编码器和Transformer解码器的混合图像裁剪模型,通过Mamba Composition Attention Bias显式编码构图线索,生成多个裁剪结果及其质量评分,在美学裁剪任务中优于现有方法。
- Motivation: 现有混合方法缺乏摄影构图指导这一关键美学属性,而构图对视觉吸引力至关重要。评估方法缺乏全局性,回归方法缺乏多样性,需要结合两者优势并融入构图知识。
- Method: 使用VMamba图像编码器,结合新颖的Mamba Composition Attention Bias和Transformer解码器,进行端到端的基于排名的图像裁剪,生成多个裁剪结果及对应质量分数。
- Result: 大量实验表明AesCrop在定量指标上优于当前最先进方法,并能生成视觉上更令人愉悦的裁剪结果。
- Conclusion: 通过显式编码构图线索到注意力机制中,AesCrop能够关注最具构图显著性的区域,实现了更好的多样性和全局性,在美学图像裁剪任务中表现出色。
[101] Bag-of-Word-Groups (BoWG): A Robust and Efficient Loop Closure Detection Method Under Perceptual Aliasing
Xiang Fei,Tina Tian,Howie Choset,Lu Li
Main category: cs.CV
TL;DR: 提出了一种名为Bag-of-Word-Groups (BoWG)的新型闭环检测方法,在感知混淆环境中表现出优越的精度-召回率、鲁棒性和计算效率。
- Motivation: 传统方法在感知混淆环境(如狭窄管道)中表现不佳,存在向量量化、特征稀疏和重复纹理等问题,而现有解决方案通常计算成本高昂。
- Method: 引入词组概念捕捉视觉词的空间共现和邻近性来构建在线词典,结合概率转移模型将时间一致性直接融入相似度计算,并采用自适应方案,还包含特征分布分析模块和专用后验证机制。
- Result: 在公共数据集和自建的受限管道数据集上的实验表明,BoWG在精度-召回率和计算效率方面均优于最先进方法,在Bicocca25b数据集上平均每张图像处理时间仅为16毫秒。
- Conclusion: BoWG方法在闭环检测中实现了卓越的性能和计算效率,具有良好的可扩展性,特别适用于感知混淆环境。
[102] SRSR: Enhancing Semantic Accuracy in Real-World Image Super-Resolution with Spatially Re-Focused Text-Conditioning
Chen Chen,Majid Abdolshah,Violetta Shevchenko,Hongdong Li,Chang Xu,Pulak Purkait
Main category: cs.CV
TL;DR: 提出了一种新颖的即插即用空间重聚焦超分辨率框架,通过空间重聚焦交叉注意力和空间目标无分类器引导来解决现有扩散超分辨率方法中的语义模糊问题。
- Motivation: 现有基于扩散的超分辨率方法由于文本条件的不准确性和不完整性,以及交叉注意力倾向于分散到不相关像素的固有倾向,经常表现出语义模糊,导致语义不对齐和生成高分辨率输出中的幻觉细节。
- Method: 提出SRSR框架,包含两个核心组件:1)空间重聚焦交叉注意力,在推理时通过视觉基础分割掩码来指导交叉注意力以细化文本条件;2)空间目标无分类器引导机制,选择性地绕过对未接地像素的文本影响以防止幻觉。
- Result: 在合成和真实世界数据集上的广泛实验表明,SRSR在所有数据集的标准保真度指标(PSNR和SSIM)上始终优于七个最先进的基线方法,并在两个真实世界基准测试的感知质量指标(LPIPS和DISTS)上表现更好。
- Conclusion: SRSR框架在超分辨率中实现了高语义保真度和感知质量的有效平衡。
[103] STATUS Bench: A Rigorous Benchmark for Evaluating Object State Understanding in Vision-Language Models
Mahiro Ukai,Shuhei Kurita,Nakamasa Inoue
Main category: cs.CV
TL;DR: STATUS Bench是首个用于严格评估视觉语言模型理解物体状态变化能力的基准,包含三个同时执行的任务:物体状态识别、图像检索和状态变化识别。实验表明当前最先进的VLMs在捕捉细微物体状态差异方面仍有困难,大多数开源模型在零样本设置下表现接近随机水平。
- Motivation: 虽然现代视觉语言模型能够执行多种多模态任务,但它们在识别物体状态(如位置状态和功能状态)方面的精确度尚不明确。为了解决这个问题,需要建立一个严格的评估基准来测试VLMs理解物体状态细微变化的能力。
- Method: 提出了STATUS Bench基准,包含三个同时执行的任务:物体状态识别(OSI)、图像检索(IR)和状态变化识别(SCI)。构建了完全手工制作的数据集,包含图像对及其对应的物体状态描述和状态变化描述。同时还创建了包含1300万半自动生成描述的STATUS Train训练数据集。
- Result: 实验显示当前最先进的VLMs在捕捉细微物体状态差异方面表现不佳。在提出的严格评估方案下,大多数开源VLMs的零样本性能接近随机水平。在STATUS Train上微调后,Qwen2.5-VL达到了与Gemini 2.0 Flash相当的性能。
- Conclusion: STATUS Bench和STATUS Train对于推进VLM研究中物体状态识别的发展是必要的,当前VLMs在理解物体状态变化方面仍有显著局限性,需要专门的基准和训练数据来提升这方面的能力。
[104] MELDAE: A Framework for Micro-Expression Spotting, Detection, and Automatic Evaluation in In-the-Wild Conversational Scenes
Yigui Feng,Qinglin Wang,Yang Liu,Ke Liu,Haotian Mo,Enhao Huang,Gencheng Liu,Mingzhe Liu,Jie Liu
Main category: cs.CV
TL;DR: 提出了首个针对野外对话场景的微表情数据集、端到端定位检测框架MELDAE和边界感知损失函数,显著提升了微表情检测的时空准确性。
- Motivation: 现有微表情研究主要依赖实验室环境数据集,在真实世界场景中性能急剧下降,需要解决野外对话场景中的微表情分析挑战。
- Method: 开发了MELDAE端到端定位检测框架,包含新颖的边界感知损失函数,通过惩罚起始和结束错误来提高时间精度。
- Result: 在WDMD数据集上实现了最先进的结果,关键F1_{DR}定位指标比最强基线提升17.72%,并在现有基准上表现出优秀的泛化能力。
- Conclusion: 该方法有效解决了野外场景中的微表情检测问题,为真实世界情感分析提供了可靠解决方案。
[105] From Pixels to Views: Learning Angular-Aware and Physics-Consistent Representations for Light Field Microscopy
Feng He,Guodong Tan,Qiankun Li,Jun Yu,Quan Wen
Main category: cs.CV
TL;DR: 提出了XLFM-Zebrafish基准数据集、MVN-LF自监督方法和ORC损失函数,显著提升了XLFM的3D重建性能
- Motivation: 解决XLFM中基于学习的3D重建面临的两个核心挑战:缺乏标准化数据集和缺乏能有效建模角空间结构且保持物理基础的方法
- Method: 构建XLFM-Zebrafish基准数据集;提出MVN-LF自监督任务学习角度先验;设计ORC损失函数强制预测体积与PSF前向投影的一致性
- Result: 在XLFM-Zebrafish基准上,PSNR相比最先进基线提升了7.7%
- Conclusion: 该方法通过标准化数据集、自监督学习和物理约束,有效推动了XLFM在神经科学中的应用
[106] Cross-View UAV Geo-Localization with Precision-Focused Efficient Design: A Hierarchical Distillation Approach with Multi-view Refinement
Jian Sun,Kangdao Liu,Chi Zhang,Chuangquan Chen,Junge Shen,Chi-Man Vong
Main category: cs.CV
TL;DR: PFED是一个用于跨视角地理定位的资源高效框架,通过层次知识蒸馏和多视角表示精炼,在保持高精度的同时显著提升效率,适合边缘设备部署。
- Motivation: 现有跨视角地理定位方法依赖资源密集的细粒度特征提取和对齐,多分支和模块显著增加推理成本,限制了在边缘设备上的部署。
- Method: 提出PFED框架,包含两个关键组件:训练时的层次蒸馏范式HD-CVGL和不确定性感知预测对齐UAPA;推理时的多视角精炼模块MRM,利用互信息过滤冗余样本。
- Result: 在University-1652数据集上达到97.15%的Recall@1,计算量减少5倍以上,速度提升3倍,在AGX Orin边缘设备上达到251.5 FPS。
- Conclusion: PFED在精度和效率上都达到了最先进水平,证明了其在实时无人机应用中的实际可行性。
[107] PSScreen V2: Partially Supervised Multiple Retinal Disease Screening
Boyi Zheng,Yalin Zheng,Hrvoje Bogunović,Qing Liu
Main category: cs.CV
TL;DR: PSScreen V2是一个部分监督的自训练框架,用于多种视网膜疾病筛查,通过三分支架构处理标签缺失和域偏移问题。
- Motivation: 解决现有方法依赖全标签或单域数据集的问题,应对多个部分标签数据集中的标签缺失和域偏移挑战。
- Method: 采用三分支架构:教师分支从弱增强图像生成伪标签,两个学生分支分别使用低频丢弃(LF-Dropout)增强域鲁棒性和低频不确定性(LF-Uncert)估计域变异性。
- Result: 在多个眼底数据集上实现最先进性能,表现出优越的域泛化能力,并在不同骨干网络和胸部X光数据集上验证了通用性。
- Conclusion: PSScreen V2是一个通用且适应性强的框架,能有效处理多域部分标签数据,在视网膜疾病筛查中表现出色。
[108] Projection Embedded Diffusion Bridge for CT Reconstruction from Incomplete Data
Yuang Wang,Pengfei Jin,Siyeop Yoon,Matthew Tivnan,Shaoyang Zhang,Li Zhang,Quanzheng Li,Zhiqiang Chen,Dufan Wu
Main category: cs.CV
TL;DR: 提出了一种投影嵌入扩散桥(PEDB)方法,通过引入新的反向随机微分方程,在CT图像重建中同时利用FBP重建和投影数据,有效解决了不完全投影数据的重建问题。
- Motivation: 现有的扩散桥模型主要从FBP重建中恢复干净图像,但缺乏对投影数据一致性的有效整合。数据一致性可以提高重建保真度和细节恢复能力。
- Method: 提出PEDB方法,设计新的反向SDE,在采样过程中同时条件化FBP重建和投影数据,将投影数据嵌入到反向SDE的得分函数中,并引入参数控制随机性水平。
- Result: 在稀疏视图、有限角度和截断投影三种不完全数据类型的CT重建中,PEDB在标准、噪声和域偏移评估中都优于现有最先进的扩散桥模型。
- Conclusion: PEDB通过显式地将投影数据一致性纳入扩散桥模型,显著提升了不完全投影数据CT重建的性能,在各种评估场景下都表现出色。
[109] SWAN: Self-supervised Wavelet Neural Network for Hyperspectral Image Unmixing
Yassh Ramchandani,Vijayashekhar S S,Jignesh S. Bhatt
Main category: cs.CV
TL;DR: SWAN是一个三阶段自监督小波神经网络,用于从高光谱图像中联合估计端元和丰度,通过小波变换、自监督学习和物理建模实现无监督高光谱解混。
- Motivation: 传统高光谱解混方法需要地面真实数据,且难以有效处理连续重叠的光谱波段。本文旨在开发一种无需地面真实数据的自监督方法,利用小波变换的多尺度表示来学习稳健的解混函数。
- Method: 三阶段架构:SWANencoder将小波系数映射到低维潜在空间,SWANdecoder重建小波系数,SWANforward学习高光谱图像的物理特性。使用三阶段组合损失函数,结合Adam优化器和Sigmoid激活函数防止过拟合。
- Result: 在两个合成数据集和三个真实高光谱数据集上的实验表明,该方法在定性和定量评估中优于现有神经网络解混方法,学习到了更稳健的解混函数。
- Conclusion: SWAN通过自监督学习和小波变换成功实现了高光谱解混,无需地面真实数据,具有紧凑的网络参数和实际应用价值。
[110] Cross-Species Transfer Learning in Agricultural AI: Evaluating ZebraPose Adaptation for Dairy Cattle Pose Estimation
Mackenzie Tapp,Sibi Chakravarthy Parivendan,Kashfia Sailunaz,Suresh Neethirajan
Main category: cs.CV
TL;DR: 该研究评估了跨物种迁移学习在奶牛姿态估计中的潜力与局限,发现尽管在分布内数据上表现良好,但在未见过的牛舍和牛群中存在显著泛化失败。
- Motivation: 解决农业应用中缺乏大型标注数据集的问题,特别是针对奶牛的姿态估计,探索利用合成斑马图像训练的模型进行跨物种迁移学习的可行性。
- Method: 使用基于视觉变换器的ZebraPose模型,在三种配置下评估:自定义农场数据集、APT-36K基准数据集子集及其组合,系统评估模型在不同环境下的准确性和泛化能力。
- Result: 组合模型在分布内数据上表现良好(AP=0.86,AR=0.87,PCK 0.5=0.869),但在未见牛舍和牛群中泛化失败,暴露了合成到真实领域的差距问题。
- Conclusion: 物种间形态相似性不足以支持跨领域迁移,需要农业优先的AI设计,强调农场级真实性、跨环境鲁棒性和开放基准数据集。
[111] Robust Atypical Mitosis Classification with DenseNet121: Stain-Aware Augmentation and Hybrid Loss for Domain Generalization
Adinath Dukre,Ankan Deria,Yutong Xie,Imran Razzak
Main category: cs.CV
TL;DR: 基于DenseNet-121的框架,结合染色感知增强和类别不平衡处理,在MIDOG 2025竞赛中实现非典型有丝分裂的稳健分类,测试集平衡准确率达85.0%。
- Motivation: 非典型有丝分裂是肿瘤侵袭性的重要生物标志物,但由于严重的类别不平衡和跨成像域的变异性,可靠识别仍然具有挑战性。
- Method: 使用DenseNet-121框架,集成染色感知增强(Macenko)、几何和强度变换,以及通过加权采样和混合目标(类别加权二元交叉熵和焦点损失)的不平衡感知学习,使用AdamW进行端到端训练。
- Result: 在官方测试集上,模型在扫描仪和染色变化下表现出强泛化能力,平衡准确率85.0%,AUROC 0.927,敏感性89.2%,特异性80.9%。
- Conclusion: 将DenseNet-121与染色感知增强和不平衡自适应目标相结合,为计算病理学工作流程提供了一个稳健、领域可泛化的非典型有丝分裂分类框架。
[112] A Critical Study on Tea Leaf Disease Detection using Deep Learning Techniques
Nabajyoti Borah,Raju Moni Borah,Bandan Boruah,Purnendu Bikash Acharjee,Sajal Saha,Ripjyoti Hazarika
Main category: cs.CV
TL;DR: 该研究使用深度学习技术对三种茶树病害进行检测和分割,比较了SSD MobileNet V2和Faster R-CNN ResNet50 V1两种目标检测模型,并使用Mask R-CNN进行实例分割以计算叶片受损区域。
- Motivation: 开发能够自动检测茶树病害并量化叶片受损面积的深度学习系统,帮助茶农及时识别红锈病、Helopeltis和红蜘蛛螨等常见病害。
- Method: 采用SSD MobileNet V2和Faster R-CNN ResNet50 V1进行目标检测比较,并使用Mask R-CNN进行实例分割,开发自定义方法计算叶片病害受损区域。
- Result: Faster R-CNN ResNet50 V1表现更优,在IOU 0.50:0.95范围内获得25%的mAP,精度为0.252,召回率为0.044;SSD MobileNet V2的mAP为20.9%。
- Conclusion: Faster R-CNN ResNet50 V1在茶树病害检测中表现优于SSD MobileNet V2,结合Mask R-CNN的实例分割能够有效量化叶片受损区域,为茶树病害管理提供技术支持。
[113] Self-Attention Decomposition For Training Free Diffusion Editing
Tharun Anand,Mohammad Hassan Vali,Arno Solin
Main category: cs.CV
TL;DR: 提出一种从预训练扩散模型参数中直接推导语义编辑方向的解析方法,无需额外数据或微调,通过计算自注意力权重矩阵的特征向量获得可解释的编辑方向。
- Motivation: 扩散模型在图像合成中保真度高,但对输出进行精确控制的针对性编辑仍然困难。现有方法依赖大量图像采样或训练辅助网络,效率受限。
- Method: 利用自注意力权重矩阵编码的结构信息,计算其特征向量来获得稳健且可解释的编辑方向,无需额外数据或模型微调。
- Result: 实验表明该方法在多个数据集上产生高质量编辑,同时将编辑时间比当前基准减少60%。
- Conclusion: 该方法提供了一种高效且无需额外训练的方式来控制扩散模型的输出,为精确语义编辑提供了新途径。
[114] SARCLIP: A Vision Language Foundation Model for Semantic Understanding and Target Recognition in SAR Imagery
Qiwei Ma,Zhiyu Wang,Wang Liu,Xukun Lu,Bin Deng,Puhong Duan,Xudong Kang,Shutao Li
Main category: cs.CV
TL;DR: 提出了SARCLIP,这是首个针对SAR领域的视觉语言基础模型,通过对比学习实现SAR图像与文本的对齐,显著提升了零样本分类和图像-文本检索性能。
- Motivation: 现有的SAR基础模型主要关注低层视觉特征,忽视了多模态对齐和零样本目标识别能力,需要构建专门的视觉语言模型来弥合SAR图像与文本描述之间的鸿沟。
- Method: 构建了包含100万文本-图像对的SARCLIP-1M数据集,采用对比视觉语言学习方法,通过领域迁移策略训练SARCLIP模型。
- Result: 在图像-文本检索和零样本分类任务上表现出色,显著优于现有最先进的基础模型,提升了SAR图像的语义理解能力。
- Conclusion: SARCLIP模型成功建立了SAR图像与文本之间的语义联系,为SAR领域提供了首个有效的视觉语言基础模型,代码和数据集将公开发布。
[115] LVD-GS: Gaussian Splatting SLAM for Dynamic Scenes via Hierarchical Explicit-Implicit Representation Collaboration Rendering
Wenkai Zhu,Xu Li,Qimin Xu,Benwu Wang,Kun Wei,Yiming Peng,Zihang Wang
Main category: cs.CV
TL;DR: LVD-GS是一个新颖的LiDAR-视觉3D高斯溅射SLAM系统,通过分层协作表示模块和联合动态建模模块,解决了大规模动态户外场景中的尺度漂移和动态对象影响问题。
- Motivation: 现有3D高斯溅射SLAM方法通常依赖单一表示方案,在大规模动态户外场景中性能受限,导致累积姿态误差和尺度模糊问题。
- Method: 1. 分层协作表示模块:受人类思维链启发,促进映射优化的相互增强;2. 联合动态建模模块:融合开放世界分割与隐式残差约束,基于DINO-Depth特征的不确定性估计生成细粒度动态掩码。
- Result: 在KITTI、nuScenes和自收集数据集上的广泛评估表明,该方法相比现有方法达到了最先进的性能。
- Conclusion: LVD-GS系统通过分层协作表示和动态建模,有效缓解了尺度漂移问题,增强了重建鲁棒性,并在大规模动态户外场景中实现了优异的SLAM性能。
[116] Look and Tell: A Dataset for Multimodal Grounding Across Egocentric and Exocentric Views
Anna Deichler,Jonas Beskow
Main category: cs.CV
TL;DR: Look and Tell是一个多模态数据集,用于研究自我中心和他者视角下的指称沟通,包含同步的眼动、语音和视频数据,以及3D场景重建。
- Motivation: 研究不同空间表示(2D vs 3D;自我中心 vs 他者视角)如何影响多模态基础,并推动能够理解和参与情境对话的具身智能体发展。
- Method: 使用Meta Project Aria智能眼镜和固定摄像机记录25名参与者在厨房中指导伙伴识别食材的过程,包含同步的眼动、语音和视频数据,结合3D场景重建。
- Result: 数据集包含3.67小时的录音,2,707个丰富标注的指称表达式,为评估多模态基础提供了基准。
- Conclusion: 该数据集为研究指称沟通和开发具身智能体提供了重要资源,特别关注不同空间表示对多模态基础的影响。
[117] Alias-Free ViT: Fractional Shift Invariance via Linear Attention
Hagay Michaeli,Daniel Soudry
Main category: cs.CV
TL;DR: 提出了Alias-Free ViT模型,通过使用无混叠的下采样和非线性操作,以及线性互协方差注意力机制,使Vision Transformer具有平移不变性,在图像分类任务中保持竞争力的同时,提高了对平移攻击的鲁棒性。
- Motivation: Vision Transformers缺乏卷积网络的架构归纳偏置,对图像平移更敏感,而传统卷积网络由于下采样和非线性层中的混叠问题也并非完全平移不变。
- Method: 结合无混叠下采样和非线性操作,使用线性互协方差注意力机制,该注意力对整数和分数平移都具有平移等变性。
- Result: 模型在图像分类任务中保持竞争力,在对抗平移攻击的鲁棒性方面优于相似规模的其他模型。
- Conclusion: Alias-Free ViT通过消除混叠和使用平移等变注意力,成功使Vision Transformer具有平移不变性,同时保持性能并提高鲁棒性。
[118] DAMap: Distance-aware MapNet for High Quality HD Map Construction
Jinpeng Dong,Chen Li,Yutong Lin,Jingwen Fu,Sanping Zhou,Nanning Zheng
Main category: cs.CV
TL;DR: 提出DAMap方法解决高精地图元素预测中的任务不对齐问题,通过距离感知焦点损失、混合损失方案和任务调制可变形注意力来提升分类和定位质量
- Motivation: 当前高精地图预测方法在高质量预测方面表现不佳,主要由于任务不对齐问题:1) 一对多匹配查询共享相同标签导致不适当的任务标签;2) 任务共享采样机制导致次优任务特征
- Method: DAMap包含三个组件:距离感知焦点损失(DAFL)为多对一匹配样本分配适当分类标签;任务调制可变形注意力(TMDA)获取区分性任务特定特征;混合损失方案(HLS)更好地利用DAFL优势
- Result: 在NuScenes和Argoverse2基准测试中,在不同指标、基线、分割、主干网络和训练计划下均实现性能提升
- Conclusion: DAMap通过解决任务不对齐问题,有效提升了高精地图元素预测的质量,为自动驾驶安全提供了更好的解决方案
[119] Estimation of Fireproof Structure Class and Construction Year for Disaster Risk Assessment
Hibiki Ayabe,Kazushi Okamoto,Koki Karube,Atsushi Shibata,Kei Harada
Main category: cs.CV
TL;DR: 提出基于立面图像的多任务学习模型,预测日本建筑物的建造年份、结构类型和用途类型,进而通过基于保险标准的规则映射推导结构防火等级。
- Motivation: 日本房地产市场中关键的建筑元数据(如建造年份和结构类型)经常缺失或过时,这对灾害风险评估和保险定价造成困难。
- Method: 使用多任务学习模型从立面图像联合估计建造年份、建筑结构和物业类型,然后基于官方保险标准通过规则映射推导结构防火等级。
- Result: 模型在建造年份回归和跨不平衡类别的分类任务中均取得高准确率,定性分析显示模型能够捕捉与建筑年龄和材料相关的视觉线索。
- Conclusion: 该方法证明了基于图像的可扩展、可解释风险分析系统的可行性,在保险、城市规划和灾害准备方面具有潜在应用价值。
[120] RoboSVG: A Unified Framework for Interactive SVG Generation with Multi-modal Guidance
Jiuniu Wang,Gongjie Zhang,Quanhao Qian,Junlong Gao,Deli Zhao,Ran Xu
Main category: cs.CV
TL;DR: 提出了RoboSVG框架,这是一个统一的多模态系统,能够根据文本、视觉和数值信号生成交互式SVG图形。
- Motivation: SVG在数字设计和机器人控制中至关重要,不仅编码视觉结构,还包含交互式绘图中的运动路径。现有方法在生成高质量、符合查询的SVG方面存在局限。
- Method: RoboSVG框架首先生成多模态指导,然后通过专用生成模块合成候选SVG,最后在数值指导下进行优化。构建了包含100万个样本的RoboDraw数据集来支持该框架。
- Result: 实验表明,RoboSVG在查询符合度和视觉保真度方面均优于现有方法,在多种SVG生成任务中达到了新的最先进水平。
- Conclusion: RoboSVG为多功能SVG生成建立了新的技术标准,其数据集和源代码将公开发布。
[121] VADTree: Explainable Training-Free Video Anomaly Detection via Hierarchical Granularity-Aware Tree
Wenlong Li,Yifei Xu,Yuan Rao,Zhenhua Wang,Shuiguang Deng
Main category: cs.CV
TL;DR: VADTree是一个无需训练的异常检测方法,通过分层粒度感知树结构进行灵活采样,利用预训练模型的边界检测能力来识别视频中的异常事件。
- Motivation: 现有的无训练方法使用固定长度时间窗口采样,难以准确捕捉不同时间跨度的异常事件。
- Method: 使用分层粒度感知树结构,基于预训练通用事件边界检测模型分解视频,进行自适应粗细分层构建和冗余移除,然后通过视觉语言模型和大语言模型进行异常感知和推理。
- Result: 在三个挑战性数据集上的实验表明,VADTree在无训练设置下达到最先进性能,同时大幅减少采样视频段数量。
- Conclusion: VADTree提供了一种有效的无需训练的视频异常检测方法,能够灵活处理不同时间跨度的异常事件。
[122] Windsock is Dancing: Adaptive Multimodal Retrieval-Augmented Generation
Shu Zhao,Tianyi Shen,Nilesh Ahuja,Omesh Tickoo,Vijaykrishnan Narayanan
Main category: cs.CV
TL;DR: Windsock 是一个多模态检索增强生成框架,通过查询依赖的检索决策和模态选择,结合动态噪声抵抗指令调优,显著提升生成质量并减少检索次数。
- Motivation: 现有MRAG方法存在静态检索策略、不灵活的模态选择和次优信息利用问题,需要解决何时检索、选择什么模态以及如何有效利用检索信息三个关键挑战。
- Method: 提出Windsock模块进行检索必要性和模态选择决策;采用DANCE指令调优增强MLLMs利用检索信息的能力;使用自评估方法将问答数据集转换为MRAG训练数据集。
- Result: 实验表明,该方法显著提升生成质量17.07%,同时减少8.95%的检索次数。
- Conclusion: Windsock框架有效解决了MRAG中的关键挑战,在提升响应质量的同时降低了计算开销。
[123] WaveMAE: Wavelet decomposition Masked Auto-Encoder for Remote Sensing
Vittorio Bernuzzi,Leonardo Rossi,Tomaso Fontanini,Massimo Bertozzi,Andrea Prati
Main category: cs.CV
TL;DR: WaveMAE是一个专为多光谱卫星图像设计的掩码自编码框架,通过离散小波变换和地理条件位置编码,在遥感图像自监督学习中取得了最先进的性能。
- Motivation: 遥感领域中标注数据稀缺限制了全监督方法的适用性,需要开发自监督学习方法来构建基础模型。
- Method: 使用多级离散小波变换分离频率分量,引导编码器学习尺度感知的高频表示;提出地理条件位置编码,通过球谐函数整合地理先验知识。
- Result: 在PANGAEA基准测试的多个下游任务中,WaveMAE相比先前最先进方法取得了一致性改进,在分割和回归任务上表现尤为突出;轻量级版本仅使用26.4%参数即可达到最先进性能。
- Conclusion: WaveMAE被确立为多光谱遥感图像的强大且具有地理感知能力的基础模型。
[124] IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction
Hao Li,Zhengyu Zou,Fangfu Liu,Xuanyang Zhang,Fangzhou Hong,Yukang Cao,Yushi Lan,Manyuan Zhang,Gang Yu,Dingwen Zhang,Ziwei Liu
Main category: cs.CV
TL;DR: 提出了InstanceGrounded Geometry Transformer (IGGT),一个端到端的大型统一transformer,用于统一空间重建和实例级上下文理解的知识。
- Motivation: 人类自然地将3D世界的几何结构和语义内容视为相互交织的维度,但现有方法往往将低层3D重建和高层空间理解分开处理,忽略了它们之间的关键相互作用,限制了泛化能力和下游3D理解任务的性能。
- Method: 设计了3D一致性对比学习策略,通过仅使用2D视觉输入指导IGGT编码包含几何结构和实例基础聚类的统一表示。构建了InsScene-15K大规模数据集,包含高质量RGB图像、位姿、深度图和3D一致性实例级掩码标注。
- Result: 该表示支持将2D视觉输入一致地提升为具有明确不同对象实例的连贯3D场景。
- Conclusion: IGGT通过统一几何结构和实例级上下文理解,实现了更连贯和准确的3D场景理解。
[125] LRW-Persian: Lip-reading in the Wild Dataset for Persian Language
Zahra Taghizadeh,Mohammad Shahverdikondori,Arian Noori,Alireza Dadgarnia
Main category: cs.CV
TL;DR: LRW-Persian是最大的波斯语单词级唇读数据集,包含743个目标词和超过414,000个视频样本,为低资源语言的视觉语音识别研究提供了重要资源。
- Motivation: 当前非英语视觉语音识别资源有限,特别是波斯语等低资源语言缺乏大规模、高质量的唇读数据集,限制了相关研究和应用的发展。
- Method: 建立全自动端到端数据整理流程,包括基于ASR的转录、主动说话者定位、质量过滤和姿态/遮挡筛选,从1900多小时电视节目中提取数据。
- Result: 创建了包含743个目标词、414,000多个视频样本的大规模数据集,并在两个广泛使用的唇读架构上进行了微调,建立了基准性能。
- Conclusion: LRW-Persian填补了低资源语言唇读数据的关键空白,支持严格的基准测试、跨语言迁移,并为代表性不足语言环境中的多模态语音研究奠定了基础。
[126] Cross-view Localization and Synthesis -- Datasets, Challenges and Opportunities
Ningli Xu,Rongjun Qin
Main category: cs.CV
TL;DR: 本文对跨视角定位与合成技术进行了全面综述,涵盖数据集、核心挑战、最新方法、局限性分析及未来研究方向,重点关注地面图像与航拍图像之间的视觉理解任务。
- Motivation: 跨视角视觉理解在自动驾驶、城市规划、增强现实等领域有广泛应用,但由于视角、分辨率和遮挡等显著差异,跨视角定位和合成任务仍面临挑战,需要系统梳理该领域的最新进展。
- Method: 采用文献综述方法,系统分析跨视角定位(作为图像检索问题处理)和跨视角合成(使用GANs或扩散模型)的技术路线,比较CNN和ViT等特征提取方法在不同任务中的应用。
- Result: 总结了该领域广泛使用的数据集、关键技术挑战,提供了最先进技术的组织化概览,并建立了项目页面以持续更新相关资源。
- Conclusion: 跨视角视觉理解是一个快速发展的研究领域,本文通过系统性综述为研究人员提供了全面的技术路线图,并指出了未来研究的潜在方向。
[127] ConMatFormer: A Multi-attention and Transformer Integrated ConvNext based Deep Learning Model for Enhanced Diabetic Foot Ulcer Classification
Raihan Ahamed Rifat,Fuyad Hasan Bhoyan,Md Humaion Kabir Mehedi,Md Kaviul Hossain,Md. Jakir Hossen,M. F. Mridha
Main category: cs.CV
TL;DR: 提出ConMatFormer混合深度学习架构,结合ConvNeXt块、多种注意力机制和Transformer模块,用于糖尿病足溃疡检测,在准确性和可靠性方面优于现有SOTA模型。
- Motivation: 解决糖尿病足溃疡检测中公开数据集稀缺和变异性的挑战,以及类别不平衡问题。
- Method: 使用ConvNeXt块提取局部特征,结合CBAM和DANet注意力机制,加入Transformer模块增强长程依赖,并采用数据增强处理类别不平衡。
- Result: 在DFUC2021和DFU数据集上,单次实验准确率达0.8961,精度0.9160;4折交叉验证准确率达0.9755,标准差仅0.0031。
- Conclusion: 为DFU分类设定了新基准,提供了用于医学图像分析的混合注意力Transformer框架,并通过XAI方法确保决策过程的透明度和可信度。
[128] Self-Calibrated Consistency can Fight Back for Adversarial Robustness in Vision-Language Models
Jiaxiang Liu,Jiawei Du,Xiao Liu,Prayag Tiwari,Mingkun Xu
Main category: cs.CV
TL;DR: 提出Self-Calibrated Consistency (SCC)防御方法,通过语义一致性和空间一致性模块增强CLIP模型的零样本对抗鲁棒性,无需对抗微调即可有效防御多种攻击。
- Motivation: 现有CLIP模型在零样本设置下对对抗扰动高度脆弱,而传统防御方法依赖带标签数据的对抗微调,限制了在零样本场景中的应用。
- Method: SCC包含两个模块:语义一致性利用反攻击预热生成的软伪标签和多视角预测来正则化跨模态对齐;空间一致性通过增强视图对齐扰动视觉预测以稳定推理。
- Result: 在22个基准测试和多种攻击设置下的广泛实验表明,SCC能持续提升CLIP的零样本鲁棒性,同时保持准确性,并可无缝集成到其他VLM中。
- Conclusion: SCC展示了从CLIP建立对抗鲁棒范式的巨大潜力,其影响可扩展到更广泛的视觉语言领域如BioMedCLIP。
[129] MedXplain-VQA: Multi-Component Explainable Medical Visual Question Answering
Hai-Dang Nguyen,Minh-Anh Dang,Minh-Tan Le,Minh-Tuan Le
Main category: cs.CV
TL;DR: MedXplain-VQA是一个可解释的医学视觉问答框架,集成了五个解释性AI组件,在PathVQA数据集上显著优于基线方法,提供结构化诊断解释和注意力区域识别。
- Motivation: 医学VQA系统需要透明推理才能获得临床信任,现有系统缺乏足够的可解释性来支持医生决策。
- Method: 使用微调BLIP-2骨干网络,结合医学查询重构、增强Grad-CAM注意力、精确区域提取和多模态语言模型的链式思维推理。
- Result: 在500个PathVQA样本上,综合得分从基线0.378提升到0.683,识别每个样本3-5个诊断相关区域,生成平均57词的结构化解释。
- Conclusion: MedXplain-VQA展示了作为稳健可解释医学VQA系统的潜力,查询重构贡献最大改进,链式思维推理实现系统性诊断过程。
[130] MAGIC-Talk: Motion-aware Audio-Driven Talking Face Generation with Customizable Identity Control
Fatemeh Nazarieh,Zhenhua Feng,Diptesh Kanojia,Muhammad Awais,Josef Kittler
Main category: cs.CV
TL;DR: MAGIC-Talk是一个基于扩散模型的单次学习框架,用于生成可定制且时间稳定的说话人脸视频,解决了现有方法在时间一致性、身份保持和长视频生成方面的挑战。
- Motivation: 现有的音频驱动说话人脸生成方法虽然改善了音频-嘴唇同步,但在时间一致性、身份保持和定制化方面存在困难,特别是在生成长视频时表现不佳。
- Method: 提出MAGIC-Talk框架,包含ReferenceNet(通过文本提示保持身份和实现细粒度面部编辑)和AnimateNet(使用结构化运动先验增强运动连贯性),并引入渐进潜在融合策略改善长视频质量。
- Result: 大量实验表明,MAGIC-Talk在视觉质量、身份保持和同步准确性方面优于最先进的方法。
- Conclusion: MAGIC-Talk为说话人脸生成提供了一个强大的解决方案,能够从单张图像保持身份,同时确保帧间平滑过渡。
[131] FairJudge: MLLM Judging for Social Attributes and Prompt Image Alignment
Zahraa Al Sahili,Maryam Fetanat,Maimuna Nowaz,Ioannis Patras,Matthew Purver
Main category: cs.CV
TL;DR: FairJudge是一个轻量级评估协议,使用多模态LLM作为公平评判员来评估文本到图像系统的公平性和对齐度,解决了传统方法在表面线索依赖、缺乏校准弃权和弱可见属性评估方面的局限性。
- Motivation: 现有的文本到图像系统评估方法缺乏简单、可复现的方式来评估图像与提示的匹配程度以及模型对社会属性的处理。传统代理方法(如人脸分类器和对比相似度)奖励表面线索,缺乏校准弃权机制,且无法评估弱可见属性(如宗教、文化、残疾)。
- Method: FairJudge将指令跟随的多模态LLM作为公平评判员,使用解释导向的评分标准(映射到[-1,1]),将判断约束在封闭标签集中,要求基于可见内容的证据,并在线索不足时强制弃权。
- Result: 在FairFace、PaTA、FairCoT等数据集上评估性别、种族、年龄等属性,并扩展到宗教、文化和残疾。在IdenProf、FairCoT-Professions和新发布的DIVERSIFY-Professions上评估职业正确性和对齐度。评判模型在人口统计预测上优于对比和以人脸为中心的基线方法,提高了平均对齐度同时保持高职业准确性。
- Conclusion: FairJudge实现了更可靠、可复现的公平性审计,为文本到图像系统提供了更全面的公平性评估框架。
[132] LLM-based Fusion of Multi-modal Features for Commercial Memorability Prediction
Aleksandar Pramov
Main category: cs.CV
TL;DR: 提出基于Gemma-3 LLM的多模态融合系统,用于预测商业广告记忆度,通过LoRA适配和专家指导的理性提示,在MediaEval 2025竞赛中表现优于梯度提升树基线。
- Motivation: 解决MediaEval 2025研讨会中商业广告记忆度预测任务,探索多模态融合方法在记忆度预测中的有效性。
- Method: 使用Gemma-3 LLM作为主干,集成预计算的视觉(ViT)和文本(E5)特征,通过多模态投影和LoRA适配,并采用LLM生成的基于专家记忆度方面的理性提示来指导融合模型。
- Result: 基于LLM的系统在最终测试集上表现出比基线更强的鲁棒性和泛化性能。
- Conclusion: LLM驱动的多模态融合方法在商业广告记忆度预测任务中具有优势,特别是结合专家指导的理性提示能够提升模型性能。
[133] Semantic-Preserving Cross-Style Visual Reasoning for Robust Multi-Modal Understanding in Large Vision-Language Models
Aya Nakayama,Brian Wong,Yuji Nishimura,Kaito Tanaka
Main category: cs.CV
TL;DR: 提出了SP-CSVR框架,解决大视觉语言模型在多样视觉风格下的风格陷阱问题,通过风格-内容解耦实现稳定的语义理解和跨风格视觉推理。
- Motivation: 现有方法难以有效解耦风格与内容,阻碍了模型在多样化视觉风格下的泛化能力,特别是在上下文学习中。
- Method: SP-CSVR包含三个核心组件:跨风格特征编码器(CSFE)用于风格-内容解耦,语义对齐上下文解码器(SAICD)用于少样本风格适应,自适应语义一致性模块(ASCM)通过多任务对比学习强制跨风格语义不变性。
- Result: 在具有挑战性的多风格数据集上的实验表明,SP-CSVR在视觉描述、视觉问答和上下文风格适应方面达到了最先进的性能。
- Conclusion: SP-CSVR通过有效的风格-内容解耦和语义一致性约束,显著提升了模型在多样化视觉风格下的鲁棒性、泛化能力和效率。
[134] FastJAM: a Fast Joint Alignment Model for Images
Omri Hirsch,Ron Shapira Weber,Shira Ifergane,Oren Freifeld
Main category: cs.CV
TL;DR: FastJAM是一种基于图的快速联合对齐方法,通过现成的图像匹配器和非参数聚类构建图结构,使用图神经网络传播对应关系,无需正则化项即可快速预测单应性参数。
- Motivation: 现有联合对齐方法需要长时间训练、大容量模型和大量超参数调优,计算复杂度高。
- Method: 利用现成图像匹配器计算成对匹配,通过非参数聚类构建关键点关系图,使用图神经网络传播和聚合对应关系,通过图像级池化预测单应性参数,采用逆组合损失消除正则化需求。
- Result: 在多个基准测试中,FastJAM在配准质量上优于现有现代JA方法,同时将计算时间从小时或分钟级减少到秒级。
- Conclusion: FastJAM提供了一种快速有效的联合对齐解决方案,显著降低了计算复杂度,无需正则化项和相关的超参数调优。
[135] Semantic Surgery: Zero-Shot Concept Erasure in Diffusion Models
Lexiang Xiong,Chengyu Liu,Jingwen Ye,Yan Liu,Yuecong Xu
Main category: cs.CV
TL;DR: 提出了一种无需训练、零样本的概念擦除框架Semantic Surgery,通过在扩散过程前直接操作文本嵌入来消除目标概念,同时保持生成质量。
- Motivation: 现有的文本到图像扩散模型概念擦除方法往往会损害生成质量,需要一种既能有效擦除有害内容又不影响图像质量的方法。
- Method: 使用动态估计目标概念存在性的方法,在文本嵌入层面进行校准向量减法,包含共现编码模块和视觉反馈循环来处理多概念擦除和潜在概念持续性问题。
- Result: 在物体、露骨内容、艺术风格和多名人擦除任务中显著优于现有方法,实现了93.58 H-score的物体擦除,将露骨内容减少到仅1个实例,风格擦除H_a达到8.09且无质量下降。
- Conclusion: Semantic Surgery提供了一个实用的解决方案,可作为内置威胁检测系统,实现更安全的文本到图像生成。
[136] Seeing the Unseen: Towards Zero-Shot Inspection for Wind Turbine Blades using Knowledge-Augmented Vision Language Models
Yang Zhang,Qianyu Zhou,Farhad Imani,Jiong Tang
Main category: cs.CV
TL;DR: 提出基于检索增强生成(RAG)和视觉语言模型(VLM)的零样本风电叶片检测框架,无需特定任务训练即可准确识别多种损伤类型
- Motivation: 风电叶片在恶劣环境中运行,需要及时检测损伤以防止故障。传统基于无人机和深度学习的方法依赖大量标注数据,难以检测罕见或新型损伤
- Method: 构建包含技术文档、参考图像和领域指南的多模态知识库,使用混合文本-图像检索器结合关键词重排序,为VLM提供相关上下文
- Result: 在30张叶片图像测试集上,RAG增强的VLM正确分类所有样本,性能优于无检索的VLM,在准确率和精确度上均有提升
- Conclusion: 该框架通过检索参考信息增强可解释性和泛化能力,能够利用领域知识检测未见过的缺陷,减少对大量标注数据的依赖
[137] Estimating Pasture Biomass from Top-View Images: A Dataset for Precision Agriculture
Qiyu Liao,Dadong Wang,Rebecca Haling,Jiajun Liu,Xun Li,Martyna Plomecka,Andrew Robson,Matthew Pringle,Rhys Pirie,Megan Walker,Joshua Whelan
Main category: cs.CV
TL;DR: 该论文提出了一个包含1,162张澳大利亚牧场俯视图像的全面数据集,用于精确估算牧草生物量,支持精准放牧管理。
- Motivation: 准确估算牧草生物量对于畜牧业生产系统的决策制定至关重要,可以优化放牧率,最大化牧草利用率,同时降低过度放牧风险。
- Method: 收集了澳大利亚19个地点的1,162张标注俯视图像,涵盖多个季节和温带牧草物种。每个图像对应70cm*30cm样方,并配有地面测量数据,包括按组分分类的生物量、植被高度和NDVI值。
- Result: 创建了一个多维数据集,结合了视觉、光谱和结构信息,为推进精准放牧管理提供了新的可能性。数据集已在Kaggle竞赛中发布。
- Conclusion: 该数据集为机器学习社区提供了牧草生物量估算的挑战,有助于推动精准畜牧业的发展。
[138] Gen-LangSplat: Generalized Language Gaussian Splatting with Pre-Trained Feature Compression
Pranav Saxena
Main category: cs.CV
TL;DR: Gen-LangSplat通过使用预训练的通用自动编码器替代场景特定的语言自动编码器,消除了3D语言场构建中的每场景优化瓶颈,显著提升了部署可扩展性。
- Motivation: 现有方法如LangSplat需要为每个场景训练特定的语言自动编码器进行特征压缩,这带来了昂贵的每场景优化瓶颈,限制了部署的可扩展性。
- Method: 使用在ScanNet数据集上预训练的通用自动编码器,为任何新场景提供固定、紧凑的潜在空间语言特征,无需场景特定训练。
- Result: 在保持与原始LangSplat相当或更好的查询性能的同时,整个语言场构建过程获得了效率提升。
- Conclusion: 通用嵌入能够高效准确地支持新3D场景中的开放词汇查询,为可扩展的实时交互3D AI应用铺平了道路。
[139] Positional Preservation Embedding for Multimodal Large Language Models
Mouxiao Huang,Borui Jiang,Dehua Zheng,Hailin Hu,Kai Han,Xinghao Chen
Main category: cs.CV
TL;DR: 提出位置保持嵌入(PPE)方法,在视觉token压缩过程中保持时空结构,通过解耦编码3D位置信息,使压缩token能够封装来自多个原始token的不同位置。
- Motivation: 现有的多模态大语言模型在视觉语言任务中表现良好,但由于冗余的视觉token导致效率低下。现有的token合并方法虽然减少了序列长度,但经常因忽略位置关系而破坏空间布局和时间连续性。
- Method: 提出位置保持嵌入(PPE)算子,在token维度上显式引入解耦的3D位置编码,支持级联聚类策略进行渐进式token压缩。PPE是无参数的通用算子,可无缝集成到现有token合并方法中。
- Result: 在多个视觉语言基准测试中,包括MMBench(通用视觉理解)、TextVQA(布局理解)和VideoMME(时间理解),PPE实现了2%~5%的持续改进。
- Conclusion: 保持位置线索对于高效有效的多模态大语言模型推理至关重要,PPE方法在保持时空结构的同时显著提升了模型性能。
[140] Bi-Encoder Contrastive Learning for Fingerprint and Iris Biometrics
Matthew So,Judah Goldfeder,Mark Lis,Hod Lipson
Main category: cs.CV
TL;DR: 该研究挑战了生物特征统计无关的传统假设,通过训练Bi-Encoder网络验证指纹、虹膜等生物特征之间的相关性。
- Motivation: 测试生物特征统计无关的传统假设是否成立,探索不同生物特征之间的相关性。
- Method: 使用ResNet-50和Vision Transformer作为Bi-Encoder架构的骨干网络,在274名受试者的约10万张指纹和7千张虹膜图像上训练,通过对比损失最小化同一受试者图像间的差异。
- Result: 虹膜匹配模型达到91% ROC AUC,证明左右虹膜相关;指纹模型重现了先前研究的正相关结果;跨模态匹配仅略高于随机水平。
- Conclusion: 生物特征独立性假设受到挑战,未来需要更多数据和更复杂的流程来获得更好的跨模态匹配结果。
[141] Switchable Token-Specific Codebook Quantization For Face Image Compression
Yongbo Wang,Haonan Wang,Guodong Mu,Ruixin Zhang,Jiaqi Chen,Jingyun Zhang,Jun Wang,Yuan Xie,Zhizhong Zhang,Shouhong Ding
Main category: cs.CV
TL;DR: 提出了一种可切换的令牌特定码本量化方法,用于人脸图像压缩,通过学习不同图像类别的码本组并为每个令牌分配独立码本,在低比特率下提升重建性能。
- Motivation: 现有基于码本的解决方案使用全局共享码本,但忽略了人脸图像中类别特定的相关性以及令牌间的语义差异,导致在低比特率下性能不佳。
- Method: 学习不同图像类别的码本组,为每个令牌分配独立码本,通过少量比特记录每个令牌所属的码本组,在降低每个码本组大小的同时减少损失。
- Result: 在0.05 bpp下,重建图像的平均识别准确率达到93.51%。
- Conclusion: 该方法可集成到任何现有的基于码本的表征学习方法中,在低比特率下显著提升了人脸图像的重建性能。
[142] LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation
Zeyu Wang,Zilong Chen,Chenhui Gou,Feng Li,Chaorui Deng,Deyao Zhu,Kunchang Li,Weihao Yu,Haoqin Tu,Haoqi Fan,Cihang Xie
Main category: cs.CV
TL;DR: 提出一种高效的多模态模型融合方法,通过保留原始模型块并插入多模态自注意力块,在仅用35B token训练的情况下,在多个基准测试中取得优异性能。
- Motivation: 现有统一多模态模型需要从头训练且计算资源消耗大,本文旨在通过融合现有专用模型来更高效地获得竞争性性能。
- Method: 采用双重融合机制:保留原始模型块,同时在网络中插入多模态自注意力块,实现理解编码器的高级语义表示与生成编码器的低级空间信号的协同融合。
- Result: 在多个基准测试中表现优异:GenEval组合文本到图像生成0.91,DPG-Bench复杂文本到图像生成82.16,GEditBench 6.06,ImgEdit-Bench图像编辑3.77。
- Conclusion: 该方法证明了通过战略性地融合公开可用模型,可以在较少计算资源下获得竞争性多模态性能,并开源了完整代码、模型权重和数据集。
[143] FAME: Fairness-aware Attention-modulated Video Editing
Zhangkai Wu,Xuhui Fan,Zhongyuan Xie,Kaize Shi,Zhidong Li,Longbing Cao
Main category: cs.CV
TL;DR: 提出FAME方法用于公平感知的视频编辑,通过注意力调制缓解职业相关的性别偏见,同时保持提示对齐和时间一致性
- Motivation: 现有免训练视频编辑模型在处理职业相关提示时容易陷入性别刻板印象,需要解决职业相关的性别偏见问题
- Method: 从现有少数群体表示中推导公平嵌入,通过软注入去偏标记到文本编码器;在时间自注意力和提示到区域交叉注意力中集成公平调制;使用区域约束注意力掩码和时间衰减权重增强区域内一致性;通过去偏提示嵌入的公平敏感相似性掩码重新加权标记到区域匹配分数
- Result: 在FairVE基准测试中,FAME实现了更强的公平对齐和语义保真度,超越了现有视频编辑基线方法
- Conclusion: FAME方法有效缓解了视频编辑中的职业性别偏见,同时保持了时间一致性和提示对齐,为公平视频编辑提供了可行解决方案
[144] Survey of Multimodal Geospatial Foundation Models: Techniques, Applications, and Challenges
Liling Yang,Ning Chen,Jun Yue,Yidan Liu,Jiayi Ma,Pedram Ghamisi,Antonio Plaza,Leyuan Fang
Main category: cs.CV
TL;DR: 这篇论文综述了多模态地理空间基础模型(GFMs)的研究进展,从模态驱动的角度全面回顾了五种核心视觉和视觉-语言模态,分析了其在遥感图像分析中的技术方法、性能评估和实际应用。
- Motivation: 基础模型已经改变了自然语言处理和计算机视觉领域,现在正在重塑遥感图像分析。由于遥感数据具有多模态、多分辨率、多时相的特性,需要专门的多模态地理空间基础模型来解决领域特有的挑战。
- Method: 从模态驱动的视角,研究成像物理和数据表示的差异如何影响交互设计,分析对齐、集成和知识迁移的关键技术,以解决模态异质性、分布偏移和语义鸿沟问题。系统评估训练范式、架构和任务特定适应策略的进展。
- Result: 评估了代表性的多模态视觉和视觉-语言GFMs在十个下游任务中的表现,分析了其架构、性能和应用场景。通过土地覆盖制图、农业监测、灾害响应、气候研究和地理空间情报等实际案例研究,展示了GFMs的实际潜力。
- Conclusion: 指出了领域泛化、可解释性、效率和隐私方面的紧迫挑战,并为未来研究规划了有前景的方向。多模态GFMs已成为遥感图像分析中一个专门的研究前沿领域。
[145] VALA: Learning Latent Anchors for Training-Free and Temporally Consistent
Zhangkai Wu,Xuhui Fan,Zhongyuan Xie,Kaize Shi,Longbing Cao
Main category: cs.CV
TL;DR: 提出VALA(变分对齐潜在锚点),一种自适应选择关键帧并将其潜在特征压缩为语义锚点的变分对齐模块,用于实现一致的视频编辑。
- Motivation: 现有方法依赖启发式帧选择来保持DDIM反演的时间一致性,这会引入人为偏差并降低端到端推理的可扩展性。
- Method: 提出变分对齐模块,通过对比学习目标学习有意义的分配,将跨帧潜在表示压缩为保持内容和时间一致性的潜在锚点。
- Result: 在真实世界视频编辑基准测试中,VALA在反演保真度、编辑质量和时间一致性方面达到最先进性能,同时比先前方法更高效。
- Conclusion: VALA可以完全集成到基于免训练文本到图像的视频编辑模型中,提供改进的效率和一致性。
[146] Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method
Bohan Li,Xin Jin,Hu Zhu,Hongsi Liu,Ruikai Li,Jiazhe Guo,Kaiwen Cai,Chao Ma,Yueming Jin,Hao Zhao,Xiaokang Yang,Wenjun Zeng
Main category: cs.CV
TL;DR: 提出了一个统一的驾驶场景生成框架,联合生成高质量的语义占据、多视角视频和LiDAR点云,基于新构建的大规模Nuplan-Occ数据集。
- Motivation: 现有的占据中心方法虽然取得了先进成果,但性能严重依赖标注的占据数据,而这类数据仍然稀缺。
- Method: 采用时空解耦架构支持4D动态占据的高保真空间扩展和时间预测,并提出基于高斯溅射的稀疏点图渲染策略和传感器感知嵌入策略。
- Result: 在广泛实验中,该方法相比现有方法实现了更优的生成保真度和可扩展性,并在下游任务中验证了其实用价值。
- Conclusion: 该工作通过构建大规模数据集和统一生成框架,显著推进了驾驶场景生成技术的发展,为自动驾驶下游应用提供了有力支持。
[147] VoMP: Predicting Volumetric Mechanical Property Fields
Rishit Dagli,Donglai Xiang,Vismay Modi,Charles Loop,Clement Fuji Tsang,Anka He Chen,Anita Hu,Gavriel State,David I. W. Levin,Maria Shugrina
Main category: cs.CV
TL;DR: VoMP是一种前馈方法,通过多视角特征聚合和几何变换器预测3D物体的体积材料属性(杨氏模量、泊松比和密度),确保预测材料在物理上可行。
- Motivation: 物理模拟依赖于空间变化的力学属性,这些属性通常需要手工制作,过程繁琐。VoMP旨在自动预测3D物体的体积材料属性。
- Method: VoMP通过多视角渲染和体素化,聚合每个体素的多视角特征,使用训练的几何变换器预测每个体素的材料潜在编码,这些编码位于从真实世界数据集学习的物理可行材料流形上。
- Result: 实验表明,VoMP能够准确估计体积属性,在准确性和速度上远超现有方法。
- Conclusion: VoMP提供了一种有效的方法来自动预测3D物体的体积材料属性,显著提高了物理模拟的效率和准确性。
[148] SceneDecorator: Towards Scene-Oriented Story Generation with Scene Planning and Scene Consistency
Quanjian Song,Donghao Zhou,Jingyu Lin,Fei Shen,Jiaze Wang,Xiaowei Hu,Cunjian Chen,Pheng-Ann Heng
Main category: cs.CV
TL;DR: 提出SceneDecorator框架,解决文本到图像生成中的场景一致性问题,通过VLM引导的场景规划和长期场景共享注意力机制,确保多故事间的场景一致性和叙事连贯性。
- Motivation: 现有文本到图像模型在概念一致性方面仍有不足,特别是忽略了场景在故事叙述中的关键作用,限制了实际应用中的创造力。
- Method: 提出训练免费的SceneDecorator框架,包含VLM引导的场景规划确保叙事连贯性,以及长期场景共享注意力机制维护跨故事场景一致性。
- Result: 大量实验证明SceneDecorator在场景一致性和叙事连贯性方面表现优异。
- Conclusion: SceneDecorator在艺术、电影和游戏领域具有释放创造力的潜力。
[149] LoMix: Learnable Weighted Multi-Scale Logits Mixing for Medical Image Segmentation
Md Mostafijur Rahman,Radu Marculescu
Main category: cs.CV
TL;DR: 提出LoMix模块,通过可学习的加权混合多尺度logits来改进U型网络的训练,实现零推理开销的性能提升
- Motivation: 现有U型网络训练方法要么只监督最终输出,要么对所有尺度使用相同损失权重,未能充分利用多尺度预测的互补信息
- Method: 使用四种轻量级融合算子(加法、乘法、拼接、注意力加权融合)混合多尺度logits,通过可学习的softplus损失权重共同优化网络参数和融合策略
- Result: 在Synapse 8-organ数据集上,相比单输出监督提升DICE 4.2%,相比深度监督提升2.2%,在数据稀缺时优势更明显(提升9.23%)
- Conclusion: LoMix通过可学习的加权混合尺度融合,在保持零推理开销的同时,显著提升了U型网络的性能和数据效率
[150] CoMo: Compositional Motion Customization for Text-to-Video Generation
Youcan Xu,Zhen Wang,Jiaxin Shi,Kexin Li,Feifei Shao,Jun Xiao,Yi Yang,Jun Yu,Long Chen
Main category: cs.CV
TL;DR: CoMo是一个用于文本到视频生成中组合运动定制的新框架,能够在一个视频中合成多个不同的运动,解决了现有方法在复杂多主体运动控制方面的局限性。
- Motivation: 现有的文本到视频模型在生成多样化场景方面表现出色,但在精确运动控制方面存在困难,特别是在处理复杂多主体运动时。虽然已有单运动定制方法,但在组合场景中由于运动-外观纠缠和无效的多运动混合而失败。
- Method: CoMo采用两阶段方法:1) 单运动学习阶段,通过静态-动态解耦调优范式将运动与外观分离,学习运动特定模块;2) 多运动组合阶段,通过即插即用的分治策略在去噪过程中空间隔离不同运动的影响,无需额外训练即可组合已学习的运动。
- Result: 广泛的实验表明,CoMo实现了最先进的性能,显著提升了可控视频生成的能力。作者还引入了新的基准和评估指标来评估多运动保真度和混合效果。
- Conclusion: CoMo框架通过解耦运动与外观以及有效的多运动组合策略,成功解决了文本到视频生成中的组合运动定制问题,为可控视频生成开辟了新的研究方向。
[151] UGAE: Unified Geometry and Attribute Enhancement for G-PCC Compressed Point Clouds
Pan Zhao,Hui Yuan,Chongzhen Tian,Tian Guo,Raouf Hamzaoui,Zhigeng Pan
Main category: cs.CV
TL;DR: 提出统一的几何和属性增强框架UGAE,通过后几何增强、前属性增强和后属性增强三个核心组件,显著提升点云压缩质量并大幅降低码率。
- Motivation: 点云的有损压缩会不可避免地导致几何结构和属性信息的不可逆失真,需要解决压缩后的质量恢复问题。
- Method: UGAE框架包含:1) PoGE使用基于Transformer的稀疏卷积U-Net重建几何结构;2) PAE采用增强几何引导的重新着色策略和细节感知KNN方法;3) PoAE使用属性残差预测网络和加权MSE损失。
- Result: 在8iVFB、Owlii和MVUB数据集上显著优于现有方法,相比G-PCC测试模型,几何D1指标平均BD-PSNR增益9.98dB,码率节省90.98%;属性Y分量BD-PSNR提升3.67dB,码率节省56.88%。
- Conclusion: UGAE框架有效提升了点云压缩的几何和属性质量,在客观指标和感知质量方面均有显著改进。
[152] M T2IBench: A Large-Scale Multi-Category, Multi-Instance, Multi-Relation Text-to-Image Benchmark
Huixuan Zhang,Xiaojun Wan
Main category: cs.CV
TL;DR: 提出了M³T2IBench基准和AlignScore评估指标,用于评估文本到图像生成中多类别、多实例、多关系的图像-文本对齐,并提出了Revise-Then-Enforce方法来提升对齐效果。
- Motivation: 现有文本到图像模型在生成与文本提示完美对齐的图像方面存在困难,现有评估方法要么处理过于简单的场景,要么引入与人类评估相关性不高的指标。
- Method: 构建了大规模、多类别、多实例、多关系的M³T2IBench基准,开发了基于目标检测的AlignScore评估指标,并提出了训练后编辑方法Revise-Then-Enforce来提升图像-文本对齐。
- Result: 当前开源文本到图像模型在这个具有挑战性的基准上表现不佳,但提出的Revise-Then-Enforce方法在广泛的扩散模型中都能改善图像-文本对齐。
- Conclusion: M³T2IBench和AlignScore为评估文本到图像生成提供了更全面的基准,Revise-Then-Enforce方法能有效提升图像-文本对齐效果。
[153] UniAIDet: A Unified and Universal Benchmark for AI-Generated Image Content Detection and Localization
Huixuan Zhang,Xiaojun Wan
Main category: cs.CV
TL;DR: UniAIDet是一个统一的AI生成图像检测基准,涵盖多种生成模型和图像类型,用于评估检测方法的泛化能力。
- Motivation: 现有AI生成内容检测基准覆盖范围有限,缺乏对多样化生成模型和图像类别(特别是端到端图像编辑和艺术图像)的全面评估。
- Method: 构建UniAIDet基准,包含摄影和艺术图像,覆盖文本到图像、图像到图像、图像修复、图像编辑和深度伪造等多种生成模型。
- Result: 使用UniAIDet对各种检测方法进行全面评估,回答了关于泛化能力和检测与定位关系的三个关键研究问题。
- Conclusion: UniAIDet基准和分析为未来研究提供了坚实基础。
[154] Nested AutoRegressive Models
Hongyu Wu,Xuhui Fan,Zhangkai Wu,Longbing Cao
Main category: cs.CV
TL;DR: 提出NestAR模型,通过嵌套自回归架构在多个尺度上生成图像,将复杂度从O(n)降低到O(log n),同时提高图像多样性。
- Motivation: 解决现有自回归模型计算密集和样本多样性有限的问题,特别是VAR模型在多样性方面的局限性。
- Method: 设计分层多尺度模块的嵌套自回归架构,每个较大尺度模块基于前一个较小尺度模块的输出,内部使用另一个AR结构生成token块,结合流匹配损失和连续token。
- Result: 在保持竞争力的图像生成性能的同时,显著降低了计算成本。
- Conclusion: NestAR通过嵌套自回归架构有效平衡了计算效率和生成质量,为图像生成提供了更高效的解决方案。
[155] HieraMamba: Video Temporal Grounding via Hierarchical Anchor-Mamba Pooling
Joungbin An,Kristen Grauman
Main category: cs.CV
TL;DR: HieraMamba是一个用于视频时序定位的层次化架构,通过Anchor-MambaPooling块和多粒度对比学习,在长视频中实现了精确的时间定位。
- Motivation: 现有方法在处理长视频时往往通过过度下采样或固定窗口来牺牲时间保真度,无法同时捕捉全局上下文和细粒度时间细节。
- Method: 使用层次化架构,核心是Anchor-MambaPooling块,利用Mamba的选择性扫描生成多粒度锚点标记,并采用锚点条件和段池化对比损失来保持局部细节和全局区分性。
- Result: 在Ego4D-NLQ、MAD和TACoS数据集上达到了新的最先进水平,证明了在长未修剪视频中精确、时间忠实定位的能力。
- Conclusion: HieraMamba通过层次化设计和多粒度对比学习,有效解决了长视频时序定位中时间保真度与语义丰富性的平衡问题。
[156] Strategies for Robust Deep Learning Based Deformable Registration
Joel Honkamaa,Pekka Marttinen
Main category: cs.CV
TL;DR: 提出一种简单但有效的方法,通过将图像转换为MIND特征空间来显著提高深度学习配准模型的鲁棒性,并在LUMIR脑部配准挑战中展示其性能。
- Motivation: 深度学习配准方法在训练数据分布之外的泛化能力较差,这严重限制了其实用性。LUMIR脑部配准挑战旨在评估模型在不同对比度和模态上的配准性能。
- Method: 将图像转换为MIND特征空间后再输入模型,并提出一种特殊的集成策略来进一步提升性能。
- Result: 该方法显著提高了配准模型的鲁棒性,集成策略也带来了小而一致的改进。
- Conclusion: 简单的MIND特征空间转换是提高深度学习配准模型泛化能力的有效方法,集成策略能进一步优化性能。
[157] EndoWave: Rational-Wavelet 4D Gaussian Splatting for Endoscopic Reconstruction
Taoyu Wu,Yiyi Miao,Jiaxin Guo,Ziyan Chen,Sihang Zhao,Zhuoxiao Li,Zhe Tang,Baoru Huang,Limin Yu
Main category: cs.CV
TL;DR: EndoWave是一个用于内窥镜视频3D重建的统一时空高斯泼溅框架,通过结合基于光流的几何约束和多分辨率有理小波监督来解决内窥镜场景中的挑战。
- Motivation: 内窥镜场景存在光度不一致性、非刚性组织运动和视角依赖性高光等独特挑战,仅依赖外观约束的3DGS方法往往不足以准确重建。
- Method: 采用统一时空高斯表示在4D域直接优化基元;提出基于光流的几何约束增强时间一致性;使用多分辨率有理正交小波约束分离细节并提升渲染性能。
- Result: 在EndoNeRF和StereoMIS两个真实手术数据集上的广泛评估表明,EndoWave相比基线方法实现了最先进的重建质量和视觉精度。
- Conclusion: EndoWave通过引入几何约束和小波监督,有效解决了内窥镜3D重建中的动态视觉伪影问题,提升了重建准确性。
[158] Revisiting Multimodal Positional Encoding in Vision-Language Models
Jie Huang,Xuejing Liu,Sibo Song,Ruibing Hou,Hong Chang,Junyang Lin,Shuai Bai
Main category: cs.CV
TL;DR: 本文对多模态旋转位置编码(RoPE)进行了系统分析,提出了三种关键设计准则,并开发了两种无需架构改变的即插即用变体MHRoPE和MRoPE-I,在多种基准测试中显著优于现有方法。
- Motivation: 多模态位置编码对视觉语言模型至关重要,但此前缺乏系统性的研究。本文旨在填补这一空白,深入分析多模态RoPE的核心组件。
- Method: 通过分析RoPE的两个核心组件(位置设计和频率分配),提出了三种设计准则,并基于这些准则开发了MHRoPE和MRoPE-I两种变体方法。
- Result: 提出的方法在多样化基准测试中一致优于现有方法,在通用和细粒度多模态理解任务上都取得了显著改进。
- Conclusion: 本文为多模态位置编码提供了系统性的分析框架和有效的解决方案,提出的方法简单实用且性能优越。
[159] Residual Diffusion Bridge Model for Image Restoration
Hebaixu Wang,Jing Zhang,Haoyang Chen,Haonan Guo,Di Wang,Jiayi Ma,Bo Du
Main category: cs.CV
TL;DR: 提出了残差扩散桥模型(RDBM),通过理论重构扩散桥的随机微分方程,利用分布残差调制噪声注入和去除,实现自适应图像修复,在多个图像修复任务中达到最先进性能。
- Motivation: 现有扩散桥模型缺乏统一分析视角,且通过全局噪声注入和去除会扭曲未退化区域,需要更精确的修复方法。
- Method: 理论重构广义扩散桥的随机微分方程,推导其前向和反向过程的解析公式,利用给定分布的残差来调制噪声注入和去除过程。
- Result: 在多种图像修复任务中,RDBM在定性和定量评估上都达到了最先进的性能表现。
- Conclusion: RDBM揭示了现有桥模型的数学本质,所有现有方法都是RDBM的特例,实验证明了所提模型的最优性。
[160] Task-Agnostic Fusion of Time Series and Imagery for Earth Observation
Gianfranco Basile,Johannes Jakubik,Benedikt Blumenstiel,Thomas Brunschwiler,Juan Bernabe Moreno
Main category: cs.CV
TL;DR: 提出了一个任务无关的多模态融合框架,能够融合时间序列和单时间戳图像数据,支持跨模态生成并在下游任务中表现稳健。
- Motivation: 解决时间序列和图像数据的多模态融合问题,特别是在地球观测领域,需要一种能够处理不同模态数据并支持跨模态生成和下游任务的通用方法。
- Method: 采用确定性和学习策略进行时间序列量化,利用掩码相关性学习目标,在统一表示空间中对齐离散的图像和时间序列标记。
- Result: 预训练模型能够从卫星图像生成一致的全球温度剖面,在下游任务中,任务无关预训练比任务特定融合平均在R²上提升6%、RMSE提升2%,比基线方法在R²上提升50%、RMSE提升12%。
- Conclusion: 该框架在多模态融合方面表现出色,通过梯度敏感性分析提供了模型鲁棒性的见解,代码、数据和权重将开源发布。
[161] DeepSalt: Bridging Laboratory and Satellite Spectra through Domain Adaptation and Knowledge Distillation for Large-Scale Soil Salinity Estimation
Rupasree Dey,Abdul Matin,Everett Lewark,Tanjim Bin Faruk,Andrei Bachinin,Sam Leuthold,M. Francesca Cotrufo,Shrideep Pallickara,Sangmi Lee Pallickara
Main category: cs.CV
TL;DR: DeepSalt是一个基于深度学习的频谱迁移框架,通过知识蒸馏和新型频谱适配单元,将实验室光谱的高分辨率洞察迁移到卫星高光谱传感中,实现无需大量地面采样的准确大范围盐度估算。
- Motivation: 土壤盐渍化严重威胁生态系统和农业,传统实验室光谱测量精度高但难以扩展到区域或全球范围,而卫星高光谱成像范围广但缺乏精细解释性,需要桥接这一差距。
- Method: 提出DeepSalt框架,结合知识蒸馏和频谱适配单元,将实验室高分辨率光谱知识迁移到卫星高光谱数据中,实现跨域光谱特征适配。
- Result: DeepSalt在综合实证基准测试中显著优于无显式域适配的方法,证明了频谱适配单元和知识蒸馏策略的有效性,模型还能有效泛化到未见地理区域,解释了大量盐度变异。
- Conclusion: DeepSalt成功解决了实验室光谱与卫星遥感之间的尺度差距,为大范围土壤盐度监测提供了有效解决方案,具有重要的实际应用价值。
[162] Note on the Construction of Structure Tensor
Josef Bigun,Fernado Alonso-Fernandez
Main category: cs.CV
TL;DR: 本文通过总最小二乘法(TLS)谱线拟合的统一视角,重新解释了Bigun和Granlund(1987)与Granlund和Knutsson(1995)提出的两种结构张量构造方法,发现它们可以相互调和,并带来额外优势。
- Motivation: 探讨两种看似不同的结构张量构造方法之间的理论联系,通过统一的理论框架来调和它们,并发现这种统一视角带来的计算简化和扩展可能性。
- Method: 使用总最小二乘法(TLS)对功率谱进行线拟合的统一理论框架,重新分析两种结构张量构造方法。第一种基于梯度滤波器响应的外积平均,第二种基于正交滤波器的调谐频率向量的加权外积。
- Result: 从TLS视角看,Granlund和Knutsson(1995)方法中的修正项变得不必要,省略后可确保张量保持半正定性,简化特征值解释。该视角还允许拟合多个方向,且不限于正交滤波器,可使用Gabor滤波器等其他滤波器类型。
- Conclusion: 两种结构张量构造方法在TLS统一框架下可相互调和,这种视角简化了计算,扩展了方法适用性,允许使用更广泛的滤波器类型和非角度镶嵌方案。
[163] Fast Voxel-Wise Kinetic Modeling in Dynamic PET using a Physics-Informed CycleGAN
Christian Salomonsen,Samuel Kuttner,Michael Kampffmeyer,Robert Jenssen,Kristoffer Wickstrøm,Jong Chul Ye,Elisabeth Wetzer
Main category: cs.CV
TL;DR: 该论文将物理信息化的CycleGAN从DCE-MRI扩展到动态PET定量分析,用于无创预测动脉输入函数(AIF),避免了传统方法中复杂且有创的AIF估计过程。
- Motivation: 传统示踪动力学建模需要复杂且有创的动脉输入函数估计,给实践者带来负担。论文旨在开发一种无创方法来预测AIF。
- Method: 采用物理信息化的CycleGAN方法,该方法已在DCE-MRI量化中显示出潜力,现将其扩展到动态PET量化领域。
- Result: 实验表明该方法能够准确预测AIF,生成的参数图与参考图非常接近。
- Conclusion: 物理信息化的CycleGAN在动态PET量化中表现出良好性能,能够有效预测AIF并生成准确的参数图。
[164] DQ3D: Depth-guided Query for Transformer-Based 3D Object Detection in Traffic Scenarios
Ziyu Wang,Wenhao Li,Ji Wu
Main category: cs.CV
TL;DR: 提出了一种深度引导的查询生成器DQ3D,通过利用深度信息和2D检测来确保参考点从物体表面或内部采样,并引入混合注意力机制融合历史检测结果,显著提升了3D物体检测性能。
- Motivation: 现有方法中,一些参考点往往远离目标物体,这会导致误检。为了解决这个问题,需要确保参考点从物体表面或内部采样,并处理当前帧中部分被遮挡的物体。
- Method: 提出深度引导查询生成器(DQ3D),利用深度信息和2D检测来生成参考点;引入混合注意力机制,融合历史检测结果与深度引导查询,形成混合查询。
- Result: 在nuScenes数据集上的评估显示,该方法在平均精度(mAP)上比基线提升了6.3%,在NuScenes检测分数(NDS)上提升了4.3%。
- Conclusion: DQ3D方法通过深度引导的参考点采样和混合注意力机制,有效解决了参考点远离目标物体的问题,显著提升了3D物体检测性能。
[165] Implicit Modeling for Transferability Estimation of Vision Foundation Models
Yaoyan Zheng,Huiqun Wang,Nan Zhou,Di Huang
Main category: cs.CV
TL;DR: 提出了隐式可迁移性建模(ITM)框架,通过分治变分近似(DVA)策略高效估计预训练模型在下游任务中的可迁移性,无需完整微调即可识别最佳模型。
- Motivation: 现有方法难以准确评估具有多样化架构、训练策略和任务对齐的新兴预训练模型的可迁移性,需要更通用的评估框架。
- Method: ITM框架隐式建模每个模型的内在可迁移性,结合分治变分近似(DVA)策略来高效近似嵌入空间的演化。
- Result: 在涵盖广泛训练机制和模型类型的综合基准测试中,ITM在稳定性、有效性和效率方面持续优于现有方法。
- Conclusion: ITM能够泛化到更广泛的模型和下游任务,推动了预训练和微调范式的发展。
[166] AG-Fusion: adaptive gated multimodal fusion for 3d object detection in complex scenes
Sixian Liu,Chen Xu,Qiang Wang,Donghai Shi,Yiwen Li
Main category: cs.CV
TL;DR: 提出了一种名为AG-Fusion的自适应门控融合方法,用于在复杂场景下实现鲁棒的3D目标检测,通过选择性整合跨模态知识来应对传感器退化或环境干扰。
- Motivation: 现有的多模态相机-LiDAR融合方法在传感器退化或环境干扰等挑战性场景中性能显著下降,需要开发更鲁棒的融合策略。
- Method: 首先将各模态特征投影到统一的BEV空间,使用基于窗口的注意力机制增强特征,然后设计基于跨模态注意力的自适应门控融合模块来整合特征。
- Result: 在标准KITTI数据集上达到93.92%的准确率,在新建的E3D数据集上比基线方法提升24.88%,在复杂工业场景中表现出对不可靠模态信息的优越鲁棒性。
- Conclusion: AG-Fusion方法通过自适应门控融合机制,在复杂场景下实现了鲁棒的多模态3D目标检测,特别是在挑战性工业环境中表现出色。
[167] Finding 3D Scene Analogies with Multimodal Foundation Models
Junho Kim,Young Min Kim
Main category: cs.CV
TL;DR: 提出了一种使用多模态基础模型进行零样本、开放词汇的3D场景类比方法,通过混合神经表示和粗到精的对应关系查找,实现复杂场景间的准确对应,应用于轨迹和路径点转移。
- Motivation: 现有3D场景类比方法需要额外训练和固定对象词汇表,限制了在未见环境中的适应性和规划能力。
- Method: 使用基于视觉语言模型特征的稀疏图和3D形状基础模型的特征场构建混合神经场景表示,通过先对齐图再使用特征场细化对应的粗到精方式查找3D场景类比。
- Result: 该方法能够在复杂场景间建立准确的对应关系,成功展示了在轨迹和路径点转移中的应用。
- Conclusion: 提出的零样本、开放词汇3D场景类比方法有效解决了现有方法的局限性,为机器人适应和规划提供了新途径。
[168] Evaluation of Vision-LLMs in Surveillance Video
Pascal Benschop,Cristian Meo,Justin Dauwels,Jelte P. Mense
Main category: cs.CV
TL;DR: 该论文研究视觉语言模型在零样本异常行为识别中的空间推理能力,通过将视频转换为文本描述并使用文本蕴含来评分,评估了四种模型在UCF-Crime和RWF-2000数据集上的表现。
- Motivation: 摄像头产生的海量视频数据远超人类监控能力,迫切需要自动检测异常或犯罪事件的方法。智能体识别意外事件的能力与其空间推理能力密切相关。
- Method: 将异常行为识别构建为零样本、基于语言的任务,通过将视频转换为文本描述,使用文本蕴含对标签进行评分,评估预训练视觉-LLMs作为空间基础零样本异常检测器的能力。
- Result: 少量样本示例可以提高某些模型的准确性,但可能增加误报;隐私过滤器(尤其是全身GAN变换)会引入不一致性降低准确性。模型在简单、空间显著事件上表现良好,但在噪声空间线索和身份混淆方面表现不佳。
- Conclusion: 提出了无需任务特定训练即可增强空间基础的具体路径:结构感知提示、跨片段的轻量级空间记忆、描述过程中的场景图或3D姿态先验,以及保留动作相关几何的隐私方法。
[169] DecoDINO: 3D Human-Scene Contact Prediction with Semantic Classification
Lukas Bierling,Davide Pasero,Fleur Dolmans,Helia Ghasemi,Angelo Broere
Main category: cs.CV
TL;DR: DecoDINO是一个基于DECO框架的三分支网络,用于改进人体与物体接触预测,在DAMON基准测试中显著提升了性能。
- Motivation: 现有DECO模型在野外环境下只能预测二元接触图,且在软表面、遮挡、儿童和足部误接触方面表现不佳,需要改进接触预测的准确性和语义信息。
- Method: 使用两个DINOv2 ViT-g/14编码器,采用类别平衡损失权重减少偏差,通过补丁级交叉注意力改进局部推理,最后通过轻量级MLP和softmax分配语义接触标签。
- Result: 在DAMON基准测试中,二元接触F1分数提升7%,测地误差减半,并增加了物体级语义标签预测。消融研究表明LoRA微调和双编码器是关键改进因素。
- Conclusion: DecoDINO在DAMON挑战赛的两个任务中都优于基线模型,为机器人、AR/VR和行为模拟提供了更准确的人体-物体接触预测。
[170] VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting
Hoonhee Cho,Jae-Young Kang,Giwon Lee,Hyemin Yang,Heejun Park,Seokwoo Jung,Kuk-Jin Yoon
Main category: cs.CV
TL;DR: VR-Drive是一个端到端自动驾驶框架,通过联合学习3D场景重建作为辅助任务来解决视角泛化问题,支持在线训练时从稀疏视图进行增强,无需额外标注。
- Motivation: 端到端自动驾驶面临不同相机视角的鲁棒性问题,这是现实世界中由于车辆配置多样性带来的常见挑战。
- Method: 采用前馈推理策略,引入视角混合记忆库促进多视角间的时间交互,以及视角一致性蒸馏策略从原始视图向合成视图传递知识。
- Result: VR-Drive有效减轻了合成引起的噪声,改进了视角变化下的规划性能,并发布了新的基准数据集用于评估新相机视角下的性能。
- Conclusion: VR-Drive是端到端自动驾驶系统在现实世界部署中可扩展且鲁棒的解决方案。
[171] Accurate and Scalable Multimodal Pathology Retrieval via Attentive Vision-Language Alignment
Hongyi Wang,Zhengjie Zhu,Jiabo Ma,Fang Wang,Yue Shi,Bo Luo,Jili Wang,Qiuyu Cai,Xiuming Zhang,Yen-Wei Chen,Lanfen Lin,Hao Chen
Main category: cs.CV
TL;DR: PathSearch是一个用于数字病理学的内容检索框架,通过结合细粒度注意力马赛克表示和全局幻灯片嵌入,支持图像到图像检索和多模态检索,在多个病理数据集上表现出色。
- Motivation: 解决全玻片图像检索的挑战,包括千兆像素规模和难以捕捉语义差异的问题,以支持精确诊断、提高观察者一致性并辅助基于案例的教育。
- Method: 统一细粒度注意力马赛克表示与通过视觉语言对比学习对齐的全局幻灯片嵌入,在6,926个幻灯片-报告对上进行训练,支持图像到图像检索和多模态文本查询检索。
- Result: 在四个公共病理数据集和三个内部队列上评估,涵盖解剖部位检索、肿瘤分型、肿瘤与非肿瘤区分以及分级等任务,优于传统图像到图像检索框架,多中心读者研究显示提高了诊断准确性、置信度和观察者间一致性。
- Conclusion: PathSearch是一个可扩展且通用的数字病理学检索解决方案,能够有效支持临床诊断和研究工作。
[172] Through the Lens: Benchmarking Deepfake Detectors Against Moiré-Induced Distortions
Razaib Tariq,Minji Heo,Simon S. Woo,Shahroz Tariq
Main category: cs.CV
TL;DR: 本研究系统评估了15种最先进的深度伪造检测器在受到莫尔条纹影响的视频上的表现,发现莫尔伪影可使检测性能下降高达25.4%,而去莫尔方法反而使问题恶化。
- Motivation: 现实世界中通过智能手机从数字屏幕拍摄的媒体常引入莫尔伪影,这会扭曲深度伪造检测结果,但这个问题在研究中很少受到关注。
- Method: 收集了12,832个视频(35.64小时)的数据集,涵盖多个数据集,并在不同真实条件下拍摄;使用DeepMoiréFake数据集和两种合成莫尔生成技术进行额外实验。
- Result: 莫尔伪影使检测性能下降高达25.4%,合成生成的莫尔模式导致准确率下降21.4%;去莫尔方法反而使准确率下降高达17.2%。
- Conclusion: 迫切需要能够稳健处理莫尔失真以及其他现实挑战的检测模型,DMF数据集的引入旨在推动研究缩小受控实验与实际深度伪造检测之间的差距。
[173] Autoregressive Styled Text Image Generation, but Make it Reliable
Carmine Zaccagnino,Fabio Quattrini,Vittorio Pippi,Silvia Cascianelli,Alessio Tonioni,Rita Cucchiara
Main category: cs.CV
TL;DR: 本文提出Eruku方法,将手写文本生成重新定义为多模态提示条件生成任务,通过引入特殊文本标记和改进的自回归模型,解决了内容可控性问题。
- Motivation: 现有自回归Transformer方法在手写文本生成中存在需要额外输入、缺乏停止机制、产生重复循环和视觉伪影等问题,需要改进内容可控性。
- Method: 将HTG作为多模态提示条件生成任务,引入特殊文本输入标记以更好地与视觉标记对齐,并设计基于Classifier-Free-Guidance的自回归模型策略。
- Result: 相比之前的方法,Eruku需要更少的输入,对未见风格具有更好的泛化能力,并能更忠实地遵循文本提示,提高内容一致性。
- Conclusion: Eruku方法通过重新定义问题框架和改进模型设计,在手写文本生成任务中实现了更好的内容可控性和生成质量。
[174] Progressive Growing of Patch Size: Curriculum Learning for Accelerated and Improved Medical Image Segmentation
Stefan M. Fischer,Johannes Kiechle,Laura Daza,Lina Felsner,Richard Osuala,Daniel M. Lang,Karim Lekadir,Jan C. Peeken,Julia A. Schnabel
Main category: cs.CV
TL;DR: 提出渐进式增大补丁尺寸的自动课程学习方法,用于3D医学图像分割,在保持或提升Dice评分的同时显著减少训练时间。
- Motivation: 解决传统固定补丁尺寸方法在3D医学图像分割中训练效率低、类别不平衡的问题,通过渐进式策略优化训练过程。
- Method: 在模型训练过程中逐步增加补丁尺寸,设计了资源高效模式和性能模式两种设置,在15个不同的3D医学图像分割任务上进行评估。
- Result: 资源高效模式将训练时间减少到44%的同时保持Dice评分性能;性能模式在Dice评分上获得1.28%的相对提升,同时训练时间减少到89%。
- Conclusion: 这种简单而优雅的数据输入变换方法显著提升了分割性能和训练效率,且适用于多种分割架构,具有广泛适用性。
[175] A Video Is Not Worth a Thousand Words
Sam Pollard,Michael Wray
Main category: cs.CV
TL;DR: 提出基于Shapley值的特征归因和模态评分方法,分析6个不同上下文长度的VLM模型在4个VQA数据集上的表现,发现模型过度依赖文本且多选VQA任务退化为忽略干扰项的能力。
- Motivation: 随着对视觉语言模型的依赖增加,需要评估多模态模型的复杂性和方向正确性,特别是关注文本主导问题和模态间交互的探索不足。
- Method: 使用基于Shapley值的特征归因和模态评分方法,将视频帧和文本元素视为平等特征,将多选VQA任务视为视频、问题和答案三个模态的交互。
- Result: 结果显示模型对文本有依赖性,多选VQA任务退化为模型忽略干扰项的能力。
- Conclusion: 当前VLM模型存在文本主导问题,多选VQA任务评估方式需要改进,以避免退化为简单的干扰项忽略能力测试。
[176] hYOLO Model: Enhancing Object Classification with Hierarchical Context in YOLOv8
Veska Tsenkova,Peter Stanchev,Daniel Petrov,Deyan Lazarov
Main category: cs.CV
TL;DR: 提出基于YOLO的端到端层次化图像检测分类模型,通过新颖的层次架构、改进的损失函数和专用性能指标,解决传统平面分类忽略现实对象层次结构的问题。
- Motivation: 现实世界中的对象具有自然的层次组织关系,这能显著帮助分类任务。捕捉对象间关系可以改善上下文理解并控制错误严重程度,而传统CNN分类方法主要关注平面分类。
- Method: 基于YOLO模型家族构建端到端层次化模型,引入新颖的层次架构、修改的损失函数和针对层次特性的性能评估指标,在两种不同层次分类的数据集上进行训练和评估。
- Result: 该方法成功处理了现实对象中固有的层次结构,而传统平面分类算法往往忽略这种结构。在考虑视觉相似性和系统分类的两种层次化数据集上都取得了良好效果。
- Conclusion: 提出的层次化方法能够有效利用现实世界对象的层次关系,为图像检测和分类提供了更好的上下文理解和错误控制能力。
[177] Adaptive Stochastic Coefficients for Accelerating Diffusion Sampling
Ruoyu Wang,Beier Zhu,Junzhi Li,Liangyu Yuan,Chi Zhang
Main category: cs.CV
TL;DR: 提出了AdaSDE,一种新颖的单步SDE求解器,通过动态调节误差修正强度来加速扩散采样,在有限步数下实现最先进性能。
- Motivation: 基于ODE和SDE的求解器各有弱点:ODE求解器沿确定性轨迹积累不可约梯度误差,而SDE方法在步数有限时遭受放大的离散化误差。
- Method: 引入AdaSDE,一种单步SDE求解器,通过轻量级蒸馏估计每步可学习系数,动态调节误差修正强度,可与现有求解器集成。
- Result: 在5 NFE下,AdaSDE在CIFAR-10上FID为4.18,FFHQ为8.05,LSUN Bedroom为6.96,达到最先进性能。
- Conclusion: AdaSDE成功统一了ODE的效率和SDE的误差鲁棒性,为扩散采样提供了有效的加速解决方案。
[178] MMSD3.0: A Multi-Image Benchmark for Real-World Multimodal Sarcasm Detection
Haochen Zhao,Yuyao Kong,Yongxiu Xu,Gaopeng Gou,Hongbo Xu,Yubin Wang,Haoliang Zhang
Main category: cs.CV
TL;DR: 提出了MMSD3.0多图像讽刺检测基准和CIRM跨图像推理模型,解决了现有方法只关注单图像场景的局限性。
- Motivation: 现有讽刺检测研究主要关注单图像场景,忽略了多图像之间的语义和情感关系,无法建模真实世界中由多图像线索触发的讽刺情况。
- Method: 提出跨图像推理模型(CIRM),通过针对性跨图像序列建模捕获图像间潜在联系,并基于文本-图像对应关系引入相关性引导的细粒度跨模态融合机制。
- Result: MMSD3.0被证明是有效可靠的基准,能更好反映真实世界条件;CIRM在MMSD、MMSD2.0和MMSD3.0上均达到最先进性能。
- Conclusion: CIRM模型在单图像和多图像讽刺检测场景中都表现出有效性,填补了多图像讽刺检测的研究空白。
[179] MDReID: Modality-Decoupled Learning for Any-to-Any Multi-Modal Object Re-Identification
Yingying Feng,Jie Li,Jie Hu,Yukang Zhang,Lei Tan,Jiayi Ji
Main category: cs.CV
TL;DR: MDReID是一个灵活的任意模态到任意模态的图像级重识别框架,通过解耦模态共享特征和模态特定特征,在模态匹配和不匹配场景下都能有效工作。
- Motivation: 现实世界中的重识别系统经常面临模态不一致问题(如RGB、NIR、TIR等不同传感器),但现有方法大多假设模态匹配条件,限制了在实际应用中的鲁棒性和可扩展性。
- Method: 提出MDReID框架,包含两个关键组件:模态解耦学习(MDL)将模态特征显式分解为模态共享和模态特定表示;模态感知度量学习(MML)通过正交性和互补性增强跨模态的判别能力。
- Result: 在三个多模态重识别基准测试(RGBNT201、RGBNT100、MSVR310)上的实验表明,MDReID在模态匹配场景下分别获得9.8%、3.0%、11.5%的mAP提升,在模态不匹配场景下平均获得3.4%、11.8%、10.9%的性能增益。
- Conclusion: MDReID通过有效解耦模态特征,显著提升了多模态重识别系统在现实场景中的性能,为处理模态不一致问题提供了有效的解决方案。
[180] ReconViaGen: Towards Accurate Multi-view 3D Object Reconstruction via Generation
Jiahao Chang,Chongjie Ye,Yushuang Wu,Yuantao Chen,Yidan Zhang,Zhongjin Luo,Chenghong Li,Yihao Zhi,Xiaoguang Han
Main category: cs.CV
TL;DR: ReconViaGen通过将重建先验整合到生成框架中,解决了基于扩散的3D生成方法在多视图重建中的一致性问题,实现了与输入视图一致的完整3D模型重建。
- Motivation: 现有多视图3D重建方法严重依赖输入视图之间的充分重叠,实践中遮挡和稀疏覆盖经常导致严重的不完整重建。基于扩散的3D生成技术有潜力通过学习生成先验来补全不可见部分,但其随机性限制了结果的准确性和可靠性。
- Method: 提出ReconViaGen,创新地将重建先验整合到生成框架中,设计了多个策略来解决两个关键问题:(a) 提取多视图图像特征作为条件时构建和利用跨视图连接的不足;(b) 局部细节生成时迭代去噪的差可控性导致与输入不一致的几何和纹理细节。
- Result: 大量实验表明,ReconViaGen能够在全局结构和局部细节上重建与输入视图一致的完整且准确的3D模型。
- Conclusion: ReconViaGen成功解决了基于扩散的3D生成方法在多视图重建中的一致性问题,实现了高质量的重建结果。
[181] Multitask Multimodal Self-Supervised Learning for Medical Images
Cristian Simionescu
Main category: cs.CV
TL;DR: 该论文提出Medformer神经网络架构,通过自监督学习和领域自适应方法解决医学图像分析中对标注数据的依赖问题,能够在多种医学图像模态上有效学习通用特征。
- Motivation: 解决医学图像分析中标注数据稀缺的问题,由于专家标注成本高、隐私和法律限制,需要开发不依赖大量标注数据的方法。
- Method: 开发Medformer神经网络架构,支持多任务学习和深度领域自适应,具有动态输入输出适应机制,能在不同尺寸和模态的医学图像上进行预训练,并设计新颖的自监督学习任务从无标签数据中提取有用信息。
- Result: 在MedMNIST数据集上的实验验证了模型的有效性,能够学习适用于各种下游任务的通用特征,显著提升了模型的解释能力。
- Conclusion: 该研究为医学图像分析提供了可扩展、自适应的框架,减少了对标注数据的依赖,为开发更准确、高效的医疗诊断工具奠定了基础。
[182] Interpretable Tile-Based Classification of Paclitaxel Exposure
Sean Fletcher,Gabby Scott,Douglas Currie,Xin Zhang,Yuqi Song,Bruce MacLeod
Main category: cs.CV
TL;DR: 提出了一种基于分块和聚合的简单管道,用于从C6胶质瘤细胞的相差显微镜图像中分类紫杉醇暴露情况,在基准数据集上实现了最先进的准确率,比已发布的基线提高了约20个百分点。
- Motivation: 医学图像分析在药物发现和临床前评估中至关重要,可提供可扩展、客观的读数以加速决策。针对紫杉醇暴露分类任务中细微剂量差异对全图像模型构成的挑战。
- Method: 采用简单的分块和聚合管道,在局部补丁上操作,并将分块输出组合成图像标签。进一步应用Grad-CAM、Score-CAM和注意力分析来增强模型可解释性。
- Result: 在基准数据集上实现了最先进的准确率,比已发布的基线提高了约20个百分点,交叉验证证实了这一趋势。
- Conclusion: 分块方法有效提升了分类性能,可解释性分析为未来医学图像研究的鲁棒性方向提供了指导。代码已发布以便复现和扩展。
[183] PlanarTrack: A high-quality and challenging benchmark for large-scale planar object tracking
Yifan Jiao,Xinran Liu,Xiaoqiong Liu,Xiaohui Yuan,Heng Fan,Libo Zhang
Main category: cs.CV
TL;DR: 提出了PlanarTrack,一个用于平面跟踪的大规模高质量基准数据集,包含1,150个序列、超过733K帧,支持短期和长期跟踪评估。
- Motivation: 平面跟踪在机器人和增强现实中具有重要作用,但由于缺乏大规模平台,其发展受到限制。
- Method: 创建PlanarTrack数据集,包含1,000个短期和150个长期视频,所有视频在无约束条件下录制,每个帧通过四个角点手动标注,确保高质量注释。
- Result: 评估了10个代表性平面跟踪器,发现顶级跟踪器在PlanarTrack上性能显著下降,表明需要更多努力改进平面跟踪。
- Conclusion: PlanarTrack是目前最大、最多样化和最具挑战性的平面跟踪数据集,为未来研究提供了比较基准。
[184] An Efficient Remote Sensing Super Resolution Method Exploring Diffusion Priors and Multi-Modal Constraints for Crop Type Mapping
Songxi Yang,Tang Sui,Qunying Huang
Main category: cs.CV
TL;DR: 提出LSSR框架,基于预训练Stable Diffusion,集成多模态辅助信息和SAR引导,实现高效遥感图像超分辨率重建,在作物边界恢复和下游分类任务中表现优异。
- Motivation: 现有扩散模型在遥感超分辨率中存在训练成本高、推理速度慢、辅助信息利用不足、缺乏下游任务评估等问题,需要开发更高效实用的方法。
- Method: 基于冻结预训练Stable Diffusion,集成交叉模态注意力机制,结合DEM、土地覆盖、月份等辅助知识及SAR引导,使用适配器和定制傅里叶NDVI损失平衡空间细节和光谱保真度。
- Result: LSSR显著改善作物边界描绘和恢复,PSNR/SSIM达32.63/0.84(RGB)和23.99/0.78(IR),NDVI MSE最低(0.042),推理高效(0.39秒/图),在HLS超分辨率中作物分类F1达0.86。
- Conclusion: LSSR框架展示了遥感超分辨率在精准农业中的潜力,通过高效利用预训练模型和多模态信息,实现了科学可信的图像重建和下游任务性能提升。
[185] VideoTG-R1: Boosting Video Temporal Grounding via Curriculum Reinforcement Learning on Reflected Boundary Annotations
Lu Dong,Haiyu Zhang,Han Lin,Ziang Yan,Xiangyu Zeng,Hongjie Zhang,Yifei Huang,Yi Wang,Zhen-Hua Ling,Limin Wang,Yali Wang
Main category: cs.CV
TL;DR: VideoTG-R1是一个新颖的课程强化学习框架,通过边界反射代理和难度估计代理解决视频时序定位中的部分标注样本和难定位样本问题,在仅使用10%训练数据和21%计算预算的情况下超越了全数据对应方法。
- Motivation: 解决多模态大语言模型在视频时序定位中面临的两个关键挑战:(1)部分标注样本带来的模糊监督问题;(2)难定位样本在强化学习训练中产生低且不可区分的奖励,阻碍学习效率。
- Method: 提出边界反射代理来预测标注区间外的相关时间戳以过滤部分标注样本,以及难度估计代理来评估样本训练难度,并设计课程强化学习策略动态屏蔽难定位样本的视频内容。
- Result: 在VTG和基于视频的问答任务上验证了方法的有效性,仅使用10%训练样本和21%计算预算就超越了全数据对应方法,在GRPO和SFT下均表现优异。
- Conclusion: VideoTG-R1通过反射边界标注和课程强化学习框架,有效解决了视频时序定位中的数据效率和训练难度问题,为数据高效的视频理解训练提供了新思路。
[186] Color and Frequency Correction for Image Colorization
Yun Kai Zhuang
Main category: cs.CV
TL;DR: 对DDColor图像着色模型进行重新优化,解决其在某些频段的局限性以及输入维度不足导致的色偏问题,通过两种优化方案组合提升了PSNR和SSIM指标性能。
- Motivation: 现有DDColor模型存在频段局限性和输入维度不足导致的色偏问题,需要进行优化改进。
- Method: 构建了两种优化方案并将它们组合使用,针对DDColor模型的频段局限性和输入维度不足问题进行改进。
- Result: 优化后的模型在PSNR和SSIM等图像质量指标上获得了性能提升。
- Conclusion: 通过组合优化方案成功解决了DDColor模型的频段局限性和色偏问题,提升了图像着色质量。
[187] Symmetria: A Synthetic Dataset for Learning in Point Clouds
Ivan Sipiran,Gustavo Santelices,Lucas Oyarzún,Andrea Ranieri,Chiara Romanengo,Silvia Biasotti,Bianca Falcidieno
Main category: cs.CV
TL;DR: Symmetria是一个基于公式生成的点云数据集,通过对称性概念创建具有已知结构和高变异性的形状,解决了点云学习领域数据稀缺的问题。该数据集支持任意规模生成,提供精确标注,在自监督预训练、下游任务和少样本学习方面表现优异。
- Motivation: 点云学习技术因缺乏大规模数据集而受限,需要克服数据稀缺问题来促进点云领域的研究发展。
- Method: 利用对称性概念,通过公式驱动的方式生成具有已知结构和高度变异性的形状,构建可任意扩展的点云数据集。
- Result: 该数据集在点云自监督预训练中表现优异,在分类和分割等下游任务中取得强性能,并展现出良好的少样本学习能力,还能支持对真实世界物体的分类微调。
- Conclusion: Symmetria数据集通过公式驱动生成解决了点云数据稀缺问题,提供了公开可用的数据集和代码,能够生成大规模集合,促进了点云学习的进一步研究和创新。
[188] Towards Generalisable Foundation Models for 3D Brain MRI
Moona Mazher,Geoff J. M. Parker,Daniel C. Alexander
Main category: cs.CV
TL;DR: BrainFound是一个基于DINO-v2的自监督基础模型,专门用于脑部MRI分析,通过整合3D体积信息支持多模态输入,在标签稀缺和多对比度场景下优于现有方法。
- Motivation: AI基础模型正在改变医学影像分析,但现有方法主要针对2D自然图像,缺乏对3D脑部解剖结构的专门建模能力。
- Method: 扩展DINO-v2视觉变换器,通过整合连续MRI切片的体积信息来建模完整3D脑部解剖结构,支持单模态和多模态输入。
- Result: BrainFound在疾病检测和图像分割等下游任务中持续优于现有自监督预训练策略和监督基线,特别是在标签稀缺和多对比度设置下。
- Conclusion: BrainFound通过整合多样3D MRI模态信息,提高了诊断准确性,减少了对专家标注的依赖,为3D神经影像管道提供了可扩展的实用解决方案。
[189] Quality-controlled registration of urban MLS point clouds reducing drift effects by adaptive fragmentation
Marco Antonio Ortiz Rincon,Yihui Yang,Christoph Holst
Main category: cs.CV
TL;DR: 提出了一种用于城市街道场景中大规模移动激光扫描点云配准的高效工作流,包含SSC预处理和PV-GICP精细配准方法,在慕尼黑数据集上实现亚厘米级精度和50%以上的计算时间减少。
- Motivation: 解决城市环境中点云密度、噪声特征和遮挡场景变化带来的配准挑战,提升移动激光扫描数据在城市建模中的实用性。
- Method: 1. SSC预处理:通过识别相互正交的平面表面来优化分割MLS轨迹数据;2. PV-GICP精细配准:在体素分区中选择性利用平面表面进行配准。
- Result: 在慕尼黑内城真实数据集上实现亚0.01米平均配准精度,计算时间相比传统点对面ICP方法减少50%以上。
- Conclusion: 该方法能够推进自动化3D城市建模和更新,在城市规划、基础设施管理和动态城市监测中具有直接应用价值。
[190] MiCADangelo: Fine-Grained Reconstruction of Constrained CAD Models from 3D Scans
Ahmet Serdar Karadeniz,Dimitrios Mallis,Danila Rukhovich,Kseniya Cherenkova,Anis Kacem,Djamila Aouada
Main category: cs.CV
TL;DR: 提出了一种基于多平面截面的CAD逆向工程新方法,能够重建详细且可编辑的CAD模型,并首次在重建过程中直接融入草图约束。
- Motivation: 现有深度学习方法的局限性:自下而上的几何驱动方法无法产生完全参数化输出,自上而下的策略忽略了细粒度几何细节,且都忽视了CAD建模中的草图级约束这一关键方面。
- Method: 受人类设计师手动执行任务的启发,利用多平面截面提取2D模式,更有效地捕捉精细参数细节,将草图约束直接融入重建过程。
- Result: 能够重建详细且可编辑的CAD模型,在性能上超越了现有最先进方法。
- Conclusion: 该方法首次实现了在CAD逆向工程中直接整合草图约束,为CAD模型重建提供了更有效和实用的解决方案。
[191] CURVETE: Curriculum Learning and Progressive Self-supervised Training for Medical Image Classification
Asmaa Abbas,Mohamed Gaber,Mohammed M. Abdelsamea
Main category: cs.CV
TL;DR: CURVETE是一种新颖的深度学习模型,通过课程学习和渐进式自监督训练解决医学图像分析中样本有限和类别分布不均衡的问题,在多个医学图像数据集上取得了优异的分类性能。
- Motivation: 医学图像分析面临高质量标注样本稀缺和类别分布不均衡的挑战,传统迁移学习在类别分布不规则时效果下降。
- Method: 提出CURVETE模型,采用基于样本分解粒度的课程学习策略训练无标签通用样本,并在下游任务中结合类别分解方法处理不均衡分布。
- Result: 在脑肿瘤数据集上准确率达96.60%,数字膝关节X光数据集75.60%,Mini-DDSM数据集93.35%(使用ResNet-50);使用DenseNet-121分别达到95.77%、80.36%和93.22%,均优于其他训练策略。
- Conclusion: CURVETE模型通过课程学习和自监督训练有效提升了医学图像分类性能,特别是在样本有限和类别不均衡的情况下表现优异。
[192] FRBNet: Revisiting Low-Light Vision through Frequency-Domain Radial Basis Network
Fangtong Sun,Congyu Li,Ke Yang,Yuchen Pan,Hanwen Yu,Xichuan Zhang,Yiying Li
Main category: cs.CV
TL;DR: 提出FRBNet,一种基于频域通道比的可学习滤波器模块,用于提取光照不变特征,提升低光条件下下游任务的性能。
- Motivation: 现有方法对低光条件建模不完整,导致下游任务性能受限,需要更好的光照不变特征提取方法。
- Method: 扩展经典Lambertian模型,在频域分析并提出频域通道比概念,构建可学习的频域径向基网络(FRBNet)模块。
- Result: 在多个下游任务中取得显著提升,包括暗目标检测mAP提升2.2,夜间分割mIoU提升2.9。
- Conclusion: FRBNet作为即插即用模块,能有效增强光照不变特征,显著改善低光视觉任务的性能。
[193] Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning
Shijian Wang,Jiarui Jin,Xingjian Wang,Linxin Song,Runhao Fu,Hecheng Wang,Zongyuan Ge,Yuan Lu,Xuelian Cheng
Main category: cs.CV
TL;DR: Video-Thinker是一个让多模态大语言模型能够自主使用其内在的"定位"和"字幕生成"能力进行视频推理的新方法,通过构建专用数据集和训练策略,在多个视频推理基准测试中取得了最先进的性能。
- Motivation: 现有的"图像思维"方法在多模态大语言模型中取得了显著成功,但这种动态推理范式尚未扩展到视频推理任务。需要开发一种能够让模型自主利用内在能力进行视频推理的方法。
- Method: 构建Video-Thinker-10K数据集,包含自主工具使用的思维链推理序列。采用监督微调学习推理格式,然后使用组相对策略优化强化推理能力,使模型能够自主执行定位和字幕生成任务。
- Result: Video-Thinker在领域内任务和具有挑战性的领域外视频推理基准测试(包括Video-Holmes、CG-Bench-Reasoning和VRBench)上都取得了显著性能提升。Video-Thinker-7B大幅超越现有基线模型,在7B规模的多模态大语言模型中建立了最先进的性能。
- Conclusion: Video-Thinker成功地将动态推理范式扩展到视频领域,使多模态大语言模型能够自主利用内在能力进行视频推理,无需构建和调用外部工具,在多个基准测试中表现出色。
[194] UrbanIng-V2X: A Large-Scale Multi-Vehicle, Multi-Infrastructure Dataset Across Multiple Intersections for Cooperative Perception
Karthikeyan Chandra Sekaran,Markus Geisler,Dominik Rößle,Adithya Mohan,Daniel Cremers,Wolfgang Utschick,Michael Botsch,Werner Huber,Torsten Schön
Main category: cs.CV
TL;DR: UrbanIng-V2X是首个大规模多模态数据集,支持车辆与基础设施传感器在三个城市交叉路口的协同感知,包含34个时间对齐和空间校准的传感器序列,提供丰富的3D标注数据。
- Motivation: 现有协同感知数据集通常局限于单一交叉路口或单一车辆,缺乏多车辆和多基础设施传感器在多个交叉路口的数据,限制了算法在不同交通环境中的基准测试,容易导致过拟合和误导性性能表现。
- Method: 在德国英戈尔施塔特的三个城市交叉路口部署了车辆和基础设施传感器,收集了34个时间对齐和空间校准的传感器序列,每个序列持续20秒,包含2辆车辆和最多3个基础设施传感器杆的数据。
- Result: 数据集包含12个车载RGB相机、2个车载LiDAR、17个基础设施热成像相机和12个基础设施LiDAR的数据,所有序列以10Hz频率标注了13个对象类别的3D边界框,总计约712k个标注实例。
- Conclusion: UrbanIng-V2X填补了多车辆、多基础设施传感器在多个交叉路口协同感知数据集的空白,为算法在不同交通环境中的基准测试提供了全面支持,并公开了代码库、数据集、高清地图和数据采集环境的数字孪生。
[195] MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding
Xin Jin,Siyuan Li,Siyong Jian,Kai Yu,Huan Wang
Main category: cs.CV
TL;DR: MergeMix是一种训练时增强范式,通过注意力感知的图像混合和偏好驱动训练,在监督微调和强化学习之间架起桥梁,提升多模态大语言模型的视觉语言对齐效果。
- Motivation: 现有方法中,监督微调需要大量人工标注且无法捕捉细微偏好,强化学习则存在开销大和不稳定的问题,需要在可扩展性、鲁棒性和对齐质量之间权衡。
- Method: 首先通过token合并进行注意力感知的图像混合,保留更多聚类表示和空间上下文;然后构建混合图像与原始图像的偏好对,使用SimPO损失进行优化。
- Result: MergeMix在分类任务中超越了其他基于启发式的方法,实现了具有竞争力的准确率和改进的效率。
- Conclusion: MergeMix为分类和多模态大语言模型中的偏好对齐提供了一种可扩展的方法,增强了注意力一致性和效率。
[196] On the Faithfulness of Visual Thinking: Measurement and Enhancement
Zujing Liu,Junwen Pan,Qi She,Yuan Gao,Guisong Xia
Main category: cs.CV
TL;DR: 该论文发现大型视觉语言模型生成的视觉-文本多模态思维链存在忠实性问题,视觉信息往往不准确但模型仍能得出正确答案。作者提出了一种新的学习策略SCCM来提升视觉信息的可靠性和充分性。
- Motivation: 现有大型视觉语言模型在强化微调后生成的视觉-文本多模态思维链中,视觉信息往往不准确但模型仍能得出正确答案,表明推理过程缺乏忠实性。这源于强化学习奖励只激励视觉-文本交替的格式,而不考虑视觉信息的正确性。
- Method: 首先通过干预实验验证视觉信息被忽略的问题,然后提出自动化评估指标来衡量视觉线索的可靠性和充分性。为解决该问题,提出SCCM学习策略,鼓励生成充分且最小的视觉组件,这些组件能独立导向正确答案。
- Result: 实验结果表明,当前多模态思维链中的视觉信息既不可靠也不充分。SCCM方法在多个细粒度感知和推理基准测试中一致地提高了视觉忠实性。
- Conclusion: SCCM是一种无需标注、即插即用的方法,能有效提升多模态思维链的视觉忠实性,解决了现有强化微调方法中视觉信息被忽视的问题。
[197] Yesnt: Are Diffusion Relighting Models Ready for Capture Stage Compositing? A Hybrid Alternative to Bridge the Gap
Elisabeth Jüttner,Leona Krath,Stefan Korfhage,Hannah Dröge,Matthias B. Hullin,Markus Plack
Main category: cs.CV
TL;DR: 提出了一种结合扩散先验与物理渲染的混合重光照框架,通过时间正则化和光学流引导实现稳定的体积视频重光照效果
- Motivation: 当前基于扩散的固有分解方法在单帧上表现良好,但在扩展到序列时存在随机噪声和不稳定性问题,而视频扩散模型受限于内存和规模
- Method: 结合扩散先验与物理渲染的混合框架,使用光学流引导的时间正则化聚合多帧材料属性,并从高斯不透明度场提取网格代理进行物理渲染
- Result: 在真实和合成捕获数据上的实验表明,该方法比纯扩散基线在序列重光照稳定性上有显著提升,且能扩展到视频扩散不可行的片段长度
- Conclusion: 混合方法平衡学习先验与物理约束,是实现生产级体积视频重光照的实用步骤
[198] VOLD: Reasoning Transfer from LLMs to Vision-Language Models via On-Policy Distillation
Walid Bousselham,Hilde Kuehne,Cordelia Schmid
Main category: cs.CV
TL;DR: VOLD是一个将文本推理能力从纯文本教师模型转移到视觉语言学生模型的框架,通过强化学习和在线蒸馏相结合,显著提升了视觉语言模型的推理能力。
- Motivation: 视觉语言模型在复杂推理任务上面临高质量图像-文本推理数据稀缺的问题,而文本推理资源丰富且可扩展,但如何利用这些文本资源来增强视觉语言模型的推理能力仍是一个开放性问题。
- Method: VOLD结合了基于Group Relative Policy Optimization (GRPO)的强化学习和在线蒸馏,通过教师模型指导学生模型的推理轨迹,并强调冷启动对齐对于有效转移的重要性。
- Result: 在MMMU-Pro、MathVision、MathVista和LogicVista等多个基准测试中,VOLD显著优于基线模型,并在现有技术水平上取得了提升。
- Conclusion: 通过纯文本教师模型进行在线蒸馏时,基于SFT的冷启动对齐对于提供有意义的指导至关重要,没有足够的分布对齐会导致在线蒸馏失败。
[199] iPac: Incorporating Intra-image Patch Context into Graph Neural Networks for Medical Image Classification
Usama Zidan,Mohamed Gaber,Mohammed M. Abdelsamea
Main category: cs.CV
TL;DR: iPac提出了一种新的图像图表示方法,通过整合补丁分割、特征提取、聚类、图构建和图学习等阶段,提升图神经网络在医学图像分类中的性能。
- Motivation: 现有图神经网络在图像分类中未能充分考虑视觉实体之间的底层结构和关系,限制了其性能表现。
- Method: iPac整合了补丁分割、特征提取、聚类、图构建和图学习等多个阶段,通过捕捉相关特征并组织成簇来构建有意义的图表示。
- Result: 在多种医学图像数据集上的实验表明,iPac相比基线方法平均准确率提升高达5%。
- Conclusion: iPac通过利用图表示并考虑视觉实体间的固有结构和关系,为图像分类特别是医学图像分类提供了通用解决方案。
[200] FreeFuse: Multi-Subject LoRA Fusion via Auto Masking at Test Time
Yaoli Liu,Yao-Xiang Ding,Kun Zhou
Main category: cs.CV
TL;DR: FreeFuse提出了一种无需训练的多主体文本到图像生成方法,通过自动融合多个主体LoRA,利用交叉注意力层权重动态生成主体掩码,实现高质量的多主体生成。
- Motivation: 现有方法要么专注于预推理阶段的LoRA权重合并,要么依赖分割模型和复杂技术来隔离LoRA输出,这些方法存在效率低、实用性差的问题。
- Method: 通过分析交叉注意力层权重自动生成上下文感知的动态主体掩码,在推理过程中将这些掩码直接应用于LoRA输出,无需额外训练或修改LoRA。
- Result: 实验验证FreeFuse在多主体生成任务中,在生成质量和可用性方面均优于现有方法。
- Conclusion: FreeFuse提供了一种实用高效的多主体生成解决方案,无需额外训练、无需修改LoRA、无需辅助模型,仅需提供LoRA激活词即可集成到标准工作流程中。
[201] DPGLA: Bridging the Gap between Synthetic and Real Data for Unsupervised Domain Adaptation in 3D LiDAR Semantic Segmentation
Wanmeng Li,Simone Mosco,Daniel Fusaro,Alberto Pretto
Main category: cs.CV
TL;DR: 提出动态伪标签过滤方案和先验引导数据增强管道,提升点云语义分割中无标签数据的利用效率,在合成到真实点云语义分割任务中取得优越性能。
- Motivation: 真实LiDAR点云标注成本高,现有无监督域自适应方法未能有效利用无标签数据,依赖预定义或固定置信度阈值导致性能欠佳。
- Method: 动态伪标签过滤(DPLF)方案增强真实数据利用,先验引导数据增强管道(PG-DAP)缓解域偏移,使用数据混合一致性损失学习上下文无关表示。
- Result: 在两个具有挑战性的合成到真实点云语义分割任务中,方法优于现有最先进方法,消融研究验证了DPLF和PG-DAP模块的有效性。
- Conclusion: 提出的动态伪标签过滤和先验引导数据增强方法能有效提升点云语义分割中无标签数据的利用效率,在域自适应任务中表现优越。
[202] EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT
Baoqi Pei,Yifei Huang,Jilan Xu,Yuping He,Guo Chen,Fei Wu,Yu Qiao,Jiangmiao Pang
Main category: cs.CV
TL;DR: EgoThinker是一个赋予多模态大语言模型(MLLMs)自我中心推理能力的新框架,通过时空思维链监督和两阶段学习课程,在多个自我中心基准测试中表现优异。
- Motivation: 当前MLLMs擅长可见事件推理,但缺乏具身的第一人称理解能力,无法有效推断隐藏意图和识别细粒度交互,这限制了在自我中心视频推理中的应用。
- Method: 1)构建大规模自我中心问答数据集EgoRe-5M;2)采用监督微调(SFT)培养推理技能;3)通过强化微调(RFT)增强时空定位能力。
- Result: EgoThinker在多个自我中心基准测试中超越现有方法,在细粒度时空定位任务上取得显著改进。
- Conclusion: EgoThinker成功赋予MLLMs强大的自我中心推理能力,通过两阶段学习框架有效解决了自我中心视频推理的核心挑战。
[203] More Than Generation: Unifying Generation and Depth Estimation via Text-to-Image Diffusion Models
Hongkai Lin,Dingkang Liang,Mingyang Du,Xin Zhou,Xiang Bai
Main category: cs.CV
TL;DR: MERGE是一个统一模型,能够在保持预训练文本到图像模型生成能力的同时,实现零样本深度估计,通过可插拔转换器在两个模式间无缝切换。
- Motivation: 现有生成式深度估计方法在训练时会导致预训练模型的图像生成能力严重退化,需要开发既能保持生成能力又能扩展深度估计功能的统一模型。
- Method: 提出MERGE框架,使用可插拔转换器实现图像生成和深度估计模式切换,采用组重用机制提高参数利用率,基于固定预训练文本到图像模型构建。
- Result: MERGE在多个深度估计基准测试中达到最先进性能,同时完全保留了原始模型的图像生成能力。
- Conclusion: 预训练文本到图像模型不仅能生成图像,还能轻松扩展到深度估计任务,MERGE成功释放了这种潜力而不损害原有功能。
[204] Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation
Junyoung Seo,Rodrigo Mira,Alexandros Haliassos,Stella Bounareli,Honglie Chen,Linh Tran,Seungryong Kim,Zoe Landgraf,Jie Shen
Main category: cs.CV
TL;DR: 提出Lookahead Anchoring方法,利用未来时间步的关键帧作为方向性锚点,解决音频驱动人体动画中身份漂移问题,无需额外关键帧生成阶段。
- Motivation: 音频驱动人体动画模型在时间自回归生成过程中容易出现身份漂移问题,现有使用关键帧作为时间锚点的方法需要额外生成阶段且限制自然运动动态。
- Method: 使用未来时间步的关键帧作为前瞻锚点,模型在响应即时音频线索的同时持续追求这些未来锚点,实现自我关键帧化,参考图像直接作为前瞻目标。
- Result: 在三个人体动画模型上应用,实现了更好的唇部同步、身份保持和视觉质量,时间前瞻距离自然控制表达性与一致性的平衡。
- Conclusion: Lookahead Anchoring方法通过前瞻锚点机制有效解决了身份漂移问题,在不同架构上均表现出改进的时间条件处理能力。
[205] FARMER: Flow AutoRegressive Transformer over Pixels
Guangting Zheng,Qinyu Zhao,Tao Yang,Fei Xiao,Zhijie Lin,Jie Wu,Jiajun Deng,Yanyong Zhang,Rui Zhu
Main category: cs.CV
TL;DR: FARMER是一个统一归一化流和自回归模型的生成框架,用于直接从原始像素进行可处理的似然估计和高质量图像合成
- Motivation: 直接建模原始数据的显式似然是机器学习的关键主题,但在视觉像素数据上的连续自回归建模面临序列过长和高维空间的挑战
- Method: 使用可逆自回归流将图像转换为潜在序列,通过自监督维度减少方案将NF潜在通道划分为信息性和冗余组,并设计一步蒸馏方案加速推理
- Result: 实验表明FARMER在像素基生成模型中实现了竞争性性能,同时提供精确似然和可扩展训练
- Conclusion: FARMER成功统一了NF和AR模型,在图像生成质量和似然估计方面都表现出色
[206] InFlux: A Benchmark for Self-Calibration of Dynamic Intrinsics of Video Cameras
Erich Liang,Roma Bhattacharjee,Sreemanti Dey,Rafael Moschopoulos,Caitlin Wang,Michel Liao,Grace Tan,Andrew Wang,Karhan Kayan,Stamatis Alexandropoulos,Jia Deng
Main category: cs.CV
TL;DR: 提出了InFlux基准数据集,为具有动态相机内参的视频提供逐帧真实内参标注,包含143K+标注帧和386个高分辨率视频,解决了现有基准缺乏动态内参变化的问题。
- Motivation: 现有3D算法通常假设相机内参在视频中保持不变,但实际视频中内参经常变化。缺乏动态相机内参基准是主要障碍,现有基准在场景多样性和内参变化方面有限,且不提供逐帧内参变化。
- Method: 构建了全面的校准实验查找表,扩展Kalibr工具箱以提高准确性和鲁棒性,创建了包含室内外视频的基准数据集。
- Result: 创建了InFlux基准,包含143K+标注帧和386个高分辨率视频,涵盖更广泛的内参变化和场景多样性。评估发现现有内参预测方法在动态内参视频上表现不佳。
- Conclusion: InFlux基准填补了动态相机内参评估的空白,为开发更鲁棒的内参预测方法提供了重要资源。
[207] PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection
Yusu Qian,Cheng Wan,Chao Jia,Yinfei Yang,Qingyu Zhao,Zhe Gan
Main category: cs.CV
TL;DR: PRISM-Bench是一个基于谜题的视觉挑战基准,通过要求模型识别推理链中的第一个错误步骤来评估多模态大语言模型的逻辑一致性和推理能力。
- Motivation: 现有评估主要关注最终答案准确性,但无法评估模型推理过程的逻辑一致性。需要一种诊断性评估方法来区分流畅生成和忠实推理。
- Method: 设计包含多步骤符号、几何和类比推理的视觉谜题,要求模型在给定包含一个错误的逐步推理链中识别第一个错误步骤。
- Result: 评估显示最先进的多模态大语言模型在流畅生成和忠实推理之间存在持续差距,模型能产生看似合理的推理链但无法定位简单逻辑错误。
- Conclusion: PRISM-Bench通过分离答案生成和推理验证,为多模态推理能力提供了更精确的评估视角,强调在开发可信赖多模态大语言模型时需要诊断性评估协议。
[208] PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity
Yuqian Yuan,Wenqiao Zhang,Xin Li,Shihao Wang,Kehan Li,Wentong Li,Jun Xiao,Lei Zhang,Beng Chin Ooi
Main category: cs.CV
TL;DR: PixelRefer是一个统一的区域级多模态大语言模型框架,支持对图像和视频中用户指定区域进行细粒度理解,并提出了高效的轻量级变体PixelRefer-Lite。
- Motivation: 现有MLLM主要关注整体场景理解,忽略了细粒度的以对象为中心的推理需求。
- Method: 提出尺度自适应对象标记器(SAOT)生成紧凑的语义丰富对象表示,并设计Object-Centric Infusion模块将全局上下文预融合到对象标记中,构建轻量级Object-Only框架。
- Result: 在多个基准测试中,PixelRefer以较少训练样本实现领先性能,PixelRefer-Lite在保持竞争力的同时显著提升效率。
- Conclusion: PixelRefer框架在细粒度视觉理解方面表现出色,其轻量级变体在效率和准确性之间取得了良好平衡。
[209] Track, Inpaint, Resplat: Subject-driven 3D and 4D Generation with Progressive Texture Infilling
Shuhong Zheng,Ashkan Mirzaei,Igor Gilitschenski
Main category: cs.CV
TL;DR: TIRE是一种用于主题驱动的3D/4D生成的新方法,通过跟踪、修复和重投影三个步骤,显著提高了生成内容中主题身份特征的保持能力。
- Motivation: 当前3D/4D生成方法虽然注重真实感、效率等,但往往无法在不同视角下保持主题的语义身份特征。主题驱动的3D/4D生成研究仍相对不足。
- Method: TIRE方法:1) 使用现有3D生成模型生成初始3D资产;2) 通过视频跟踪识别需要修改的区域;3) 采用主题驱动的2D修复模型逐步填充识别区域;4) 将修改后的2D多视角观测重投影回3D并保持一致性。
- Result: 大量实验表明,与最先进方法相比,TIRE方法在3D/4D生成中的身份特征保持方面有显著提升。
- Conclusion: TIRE通过结合跟踪、修复和重投影技术,有效解决了主题驱动3D/4D生成中的身份保持问题,为这一领域提供了新的解决方案。
[210] Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations
Yujia Zhang,Xiaoyang Wu,Yixing Lao,Chengyao Wang,Zhuotao Tian,Naiyan Wang,Hengshuang Zhao
Main category: cs.CV
TL;DR: Concerto是一个模拟人类概念学习的简约框架,通过3D模态内自蒸馏和2D-3D跨模态联合嵌入,学习更一致和信息丰富的空间特征。
- Motivation: 受人类通过多感官协同学习抽象概念的启发,一旦形成,这些表征通常可以从单一模态中回忆。
- Method: 结合3D模态内自蒸馏与2D-3D跨模态联合嵌入,并提出了针对视频提升点云空间理解的变体和将表征线性投影到CLIP语言空间的翻译器。
- Result: 在零样本可视化中展示更一致和信息丰富的空间特征;在线性探测3D场景感知中,分别优于独立SOTA 2D和3D自监督模型14.2%和4.8%;在ScanNet上达到80.7% mIoU的新SOTA结果。
- Conclusion: Concerto产生了具有优越细粒度几何和语义一致性的空间表征,支持开放世界感知。
eess.AS
[211] Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMS
Anand,Umberto Cappellazzo,Stavros Petridis,Maja Pantic
Main category: eess.AS
TL;DR: 本文首次在多模态语音识别中研究注意力汇聚和大量激活现象,发现不仅在BOS标记处,还在中间低语义标记中存在这些现象,并提出一种简单的去相关损失来缓解这些问题。
- Motivation: 理解多模态语音识别中LLM在微调下的内部动态,特别是注意力汇聚和大量激活现象。
- Method: 通过详细分析音频-视觉LLM,识别注意力汇聚和大量激活现象,并引入去相关损失来减少BOS与其他标记之间的余弦相似度。
- Result: 方法有效缓解了中间汇聚和大量激活,在高音频-视觉特征下采样时改善了词错误率,在较低下采样率下保持稳定。
- Conclusion: 去相关损失是缓解多模态语音识别中注意力汇聚和大量激活现象的有效方法,同时提升了模型性能。
cs.MA
[212] Hollywood Town: Long-Video Generation via Cross-Modal Multi-Agent Orchestration
Zheng Wei,Mingchen Li,Zeqian Zhang,Ruibin Yuan,Pan Hui,Huamin Qu,James Evans,Maneesh Agrawala,Anyi Rao
Main category: cs.MA
TL;DR: 提出了OmniAgent框架,通过层次化图结构、超图节点和有限重试的有向循环图来改进多智能体协作,用于长视频生成任务。
- Motivation: 多智能体系统在创意任务中展现出潜力,但现有方法在协作效率和上下文管理方面存在不足,需要改进以支持长视频生成等复杂任务。
- Method: 1. 提出基于电影制作架构的层次化图结构多智能体框架;2. 引入超图节点支持临时群组讨论;3. 采用有限重试的有向循环图实现迭代优化。
- Result: 该方法为多智能体系统提供了更鲁棒的协作机制,能够有效管理上下文信息并支持迭代优化。
- Conclusion: 这些创新为创意任务中开发更强大的多智能体系统奠定了基础,特别是在长视频生成等复杂场景中。
cs.AI
[213] DynaSolidGeo: A Dynamic Benchmark for Genuine Spatial Mathematical Reasoning of VLMs in Solid Geometry
Changti Wu,Shijie Lian,Zihao Liu,Lei Zhang,Laurence Tianruo Yang,Kai Chen
Main category: cs.AI
TL;DR: DynaSolidGeo是首个用于评估视觉语言模型真实空间推理能力的动态基准,专注于立体几何问题,通过半自动标注流程构建,包含503个专家策划的种子问题,可动态生成无限多样的多模态实例。
- Motivation: 现有数学推理基准主要关注2D平面几何,依赖静态数据集容易导致数据污染和记忆,且仅评估最终答案而忽略推理过程。
- Method: 采用半自动标注流程构建动态基准,包含503个专家策划的种子问题,可动态生成多样化多模态实例,并引入基于专家标注推理链的过程评估。
- Result: 实验显示代表性开源和闭源VLMs存在巨大性能差距,在动态设置下性能严重下降,在需要高水平空间智能的任务上表现不佳。
- Conclusion: DynaSolidGeo填补了立体几何推理评估的空白,揭示了当前VLMs在空间推理方面的局限性,为未来研究提供了重要基准。
[214] Atlas Urban Index: A VLM-Based Approach for Spatially and Temporally Calibrated Urban Development Monitoring
Mithul Chander,Sai Pragnya Ranga,Prathamesh Mayekar
Main category: cs.AI
TL;DR: 提出Atlas Urban Index (AUI)指标,利用视觉语言模型和Sentinel-2卫星影像来更准确地测量城市发展,克服传统NDBI等指标在大气噪声、季节变化和云层覆盖方面的局限性。
- Motivation: 现有方法如NDBI在准确捕捉城市发展方面存在困难,主要受大气噪声、季节变化和云层覆盖等因素影响,这阻碍了大规模人类发展和城市化的监测。
- Method: 收集每个区域的Sentinel-2影像时间序列,在固定时间窗口内处理图像以获得最小云层覆盖的代表性图像。采用两种策略确保评分一致性:(i)提供代表不同城市化水平的参考图像集,(ii)提供最近的历史图像以保持时间一致性并减轻当前图像中的云相关噪声。
- Result: 在班加罗尔的定性实验表明,AUI优于NDBI等标准指标。
- Conclusion: AUI能够克服传统城市化指数的挑战,产生更可靠和稳定的发展评分。
[215] Exploring Semantic-constrained Adversarial Example with Instruction Uncertainty Reduction
Jin Hu,Jiakai Wang,Linna Jing,Haolin Li,Haodong Liu,Haotong Qin,Aishan Liu,Ke Xu,Xianglong Liu
Main category: cs.AI
TL;DR: 本文提出了一个多维度指令不确定性减少框架(InSUR),通过解决语义不确定性中的引用多样性、描述不完整性和边界模糊性,生成更令人满意的语义约束对抗样本。
- Motivation: 当前生成语义约束对抗样本的方法在攻击能力上存在不足,主要原因是人类指令中的语义不确定性因素(如引用多样性、描述不完整性和边界模糊性)未被充分研究。
- Method: 提出InSUR框架,包含三个维度:1)采样方法维度:通过残差驱动的攻击方向稳定化缓解语言引用多样性导致的不稳定对抗优化;2)任务建模维度:通过上下文编码的攻击场景约束补充不完整指令的缺失知识;3)生成器评估维度:通过语义抽象的攻击评估增强明确评估边界。
- Result: 大量实验证明InSUR在转移攻击性能上具有优越性,并首次实现了语义约束3D对抗样本的无参考生成。
- Conclusion: InSUR框架通过多维度减少指令不确定性,能够生成更令人满意的语义约束对抗样本,在转移攻击性能上表现优异,并扩展了3D对抗样本的生成能力。
[216] JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence
Qiushi Sun,Jingyang Gong,Yang Liu,Qiaosheng Chen,Lei Li,Kai Chen,Qipeng Guo,Ben Kao,Fei Yuan
Main category: cs.AI
TL;DR: 提出了JanusCode-800K,这是迄今为止最大的多模态代码语料库,并基于此训练了JanusCoder系列模型,在文本和视觉编码任务上表现出色。
- Motivation: 神经代码智能的范围正在从基于文本的源代码扩展到程序生成的丰富视觉输出,但高质量多模态代码数据的稀缺阻碍了进展。
- Method: 开发了一个完整的合成工具包,利用数据模态之间的协同作用,构建了包含标准图表、交互式Web UI和代码驱动动画的大规模语料库JanusCode-800K,并训练了JanusCoder和JanusCoderV模型。
- Result: JanusCoder系列在文本和视觉编码任务上表现出卓越性能,7B到14B规模的模型接近甚至超过商业模型的性能。
- Conclusion: 该研究为协调程序逻辑与其视觉表达提供了关键见解,建立的视觉-程序接口能够从文本指令、视觉输入或两者组合生成代码。
cs.CL
[217] SentiMaithili: A Benchmark Dataset for Sentiment and Reason Generation for the Low-Resource Maithili Language
Rahul Ranjan,Mahendra Kumar Gurve,Anuj,Nitin,Yamuna Prasad
Main category: cs.CL
TL;DR: 为低资源语言迈蒂利语创建首个可解释情感分析基准数据集,包含3,221个带自然语言解释的句子,填补了该语言在NLP研究中的空白。
- Motivation: 迈蒂利语作为拥有1300万使用者的印度-雅利安语言,在自然语言处理研究中代表性不足,缺乏高质量的情感分析资源,特别是缺乏可解释性机制。
- Method: 引入包含3,221个迈蒂利语句子的新数据集,每个句子都标注了情感极性并配有自然语言解释,数据经过语言专家精心策划和验证以确保标签可靠性和上下文保真度。
- Result: 使用经典机器学习和最先进的transformer架构进行的广泛实验证明了该数据集在可解释情感分析方面的有效性。
- Conclusion: 这项工作为迈蒂利语建立了首个可解释情感计算基准,为多语言NLP和可解释AI的广泛发展贡献了宝贵资源。
[218] VisJudge-Bench: Aesthetics and Quality Assessment of Visualizations
Yupeng Xie,Zhiyang Zhang,Yifan Wu,Sirong Lu,Jiayi Zhang,Zhaoyang Yu,Jinlin Wang,Sirui Hong,Bang Liu,Chenglin Wu,Yuyu Luo
Main category: cs.CL
TL;DR: 提出了VisJudge-Bench,首个用于评估多模态大语言模型在可视化质量评估方面能力的基准,包含3,090个专家标注样本。研究发现现有MLLMs与人类专家存在显著差距,并提出了专门的可视化美学评估模型VisJudge,显著缩小了与人类判断的差距。
- Motivation: 可视化质量评估具有挑战性,需要同时考虑数据编码准确性、信息表达性和视觉美学。虽然MLLMs在自然图像美学评估中表现出色,但缺乏系统性的可视化评估基准。
- Method: 构建VisJudge-Bench基准,包含3,090个专家标注的真实场景样本,涵盖32种图表类型。提出VisJudge模型专门用于可视化美学和质量评估。
- Result: 测试发现最先进的MLLMs(如GPT-5)与人类专家存在显著差距(MAE=0.551,相关性=0.429)。VisJudge将MAE降至0.442(减少19.8%),与人类专家一致性提升至0.681(提高58.7%)。
- Conclusion: VisJudge-Bench填补了可视化评估基准的空白,VisJudge模型显著提升了可视化质量评估的性能,为可视化美学评估提供了有效解决方案。
[219] Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences
Zhuoran Jin,Hongbang Yuan,Kejian Zhu,Jiachun Li,Pengfei Cao,Yubo Chen,Kang Liu,Jun Zhao
Main category: cs.CL
TL;DR: 提出了Omni-Reward,一个支持自由形式偏好的通用多模态奖励模型,解决了现有奖励模型中的模态不平衡和偏好刚性两大挑战。
- Motivation: 现有奖励模型主要关注文本和图像模态,对其他模态支持有限,且基于固定二元偏好对的训练无法捕捉个性化偏好的复杂性和多样性。
- Method: 构建了Omni-RewardBench基准测试、Omni-RewardData数据集,并开发了包含判别式和生成式奖励模型的Omni-RewardModel。
- Result: 在Omni-RewardBench以及其他广泛使用的奖励建模基准测试中取得了强劲性能。
- Conclusion: Omni-Reward为通用多模态奖励建模迈出了重要一步,能够支持多种模态和自由形式的偏好表达。
cs.LG
[220] A Multimodal, Multitask System for Generating E Commerce Text Listings from Images
Nayan Kumar Singh
Main category: cs.LG
TL;DR: 提出了一种端到端的多任务系统,通过多任务学习和分层生成过程,从单张图像生成事实准确的商品描述,显著减少了事实幻觉并提高了生成效率。
- Motivation: 手动生成商品描述和名称对零售商来说劳动密集且耗时,现有的视觉语言模型存在事实幻觉问题,且单任务模型无法捕捉特征间的相互依赖关系。
- Method: 采用多任务学习方法微调视觉编码器,联合训练属性预测和价格回归;引入分层生成过程,将模型预测的属性嵌入提示中传递给文本解码器以提高事实一致性。
- Result: 多任务方法在价格回归上R2值提升3.6%,属性分类F1分数提升6.6%;分层生成将事实幻觉率从12.7%降至7.1%,相对减少44.5%,生成延迟降低3.5倍。
- Conclusion: 该架构在多任务学习和分层生成方面表现出优越性,显著改善了事实准确性和效率,尽管在ROUGE-L指标上略逊于直接视觉语言模型。
[221] A supervised discriminant data representation: application to pattern classification
Fadi Dornaika,Ahmad Khoder,Abdelmalik Moujahid,Wassim Khoder
Main category: cs.LG
TL;DR: 提出了一种用于监督多类分类问题的混合线性特征提取方案,结合了RSLDA和ICS_DLSR两种线性判别方法的优势,通过稀疏促进技术选择最具代表性的特征并保持同类样本的行稀疏一致性。
- Motivation: 机器学习算法的性能通常依赖于数据表示,当前大部分努力都投入到设计能够支持有效机器学习的预处理框架和数据转换方法。
- Method: 基于RSLDA和ICS_DLSR提出统一准则,使用基于最速下降梯度法和不同初始化方案的迭代交替最小化方案来估计线性变换和正交矩阵。
- Result: 在包括人脸、物体和数字在内的多个数据集上的实验表明,该方法在大多数情况下能够优于竞争方法。
- Conclusion: 该框架具有通用性,允许组合和调整其他线性判别嵌入方法,通过稀疏促进技术有效提升了分类性能。
[222] MAGIC-Flow: Multiscale Adaptive Conditional Flows for Generation and Interpretable Classification
Luca Caldera,Giacomo Bottacini,Lara Cavinato
Main category: cs.LG
TL;DR: MAGIC-Flow是一个条件多尺度归一化流架构,在单一模块化框架中同时执行生成和分类任务,特别适用于医学成像等数据有限领域。
- Motivation: 生成建模在表示学习方面很强大,但在医学成像等挑战性领域中,仅生成而不与任务对齐无法为临床应用提供坚实基础。
- Method: 采用条件多尺度归一化流架构,构建为可逆和可微分双射的层次结构,Jacobian行列式在子变换间分解,支持精确似然计算和稳定优化。
- Result: 在多个数据集上评估显示,MAGIC-Flow能生成真实多样的样本并改进分类性能,有效处理扫描仪噪声和模态特定合成与识别。
- Conclusion: MAGIC-Flow是数据有限领域中生成和分类的有效策略,对隐私保护增强、鲁棒泛化和可信医疗AI具有直接益处。
[223] Power to the Clients: Federated Learning in a Dictatorship Setting
Mohammadsajad Alipour,Mohammad Mohammadi Amiri
Main category: cs.LG
TL;DR: 本文提出了"独裁者客户端"这一新型恶意参与者类别,能够完全消除其他客户端对服务器模型的贡献,同时保留自己的贡献,并分析了多种复杂场景下的攻击策略和影响。
- Motivation: 联邦学习的去中心化特性引入了安全漏洞,恶意客户端可能破坏或操纵训练过程。本文旨在定义和分析一类能够完全控制模型训练结果的恶意参与者。
- Method: 提出具体的攻击策略,使独裁者客户端能够消除其他客户端的贡献;分析多种复杂场景(协作、独立行动、背叛联盟);提供理论收敛分析;在计算机视觉和自然语言处理基准上进行实证评估。
- Result: 理论分析和实证评估表明,独裁者客户端能够成功消除其他客户端的贡献,同时保留自己的影响;在多种复杂场景下都能实现预期的攻击效果。
- Conclusion: 独裁者客户端构成了联邦学习中严重的安全威胁,需要开发相应的防御机制来应对这类新型攻击。
[224] Simplifying Knowledge Transfer in Pretrained Models
Siddharth Jain,Shyamgopal Karthik,Vineet Gandhi
Main category: cs.LG
TL;DR: 利用预训练模型库作为辅助改进源,提出数据分区策略让模型自主扮演学生或教师角色进行知识迁移,在多个任务中显著提升性能。
- Motivation: 预训练模型在广泛任务中表现出色,但不同模型设计选择导致泛化行为存在差异,某些模型掌握的数据特定洞察其他模型无法获得。
- Method: 提出数据分区策略,预训练模型自主承担学生(寻求知识)或教师(传授知识)角色,支持双向、跨架构和多模型间的知识迁移。
- Result: 图像分类中ViT-B性能提升约1.4%;语义分割所有评估指标均有提升;视频显著性预测达到新SOTA;多模型知识迁移使所有参与者性能显著改进。
- Conclusion: 利用模型库作为辅助知识源,通过自主角色分配的知识迁移策略能有效提升模型性能,在多个计算机视觉任务中验证了方法的有效性。
[225] Dynamic Dropout: Leveraging Conway's Game of Life for Neural Networks Regularization
David Freire-Obregón,José Salas-Cáceres,Modesto Castrillón-Santana
Main category: cs.LG
TL;DR: 提出用康威生命游戏替代传统dropout进行正则化,通过动态单元失活和空间模式演化来提升神经网络泛化能力。
- Motivation: 传统dropout存在静态性和缺乏可解释性的局限,需要更动态、自适应的正则化方法。
- Method: 将神经网络单元表示为生命游戏网格中的细胞,应用游戏规则动态失活单元,让空间模式随训练数据自适应演化。
- Result: 在CIFAR-10数据集上,该方法与传统dropout性能相当,同时能通过可视化演化模式提供网络行为洞察。
- Conclusion: 基于生命游戏的动态单元失活是有效的正则化替代方案,尤其适用于深层架构,能增强不同dropout技术的性能。
[226] LAMP: Data-Efficient Linear Affine Weight-Space Models for Parameter-Controlled 3D Shape Generation and Extrapolation
Ghadi Nehme,Yanxia Zhang,Dule Shu,Matt Klenk,Faez Ahmed
Main category: cs.LG
TL;DR: LAMP是一个数据高效的3D生成框架,通过线性仿射混合参数化形状实现可控和可解释的3D生成,在少量样本下实现插值、外推和物理性能优化。
- Motivation: 现有方法依赖大量训练数据,在可控性和泛化性方面存在局限,需要开发数据高效且可控的3D生成方法。
- Method: 首先通过共享初始化对齐SDF解码器,然后在对齐权重空间中求解参数约束的混合问题,并提出安全性指标检测几何有效性。
- Result: 在DrivAerNet++和BlendedNet基准测试中,LAMP仅需100个样本即可实现边界内插值、100%参数范围外推和物理性能优化,显著优于条件自编码器和DNI基线。
- Conclusion: LAMP推进了可控、数据高效且安全的3D生成,适用于设计探索、数据集生成和性能驱动优化。
[227] S-Chain: Structured Visual Chain-of-Thought For Medicine
Khai Le-Duc,Duy M. H. Nguyen,Phuong T. H. Trinh,Tien-Phat Nguyen,Nghiem T. Diep,An Ngo,Tung Vu,Trinh Vuong,Anh-Tien Nguyen,Mau Nguyen,Van Trung Hoang,Khai-Nguyen Nguyen,Hy Nguyen,Chris Ngo,Anji Liu,Nhat Ho,Anne-Christin Hauschild,Khanh Xuan Nguyen,Thanh Nguyen-Tang,Pengtao Xie,Daniel Sonntag,James Zou,Mathias Niepert,Anh Totti Nguyen
Main category: cs.LG
TL;DR: S-Chain是首个大规模医学视觉语言推理数据集,包含12,000张专家标注的医学图像,支持16种语言,通过结构化视觉链式思维(SV-CoT)明确将视觉区域与推理步骤关联,显著提升医学VLM的可解释性和可靠性。
- Motivation: 医学视觉语言模型需要准确的预测和透明的视觉证据对齐,但现有数据集缺乏大规模专家级的分步推理和精确视觉定位数据。
- Method: 构建S-Chain数据集,包含专家标注的边界框和结构化视觉CoT,明确链接视觉区域与推理步骤;使用该数据集对现有医学和通用VLM进行基准测试,并研究其与检索增强生成的协同作用。
- Result: SV-CoT监督显著提高了模型的可解释性、定位保真度和鲁棒性;提出了增强视觉证据与推理对齐的新机制,改善了可靠性和效率。
- Conclusion: S-Chain为基于视觉的医学推理建立了新基准,为更可信和可解释的医学VLM铺平了道路。
[228] Seeing Structural Failure Before it Happens: An Image-Based Physics-Informed Neural Network (PINN) for Spaghetti Bridge Load Prediction
Omer Jauhar Khan,Sudais Khan,Hafeez Anwar
Main category: cs.LG
TL;DR: 该论文探索使用物理信息神经网络(PINNs)预测小规模意大利面桥梁的重量,提出了一种结合物理约束的PIKAN架构,在有限数据下实现了高精度的重量预测。
- Motivation: 在结构工程中数据有限的情况下,将物理定律嵌入深度学习模型,以预测意大利面桥梁的重量,有助于理解载荷极限和潜在失效模式。
- Method: 除了标准PINNs外,引入了新颖的物理信息Kolmogorov-Arnold网络(PIKAN)架构,结合通用函数逼近理论和物理洞察力,输入参数通过手动或计算机视觉方法收集。
- Result: 在包含15个真实桥梁并扩充至100个样本的数据集上,最佳模型实现了0.9603的R²分数和10.50单位的平均绝对误差(MAE)。
- Conclusion: PINNs即使在数据有限的情况下也能提供可靠的结构重量估计,有助于轻量级桥梁设计的早期失效分析,并提供了基于Web的参数输入和预测界面。
[229] T-REGS: Minimum Spanning Tree Regularization for Self-Supervised Learning
Julie Mordacq,David Loiseaux,Vicky Kalogeiton,Steve Oudot
Main category: cs.LG
TL;DR: T-REGS是一个基于最小生成树长度的自监督学习正则化框架,能同时缓解维度坍缩并促进表示分布的均匀性。
- Motivation: 自监督学习需要避免维度坍缩和增强表示分布的均匀性,现有方法难以同时解决这两个关键问题。
- Method: 提出T-REGS框架,利用学习表示的最小生成树长度作为正则化项,在任意紧致黎曼流形上实现理论保证。
- Result: 在合成数据和经典自监督学习基准上的实验验证了该方法在提升表示质量方面的有效性。
- Conclusion: T-REGS提供了一个简单而有效的正则化方法,能够同时解决自监督学习中的维度坍缩和分布不均匀问题。
[230] A U-Net and Transformer Pipeline for Multilingual Image Translation
Siddharth Sahay,Radhika Agarwal
Main category: cs.LG
TL;DR: 提出一个端到端的多语言翻译系统,结合自定义U-Net进行文本检测、Tesseract进行文本识别,以及从头训练的Transformer进行机器翻译。
- Motivation: 构建一个完全可定制和自适应的系统,避免依赖大型预训练模型,实现直接从图像翻译文本的功能。
- Method: 使用U-Net在合成数据集上训练进行文本区域检测,Tesseract进行文本识别,从头训练的Seq2Seq Transformer在5种语言的多语言平行语料库上进行机器翻译。
- Result: 系统在文本检测精度、文本识别质量和BLEU评分评估的翻译性能方面都显示出有希望的结果。
- Conclusion: 验证了自定义构建系统直接从图像翻译文本的可行性,证明了端到端多语言翻译管道的有效性。
cs.IR
[231] Hybrid-Vector Retrieval for Visually Rich Documents: Combining Single-Vector Efficiency and Multi-Vector Accuracy
Juyeon Kim,Geon Lee,Dongwon Choi,Taeuk Kim,Kijung Shin
Main category: cs.IR
TL;DR: HEAVEN是一个用于视觉丰富文档检索的两阶段混合向量框架,通过单向量粗检索和多向量精排的结合,在保持高准确率的同时大幅降低计算成本。
- Motivation: 现有视觉丰富文档检索方法存在效率与准确率的权衡:单向量检索高效但粗糙,多向量检索准确但计算昂贵。需要一种兼顾两者的解决方案。
- Method: 提出两阶段混合向量框架:第一阶段使用单向量方法在视觉摘要页面上进行高效候选检索;第二阶段使用多向量方法重排序,并通过过滤查询词减少冗余计算。
- Result: 在四个基准测试中,HEAVEN达到了多向量模型平均Recall@1性能的99.87%,同时将每次查询的计算量减少了99.82%。
- Conclusion: HEAVEN框架成功解决了视觉丰富文档检索中效率与准确率的权衡问题,并引入了ViMDOC基准测试来评估真实场景下的检索系统。
cs.RO
[232] A Robotic Stirring Method with Trajectory Optimization and Adaptive Speed Control for Accurate Pest Counting in Water Traps
Xumin Gao,Mark Stevens,Grzegorz Cielniak
Main category: cs.RO
TL;DR: 提出了一种机器人搅拌方法,通过轨迹优化和自适应速度控制来解决水陷阱中害虫计数时的遮挡问题。
- Motivation: 现有基于图像的害虫计数方法在处理害虫遮挡情况时存在局限性,需要一种能够改善害虫分布、提高计数准确性的解决方案。
- Method: 开发了基于机械臂的自动搅拌系统,设计了六种代表性搅拌轨迹,并通过比较计数误差和置信度选择最优轨迹,最后提出基于计数置信度的闭环控制系统实现自适应速度搅拌。
- Result: 实验结果表明该方法能够有效改善害虫分布,提高计数准确性,特别是在处理遮挡情况时表现优异。
- Conclusion: 这是首个专门研究动态液体环境中不同搅拌轨迹对物体计数影响的研究,并实现了自适应速度搅拌,为精准农业中的害虫监测提供了创新解决方案。
[233] J-ORA: A Framework and Multimodal Dataset for Japanese Object Identification, Reference, Action Prediction in Robot Perception
Jesse Atuhurra,Hidetaka Kamigaito,Taro Watanabe,Koichiro Yoshino
Main category: cs.RO
TL;DR: J-ORA是一个新颖的多模态数据集,通过提供日本人机对话场景中的详细物体属性标注,填补了机器人感知领域的空白。该数据集支持物体识别、指代消解和下一动作预测三个关键任务,使用详细物体属性显著提升了多模态感知性能。
- Motivation: 解决机器人感知中缺乏详细物体属性标注的问题,特别是在日本文化背景下的人机交互场景中,为机器人提供更丰富的上下文感知能力。
- Method: 创建J-ORA数据集,包含详细的物体属性模板(类别、颜色、形状、大小、材质、空间关系等),并在专有和开源视觉语言模型上进行广泛评估。
- Result: 实验表明,加入详细物体属性显著提升了多模态感知性能,但专有模型和开源模型之间仍存在性能差距。不同模型在理解物体功能和上下文关系方面表现出不同能力。
- Conclusion: 丰富且上下文敏感的属性标注对于提升动态环境中机器人感知能力至关重要,J-ORA数据集为这一领域的发展提供了重要资源。
[234] LT-Exosense: A Vision-centric Multi-session Mapping System for Lifelong Safe Navigation of Exoskeletons
Jianeng Wang,Matias Mattamala,Christina Kassab,Nived Chebrolu,Guillaume Burger,Fabio Elnecave,Marine Petriaux,Maurice Fallon
Main category: cs.RO
TL;DR: LT-Exosense是一个面向外骨骼用户的视觉中心多会话建图系统,支持长期(半)自主导航,通过跨会话融合空间知识、检测环境变化和更新持久全局地图来实现智能路径规划。
- Motivation: 为下肢残疾人士提供可靠长期运行的自平衡外骨骼需要能在变化环境中有效工作的感知系统。
- Method: 扩展单会话建图能力,通过增量融合多个会话的空间知识、检测环境变化并更新持久全局地图。
- Result: 在真实世界实验中验证了可扩展的多会话地图,与地面真实激光扫描相比平均点对点误差低于5厘米,展示了在动态变化室内环境中自适应路径规划的应用潜力。
- Conclusion: LT-Exosense系统能够支持外骨骼用户的长期自主导航,通过持续更新地图和智能路径规划适应环境变化。
[235] BLIP-FusePPO: A Vision-Language Deep Reinforcement Learning Framework for Lane Keeping in Autonomous Vehicles
Seyed Ahmad Hosseini Miangoleh,Amin Jalal Aghdasian,Farzaneh Abdollahi
Main category: cs.RO
TL;DR: 提出BLIP-FusePPO框架,将视觉语言模型生成的语义嵌入与几何状态、LiDAR观测和PID控制反馈融合,用于自动驾驶车道保持任务。
- Motivation: 现有方法仅使用语义模型来塑造奖励,而本方法直接将语义特征嵌入状态表示,减少昂贵的运行时推理并确保语义指导始终可用。
- Method: 在PPO算法中融合语义嵌入、几何状态、LiDAR观测和PID控制反馈,使用包含语义对齐、车道保持精度、障碍物避让和速度调节的混合奖励函数。
- Result: 仿真结果表明,该方法在多种困难驾驶场景下,比最佳基于视觉和多模态RL基线在车道保持稳定性和适应性方面表现更好。
- Conclusion: BLIP-FusePPO通过直接融合语义特征到状态表示,实现了更鲁棒和可解释的自动驾驶策略学习。
[236] An Intelligent Water-Saving Irrigation System Based on Multi-Sensor Fusion and Visual Servoing Control
ZhengKai Huang,YiKun Wang,ChenYu Hui,XiaoCheng
Main category: cs.RO
TL;DR: 本文介绍了一种智能节水灌溉系统,通过计算机视觉、机器人控制和实时稳定技术,在嵌入式设备上实现高精度植物容器检测和精准灌溉,相比传统漫灌可节水30-50%。
- Motivation: 解决精准农业中的水资源浪费和地形适应性差等关键挑战,提高灌溉效率和节水能力。
- Method: 采用多传感器融合方法,集成轻量级YOLO模型进行实时植物检测,简化手眼标定算法实现精确定位,以及基于STM32和惯性测量的主动调平系统。
- Result: 在三种模拟农业环境中测试,植物检测准确率超过96%,定位成功率超过90%,平台可在10度斜坡上稳定工作,响应时间1.8秒,节水30-50%,用水效率超过92%。
- Conclusion: 该系统成功实现了高效节水的智能灌溉,在复杂环境下表现出良好的稳定性和适应性,为精准农业提供了可行的技术解决方案。
[237] Seq-DeepIPC: Sequential Sensing for End-to-End Control in Legged Robot Navigation
Oskar Natan,Jun Miura
Main category: cs.RO
TL;DR: Seq-DeepIPC是一个用于腿式机器人导航的序列化端到端感知-控制模型,整合多模态感知(RGB-D+GNSS)与时间融合,在边缘设备上高效部署,在真实环境中验证了优于基线的性能。
- Motivation: 将端到端导航从轮式机器人扩展到更通用的腿式机器人系统,通过时序感知和多模态融合提升智能感知能力。
- Method: 使用EfficientNet-B0编码器减少计算量,联合预测语义分割和深度估计,通过连续GNSS位置计算航向角替代噪声IMU,构建包含道路和草地地形的大型数据集。
- Result: 序列化输入改善了感知和控制性能,模型尺寸合理且性能具有竞争力,GNSS航向在开阔区域鲁棒但在高楼附近可靠性降低。
- Conclusion: Seq-DeepIPC成功将端到端导航扩展到腿式机器人,展示了时序感知系统的优势,为未来研究提供了开源代码支持。
[238] Localising under the drape: proprioception in the era of distributed surgical robotic system
Martin Huber,Nicola A. Cavalcanti,Ayoob Davoodi,Ruixuan Li,Christopher E. Mower,Fabio Carrillo,Christoph J. Laux,Francois Teyssere,Thibault Chandanson,Antoine Harlé,Elie Saghbiny,Mazda Farshad,Guillaume Morel,Emmanuel Vander Poorten,Philipp Fürnstahl,Sébastien Ourselin,Christos Bergeles,Tom Vercauteren
Main category: cs.RO
TL;DR: 提出了一种无需标记物的手术机器人本体感知方法,通过立体RGB摄像头和基于transformer的深度学习模型,能够在无菌覆盖下精确定位手术机器人,解决了现有追踪系统的局限性。
- Motivation: 现有手术机器人缺乏空间感知能力,导致碰撞和系统恢复问题;现有追踪系统依赖笨重的红外摄像头和反射标记,在拥挤的手术室中增加硬件负担且视野有限。
- Method: 使用轻量级立体RGB摄像头和基于transformer的深度学习模型,基于最大的多中心空间机器人手术数据集(140万张自注释图像),追踪整个机器人和手术场景而非单个标记。
- Result: 在体内呼吸补偿中展示了临床益处,能够观察组织动态;与现有系统相比,消除了标记物并将追踪可见性提高了25%;在多机器人系统中准确定位。
- Conclusion: 这是首个无需标记物的完全覆盖手术机器人本体感知演示,减少了设置复杂性,增强了安全性,为模块化和自主机器人手术铺平了道路。
[239] RobotArena : Scalable Robot Benchmarking via Real-to-Sim Translation
Yash Jangir,Yidi Zhang,Kashu Yamazaki,Chenyu Zhang,Kuan-Hsun Tu,Tsung-Wei Ke,Lei Ke,Yonatan Bisk,Katerina Fragkiadaki
Main category: cs.RO
TL;DR: 提出了一个新的机器人基准测试框架,通过将视觉语言动作模型评估转移到大规模模拟环境中,并结合在线人类反馈,解决了真实世界机器人测试的局限性。
- Motivation: 真实世界机器人测试存在劳动密集、速度慢、安全性差和难以复现的问题,现有模拟基准无法评估从真实世界演示训练的模型,需要更有效的评估方法。
- Method: 利用视觉语言模型、2D到3D生成建模和可微分渲染,将广泛使用的机器人数据集中的视频演示自动转换为模拟对应物,在数字孪生环境中评估VLA策略。
- Result: 创建了一个持续演化、可复现且可扩展的基准,用于评估真实世界训练的机器人操作策略,填补了当前机器人领域的空白。
- Conclusion: 该框架通过将人类参与从繁琐的场景设置和重置转变为轻量级偏好比较,实现了对机器人策略的规模化、鲁棒性评估。
[240] UrbanVLA: A Vision-Language-Action Model for Urban Micromobility
Anqi Li,Zhiyong Wang,Jiazhao Zhang,Minghan Li,Yunpeng Qi,Zhibo Chen,Zhizheng Zhang,He Wang
Main category: cs.RO
TL;DR: UrbanVLA是一个用于城市微移动导航的视觉-语言-动作框架,通过两阶段训练实现大规模城市环境下的可靠导航,在SocialNav任务中表现优于基线方法55%以上。
- Motivation: 解决城市微移动应用(如配送机器人)在大规模动态城市环境中执行长距离路线指令的导航挑战,现有方法主要针对短距离可控场景。
- Method: 提出UrbanVLA框架,通过显式对齐噪声路线点与视觉观察来规划轨迹,采用两阶段训练:监督微调(使用模拟环境和网络视频轨迹)和强化微调(混合模拟和真实数据)。
- Result: 在MetaUrban的SocialNav任务中超越强基线55%以上,实现了大规模城市环境下的可靠真实世界导航,展现出对现实不确定性的鲁棒性。
- Conclusion: UrbanVLA框架成功解决了城市微移动导航的挑战,实现了大规模城市环境下的可扩展和鲁棒导航。
eess.IV
[241] HDR Image Reconstruction using an Unsupervised Fusion Model
Kumbha Nagaswetha
Main category: eess.IV
TL;DR: 提出一种基于深度学习的多曝光融合方法,使用CNN网络融合欠曝光和过曝光的LDR图像,无需真实HDR图像进行无监督训练,生成高质量的HDR图像。
- Motivation: 解决传统数码相机动态范围有限的问题,通过融合不同曝光图像来重现自然场景中的宽亮度范围。
- Method: 使用卷积神经网络融合欠曝光和过曝光的LDR图像,欠曝光图像保留亮部细节,过曝光图像保留暗部信息,网络学习有效结合这些互补信息。采用无监督训练方式,无需真实HDR图像。
- Result: 使用MEF-SSIM指标评估,相比现有融合方法获得了更优的视觉质量。
- Conclusion: 提出的深度学习方法能够有效生成高质量的HDR图像,通过无监督训练使其在实际应用中更具实用性。
[242] Frequency-Spatial Interaction Driven Network for Low-Light Image Enhancement
Yunhong Tao,Wenbing Tao,Xiang Xiang
Main category: eess.IV
TL;DR: 提出了一种基于两阶段架构的频率-空间交互驱动网络FSIDNet,用于低光图像增强。第一阶段恢复振幅改善亮度,第二阶段恢复相位信息优化细节结构,并通过频率-空间交互块和信息交换模块实现跨阶段信息融合。
- Motivation: 现有低光图像增强方法要么忽略频域信息的重要性,要么无法有效促进信息传播和流动,限制了性能提升。
- Method: 采用两阶段架构:第一阶段恢复振幅改善亮度,第二阶段恢复相位优化结构;开发频率-空间交互块融合互补信息;构建信息交换模块关联两个阶段。
- Result: 在多个基准数据集上的实验表明,该方法在视觉结果和定量指标方面均取得优异性能,同时保持良好的模型效率。
- Conclusion: FSIDNet通过频率-空间交互和两阶段信息融合,有效提升了低光图像增强的性能,证明了频域信息在LLIE任务中的重要性。
[243] Expert Validation of Synthetic Cervical Spine Radiographs Generated with a Denoising Diffusion Probabilistic Model
Austin A. Barr,Brij S. Karmur,Anthony J. Winder,Eddie Guo,John T. Lysack,James N. Scott,William F. Morrish,Muneer Eesa,Morgan Willson,David W. Cadotte,Michael M. H. Yang,Ian Y. M. Chan,Sanju Lama,Garnette R. Sutherland
Main category: eess.IV
TL;DR: 使用去噪扩散概率模型(DDPM)生成逼真的颈椎侧位X光片,在临床图灵测试中专家无法区分真实与合成图像,为医学影像机器学习应用提供了大规模合成数据集。
- Motivation: 神经外科机器学习面临大型高质量影像数据集稀缺的挑战,合成数据提供了可扩展且保护隐私的解决方案。
- Method: 基于4,963张颈椎X光图谱图像训练DDPM模型,通过训练/验证损失和Frechet inception距离监控性能,并让6名神经放射科医生和2名脊柱专科神经外科医生进行盲法临床图灵测试。
- Result: 专家正确识别真实图像的准确率仅为29%,真实图像与合成图像的真实感评分无显著差异(3.323 vs 3.228-3.320),最近邻分析显示无记忆化现象,生成了20,063张合成X光片数据集。
- Conclusion: DDPM生成的颈椎X光片在真实感和质量上与真实临床图像在统计学上无法区分,为机器学习在标志点定位、分割和分类等应用提供了创建大规模神经影像数据集的新方法。
[244] TraceTrans: Translation and Spatial Tracing for Surgical Prediction
Xiyu Luo,Haodong LI,Xinxing Cheng,He Zhao,Yang Hu,Xuan Song,Tianyang Zhang
Main category: eess.IV
TL;DR: TraceTrans是一种新颖的可变形图像翻译模型,专为术后预测设计,能生成与目标分布对齐的图像,同时明确显示与术前输入的空间对应关系。
- Motivation: 现有图像翻译方法主要关注匹配目标分布,但忽略了源图像与翻译图像之间的空间对应关系,导致结构不一致和幻觉问题,这在临床应用中会影响预测的可靠性和可解释性。
- Method: 采用编码器进行特征提取,双解码器分别预测空间变形和合成翻译图像。预测的变形场对生成输出施加空间约束,确保与源的解剖一致性。
- Result: 在医学美容和脑MRI数据集上的广泛实验表明,TraceTrans能够提供准确且可解释的术后预测。
- Conclusion: TraceTrans在可靠临床部署方面具有潜力,能够确保解剖一致性并提供可解释的预测结果。
[245] Learning Event-guided Exposure-agnostic Video Frame Interpolation via Adaptive Feature Blending
Junsik Jung,Yoonki Cho,Woo Jae Kim,Lin Wang,Sune-eui Yoon
Main category: eess.IV
TL;DR: 提出了一种新的基于事件相机的曝光无关视频帧插值框架,通过目标自适应事件采样和重要性映射来解决严重低帧率模糊视频的插值问题
- Motivation: 现有的事件引导方法在严重低帧率模糊视频上效果不佳,因为缺乏时间约束,无法处理未知和动态曝光条件
- Method: 使用目标自适应事件采样(TES)在目标时间戳和未知曝光时间周围采样事件,以及目标自适应重要性映射(TIM)生成考虑时间接近性和空间相关性的重要性图
- Result: 在合成和真实数据集上的大量实验证明了该方法在曝光无关视频帧插值场景中的有效性
- Conclusion: 提出的TES和TIM组件能够有效解决曝光无关视频帧插值的挑战,特别是在严重低帧率模糊视频上表现优异
[246] Understanding What Is Not Said:Referring Remote Sensing Image Segmentation with Scarce Expressions
Kai Ye,Bowen Liu,Jianghang Lin,Jiayi Ji,Pingyang Dai,Liujuan Cao
Main category: eess.IV
TL;DR: 本文提出弱参考表达学习(WREL)用于遥感图像分割,利用类别名称作为弱参考表达与少量精确表达结合,在有限标注条件下实现高效训练。同时提出LRB-WREL方法,通过可学习参考库和教师-学生优化框架提升性能。
- Motivation: 遥感图像中的参考图像分割面临高质量参考表达获取困难的挑战,因为遥感图像中存在大量小尺寸、密集分布的目标和复杂背景。
- Method: 提出WREL学习范式,使用类别名称作为弱参考表达;设计LRB-WREL方法,集成可学习参考库来细化弱参考表达,并采用动态调度EMA更新的教师-学生优化框架。
- Result: 在新构建的基准测试上进行广泛实验,验证了WREL和LRB-WREL的理论洞察和实际有效性,表明它们能够接近甚至超过使用完全标注参考表达训练的模型。
- Conclusion: WREL和LRB-WREL为遥感图像分割提供了一种在有限标注条件下的有效训练方法,通过理论分析和实验验证了其可行性。
[247] USF-MAE: Ultrasound Self-Supervised Foundation Model with Masked Autoencoding
Youssef Megahed,Robin Ducharme,Mark Walker,Steven Hawken,Adrian D. C. Chan
Main category: eess.IV
TL;DR: 提出了USF-MAE,首个基于超声数据的大规模自监督掩码自编码框架,在370,000张超声图像上预训练,在多个下游分类任务中优于传统CNN和ViT基线。
- Motivation: 解决超声图像解释的挑战,包括高噪声、操作者依赖性和有限视野导致的观察者间变异性,以及深度学习模型因标记数据稀缺和与非医学图像的领域差距而受限的问题。
- Method: 使用视觉Transformer编码器-解码器架构,通过重建掩码图像块从无标签数据中学习丰富的模态特定表示。在46个开源数据集的370,000张2D和3D超声图像上预训练。
- Result: 在三个下游分类基准测试中,USF-MAE的F1分数分别为81.6%(乳腺癌)、79.6%(卵巢肿瘤)和82.4%(胃肠道间质瘤),均优于传统基线模型。
- Conclusion: USF-MAE展示了强大的跨解剖结构泛化能力,尽管预训练阶段未使用标签,但在多个任务中接近甚至超过了监督基础模型的性能。
[248] Revising Second Order Terms in Deep Animation Video Coding
Konstantin Schmidt,Thomas Richter
Main category: eess.IV
TL;DR: 本文改进了第一阶运动模型(FOMM),通过用全局旋转替换雅可比变换来处理头部旋转,同时显著降低比特率并稳定对抗训练。
- Motivation: FOMM模型虽然计算复杂度适中且比特率低,但由于使用图像扭曲生成面部动画,在处理强烈头部运动(特别是头部旋转)时存在局限性。
- Method: 用全局旋转替换FOMM中的雅可比变换,并在判别器中应用最先进的归一化技术来稳定对抗训练。
- Result: 改进后的系统在头部旋转项目上表现更好,P帧比特率节省40%到80%,并通过LPIPS和DISTS指标验证了优化效果。
- Conclusion: 提出的优化方法成功解决了FOMM在头部旋转方面的限制,同时显著降低了比特率并提升了视觉质量。
cs.CR
[249] T2I-RiskyPrompt: A Benchmark for Safety Evaluation, Attack, and Defense on Text-to-Image Model
Chenyu Zhang,Tairen Zhang,Lanjun Wang,Ruidong Chen,Wenhui Li,Anan Liu
Main category: cs.CR
TL;DR: 提出了T2I-RiskyPrompt基准,包含6,432个有效风险提示,采用层次化风险分类法(6个主类别和14个子类别),用于评估文本到图像模型的安全性。
- Motivation: 现有风险提示数据集存在三个主要限制:风险类别有限、标注粒度粗糙、有效性低。
- Method: 开发了层次化风险分类法,构建了收集和标注风险提示的流程,提出了基于原因的风险图像检测方法。
- Result: 对8个T2I模型、9种防御方法、5个安全过滤器和5种攻击策略进行了全面评估,获得了9个关键洞察。
- Conclusion: T2I-RiskyPrompt基准为T2I模型安全性评估提供了全面工具,并讨论了其在多个研究领域的潜在应用。
[250] Privacy-Aware Federated nnU-Net for ECG Page Digitization
Nader Nemati
Main category: cs.CR
TL;DR: 提出了一种跨机构的联邦学习框架,用于将ECG页面图像转换为可分析波形,在保护隐私的同时实现高性能。
- Motivation: 集中式训练与跨机构隐私和部署约束存在冲突,需要在不共享图像的情况下实现ECG数字化。
- Method: 使用nnU-Net分割骨干网络,集成FedAvg、FedProx和FedAdam三种聚合器,结合安全聚合和中心差分隐私。
- Result: FedAdam相比FedAvg和FedProx收敛更快且性能更好,接近集中式性能,同时保持隐私保护。
- Conclusion: 该框架在保护原始图像和客户端更新的同时,提供了可部署、可审计的隐私保证,适用于多机构环境。
[251] DeepfakeBench-MM: A Comprehensive Benchmark for Multimodal Deepfake Detection
Kangran Zhao,Yupeng Chen,Xiaoyu Zhang,Yize Chen,Weinan Guan,Baicheng Chen,Chengzhe Sun,Soumyya Kanti Datta,Qingshan Liu,Siwei Lyu,Baoyuan Wu
Main category: cs.CR
TL;DR: 该论文构建了大规模多模态深度伪造数据集Mega-MMDF和首个统一基准DeepfakeBench-MM,以解决多模态深度伪造检测中数据不足和缺乏标准化基准的问题。
- Motivation: 应对生成式AI模型滥用导致的大规模伪造人本视听内容,这些内容带来严重社会风险(如金融欺诈和社会不稳定)。现有研究缺乏足够多样化的训练数据和标准化基准,阻碍了深度探索。
- Method: 1. 构建Mega-MMDF数据集:通过10种音频伪造方法、12种视觉伪造方法和6种音频驱动人脸重演方法的组合,使用21种伪造流水线,包含10万真实样本和110万伪造样本。2. 建立DeepfakeBench-MM基准:为多模态深度伪造检测建立标准化协议,支持5个数据集和11种多模态深度伪造检测器。
- Result: 创建了当前最大且最多样化的多模态深度伪造数据集,建立了首个统一基准平台,并通过全面评估发现了多个关键发现(如数据增强、堆叠伪造等)。
- Conclusion: DeepfakeBench-MM基准与大规模Mega-MMDF数据集将作为推进多模态深度伪造检测的基础设施,为现有方法评估和新方法探索提供统一平台。
cs.IT
[252] Edge Collaborative Gaussian Splatting with Integrated Rendering and Communication
Yujie Wan,Chenxuan Liu,Shuai Wang,Tong Zhang,James Jianqiao Yu,Kejiang Ye,Dusit Niyato,Chengzhong Xu
Main category: cs.IT
TL;DR: 提出ECO-GS框架,在边缘计算环境中通过联合优化渲染状态和通信资源分配,解决高斯溅射在低成本设备上的渲染质量下降问题。
- Motivation: 高斯溅射(GS)在低成本设备上渲染质量会下降,需要一种能够在本地小模型(保证及时性)和远程大模型(保证保真度)之间智能切换的解决方案。
- Method: 提出集成渲染与通信(IRAC)框架,联合优化协作状态(是否使用大GS模型)和边缘功率分配,通过最小化新推导的GS切换函数来解决问题。开发了惩罚主化最小化(PMM)算法和模仿学习优化(ILO)算法。
- Result: PMM算法能够获得临界点解,ILO算法相比PMM计算时间减少超过100倍,具备实时执行能力。
- Conclusion: ECO-GS框架通过IRAC方法有效解决了GS在边缘设备上的渲染质量问题,PMM算法性能优越,ILO算法实现了实时执行。
eess.SP
[253] Neural-HAR: A Dimension-Gated CNN Accelerator for Real-Time Radar Human Activity Recognition
Yizhuo Wu,Francesco Fioranelli,Chang Gao
Main category: eess.SP
TL;DR: 提出Neural-HAR,一种用于雷达人体活动识别的轻量级CNN加速器,在资源受限平台上实现实时处理
- Motivation: 现有CNN/RNN解决方案在边缘部署时计算和内存开销过大,需要开发更高效的雷达活动识别方法
- Method: 使用GateCNN网络,通过多普勒向量嵌入和双路径门控卷积来调制多普勒感知特征,结合残差路径稳定训练
- Result: 在UoG2020数据集上达到86.4%准确率,仅需2.7k参数和0.28M FLOPs,FPGA原型实现107.5μs延迟和15mW动态功耗
- Conclusion: Neural-HAR证明了在资源受限边缘设备上实现高效实时雷达活动识别的可行性
Powered by Deepseek & arXiv Daily AI Enhanced