Skip to content
每日arXiv - 2025年11月11日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Randomized-MLP Regularization Improves Domain Adaptation and Interpretability in DINOv2

Joel Valdivia Ortega,Lorenz Lamm,Franziska Eckardt,Benedikt Schworm,Marion Jasnin,Tingying Peng

Main category: cs.CV

TL;DR: 提出RMLP正则化方法,在微调DINOv2时提高注意力图的可解释性,同时保持或提升下游任务性能。

  • Motivation: Vision Transformers在医学影像等领域中,低信息量的patch tokens会降低注意力和特征图的可解释性,特别是在领域偏移时性能会下降。
  • Method: 使用基于对比学习的Randomized-MLP (RMLP) 正则化方法,在微调DINOv2时鼓励更语义对齐的表征。
  • Result: 在医学和自然图像模态上都改善了注意力图的可解释性,同时保持或提升了下游任务性能。
  • Conclusion: RMLP方法有效提升了ViT模型的可解释性,并推进了对对比学习的理解。

[2] Token Is All You Need: Cognitive Planning through Sparse Intent Alignment

Shiyao Sang

Main category: cs.CV

TL;DR: 挑战自动驾驶需要详尽场景建模的传统假设,证明仅需少量语义丰富的token即可实现高效规划,在nuPlan基准测试中取得优于现有方法的结果。

  • Motivation: 传统端到端自动驾驶方法依赖计算密集的未来场景生成或受马尔可夫假设限制的视觉-语言-动作系统,作者认为这种详尽建模并非必要。
  • Method: 使用感知信息的BEV表示,基于稀疏语义token进行规划,通过预测未来token来改进轨迹解码,避免显式重建损失。
  • Result: 在nuPlan基准测试中:无未来预测时ADE为0.548m;基于未来token预测时ADE降至0.479m,比基线提升12.6%;显式重建损失无益且可能损害性能。
  • Conclusion: 提出"token即所需"原则,标志着从重建世界到理解世界的范式转变,为基于想象的认知启发系统奠定基础。

[3] Automated Invoice Data Extraction: Using LLM and OCR

Advait Thakur,Khushi Khanchandani,Akshita Shetty,Chaitravi Reddy,Ritisa Behera

Main category: cs.CV

TL;DR: 本文介绍了一个结合OCR、深度学习、LLM和图分析的全方位AI平台,旨在解决传统OCR系统在发票布局变化、手写文本和低质量扫描方面的局限性,实现前所未有的提取质量和一致性。

  • Motivation: 传统OCR系统在处理变体发票布局、手写文本和低质量扫描时面临挑战,主要受限于模板依赖性,难以适应不同文档结构和布局。需要更灵活的解决方案来提升跨文档类型的准确性和适应性。
  • Method: 开发了一个全方位AI平台,整合了OCR技术、深度学习模型(包括CNN和Transformer)、领域特定模型、大型语言模型(LLM)以及图分析技术。利用视觉命名实体识别(NER)能力从发票图像中提取信息,并采用混合架构结合OCR和LLM技术。
  • Result: 该平台实现了比传统方法更高的上下文敏感性和准确率,能够支持复杂上下文关系映射而无需直接编程规范。通过混合架构实现了最大可扩展性和最小人工干预。
  • Conclusion: 结合OCR、深度学习、LLM和图分析的全方位AI平台能够显著提升发票信息提取的质量和一致性,克服了传统方法的局限性,为文档处理提供了更先进的解决方案。

[4] In-Context-Learning-Assisted Quality Assessment Vision-Language Models for Metal Additive Manufacturing

Qiaojie Zheng,Jiucai Zhang,Xiaoli Zhang

Main category: cs.CV

TL;DR: 利用视觉语言模型的推理能力和上下文学习,无需大量应用特定数据集即可实现增材制造质量评估,达到与传统机器学习相似的准确率,并提供可解释的决策依据。

  • Motivation: 传统基于视觉的质量评估需要专用模型和大量应用特定数据集,数据收集和模型训练成本高昂且耗时。
  • Method: 引入上下文学习为视觉语言模型提供应用特定知识和演示样本,探索不同采样策略寻找最优配置,在两种VLM模型上进行质量评估任务验证。
  • Result: ICL辅助的VLM在质量分类准确率上与传统机器学习模型相当,仅需极少样本,并能生成人类可理解的决策依据。
  • Conclusion: ICL辅助的VLM能够以有限数据解决应用特定任务,在保持较高准确率的同时提供有效的决策透明度支持。

[5] EVLP:Learning Unified Embodied Vision-Language Planner with Reinforced Supervised Fine-Tuning

Xinyan Cai,Shiguang Wu,Dafeng Chi,Yuzheng Zhuang,Xingyue Quan,Jianye Hao,Qiang Guan

Main category: cs.CV

TL;DR: EVLP是一个创新的多模态统一生成框架,通过联合建模语言推理和视觉生成,解决复杂具身长时程操作任务中的多模态规划一致性问题。

  • Motivation: 当前方法在多模态规划中缺乏统一的生成框架,导致规划不一致。需要整合文本逻辑推理和视觉空间想象力来实现高效准确的操作。
  • Method: 提出统一多模态生成框架,整合语义信息和空间特征;采用动态感知预训练,通过逆向和正向动态任务进行双向对齐;使用强化监督微调,构建强化损失来对齐文本动作和生成图像的空间逻辑。
  • Result: 实现了长时程任务的多模态规划,通过可学习的跨模态注意力机制实现协调的语言-视觉建模。
  • Conclusion: EVLP框架通过统一的生成空间和强化对齐策略,使模型获得了空间感知的多模态规划能力。

[6] MCFCN: Multi-View Clustering via a Fusion-Consensus Graph Convolutional Network

Chenping Pei,Fadi Dornaika,Jingjun Bi

Main category: cs.CV

TL;DR: 提出了MCFCN方法,通过融合共识图卷积网络解决多视图聚类中拓扑结构忽略、噪声干扰和跨视图一致性不足等问题

  • Motivation: 现有基于子空间学习的多视图聚类方法忽视数据固有拓扑结构,基于图神经网络的方法易受噪声干扰,多视图图优化方法存在跨视图一致性考虑不足、难处理特征空间难区分样本等问题
  • Method: 使用端到端方式学习多视图数据的共识图,通过视图特征融合模型和统一图结构适配器学习有效共识表示,设计相似性矩阵对齐损失和特征表示对齐损失
  • Result: 在8个多视图基准数据集上达到最先进性能,通过大量定性和定量实验验证有效性
  • Conclusion: MCFCN方法能够优化视图特定图,保持跨视图拓扑一致性,促进类内边构建,借助GCN实现有效共识表示学习并提升聚类性能

[7] Compressing Multi-Task Model for Autonomous Driving via Pruning and Knowledge Distillation

Jiayuan Wang,Q. M. Jonathan Wu,Ning Zhang,Katsuya Suto,Lei Zhong

Main category: cs.CV

TL;DR: 提出了一种结合任务感知安全剪枝和特征级知识蒸馏的多任务模型压缩框架,用于自动驾驶的全景感知任务,在BDD100K数据集上实现了32.7%的参数减少且性能损失很小。

  • Motivation: 自动驾驶系统需要全景感知来同时处理目标检测、可行驶区域分割和车道线分割,但多任务学习导致模型参数和复杂度增加,难以在车载设备上部署。
  • Method: 结合任务感知安全剪枝(集成泰勒基通道重要性和梯度冲突惩罚)和任务头无关的蒸馏方法(从教师模型向学生模型传递中间骨干网络和编码器特征)。
  • Result: 压缩模型参数减少32.7%,分割性能损失可忽略,检测性能仅轻微下降(召回率-1.2%,mAP50 -1.8%),仍能以32.7 FPS实时运行。
  • Conclusion: 结合剪枝和知识蒸馏为多任务全景感知提供了有效的压缩解决方案。

[8] FilletRec: A Lightweight Graph Neural Network with Intrinsic Features for Automated Fillet Recognition

Jiali Gao,Taoran Liu,Hongfei Ye,Jianjun Chen

Main category: cs.CV

TL;DR: 提出一个端到端的数据驱动框架,专门用于CAD模型中圆角特征的识别与简化,通过构建大规模数据集和轻量级图神经网络实现高精度识别。

  • Motivation: 传统基于规则的方法缺乏鲁棒性,现有深度学习模型在复杂圆角上泛化能力差、精度低,且缺乏足够的训练数据。
  • Method: 构建大规模多样化圆角识别基准数据集,提出轻量级图神经网络FilletRec,使用姿态不变的内在几何特征(如曲率)学习基础几何模式。
  • Result: FilletRec在精度和泛化能力上超越最先进方法,仅使用基线模型0.2%-5.4%的参数,模型效率高。
  • Conclusion: 该框架通过集成有效的几何简化算法,完成了从识别到简化的自动化工作流程,解决了CAD模型圆角特征处理的挑战。

[9] In-Context Adaptation of VLMs for Few-Shot Cell Detection in Optical Microscopy

Shreyan Ganguly,Angona Biswas,Jaydeep Rade,Md Hasibul Hasan Hasib,Nabila Masud,Nitish Singla,Abhipsa Dash,Ushashi Bhattacharjee,Aditya Balu,Anwesha Sarkar,Adarsh Krishnamurthy,Soumik Sarkar

Main category: cs.CV

TL;DR: 该论文研究了基础视觉语言模型在生物医学显微镜图像中的少样本目标检测能力,提出了Micro-OD基准测试,并开发了结合检测头和VLM分类器的混合FSOD管道。

  • Motivation: 探索视觉语言模型在生物医学显微镜图像中的应用,解决在缺乏大规模标注数据集情况下的少样本目标检测问题。
  • Method: 引入Micro-OD基准测试,系统评估8个VLM模型在少样本条件下的表现,开发混合FSOD管道结合检测头和VLM分类器。
  • Result: 零样本性能较弱,但少样本支持能持续改善检测效果,6个样本后收益递减;带推理token的模型更适合端到端定位,简单变体更适合预定位裁剪分类。
  • Conclusion: 上下文适应是显微镜图像检测的实用路径,基准测试为生物医学成像中的开放词汇检测提供了可复现测试平台。

[10] Efficient Online Continual Learning in Sensor-Based Human Activity Recognition

Yao Zhang,Souza Leite Clayton,Yu Xiao

Main category: cs.CV

TL;DR: PTRN-HAR是首个成功将预训练模型应用于传感器人类活动识别的在线持续学习方法,通过对比学习预训练特征提取器并冻结,使用关系模块网络替代传统分类层,显著降低了训练资源消耗和标注数据需求。

  • Motivation: 现有传感器人类活动识别的在线持续学习方法计算密集且需要大量标注样本,而预训练模型方法在计算机视觉中表现优异但难以直接应用于传感器数据,主要挑战在于数据集异构性和标注数据稀缺。
  • Method: 使用对比学习在有限数据上预训练特征提取器并冻结,用关系模块网络替代传统密集分类层,实现高效在线持续学习。
  • Result: 在三个公开数据集上的实验表明,PTRN-HAR在保持高性能的同时显著降低了训练资源消耗,减少了有效持续学习所需的标注数据量,超越了现有最优方法。
  • Conclusion: PTRN-HAR成功将预训练模型方法引入传感器人类活动识别的在线持续学习,解决了该领域的关键挑战,为资源受限环境下的持续学习提供了有效解决方案。

[11] Automatic Extraction of Road Networks by using Teacher-Student Adaptive Structural Deep Belief Network and Its Application to Landslide Disaster

Shin Kamada,Takumi Ichimura

Main category: cs.CV

TL;DR: 提出了一种基于自适应深度信念网络(DBN)的RoadTracer道路网络自动识别方法,通过教师-学生集成学习模型提高道路检测精度,并应用于灾害后可用道路检测。

  • Motivation: 道路地图包含许多复杂特征,需要具有高表示能力的模型来检测。同时,自然灾害后需要快速获取可用交通道路。
  • Method: 使用自适应结构学习的受限玻尔兹曼机(RBM)和深度信念网络(DBN),结合神经元生成-消除算法和层生成算法,构建教师-学生集成学习模型。
  • Result: 在七个主要城市的测试数据集中,检测准确率从40.0%提高到89.0%。成功应用于日本降雨灾害前后的卫星图像道路检测。
  • Conclusion: 自适应DBN模型在道路网络识别中表现出色,能够实现轻量级深度学习在嵌入式设备上的快速推理,适用于灾害应急响应。

[12] Do Street View Imagery and Public Participation GIS align: Comparative Analysis of Urban Attractiveness

Milad Malekzadeh,Elias Willberg,Jussi Torkko,Silviya Korpilo,Kamyar Hasanzadeh,Olle Järv,Tuuli Toivonen

Main category: cs.CV

TL;DR: 本研究比较了街景图像(SVI)和公众参与GIS(PPGIS)在捕捉城市环境感知方面的差异,发现两者仅部分一致,SVI无法完全替代PPGIS捕捉的体验维度。

  • Motivation: 随着数字工具日益影响空间规划实践,理解不同数据源如何反映人类对城市环境的体验至关重要。SVI和PPGIS是两种主要方法,但它们的可比性尚未充分探索。
  • Method: 使用参与者评分的SVI数据和语义图像分割,训练机器学习模型基于视觉特征预测感知吸引力,并与PPGIS识别的有吸引力/无吸引力地点进行比较,使用严格和中等标准计算一致性。
  • Result: 研究发现两种数据集仅部分一致:中等阈值下吸引力地点一致性67%,无吸引力地点77%;严格阈值下分别降至27%和29%。非视觉线索如噪音、交通、人口存在和土地使用显著影响不匹配。
  • Conclusion: SVI提供了可扩展的视觉代理,但无法完全替代PPGIS捕捉的体验丰富性。两种方法各有价值但服务于不同目的,需要更综合的方法来全面捕捉人们对城市环境的感知。

[13] C3-Diff: Super-resolving Spatial Transcriptomics via Cross-modal Cross-content Contrastive Diffusion Modelling

Xiaofei Wang,Stephen Price,Chao Li

Main category: cs.CV

TL;DR: C3-Diff是一个用于空间转录组学增强的跨模态对比扩散框架,通过整合组织学图像和基因表达数据来提高ST地图的分辨率。

  • Motivation: 当前空间转录组学平台分辨率较低,限制了空间基因表达的深入理解。需要开发有效的方法来建模组织学图像和基因表达之间的相互作用,以实现ST增强。
  • Method: 提出跨模态跨内容对比扩散框架C3-Diff,包括:改进对比学习范式提取模态不变和内容不变特征;在特征单元超球面上进行基于噪声的信息增强;提出动态跨模态插补训练策略缓解数据稀缺问题。
  • Result: 在四个公共数据集上的基准测试显示,C3-Diff相比竞争方法有显著改进。在细胞类型定位、基因表达相关性和单细胞水平基因表达预测等下游任务中表现优异。
  • Conclusion: C3-Diff通过整合多模态数据有效提升了空间转录组学的分辨率,为生物医学研究和临床应用提供了AI增强的生物技术工具。

[14] Video Text Preservation with Synthetic Text-Rich Videos

Ziyang Liu,Kevin Valencia,Justin Cui

Main category: cs.CV

TL;DR: 提出了一种轻量级方法来改进文本到视频扩散模型,通过使用文本到图像模型生成文本丰富的图像,然后用文本无关的图像到视频模型将其动画化,生成合成视频-提示对来微调预训练的T2V模型,提高了短文本可读性和时间一致性。

  • Motivation: 现有的文本到视频模型在生成可读且连贯的视频文本方面存在困难,即使是短短语或单词也经常无法正确渲染,而之前的解决方案计算成本高且不适合视频生成。
  • Method: 使用文本到图像扩散模型生成文本丰富的图像,然后用文本无关的图像到视频模型将其动画化为短视频,这些合成的视频-提示对用于微调预训练的Wan2.1 T2V模型,无需架构更改。
  • Result: 结果显示短文本可读性和时间一致性得到改善,并为长文本提供了新兴的结构先验。
  • Conclusion: 精心策划的合成数据和弱监督为提高T2V生成中的文本保真度提供了一条实用路径。

[15] Elements of Active Continuous Learning and Uncertainty Self-Awareness: a Narrow Implementation for Face and Facial Expression Recognition

Stanislav Selitskiy

Main category: cs.CV

TL;DR: 提出了一种模拟自我意识机制的监督神经网络,通过观察底层神经网络激活模式来评估预测不确定性,并在高不确定性时触发主动学习模式寻求人类帮助。

  • Motivation: 反思思维过程并在性能不满意时进行修正是智能的重要特征,本文旨在将这种高级抽象概念建模到窄机器学习算法中,实现人工通用智能的自我意识机制。
  • Method: 使用监督人工神经网络观察底层卷积神经网络集合的激活模式,检测高不确定性指示;监督网络具有存储过去性能信息的记忆区域,可训练参数优化性能;当检测到不可信预测时触发主动学习模式。
  • Result: 开发了一个能够评估预测可信度的自我意识机制,在面部识别和表情识别任务中,系统能够在高不确定性条件下主动寻求人类帮助。
  • Conclusion: 成功在窄机器学习算法层面模拟了自我意识机制,为人工通用智能的发展提供了新的技术路径,通过主动学习增强了系统在不确定性条件下的决策能力。

[16] DiffSwap++: 3D Latent-Controlled Diffusion for Identity-Preserving Face Swapping

Weston Bondurant,Arkaprava Sinha,Hieu Le,Srijan Das,Stephanie Schuckers

Main category: cs.CV

TL;DR: DiffSwap++是一种基于扩散模型的人脸交换方法,通过引入3D面部潜在特征和结合身份嵌入与面部关键点的条件生成,显著提升了身份保持和几何一致性。

  • Motivation: 现有基于扩散模型的人脸交换方法在复杂姿态和表情下仍存在细粒度伪影和身份保持不佳的问题,主要原因是未能充分利用3D面部结构来解耦身份与姿态表情。
  • Method: 提出DiffSwap++,在训练中融入3D面部潜在特征,通过3D感知表示引导生成过程,并设计扩散架构在去噪过程中同时条件化身份嵌入和面部关键点。
  • Result: 在CelebA、FFHQ和CelebV-Text数据集上的实验表明,DiffSwap++在保持源身份同时维持目标姿态表情方面优于现有方法,并通过生物特征评估和用户研究验证了方法的真实性和有效性。
  • Conclusion: DiffSwap++通过结合3D面部特征和扩散模型,实现了高质量、身份保持良好的人脸交换,为复杂场景下的人脸交换提供了有效解决方案。

[17] Beyond Softmax: Dual-Branch Sigmoid Architecture for Accurate Class Activation Maps

Yoojin Oh,Junhyug Noh

Main category: cs.CV

TL;DR: 提出双分支sigmoid头方法,解决传统CAM方法因softmax分类器导致的特征重要性评分偏差和符号混淆问题,在保持分类精度的同时提升定位准确性。

  • Motivation: 传统CAM方法依赖softmax分类器,存在两个根本性失真:加法logit偏移会任意偏置重要性分数,符号崩溃会混淆兴奋和抑制特征。
  • Method: 采用架构无关的双分支sigmoid头,克隆预训练模型的分类头到并行分支,使用sigmoid输出,冻结原始softmax头,仅用类别平衡的二元监督微调sigmoid分支。
  • Result: 在细粒度任务和WSOL基准测试中显示改进的解释保真度和一致的Top-1定位增益,且分类精度无下降。
  • Conclusion: 该方法与大多数CAM变体无缝集成,计算开销可忽略,在保持识别精度的同时生成更准确的特征贡献图。

[18] Google-MedGemma Based Abnormality Detection in Musculoskeletal radiographs

Soumyajit Maity,Pranjal Kamboj,Sneha Maity,Rajat Singh,Sankhadeep Chatterjee

Main category: cs.CV

TL;DR: 提出基于MedGemma框架的肌肉骨骼X光片异常自动检测方法,使用SigLIP视觉编码器和多层感知机进行分类,性能优于传统卷积和自编码器方法。

  • Motivation: 传统自编码器和神经网络方法在医学图像异常检测中存在局限性,需要利用现代医学基础模型提升表示学习和泛化能力。
  • Method: 使用MedGemma基础模型的视觉编码器将X光图像编码为高维嵌入,然后通过轻量级多层感知机进行二分类。
  • Result: MedGemma驱动的分类器表现出强大性能,超过传统卷积和自编码器指标,并具有良好的泛化能力。
  • Conclusion: MedGemma驱动的分类系统可推进临床X光片分诊,提供可扩展且准确的异常检测,在自动化医学图像分析中具有广泛应用潜力。

[19] In-process 3D Deviation Mapping and Defect Monitoring (3D-DM2) in High Production-rate Robotic Additive Manufacturing

Subash Gautam,Alejandro Vargas-Uscategui,Peter King,Hans Lohr,Alireza Bab-Hadiashar,Ivan Cole,Ehsan Asadi

Main category: cs.CV

TL;DR: 开发了一种实时监测系统,用于在高速机器人增材制造过程中检测形状偏差,通过比较实际构建部件与参考模型来实现早期识别和跟踪偏差区域。

  • Motivation: 高速增材制造工艺(如冷喷涂增材制造)虽然沉积率高,但在当前开环系统中保持形状精度仍然是一个关键挑战,需要实时检测偏差以防止误差传播。
  • Method: 使用实时监测系统采集和重建正在生长的部件,并直接与近净参考模型进行比较,以检测制造过程中的形状偏差,同时对每个偏差区域进行分割和跟踪。
  • Result: 实现了对形状不一致的早期识别,能够及时干预和补偿,从而确保一致的部件质量。
  • Conclusion: 该实时监测系统为高速增材制造过程中的形状偏差检测提供了有效解决方案,有助于提高制造精度和减少后处理需求。

[20] Walking the Schrödinger Bridge: A Direct Trajectory for Text-to-3D Generation

Ziying Li,Xuequan Lu,Xinkui Zhao,Guanjie Cheng,Shuiguang Deng,Jianwei Yin

Main category: cs.CV

TL;DR: 本文提出TraCe框架,通过将文本到3D生成过程建模为从当前渲染分布到目标分布的最优传输轨迹,解决了传统SDS方法中的过饱和和过平滑问题。

  • Motivation: 现有的基于优化的文本到3D生成方法主要依赖从预训练文本到图像扩散模型中提取知识,使用SDS等技术,但这些方法往往会在生成的3D资产中引入过饱和和过平滑等伪影。
  • Method: 首先理论证明SDS是Schrödinger Bridge框架的简化实例,然后提出TraCe框架,利用Schrödinger Bridge的数学可追踪框架显式构建从当前渲染到文本条件去噪目标的扩散桥,并训练LoRA自适应模型来学习轨迹的分数动态。
  • Result: 综合实验表明,TraCe在质量和保真度方面始终优于最先进的技术。
  • Conclusion: TraCe通过将生成过程建模为最优传输轨迹,能够以较小的CFG值实现高质量生成,解决了SDS方法中的关键问题。

[21] Pose-Aware Multi-Level Motion Parsing for Action Quality Assessment

Shuaikang Zhu,Yang Yang,Chen Sun

Main category: cs.CV

TL;DR: 提出了一种基于增强时空姿态特征的多层次运动解析框架,用于动作质量评估,通过动作单元解析器、运动解析器和条件解析器实现精确的动作分割和评分。

  • Motivation: 人体姿态是动作质量评估的关键,在高级别比赛中,姿态的细微时空变化往往是评分的关键因素。
  • Method: 设计多层次运动解析框架:第一层使用动作单元解析器实现精确动作分割和局部-全局姿态表示;第二层使用运动解析器捕捉每个动作单元的时空变化;第三层添加条件解析器处理非身体相关因素;最后引入权重调整评分模块适应不同动作类型需求。
  • Result: 在大规模跳水运动数据集上的广泛评估表明,该框架在动作分割和动作评分任务中达到了最先进的性能。
  • Conclusion: 提出的多层次运动解析框架能够有效捕捉姿态的细微变化,为动作质量评估提供了灵活且高性能的解决方案。

[22] Personalized Image Editing in Text-to-Image Diffusion Models via Collaborative Direct Preference Optimization

Connor Dunlop,Matthew Zheng,Kavana Venkatesh,Pinar Yanardag

Main category: cs.CV

TL;DR: 提出C-DPO框架,通过图神经网络和协作信号实现个性化图像编辑,使扩散模型能够适应用户特定的美学偏好。

  • Motivation: 现有文本到图像扩散模型是通用的,无法适应个体用户的细微美学偏好,需要个性化编辑能力。
  • Method: 将用户表示为动态偏好图中的节点,通过轻量级图神经网络学习嵌入,结合协作信号开发新颖的DPO目标,联合优化个体对齐和邻域一致性。
  • Result: 综合实验(包括用户研究和定量基准测试)表明,该方法在生成符合用户偏好的编辑结果方面持续优于基线方法。
  • Conclusion: C-DPO框架成功实现了扩散模型的个性化图像编辑,通过协作学习有效捕捉和适应用户特定偏好。

[23] Convolutional Fully-Connected Capsule Network (CFC-CapsNet): A Novel and Fast Capsule Network

Pouya Shiri,Amirali Baniasadi

Main category: cs.CV

TL;DR: 提出了CFC-CapsNet作为CapsNet的改进版本,通过新的CFC层创建更少但更强大的胶囊,在CIFAR-10、SVHN和Fashion-MNIST数据集上实现了更高的准确率、更快的训练推理速度和更少的参数使用。

  • Motivation: CapsNet在复杂数据集和实际应用中表现不佳,速度慢且参数多,需要改进其性能缺陷。
  • Method: 引入卷积全连接胶囊网络(CFC-CapsNet),使用新的CFC层作为创建胶囊的替代方案,生成更少但更强大的胶囊。
  • Result: 在CIFAR-10、SVHN和Fashion-MNIST数据集上,CFC-CapsNet相比传统CapsNet实现了竞争性准确率、更快的训练推理速度,并使用了更少的参数。
  • Conclusion: CFC-CapsNet有效解决了CapsNet在复杂数据集上的性能问题,提供了更高效、更准确的胶囊网络架构。

[24] Grounding Foundational Vision Models with 3D Human Poses for Robust Action Recognition

Nicholas Babey,Tiffany Gu,Yiheng Li,Cristian Meo,Kevin Zhu

Main category: cs.CV

TL;DR: 提出了一种融合V-JEPA 2的世界动态预测和CoMotion人体姿态数据的动作识别模型,在遮挡场景下表现优异

  • Motivation: 现有基于RGB视频的动作识别模型只能学习表面模式与标签的相关性,难以捕捉物理交互动态和人体姿态,特别是在复杂遮挡场景中
  • Method: 融合V-JEPA 2的上下文预测世界动态和CoMotion的显式、抗遮挡人体姿态数据
  • Result: 在InHARD和UCF-19-Y-OCC基准测试中优于三个基线模型,特别是在复杂遮挡场景下表现突出
  • Conclusion: 动作识别需要基于空间理解而非统计模式识别

[25] Registration-Free Monitoring of Unstructured Point Cloud Data via Intrinsic Geometrical Properties

Mariafrancesca Patalano,Giovanna Capizzi,Kamran Paynabar

Main category: cs.CV

TL;DR: 提出了一种无需配准和网格重建的点云数据监控方法,利用拉普拉斯和测地距离提取内在几何特征,通过阈值技术选择最能指示失控状态的特征进行监控。

  • Motivation: 传统点云数据监控需要配准和网格重建等预处理步骤,这些步骤容易出错、耗时且可能引入伪影,影响监控结果。
  • Method: 开发了两种基于拉普拉斯和测地距离的内在几何特征学习方法,结合阈值技术选择最具指示性的特征进行监控。
  • Result: 数值实验和案例研究表明,该方法能有效识别不同类型的缺陷。
  • Conclusion: 所提出的免配准方法能够有效监控复杂形状的点云数据,避免了传统预处理步骤的局限性。

[26] Culture in Action: Evaluating Text-to-Image Models through Social Activities

Sina Malakouti,Boqing Gong,Adriana Kovashka

Main category: cs.CV

TL;DR: CULTIVate是一个评估文本到图像模型在跨文化活动表现的新基准,涵盖16个国家、576个提示和19000多张图像,通过可解释的描述符框架评估文化维度,并提出四个衡量文化对齐、幻觉、夸张元素和多样性的指标。

  • Motivation: 现有文化基准主要关注物体中心类别(如食物、服饰、建筑),忽视了更能反映文化规范的社会和日常活动,且缺乏衡量文化忠实度的指标。
  • Method: 构建CULTIVate基准,涵盖16个国家的跨文化活动,提供基于描述符的可解释评估框架,评估背景、服饰、物体和互动等多个文化维度,并提出四个新指标。
  • Result: 发现系统性差异:模型对全球北方国家的表现优于全球南方国家,不同T2I系统存在不同的失败模式。人类研究证实新指标与人类判断的相关性优于现有文本-图像指标。
  • Conclusion: CULTIVate基准能有效评估T2I模型的文化忠实度,揭示了模型在文化表现上的系统性偏见,提出的新指标比现有指标更能反映人类的文化判断。

[27] VMDT: Decoding the Trustworthiness of Video Foundation Models

Yujin Potter,Zhun Wang,Nicholas Crispino,Kyle Montgomery,Alexander Xiong,Ethan Y. Chang,Francesco Pinto,Yuqi Chen,Rahul Gupta,Morteza Ziyadi,Christos Christodoulopoulos,Bo Li,Chenguang Wang,Dawn Song

Main category: cs.CV

TL;DR: VMDT是首个统一的视频模态可信度评估平台,涵盖文本到视频和视频到文本模型在安全、幻觉、公平性、隐私和对抗鲁棒性五个维度的评估。

  • Motivation: 随着基础模型的发展,确保其可信度变得至关重要,但视频模态目前缺乏全面的可信度基准。
  • Method: 开发VMDT平台,对7个T2V模型和19个V2T模型进行大规模评估,涵盖五个关键可信度维度。
  • Result: 开源T2V模型无法识别有害查询并经常生成有害视频,公平性低于图像模型;V2T模型中不公平性和隐私风险随规模增加,幻觉和对抗鲁棒性有所改善但整体性能仍低;安全性与模型规模无关。
  • Conclusion: 研究结果强调了开发更鲁棒和可信的视频基础模型的迫切需求,VMDT为衡量和跟踪这一目标的进展提供了系统框架。

[28] Pedicle Screw Pairing and Registration for Screw Pose Estimation from Dual C-arm Images Using CAD Models

Yehyun Suh,Lin Li,Aric Plumley,Chaochao Zhou,Daniel Moyer,Kongbin Kang

Main category: cs.CV

TL;DR: 提出了一种从双C臂图像中解决椎弓根螺钉对应关系和姿态估计的方法,通过比较螺钉组合和2D-3D配准,在螺钉配对和配准任务中表现出一致的准确性。

  • Motivation: 在脊柱手术中,准确匹配前后位和侧位图像中的椎弓根螺钉对于成功的手术减压和稳定至关重要,但在侧位视图中建立螺钉对应关系仍然是重要的临床挑战。
  • Method: 通过比较螺钉组合,采用螺钉CAD 3D模型进行2D-3D配准,从双视图准确配对和估计螺钉姿态。
  • Result: 在所有测试案例中,正确的螺钉组合始终优于不正确的配对,即使在配准之前也是如此。配准后,正确组合进一步增强了投影和图像之间的对齐,显著减少了投影误差。
  • Conclusion: 该方法通过提供可靠的螺钉定位反馈,有望改善脊柱手术的手术效果。

[29] Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale

David Acuna,Chao-Han Huck Yang,Yuntian Deng,Jaehun Jung,Ximing Lu,Prithviraj Ammanabrolu,Hyunwoo Kim,Yuan-Hong Liao,Yejin Choi

Main category: cs.CV

TL;DR: 提出了一个新的多模态推理数据生成框架,创建了超过100万个高质量视觉中心问题,涵盖多样化技能和复杂度级别。该数据集支持离线/在线强化学习,通过两阶段合成过程生成推理轨迹,显著提升了Qwen2.5-VL-7B在各种视觉基准测试中的表现。

  • Motivation: 当前多模态推理进展主要依赖未公开数据集和专有数据合成方法,缺乏系统性构建大规模视觉中心推理数据集的方法,特别是超越视觉数学的任务。
  • Method: 采用两阶段数据合成框架:规模和复杂度。利用视觉语言模型和推理大语言模型生成推理轨迹,包含思维链轨迹,捕捉前沿推理模型的丰富认知行为。
  • Result: 在Qwen2.5-VL-7B上微调后,在所有评估的视觉中心基准测试中超越所有开源基线,甚至超过MiMo-VL-7B-RL等闭源模型。数据还能正向迁移到纯文本推理和音频推理任务。
  • Conclusion: 高质量数据上的监督微调对有效在线强化学习至关重要;分阶段离线强化学习能匹配在线强化学习性能同时降低计算需求;精心设计的监督微调能显著改善跨领域、跨模态的迁移能力。

[30] Towards Better Ultrasound Video Segmentation Foundation Model: An Empirical study on SAM2 Finetuning from Data Perspective

Xing Yao,Ahana Gangopadhyay,Hsi-Ming Chang,Ravi Soni

Main category: cs.CV

TL;DR: 本研究系统分析了SAM2模型在超声视频分割中的适应策略,发现数据规模和时间上下文比模型架构更重要,联合训练在模态对齐和任务专业化之间提供了有效平衡。

  • Motivation: 超声视频分割面临数据集变异性大、运动伪影和标注数据有限等挑战。虽然SAM2等基础模型在零样本分割方面表现强大,但在医学影像领域性能显著下降,需要研究数据特征和训练策略对适应性能的影响。
  • Method: 通过三个适应范式(任务特定微调、中间适应、多任务联合训练)分析训练集大小、视频时长和增强方案的影响,设计了六种超声特定增强策略,在五个SAM2变体和多种提示模式下进行实验。
  • Result: 在三个代表性超声数据集上的实验表明,数据规模和时间上下文比模型架构或初始化更具决定性作用,联合训练在模态对齐和任务专业化之间提供了有效折衷。
  • Conclusion: 这项工作为在超声视频分析中开发高效、数据感知的SAM2适应流程提供了实证见解,强调了数据特性在模型适应中的关键作用。

[31] A Second-Order Attention Mechanism For Prostate Cancer Segmentation and Detection in Bi-Parametric MRI

Mateo Ortiz,Juan Olmos,Fabio Martínez

Main category: cs.CV

TL;DR: 本文提出了一种基于黎曼流形的二阶几何注意力机制(SOGA),用于引导分割网络检测临床显著前列腺癌病变,在PI-CAI和Prostate158数据集上表现出优于基线网络和现有注意力方法的性能。

  • Motivation: 当前基于双参数MRI的前列腺癌病变检测高度依赖专家主观解读,深度学习方法的性能受限于需要大量标注数据,且前列腺不同区域的病变变异性大,给准确检测带来挑战。
  • Method: 提出二阶几何注意力机制(SOGA),在黎曼流形上建模,从对称正定(SPD)表示中学习,通过跳跃连接引导专用分割网络检测csPCa病变,并集成到标准U-Net和nnU-Net骨干网络中。
  • Result: 在PI-CAI数据集上达到AP 0.37和AUC-ROC 0.83,在独立测试队列Prostate158数据集上达到AP 0.37和AUC-ROC 0.75,均优于基线网络和基于注意力的方法。
  • Conclusion: 该方法展现了强大的泛化能力和判别性学习表示,为临床显著前列腺癌病变检测提供了有效的解决方案。

[32] Sign language recognition from skeletal data using graph and recurrent neural networks

B. Mederos,J. Mejía,A. Medina-Reyes,Y. Espinosa-Almeyda,J. D. Díaz-Roman,I. Rodríguez-Mederos,M. Mejía-Carreon,F. Gonzalez-Lopez

Main category: cs.CV

TL;DR: 提出了一种基于骨架姿态数据的孤立手语手势识别方法,使用Graph-GRU时序网络建模空间和时间依赖关系,在AUTSL数据集上取得了高准确率。

  • Motivation: 利用骨架姿态数据识别手语手势,通过结合图结构的空间表示和时序建模,为手语理解提供可扩展的框架。
  • Method: 使用Graph-GRU时序网络,从视频序列中提取骨架姿态数据,同时建模空间和时间依赖关系进行分类。
  • Result: 在AUTSL数据集上训练和评估,取得了高准确率,证明了该方法的有效性。
  • Conclusion: 基于姿态驱动的方法在手语理解方面具有潜力,图结构空间表示与时序建模的结合提供了有效的识别框架。

[33] TCSA-UDA: Text-Driven Cross-Semantic Alignment for Unsupervised Domain Adaptation in Medical Image Segmentation

Lalit Maurya,Honghai Liu,Reyer Zwiggelaar

Main category: cs.CV

TL;DR: 提出了TCSA-UDA框架,利用领域不变的文本类别描述来指导视觉表示学习,通过视觉语言协方差余弦损失和原型对齐模块,显著减少了医学图像分割中的领域偏移。

  • Motivation: 解决医学图像分割中由于CT和MRI等成像模态差异导致的显著领域偏移问题,探索视觉语言表示学习在无监督领域自适应分割任务中的潜力。
  • Method: 1. 引入视觉语言协方差余弦损失,直接对齐图像编码器特征与类间文本语义关系;2. 原型对齐模块,使用高级语义原型跨领域对齐类别级像素特征分布。
  • Result: 在心脏、腹部和脑肿瘤分割基准测试中,TCSA-UDA框架显著减少了领域偏移,并持续优于最先进的UDA方法。
  • Conclusion: TCSA-UDA为将语言驱动的语义整合到领域自适应医学图像分析中建立了新范式。

[34] Position-Prior-Guided Network for System Matrix Super-Resolution in Magnetic Particle Imaging

Xuqing Geng,Lei Su,Zhongwei Bian,Zewen Sun,Jiaxuan Wen,Jie Tian,Yang Du

Main category: cs.CV

TL;DR: 本文提出在磁粒子成像系统矩阵校准中引入位置先验知识,以改进现有的深度学习超分辨率方法,减少校准时间并提高性能。

  • Motivation: 传统系统矩阵校准方法耗时且需要重复测量,现有深度学习超分辨率方法未能充分利用系统矩阵的物理先验知识(如对称位置先验)。
  • Method: 将位置先验知识整合到现有系统矩阵校准框架中,通过理论论证和实验验证,在2D和3D系统矩阵超分辨率方法中应用位置先验。
  • Result: 实验证明,引入位置先验知识能够有效提升系统矩阵校准的性能。
  • Conclusion: 位置先验知识的整合为磁粒子成像系统矩阵校准提供了一种更高效的方法,充分利用了物理先验信息。

[35] MACMD: Multi-dilated Contextual Attention and Channel Mixer Decoding for Medical Image Segmentation

Lalit Maurya,Honghai Liu,Reyer Zwiggelaar

Main category: cs.CV

TL;DR: 提出MACMD解码器,通过增强注意力机制和通道混合来解决医学图像分割中局部细节丢失和全局上下文整合不足的问题,在多个分割任务中优于现有方法。

  • Motivation: 医学图像分割面临解剖结构变化的挑战。CNN擅长捕捉局部特征但难以建模长距离依赖,Transformer能处理长距离依赖但缺乏局部上下文信息。现有编码器-解码器架构存在浅层细节丢失和编码器-解码器间局部细节与全局上下文整合效率低的问题。
  • Method: 提出MACMD解码器,通过分层扩张卷积、注意力驱动调制和跨通道混合模块来增强注意力机制,促进编码器和解码器阶段间的通道混合,在保留局部上下文细节的同时捕获长距离依赖。
  • Result: 在二元和多器官分割任务中使用多个Transformer编码器进行评估,结果表明该方法在Dice分数和计算效率方面优于最先进方法。
  • Conclusion: MACMD解码器通过改进的注意力机制和通道混合设计,实现了精确和鲁棒的医学图像分割性能,在保留局部细节和捕获全局上下文方面表现出色。

[36] LRANet++: Low-Rank Approximation Network for Accurate and Efficient Text Spotting

Yuchen Su,Zhineng Chen,Yongkun Du,Zuxuan Wu,Hongtao Xie,Yu-Gang Jiang

Main category: cs.CV

TL;DR: LRANet++是一个端到端文本检测识别框架,通过低秩逼近的参数化文本形状方法和三重分配检测头,实现了对任意形状文本的准确高效检测识别。

  • Motivation: 现有端到端文本检测识别方法在任意形状文本处理上存在瓶颈,主要问题是缺乏可靠高效的文本检测方法。
  • Method: 提出基于低秩逼近的数据驱动文本形状参数化方法,使用ℓ1-范数重构文本形状;采用三重分配检测头架构,包含深度稀疏分支、超轻量稀疏分支和密集分支;将增强的检测模块与轻量识别分支集成。
  • Result: 在多个挑战性基准测试中表现出优于现有最先进方法的性能。
  • Conclusion: LRANet++能够准确高效地检测识别任意形状文本,在精度和效率方面都取得了显著提升。

[37] Hilbert-Guided Block-Sparse Local Attention

Yunge Li,Lanyu Xu

Main category: cs.CV

TL;DR: 提出基于希尔伯特曲线的局部注意力方法,通过重新排列图像token序列提高块稀疏性,结合块稀疏核显著加速2D局部注意力,窗口注意力和滑动注意力分别加速约4倍和18倍。

  • Motivation: 全局自注意力的二次计算和内存成本限制了其在高分辨率图像中的应用,而传统局部注意力模式由于token在1D序列中不连续,难以获得显著的加速效果。
  • Method: 使用希尔伯特曲线重新排序图像token,在重排序后的1D序列上构建窗口和邻域,结合现有块稀疏核提高2D局部注意力的效率。
  • Result: Hilbert窗口注意力和Hilbert滑动注意力分别加速约4倍和18倍,Hilbert窗口变换器和Hilbert邻域变换器在端到端实验中实现了显著加速且精度损失最小。
  • Conclusion: 希尔伯特引导的局部注意力与块稀疏核结合,为图像2D局部注意力提供了一种通用且实用的效率提升方法。

[38] TYrPPG: Uncomplicated and Enhanced Learning Capability rPPG for Remote Heart Rate Estimation

Taixi Chen,Yiu-ming Cheung

Main category: cs.CV

TL;DR: 提出了一种基于Mambaout模块的新型rPPG算法TYrPPG,用于从RGB视频中远程提取心率信号,在计算效率和性能上优于现有的基于transformer的模型。

  • Motivation: 现有rPPG模型通常基于transformer模块,计算效率较低。Mamba模型在NLP任务中表现出高效性能,但其核心SSM模块在视觉任务中被证明不必要,因此希望验证基于Mambaout模块远程学习心率的可行性。
  • Method: 提出TYrPPG算法,包含创新的门控视频理解块(GVB),结合2D-CNN和3D-CNN增强视频分析能力,并设计了综合监督损失函数(CSL)及其弱监督变体来提升模型学习能力。
  • Result: 实验表明TYrPPG在常用数据集上达到了最先进的性能,在远程心率估计方面显示出前景和优势。
  • Conclusion: 基于Mambaout模块的TYrPPG算法在远程心率估计任务中具有优越性能,验证了该方法的可行性。

[39] Understanding Cross Task Generalization in Handwriting-Based Alzheimer's Screening via Vision Language Adaptation

Changqing Gong,Huafeng Qin,Mounim A. El-Yacoubi

Main category: cs.CV

TL;DR: 提出轻量级跨层融合适配器框架,利用CLIP模型实现基于笔迹的阿尔茨海默病筛查,无需提示即可进行高效零样本推理,并系统研究跨任务泛化能力

  • Motivation: 阿尔茨海默病早期检测至关重要,笔迹变化提供了非侵入性检测窗口。现有研究未系统考察任务类型对诊断性能的影响,且基于视觉语言模型的笔迹疾病检测尚未充分探索
  • Method: 引入跨层融合适配器框架,在CLIP视觉编码器中植入多级融合适配器,逐步对齐笔迹特定医学线索的表征,实现无提示的零样本推理
  • Result: 系统研究了跨任务泛化能力,揭示了哪些任务类型和书写模式最有效区分AD,并识别了有助于早期识别的特征性笔画模式和任务级因素
  • Conclusion: 该框架为基于笔迹的认知评估提供了诊断见解和基准,展示了在笔迹分析中应用大型视觉语言模型的潜力

[40] Enhancing Diffusion Model Guidance through Calibration and Regularization

Seyed Alireza Javid,Amirhossein Bagheri,Nuria González-Prelcic

Main category: cs.CV

TL;DR: 本文提出了两种改进分类器引导扩散模型的方法:基于平滑ECE的可微校准目标和增强的采样引导方法,解决了早期去噪步骤中分类器预测过于自信导致引导梯度消失的问题。

  • Motivation: 分类器引导扩散模型在条件图像生成中表现强大,但在早期去噪步骤中分类器预测过于自信,导致引导梯度消失,影响生成质量。
  • Method: 1) 提出基于平滑ECE的可微校准目标,通过最小化微调改善分类器校准;2) 开发增强采样引导方法,包括批量重加权倾斜采样、自适应熵正则化采样和基于f-散度的采样策略。
  • Result: 在ImageNet 128x128上,使用ResNet-101分类器的f-散度正则化引导方法实现了2.13的FID,优于现有分类器引导扩散方法,且无需重新训练扩散模型。
  • Conclusion: 原则性校准和散度感知采样为分类器引导扩散提供了实用有效的改进,显著提升了生成质量。

[41] Point Cloud Segmentation of Integrated Circuits Package Substrates Surface Defects Using Causal Inference: Dataset Construction and Methodology

Bingyang Guo,Qiang Zuo,Ruiyun Yu

Main category: cs.CV

TL;DR: 构建了高质量陶瓷封装基板表面缺陷3D分割数据集CPS3D-Seg,并提出基于因果推理的CINet分割方法,显著优于现有算法。

  • Motivation: 陶瓷封装基板在集成电路封装中至关重要,但其复杂结构和微小缺陷检测面临挑战,缺乏公开数据集阻碍了相关研究发展。
  • Method: 构建CPS3D-Seg数据集(1300个点云样本,20个产品类别),并提出基于因果推理的CINet方法,通过结构精炼和质量评估模块量化点云中的潜在混淆因素。
  • Result: CINet在mIoU和准确率上显著优于现有最先进的点云分割算法。
  • Conclusion: CPS3D-Seg数据集填补了工业3D缺陷检测领域的空白,CINet方法为点云分割提供了新的因果推理视角,具有重要应用价值。

[42] CGCE: Classifier-Guided Concept Erasure in Generative Models

Viet Nguyen,Vishal M. Patel

Main category: cs.CV

TL;DR: CGCE是一个高效的即插即用框架,通过轻量级分类器检测和优化包含不良概念的文本嵌入,实现多概念擦除,在不改变原始模型权重的情况下提供鲁棒的概念擦除。

  • Motivation: 现有概念擦除方法容易受到对抗攻击,且鲁棒擦除会降低模型对安全概念的生成质量,需要在安全性和性能之间做出困难权衡。
  • Method: 使用在文本嵌入上运行的轻量级分类器,首先检测然后优化包含不良概念的提示词,通过在推理时仅修改不安全嵌入来实现概念擦除。
  • Result: CGCE在广泛的红队攻击下实现了最先进的鲁棒性,同时保持了高生成效用,在安全性和性能之间取得了优越的平衡。
  • Conclusion: CGCE为安全生成式AI提供了一个实用有效的解决方案,可成功应用于各种现代T2I和T2V模型。

[43] Light-Field Dataset for Disparity Based Depth Estimation

Suresh Nehra,Aupendu Kar,Jayanta Mukhopadhyay,Prabir Kumar Biswas

Main category: cs.CV

TL;DR: 提出了一个公开的光场图像数据集,包含285张Lytro Illum相机拍摄的真实光场图像和13张合成光场图像,用于支持基于视差的光场深度估计算法开发。

  • Motivation: 光场相机通过微透镜阵列捕获空间和角度信息,可用于3D场景深度估计,但现有数据集不足,且相机焦距位置对深度估计有重要影响。
  • Method: 使用Lytro Illum光场相机采集285张真实光场图像,生成13张合成光场图像,并创建真实和合成的立体光场数据集。
  • Result: 构建了一个包含真实和合成光场图像的公开数据集,展示了焦距位置对3D点视差的影响,并指出了现有数据集的局限性。
  • Conclusion: 该数据集为光场深度估计算法的开发提供了重要资源,解决了现有数据集不足的问题,并强调了焦距位置在深度估计中的关键作用。

[44] MoEGCL: Mixture of Ego-Graphs Contrastive Representation Learning for Multi-View Clustering

Jian Zhu,Xin Zou,Jun Sun,Cheng Luo,Lei Liu,Lingfang Zeng,Ning Zhang,Bian Wu,Chang Tang,Lirong Dai

Main category: cs.CV

TL;DR: 提出MoEGCL方法,通过样本级的自我图细粒度融合和对比学习,解决多视图聚类中图融合粒度粗糙的问题,在深度多视图聚类任务中达到最先进效果。

  • Motivation: 现有多视图聚类方法存在图融合粒度粗糙的问题,通常只在视图级别进行加权融合,缺乏细粒度的样本级融合策略。
  • Method: 提出MoEGCL方法,包含两个模块:1) MoEGF模块构建自我图并使用专家混合网络实现样本级细粒度融合;2) EGCL模块通过对比学习对齐融合表示与视图特定表示。
  • Result: 大量实验表明MoEGCL在深度多视图聚类任务中取得了最先进的性能。
  • Conclusion: MoEGCL通过样本级的细粒度图融合和对比学习,有效提升了多视图聚类的性能,解决了现有方法融合粒度粗糙的问题。

[45] Towards Frequency-Adaptive Learning for SAR Despeckling

Ziqing Ma,Chang Yang,Zhichang Guo,Yao Li

Main category: cs.CV

TL;DR: 提出SAR-FAH模型,一种基于分治架构的频率自适应异质去斑方法,通过小波分解将图像分离到不同频率子带,针对不同频率特性设计专门子网络,有效去除SAR图像斑点噪声并保持边缘纹理。

  • Motivation: 传统深度学习方法使用单一网络处理整个SAR图像,忽略了不同空间物理特性对应的斑点统计特性差异,导致伪影、边缘模糊和纹理失真问题。
  • Method: 使用小波分解分离频率子带;对低频部分采用神经常微分方程构建连续动态系统;对高频部分使用增强U-Net结合可变形卷积;利用频率间统计差异进行针对性去噪。
  • Result: 在合成和真实SAR图像上的大量实验验证了该模型在噪声去除和结构保持方面的优越性能。
  • Conclusion: SAR-FAH模型通过频率自适应异质处理策略,有效解决了SAR图像去斑中的伪影和结构失真问题,显著提升了去斑效果。

[46] Hybrid second-order gradient histogram based global low-rank sparse regression for robust face recognition

Hongxia Li,Ying Ji,Yongxin Dong,Yuehua Feng

Main category: cs.CV

TL;DR: 本文提出了一种基于混合二阶梯度直方图的全局低秩稀疏回归模型(H2H-GLRSR),用于处理人脸识别中的遮挡和光照变化问题。

  • Motivation: 为了解决复杂遮挡和光照变化给人脸识别带来的挑战,需要开发更有效的特征描述符和回归模型。
  • Method: 首先设计了一种新型的混合二阶梯度直方图(H2H)特征描述符,然后将其与基于稀疏正则化核范数的矩阵回归(SR_NMR)相结合,并在残差矩阵上施加全局低秩约束。
  • Result: 实验结果表明,该方法在遮挡、光照变化和无约束环境等挑战性场景下,显著优于现有的基于回归的分类方法。
  • Conclusion: H2H-GLRSR模型通过结合新型特征描述符和全局低秩约束,有效提升了人脸识别在复杂条件下的性能。

[47] Open-World 3D Scene Graph Generation for Retrieval-Augmented Reasoning

Fei Yu,Quan Deng,Shengeng Tang,Yuehua Li,Lechao Cheng

Main category: cs.CV

TL;DR: 提出一个开放世界3D场景图生成的统一框架,结合检索增强推理,支持多模态探索和语言引导交互,在多个任务上展现优越性能。

  • Motivation: 解决开放世界3D场景理解中的闭词汇监督和静态标注限制问题,实现可泛化和交互式的3D场景理解。
  • Method: 集成视觉语言模型与检索式推理,包含动态场景图生成模块和检索增强推理管道,将场景图编码到向量数据库支持文本/图像条件查询。
  • Result: 在3DSSG和Replica基准测试中,在场景问答、视觉定位、实例检索和任务规划四个任务上表现出稳健的泛化能力和优越性能。
  • Conclusion: 结合开放词汇感知与检索式推理对可扩展的3D场景理解非常有效。

[48] GABFusion: Rethinking Feature Fusion for Low-Bit Quantization of Multi-Task Networks

Zhaoyang Wang,Dong Wang

Main category: cs.CV

TL;DR: 提出了GABFusion和ADA方法,通过动态平衡梯度幅度和量化友好的特征融合,解决了多任务架构在量化感知训练中的性能下降问题。

  • Motivation: 量化感知训练在多任务架构中由于任务特定特征差异和梯度冲突导致性能显著下降,需要解决这些问题以提升量化模型性能。
  • Method: 提出梯度感知平衡特征融合(GABFusion)动态平衡梯度幅度和融合任务特定特征,以及注意力分布对齐(ADA)特征级蒸馏策略。
  • Result: 在PASCAL VOC和COCO数据集上分别实现平均mAP提升约3.3%和1.6%,4位量化YOLOv5与全精度模型精度差距缩小至1.7%。
  • Conclusion: 该方法具有模块化、易集成和兼容现有QAT技术的优势,能有效提升量化模型性能而无需修改原始网络架构。

[49] Causal Tracing of Object Representations in Large Vision Language Models: Mechanistic Interpretability and Hallucination Mitigation

Qiming Li,Zekai Ye,Xiaocheng Feng,Weihong Zhong,Weitao Ma,Xiachong Feng

Main category: cs.CV

TL;DR: 提出了FCCT框架系统分析LVLMs的跨模态因果效应,发现中间层MHSAs在跨模态信息聚合中的关键作用,并基于此开发了IRI技术来增强视觉对象感知和缓解幻觉问题。

  • Motivation: 现有对大型视觉语言模型(LVLMs)的机制可解释性研究不够全面,缺乏对视觉和文本token、模型组件及全层级的系统分析,限制了改进模型输出忠实度和下游任务开发的能力。
  • Method: 引入细粒度跨模态因果追踪(FCCT)框架,系统量化视觉对象感知的因果效应,涵盖全范围视觉和文本token、三个核心模型组件(MHSA、FFNs、隐藏状态)及所有解码器层。
  • Result: 首次证明中间层最后一个token的MHSAs在跨模态信息聚合中起关键作用,FFNs展示视觉对象表示存储和传输的三阶段层级进展。基于此提出的IRI技术在五个基准测试中取得SOTA性能。
  • Conclusion: FCCT框架提供了对LVLMs机制的新理解,IRI方法通过精确干预特定组件和层的跨模态表示,有效增强感知能力并缓解幻觉,同时保持推理速度和其他基础性能。

[50] CoMA: Complementary Masking and Hierarchical Dynamic Multi-Window Self-Attention in a Unified Pre-training Framework

Jiaxuan Li,Qing Xu,Xiangjian He,Ziyu Liu,Chang Xing,Zhen Chen,Daokun Zhang,Rong Qu,Chang Wen Chen

Main category: cs.CV

TL;DR: CoMA采用互补掩码策略确保所有像素均匀采样,结合DyViT的动态多窗口自注意力机制,在仅需12%预训练周期的情况下达到MAE性能,同时减少10%每周期训练时间。

  • Motivation: MAE及其变体采用随机掩码需要更多预训练周期,且ViT在MAE中存在参数使用效率低的问题。
  • Method: 提出互补掩码自编码器(CoMA)确保像素均匀采样,以及分层视觉变换器DyViT采用动态多窗口自注意力机制。
  • Result: 在ImageNet-1K上预训练,CoMA+DyViT仅需12%预训练周期即可匹配MAE性能,每周期训练时间减少10%。
  • Conclusion: CoMA和DyViT的组合显著提升了预训练效率和模型适应性,实现了更有效的特征学习。

[51] AD-DAE: Unsupervised Modeling of Longitudinal Alzheimer's Disease Progression with Diffusion Auto-Encoder

Ayantika Das,Arunima Sarkar,Keerthi Ram,Mohanasankar Sivaprakasam

Main category: cs.CV

TL;DR: 提出了一种基于条件化扩散自编码器的框架,用于从基线图像生成疾病进展图像,无需受试者特定的纵向监督。

  • Motivation: 现有生成建模方法在捕捉疾病进展时对分布学习施加约束,导致潜在空间可控性有限,需要显式的纵向图像监督。
  • Method: 使用扩散自编码器形成紧凑的潜在空间,通过限制表示偏移到子空间来分离进展相关因素与身份保留组件,并与进展属性隐式关联。
  • Result: 在阿尔茨海默病数据集上通过图像质量指标、体积进展分析和下游分类验证了生成效果。
  • Conclusion: 该方法在阿尔茨海默病进展建模和纵向图像生成方面表现出有效性。

[52] Interaction-Centric Knowledge Infusion and Transfer for Open-Vocabulary Scene Graph Generation

Lin Li,Chuhan Zhang,Dong Zhang,Chong Sun,Chen Li,Long Chen

Main category: cs.CV

TL;DR: ACC是一个面向交互的端到端开放词汇场景图生成框架,通过双向交互提示和交互引导的知识蒸馏来解决传统方法中交互建模不足的问题。

  • Motivation: 现有的OVSGG方法缺乏显式的交互建模,难以区分同一类别中交互和非交互的实例,导致知识注入阶段产生噪声伪监督,知识转移阶段出现模糊查询匹配。
  • Method: 提出交互中心的知识注入(双向交互提示生成鲁棒伪监督)和交互中心的知识转移(交互引导查询选择优先配对交互对象,集成交互一致知识蒸馏)。
  • Result: 在三个基准测试上的广泛实验结果表明,ACC实现了最先进的性能。
  • Conclusion: 交互中心范式在现实世界应用中具有巨大潜力,ACC框架有效解决了OVSGG中的交互建模问题。

[53] Global Multiple Extraction Network for Low-Resolution Facial Expression Recognition

Jingyi Shi

Main category: cs.CV

TL;DR: 提出GME-Net网络用于低分辨率面部表情识别,通过混合注意力局部特征提取和多尺度全局特征提取模块,解决了低分辨率图像细节缺失和全局建模弱的问题。

  • Motivation: 现有面部表情识别算法在高分辨率图像上表现良好,但在低分辨率图像上性能下降,主要因为低分辨率图像缺乏细节信息且现有方法全局建模能力弱。
  • Method: 提出GME-Net网络,包含:1)基于混合注意力的局部特征提取模块,通过注意力相似性知识蒸馏从高分辨率网络学习图像细节;2)多尺度全局特征提取模块,采用准对称结构减轻局部噪声影响并捕获全局特征。
  • Result: 在多个广泛使用的数据集上进行实验,证明GME-Net能更好地识别低分辨率面部表情,性能优于现有解决方案。
  • Conclusion: GME-Net能够提取与表情相关的判别性特征,有效解决了低分辨率面部表情识别问题。

[54] Polymap: generating high definition map based on rasterized polygons

Shiyu Gao,Hao Jiang

Main category: cs.CV

TL;DR: 本文提出了一种基于实例分割的框架,将道路元素重新解释为栅格化多边形,通过端到端的Transformer生成实例掩码,再使用Potrace后处理模块输出矢量化地图元素,以提高高精地图感知的泛化能力。

  • Motivation: 现有基于检测的高精地图构建方法(如Maptr系列)虽然能实时构建,但泛化能力不足,限制了在自动标注系统中的应用。
  • Method: 将道路元素重新解释为栅格化多边形,采用基于实例分割的Transformer端到端生成实例掩码,然后通过Potrace后处理模块转换为矢量化地图元素。
  • Result: 在Nuscene数据集上的定量结果验证了该方法的有效性和泛化能力。
  • Conclusion: 基于实例分割的方法相比检测方法具有更好的泛化性能,适用于高精地图感知任务。

[55] Reperio-rPPG: Relational Temporal Graph Neural Networks for Periodicity Learning in Remote Physiological Measurement

Ba-Thinh Nguyen,Thach-Ha Ngoc Pham,Hoang-Long Duc Nguyen,Thi-Duyen Ngo,Thanh-Ha Le

Main category: cs.CV

TL;DR: 提出了Reperio-rPPG框架,结合关系卷积网络和图变换器来捕捉生理信号的周期性特征,并通过CutMix增强提升泛化能力,在多个基准数据集上达到最先进性能。

  • Motivation: 现有的远程光电容积描记术(rPPG)方法往往忽视或未能充分建模生理信号的内在周期性特征,限制了在真实世界条件下捕捉细粒度时间动态的能力。
  • Method: 提出了Reperio-rPPG框架,策略性地整合关系卷积网络和图变换器来有效捕捉生理信号的周期性结构,并引入定制的CutMix数据增强来提升模型泛化性。
  • Result: 在PURE、UBFC-rPPG和MMPD三个基准数据集上的广泛实验表明,Reperio-rPPG不仅达到了最先进的性能,而且在各种运动(静止、旋转、说话、行走)和光照条件(自然光、低LED、高LED)下表现出显著的鲁棒性。
  • Conclusion: Reperio-rPPG通过有效建模生理信号的周期性特征,显著提升了远程生理信号测量的准确性和鲁棒性,为rPPG技术在真实世界应用中的推广提供了有力支持。

[56] U(PM)2:Unsupervised polygon matching with pre-trained models for challenging stereo images

Chang Li,Xingtao Peng

Main category: cs.CV

TL;DR: 提出U(PM)^2:一种无需训练的低成本无监督多边形匹配方法,结合预训练模型和手工特征,在ScanNet和SceneFlow数据集上实现最先进精度。

  • Motivation: 解决立体图像匹配中多边形匹配面临的挑战:视差不连续性、尺度变化、训练需求和泛化能力。
  • Method: 1) 使用预训练SAM模型获取掩码;2) 将掩码转换为多边形和图形结构;3) 基于双向金字塔策略和预训练LoFTR的全局匹配器;4) 使用匈牙利算法的局部匹配器处理局部视差不连续性和拓扑不一致性。
  • Result: 在ScanNet和SceneFlow数据集上达到最先进精度,具有竞争性速度和满意的泛化性能,且无需任何训练。
  • Conclusion: U(PM)^2是一种有效的低成本和无需训练的多边形匹配解决方案,在精度、速度和泛化方面表现优异。

[57] CSGaze: Context-aware Social Gaze Prediction

Surbhi Madan,Shreya Ghosh,Ramanathan Subramanian,Abhinav Dhall,Tom Gedeon

Main category: cs.CV

TL;DR: CSGaze是一个基于上下文的多模态方法,利用面部和场景信息来预测对话中的社交注视模式,通过注意力机制提升性能,并在多个数据集上表现出色。

  • Motivation: 研究如何结合上下文线索、视觉场景和面部信息来预测和解释对话互动中的社交注视模式,因为注视能反映注意力焦点、社交参与度和信心水平。
  • Method: 提出CSGaze模型,使用面部和场景信息作为互补输入,采用以主要说话者为中心的细粒度注意力机制来建模社交注视动态。
  • Result: CSGaze在GP-Static、UCO-LAEO和AVA-LAEO数据集上表现与最先进方法相当,生成的注意力分数提供了模型决策的可解释性,并在开放数据集上展示了良好的泛化能力。
  • Conclusion: 上下文线索在提升社交注视预测中发挥重要作用,CSGaze模型具有鲁棒性和良好的泛化性能。

[58] Adaptive Agent Selection and Interaction Network for Image-to-point cloud Registration

Zhixin Cheng,Xiaotian Yin,Jiacheng Deng,Bohao Liao,Yujia Chen,Xu Zhou,Baoqun Yin,Tianzhu Zhang

Main category: cs.CV

TL;DR: 提出了一种新颖的跨模态图像到点云配准框架,包含迭代代理选择模块和可靠代理交互模块,通过强化学习选择可靠代理并指导跨模态交互,在RGB-D Scenes v2和7-Scenes基准测试中达到最先进性能。

  • Motivation: 现有的无检测跨模态配准方法在挑战性条件下容易受到噪声干扰,导致相似性计算错误和对应关系不准确,且缺乏有效选择跨模态信息表示的设计,限制了配准的鲁棒性和准确性。
  • Method: 提出包含两个关键模块的框架:1)迭代代理选择模块通过相位图增强结构特征感知,并运用强化学习原理高效选择可靠代理;2)可靠代理交互模块利用选定的代理指导跨模态交互,有效减少误匹配。
  • Result: 在RGB-D Scenes v2和7-Scenes基准测试上的广泛实验表明,该方法始终达到最先进的性能水平。
  • Conclusion: 所提出的跨模态配准框架通过迭代代理选择和可靠代理交互,有效解决了噪声干扰和跨模态表示选择问题,显著提升了配准的鲁棒性和准确性。

[59] Commonality in Few: Few-Shot Multimodal Anomaly Detection via Hypergraph-Enhanced Memory

Yuxuan Lin,Hanjing Yan,Xuan Tong,Yang Chang,Huanzhen Wang,Ziheng Zhou,Shuyong Gao,Yan Wang,Wenqiang Zhang

Main category: cs.CV

TL;DR: 提出基于结构共性的少样本多模态工业异常检测方法CIF,通过超图提取训练样本的结构共性,使用记忆库存储结构先验,在少样本设置下优于现有方法。

  • Motivation: 少样本多模态工业异常检测是重要但未被充分探索的任务,在少样本设置下训练样本不足难以覆盖测试样本的多样模式,需要从少量训练样本中提取结构共性来解决这一问题。
  • Method: 使用超图建模高阶相关性来捕捉训练样本的结构共性,设计语义感知超图构建模块、免训练超图消息传递模块和超边引导记忆搜索模块,通过结构信息辅助记忆搜索过程。
  • Result: 在MVTec 3D-AD和Eyecandies数据集上的实验结果表明,该方法在少样本设置下优于最先进的方法。
  • Conclusion: 提出的CIF方法通过提取结构共性有效解决了少样本工业异常检测问题,证明了结构信息在少样本设置下的重要性。

[60] Adapted Foundation Models for Breast MRI Triaging in Contrast-Enhanced and Non-Contrast Enhanced Protocols

Tri-Thien Nguyen,Lorenz A. Kapsner,Tobias Hepp,Shirin Heidarikahkesh,Hannes Schreiter,Luise Brock,Dominika Skwierawska,Dominique Hadler,Julian Hossbach,Evelyn Wenkel,Sabine Ohlmeyer,Frederik B. Laun,Andrzej Liebert,Andreas Maier,Michael Uder,Sebastian Bickelhaupt

Main category: cs.CV

TL;DR: 基于DINOv2的医学切片变换器(MST)在乳腺MRI中用于排除BI-RADS≥4的显著发现,在97.5%灵敏度下,对比增强和非对比增强MRI分别达到19%和17%的特异性。

  • Motivation: 乳腺MRI解读耗时,需要AI辅助预筛查来排除无显著发现的病例,提高放射科医生效率。
  • Method: 使用DINOv2-based MST模型,评估四种简化协议:T1加权早期减影、扩散加权成像、DWI+T2加权、T1sub+T2加权,采用五折交叉验证和AUC分析。
  • Result: T1sub+T2w协议AUC为0.77±0.04,在97.5%灵敏度下特异性达19%±7%;漏诊病灶平均直径<10mm,主要为非肿块强化;外部验证AUC为0.77。
  • Conclusion: MST框架在97.5%灵敏度下能正确排除无BI-RADS≥4的病例,但临床实施前需要进一步研究。

[61] DiA-gnostic VLVAE: Disentangled Alignment-Constrained Vision Language Variational AutoEncoder for Robust Radiology Reporting with Missing Modalities

Nagur Shareef Shaik,Teja Krishna Cherukuri,Adnan Masood,Dong Hye Ye

Main category: cs.CV

TL;DR: 提出了DiA-gnostic VLVAE框架,通过解耦对齐实现稳健的放射学报告生成,解决了临床数据中模态缺失和特征纠缠的问题。

  • Motivation: 当前自动化方法依赖资源密集型大语言模型或静态知识图谱,难以处理真实临床数据中的模态缺失和特征纠缠问题,导致次优融合和临床不忠实的幻觉发现。
  • Method: 使用基于专家混合的视觉语言变分自编码器解耦共享和模态特定特征,通过约束优化目标强制潜在表示的正交性和对齐,然后使用紧凑的LLaMA-X解码器生成报告。
  • Result: 在IU X-Ray和MIMIC-CXR数据集上分别达到了0.266和0.134的BLEU@4分数,显著优于最先进模型。
  • Conclusion: DiA框架通过解耦对齐有效解决了临床数据中的模态缺失和特征纠缠问题,实现了稳健的放射学报告生成。

[62] Runtime Safety Monitoring of Deep Neural Networks for Perception: A Survey

Albert Schotschneider,Svetlana Pavlitska,J. Marius Zöllner

Main category: cs.CV

TL;DR: 这篇论文是关于深度神经网络运行时安全监控方法的综述,重点研究在不修改DNN本身的情况下,通过监控输入、内部表示和输出来检测各种安全问题。

  • Motivation: 深度神经网络在安全关键应用中广泛使用,但它们容易受到泛化错误、分布外输入和对抗攻击等安全问题的影响,可能导致危险故障。
  • Method: 将现有方法分为三类:监控输入、监控内部表示和监控输出,并对每个类别的最新技术进行分析和评估。
  • Result: 提供了对运行时安全监控方法的全面概述,分析了各种方法的优缺点,并将方法映射到它们解决的安全问题上。
  • Conclusion: 强调了该领域的开放挑战和未来研究方向,为DNN在安全关键应用中的可靠部署提供了重要参考。

[63] A Dual-Mode ViT-Conditioned Diffusion Framework with an Adaptive Conditioning Bridge for Breast Cancer Segmentation

Prateek Singh,Moumita Dholey,P. K. Vinod

Main category: cs.CV

TL;DR: 提出了一种结合ViT编码器和增强UNet的条件去噪扩散模型,用于乳腺超声图像病灶分割,通过自适应条件桥、拓扑去噪一致性损失和双头架构实现最先进的分割性能。

  • Motivation: 乳腺超声图像存在对比度低、斑点噪声和边界模糊等问题,传统卷积架构难以捕获足够的全局上下文信息,导致分割结果在解剖学上不一致。
  • Method: 使用ViT编码器提取全局特征,增强UNet作为生成解码器,引入自适应条件桥实现多尺度语义特征融合,拓扑去噪一致性损失正则化训练,双头架构利用去噪目标作为正则化器。
  • Result: 在公共乳腺超声数据集上达到最先进水平:BUSI数据集Dice分数0.96,BrEaST数据集0.90,BUS-UCLM数据集0.97。
  • Conclusion: 该框架不仅实现了高精度分割,还产生了解剖学上合理的分割结果,消融研究验证了各组件对性能的关键作用。

[64] Exploring Category-level Articulated Object Pose Tracking on SE(3) Manifolds

Xianhui Meng,Yukang Huo,Li Zhang,Liu Liu,Haonan Jiang,Yan Zhong,Pingrui Zhang,Cewu Lu,Jun Liu

Main category: cs.CV

TL;DR: PPF-Tracker是一个基于点对特征的铰接物体姿态跟踪框架,通过在SE(3)李群空间进行准正则化,利用SE(3)不变性预测姿态投票参数,并引入关节轴语义信息施加统一运动学约束。

  • Motivation: 铰接物体在日常生活中和机器人操作任务中普遍存在,但与刚性物体相比,由于固有的运动学约束,铰接物体的姿态跟踪仍然是一个探索不足的问题。
  • Method: 提出点对特征姿态跟踪框架:1)在SE(3)李群空间对点云进行准正则化;2)使用点对特征建模铰接物体,利用SE(3)不变性预测姿态投票参数;3)引入关节轴语义信息施加统一运动学约束。
  • Result: 在合成数据集和真实场景中系统评估,PPF-Tracker在多样化和挑战性环境中表现出强大的泛化能力,在多帧铰接物体姿态跟踪中展现出有效性和鲁棒性。
  • Conclusion: 这项工作可以促进机器人学、具身智能和增强现实领域的进展。代码已开源。

[65] MALeR: Improving Compositional Fidelity in Layout-Guided Generation

Shivank Saxena,Dhruv Srivastava,Makarand Tapaswi

Main category: cs.CV

TL;DR: MALeR是一种解决文本到图像生成中多主体组合场景挑战的方法,通过布局引导和属性绑定机制,防止主体出现在布局外、保持分布内生成,并避免属性泄漏。

  • Motivation: 当前文本到图像模型在多主体和属性组合场景中存在挑战:主体出现在布局外、生成图像超出分布范围包含不自然伪影、属性在主体间泄漏导致视觉输出错误。
  • Method: 提出MALeR方法,基于文本提示和对应布局,防止主体出现在给定布局外同时保持分布内生成;提出掩码属性感知绑定机制防止属性泄漏,实现多属性主体的准确渲染。
  • Result: 定性和定量评估表明,该方法在组合准确性、生成一致性和属性绑定方面优于先前工作,特别擅长生成具有多个主体且每个主体具有多个属性的场景图像。
  • Conclusion: MALeR有效解决了组合场景中的关键挑战,在多主体多属性图像生成方面表现出色。

[66] How Reasoning Influences Intersectional Biases in Vision Language Models

Adit Desai,Sudipta Roy,Mohna Chakraborty

Main category: cs.CV

TL;DR: 分析了5个开源视觉语言模型在职业预测任务中的社会偏见,发现其推理模式存在系统性偏见,导致交叉性差异

  • Motivation: 视觉语言模型的训练数据往往编码了社会偏见,这些偏见会在输出中体现。与人类通过上下文和社会线索理解图像不同,VLM通过统计关联处理图像,导致推理与人类推理存在差异
  • Method: 在FairFace数据集上对5个开源VLM进行职业预测任务的系统性分析,涵盖32种职业和3种不同的提示风格,同时获取预测结果和推理过程
  • Result: 研究发现偏见推理模式系统性地导致了交叉性差异,揭示了VLM推理与人类价值观的不一致
  • Conclusion: 在VLM部署到下游任务之前,需要将其推理与人类价值观对齐

[67] Distributed Deep Learning for Medical Image Denoising with Data Obfuscation

Sulaimon Oyeniyi Adebayo,Ayaz H. Khan

Main category: cs.CV

TL;DR: 本研究探索了使用分布式深度学习对胸部X光图像进行去噪,采用U-Net和U-Net++架构,通过优化多GPU训练策略显著减少训练时间,同时保持竞争性去噪性能。

  • Motivation: 医学图像去噪对于提高图像质量同时最小化敏感信息暴露至关重要,特别是在处理大规模临床数据集时。
  • Method: 使用U-Net和U-Net++架构,在单GPU、标准多GPU和优化多GPU训练配置下实现分布式深度学习,采用PyTorch的DistributedDataParallel和自动混合精度技术。
  • Result: U-Net++在PSNR和SSIM指标上表现更优,但在LPIPS指标上略逊于U-Net。优化训练流程使训练时间减少60%以上,比标准DataParallel快40%以上,仅有轻微精度损失。
  • Conclusion: 该研究证明了结合架构设计、轻量级混淆和先进分布式训练策略在医学图像处理中的实用可行性,可加速和增强真实临床和研究环境中的处理流程。

[68] One-Shot Knowledge Transfer for Scalable Person Re-Identification

Longhua Li,Lei Qi,Xin Geng

Main category: cs.CV

TL;DR: 提出OSKT方法,通过一次性知识转移解决多尺寸模型压缩的重复计算问题

  • Motivation: 边缘计算中ReID需要不同尺寸模型适应不同资源条件,传统压缩方法需要为每个学生模型单独计算,导致重复繁琐的计算
  • Method: 提出OSKT方法,将教师模型知识整合到中间载体权重链中,可根据资源约束扩展至目标模型尺寸而无需额外计算
  • Result: OSKT显著优于现有压缩方法,且具有一次性知识转移优势
  • Conclusion: OSKT为边缘计算ReID提供高效的多尺寸模型压缩方案,消除频繁计算需求

[69] MiVID: Multi-Strategic Self-Supervision for Video Frame Interpolation using Diffusion Model

Priyansh Srivastava,Romit Chatterjee,Abir Sen,Aradhana Behura,Ratnakar Dash

Main category: cs.CV

TL;DR: MiVID是一个轻量级的自监督扩散模型,用于视频帧插值,无需显式运动估计或高帧率监督,在低资源条件下实现竞争性性能。

  • Motivation: 传统视频帧插值方法依赖光流或密集标注,在处理遮挡、域偏移和模糊运动时存在困难,需要开发不依赖显式运动估计的自监督方法。
  • Method: 结合3D U-Net主干网络和transformer时序注意力,采用混合掩码机制模拟遮挡和运动不确定性,使用余弦渐进掩码和自适应损失调度进行训练。
  • Result: 在UCF101-7和DAVIS-7数据集上评估,仅用CPU训练50个周期即达到最优结果,性能与多个监督基线方法相当。
  • Conclusion: 自监督扩散先验在时间一致性帧合成中具有强大潜力,为可访问和可泛化的视频帧插值系统提供了可扩展路径。

[70] Towards Implicit Aggregation: Robust Image Representation for Place Recognition in the Transformer Era

Feng Lu,Tong Jin,Canming Ye,Yunpeng Liu,Xiangyuan Lan,Chun Yuan

Main category: cs.CV

TL;DR: 本文提出在transformer时代无需专用聚合器,仅通过主干网络即可获得鲁棒的全局描述符。通过引入可学习的聚合token,利用自注意力机制隐式聚合信息,在多个VPR数据集上超越现有方法。

  • Motivation: 传统的VPR方法采用主干网络加聚合器的范式,但作者认为在transformer时代专用聚合器不再必要,可以通过更简单的方式获得鲁棒的全局描述符。
  • Method: 引入可学习的聚合token,将其与图像块token一起输入到特定transformer块中,通过自注意力机制隐式聚合信息,最后仅使用聚合token作为全局表示。
  • Result: 在多个VPR数据集上超越了最先进方法,具有更高效率,并在MSLS挑战排行榜上排名第一。
  • Conclusion: 在transformer时代,无需专用聚合器即可获得鲁棒的全局描述符,提出的隐式聚合方法简单有效。

[71] S2ML: Spatio-Spectral Mutual Learning for Depth Completion

Zihui Zhao,Yifei Zhang,Zheng Wang,Yang Li,Kui Jiang,Zihan Geng,Chia-Wen Lin

Main category: cs.CV

TL;DR: 提出S2ML框架,通过空间域和频率域的相互学习来解决深度图像补全问题,在NYU-Depth V2和SUN RGB-D数据集上优于现有方法。

  • Motivation: RGB-D相机捕获的原始深度图像常因弱反射、边界阴影和伪影导致深度值不完整,现有方法在图像域进行深度补全但忽略了原始深度图像的物理特性。
  • Method: 提出空间-频谱相互学习框架(S2ML),考虑振幅和相位谱的不同特性设计专用频谱融合模块,在统一嵌入空间中计算空间域和频率域特征的局部和全局相关性。
  • Result: 在NYU-Depth V2和SUN RGB-D数据集上分别比当前最优方法CFormer提升0.828 dB和0.834 dB。
  • Conclusion: 通过逐步的相互表示和细化,网络能够充分探索互补的物理特性和先验知识,实现更准确的深度补全。

[72] StreamSTGS: Streaming Spatial and Temporal Gaussian Grids for Real-Time Free-Viewpoint Video

Zhihui Ke,Yuyang Liu,Xiaobo Zhou,Tie Qiu

Main category: cs.CV

TL;DR: StreamSTGS是一种用于实时流式自由视点视频的新表示方法,通过将3D高斯属性编码为2D图像和视频,显著压缩存储需求至170KB/帧,同时支持自适应码率控制。

  • Motivation: 解决基于3D高斯泼溅的自由视点视频方法存储需求过高(达10MB/帧)的问题,实现实时流式传输。
  • Method: 使用规范3D高斯、时间特征和变形场表示动态场景;将高斯属性编码为2D图像,时间特征编码为视频;采用滑动窗口聚合相邻时间特征学习局部运动,引入transformer引导的辅助训练模块学习全局运动。
  • Result: 在多种FVV基准测试中表现优异,平均PSNR提高1dB,平均帧大小降至170KB,支持实时流式传输和自适应码率控制。
  • Conclusion: StreamSTGS在保持竞争力的同时大幅降低了存储需求,实现了实时流式自由视点视频传输。

[73] Neodragon: Mobile Video Generation using Diffusion Transformer

Animesh Karnewar,Denis Korzhenkov,Ioannis Lelekas,Adil Karjauv,Noor Fathima,Hanwen Xiong,Vancheeswaran Vaidyanathan,Will Zeng,Rafael Esteves,Tushar Singhal,Fatih Porikli,Mohsen Ghafoorian,Amirhossein Habibian

Main category: cs.CV

TL;DR: Neodragon是一个在移动设备NPU上实现高效文本到视频生成的系统,能在6.7秒内生成2秒640x1024分辨率视频,通过文本编码器蒸馏、非对称解码器蒸馏、模型剪枝和步骤蒸馏等优化技术,大幅减少了模型参数和内存占用。

  • Motivation: 现有基于transformer的文本到视频生成模型主要针对云端部署,缺乏针对移动硬件的优化。Neodragon旨在实现高效、高保真的移动端视频合成,使AI视频创作更加民主化,摆脱对云服务的依赖。
  • Method: 采用四个关键技术:(1)文本编码器蒸馏,用0.2B DT5替换4.762B T5xxl;(2)非对称解码器蒸馏,替换编解码器;(3)基于重要性的MMDiT块剪枝;(4)步骤蒸馏减少去噪器评估次数。结合优化的SSD1B首帧生成器和QuickSRNet超分辨率。
  • Result: 实现了高度优化的移动友好模型:4.945B参数、3.5GB峰值内存使用、6.7秒端到端延迟,VBench总得分81.61,在Qualcomm Hexagon NPU上以7FPS速度生成视频。
  • Conclusion: Neodragon通过硬件特定优化实现了移动端高效文本到视频生成,为低成本、私密、设备端视频合成提供了可行方案,推动了AI视频创作的民主化。

[74] LoopExpose: An Unsupervised Framework for Arbitrary-Length Exposure Correction

Ao Li,Chen Chen,Zhenyu Wang,Tao Huang,Fangfang Wu,Weisheng Dong

Main category: cs.CV

TL;DR: 提出了一种基于伪标签的无监督曝光校正方法LoopExpose,采用嵌套循环优化策略,通过多曝光融合生成伪标签来训练校正模型,并引入反馈机制和亮度排序损失来提升性能。

  • Motivation: 监督学习方法在曝光校正领域依赖大规模标注数据集,但在实际场景中难以获取。为了解决这一限制,需要开发无监督方法。
  • Method: 提出嵌套循环优化策略:上层训练校正模型,下层通过多曝光融合生成伪标签。引入反馈机制将校正图像反馈到融合过程中优化伪标签,形成自增强学习循环。使用亮度排序损失作为自监督约束。
  • Result: 在多个基准数据集上的实验表明,LoopExpose在曝光校正和融合性能上优于现有的最先进无监督方法。
  • Conclusion: LoopExpose通过伪标签和自监督学习实现了有效的无监督曝光校正,解决了标注数据稀缺的问题,并在性能上超越了现有方法。

[75] An Artificial Intelligence-based Assistant for the Visually Impaired

Luis Marquez-Carpintero,Francisco Gomez-Donoso,Zuria Bauer,Bessie Dominguez-Dager,Alvaro Belmonte-Baeza,Mónica Pina-Navarro,Francisco Morillas-Espejo,Felix Escalona,Miguel Cazorla

Main category: cs.CV

TL;DR: AIDEN是一个基于人工智能的辅助应用,旨在通过物体识别、文本阅读和环境问答功能提升视障人士的生活质量。

  • Motivation: 视障人士在识别物体、阅读文本和导航陌生环境方面面临挑战,现有解决方案如盲文、有声读物和屏幕阅读器在某些情况下效果有限,需要更智能的辅助工具来提高他们的独立性和生活质量。
  • Method: 使用最先进的机器学习算法,包括YOLO架构和大型语言视觉助手,通过多种方法促进用户与系统的交互,以及以适当方式访问文本和视觉信息。
  • Result: AIDEN增强了用户的自主性和信息获取能力,用户反馈支持其在日常使用中的实用性感知得到改善。
  • Conclusion: AIDEN作为AI驱动的辅助应用,成功帮助视障人士更好地与环境互动,提升了他们的生活独立性和质量。

[76] Hybrid CNN-ViT Framework for Motion-Blurred Scene Text Restoration

Umar Rashid,Muhammad Arslan Arshad,Ghulam Ahmad,Muhammad Zeeshan Anjum,Rizwan Khan,Muhammad Akmal

Main category: cs.CV

TL;DR: 提出了一种结合CNN和ViT的混合深度学习框架,用于处理运动模糊场景文本图像,通过局部特征提取和全局上下文推理来恢复文本清晰度。

  • Motivation: 运动模糊严重影响场景文本图像的可读性,传统去模糊方法难以处理空间变化模糊和长距离依赖关系,需要更有效的解决方案。
  • Method: 使用CNN编码器-解码器保持结构细节,结合transformer模块通过自注意力增强全局感知,在TextOCR数据集上训练,采用复合损失函数优化。
  • Result: 在PSNR上达到32.20 dB,SSIM为0.934,模型轻量级(283万参数),平均推理时间61毫秒。
  • Conclusion: CNN-ViT混合设计在运动模糊场景文本恢复中表现出高效性和计算效率,具有实际应用价值。

[77] DiLO: Disentangled Latent Optimization for Learning Shape and Deformation in Grouped Deforming 3D Objects

Mostofa Rafid Uddin,Jana Armouti,Umong Sain,Md Asib Rahman,Xingjian Li,Min Xu

Main category: cs.CV

TL;DR: 提出了一种基于解缠潜在优化的方法,用于无监督地将分组变形3D对象参数化为形状和变形因子,通过联合优化生成器网络和特定正则化技术实现,并在下游任务中表现出色。

  • Motivation: 需要一种无监督的方法来将分组变形的3D对象分解为形状和变形因子,以支持变形传递、变形分类和可解释性分析等下游应用。
  • Method: 使用解缠潜在优化方法,联合优化生成器网络与形状和变形因子,采用特定正则化技术;第二阶段训练两个基于PoinNet的编码器网络进行高效摊销推理。
  • Result: 在3D人体、动物和面部表情数据集上的广泛实验表明,该方法在变形传递、变形分类和可解释性分析等下游任务中效果显著,与复杂度更高的现有方法相当或更优。
  • Conclusion: 该方法提供了一种简单有效的无监督解决方案,能够成功解缠3D对象的形状和变形因子,并在多个下游应用中表现出色。

[78] Latent Refinement via Flow Matching for Training-free Linear Inverse Problem Solving

Hossein Askari,Yadan Luo,Hongfu Sun,Fred Roosta

Main category: cs.CV

TL;DR: 提出了LFlow框架,利用预训练的潜在流先验解决线性逆问题,通过在潜在空间进行ODE采样和引入理论推导的后验协方差,在重建质量上优于现有方法。

  • Motivation: 当前基于流的逆问题求解器存在两个主要限制:直接在像素空间操作计算量大,以及使用先验无关的后验协方差会削弱与生成轨迹的对齐并降低后验覆盖度。
  • Method: LFlow利用流匹配的效率在潜在空间进行ODE采样,并引入从最优向量场推导的理论基础后验协方差来实现有效的流引导。
  • Result: 实验结果表明,该方法在大多数任务的重建质量上优于最先进的潜在扩散求解器。
  • Conclusion: LFlow提供了一个无需训练的高效框架,通过潜在流先验和理论推导的协方差改进了逆问题求解性能。

[79] Real-Time Bundle Adjustment for Ultra-High-Resolution UAV Imagery Using Adaptive Patch-Based Feature Tracking

Selim Ahmet Iz,Francesco Nex,Norman Kerle,Henry Meissner,Ralf Berger

Main category: cs.CV

TL;DR: 提出了一种实时处理无人机高分辨率图像的新框架,无需降采样即可进行实时束调整,适用于灾害响应等紧急应用场景。

  • Motivation: 传统束调整方法要么需要降采样图像损失细节,要么处理时间过长,无法满足灾害响应等时间关键任务的实时处理需求。
  • Method: 将每张图像划分为用户定义的区块(如150x150像素),利用无人机GNSS/IMU数据和全球数字表面模型动态跟踪这些区块,通过滑动窗口方式限制优化范围到重叠图像簇。
  • Result: 在50MP图像数据集上验证,该方法能在2秒内完成完整束调整,保持精确的相机定向和高保真度映射,无需GPU加速。
  • Conclusion: 该轻量级框架实现了无人机高分辨率图像的实时束调整,支持灾害响应、基础设施监测等应用的大面积实时制图。

[80] MambaOVSR: Multiscale Fusion with Global Motion Modeling for Chinese Opera Video Super-Resolution

Hua Chang,Xin Xu,Wei Liu,Wei Wang,Xin Yuan,Kui Jiang

Main category: cs.CV

TL;DR: 提出了MambaOVSR方法,通过Mamba-based多尺度融合网络解决中国戏曲视频时空超分辨率问题,在自建的COVC数据集上比现有SOTA方法平均提升1.86 dB PSNR。

  • Motivation: 中国戏曲视频因早期拍摄设备限制存在帧率低、分辨率低等问题,现有STVSR方法在处理戏曲特有的大幅度动作时缺乏全局建模能力,且缺乏专门的数据集。
  • Method: 提出MambaOVSR方法,包含三个核心组件:全局融合模块(GFM)通过多尺度交替扫描机制进行运动建模,多尺度协同Mamba模块(MSMM)实现不同序列长度的对齐,以及MambaVR块解决特征伪影和位置信息丢失问题。
  • Result: 在COVC数据集上的实验结果显示,MambaOVSR在PSNR指标上比现有最佳STVSR方法平均提升1.86 dB。
  • Conclusion: MambaOVSR方法有效解决了戏曲视频超分辨率问题,提出的COVC数据集和代码将公开发布,为戏曲文化遗产保护提供了有力工具。

[81] NURBGen: High-Fidelity Text-to-CAD Generation through LLM-Driven NURBS Modeling

Muhammad Usama,Mohammad Sadil Khan,Didier Stricker,Muhammad Zeshan Afzal

Main category: cs.CV

TL;DR: NURBGen是首个直接从文本生成高质量3D CAD模型的框架,使用NURBS曲面参数,通过微调大语言模型将文本转换为JSON表示,可直接转换为BRep格式。

  • Motivation: 现有文本到CAD系统要么生成网格,要么依赖稀缺的设计历史数据,无法直接生成可编辑的3D CAD模型。
  • Method: 微调大语言模型将自由文本转换为包含NURBS曲面参数的JSON表示;提出混合表示法结合未修剪NURBS和解析基元;构建partABC数据集。
  • Result: NURBGen在多样化提示上表现优异,在几何保真度和尺寸精度方面超越先前方法,经专家评估确认。
  • Conclusion: 该框架成功实现了从文本直接生成高质量可编辑CAD模型,代码和数据集将公开发布。

[82] Scene-Aware Urban Design: A Human-AI Recommendation Framework Using Co-Occurrence Embeddings and Vision-Language Models

Rodrigo Gallardo,Oz Fishman,Alexander Htet Kyaw

Main category: cs.CV

TL;DR: 提出一个人机协作的计算机视觉框架,利用生成式AI为公共空间提供微观设计干预建议,支持更持续、本地化的参与。

  • Motivation: 超越自上而下的总体规划方法,将设计选择基于日常模式和生活经验,让人们在选择和优化过程中保持控制权。
  • Method: 使用Grounding DINO和ADE20K数据集子集检测城市物体,构建共现嵌入以揭示常见空间配置,然后通过视觉语言模型分析场景图像和选定对象对,建议第三个对象来完成更复杂的城市策略。
  • Result: 系统能够检测城市物体并生成统计上可能的补充对象,用户可以从五个建议中选择,系统进一步建议第三个对象以形成更复杂的城市战术。
  • Conclusion: 该工作流程将人与AI结合,通过基于日常模式的设计建议,实现了更接地气、更持续的城市空间参与式设计。

[83] MoRA: Missing Modality Low-Rank Adaptation for Visual Recognition

Shu Zhao,Nilesh Ahuja,Tan Yu,Tianyi Shen,Vijaykrishnan Narayanan

Main category: cs.CV

TL;DR: MoRA是一种参数高效的微调方法,通过在文本和视觉编码器之间引入模态共享参数,实现双向知识转移,在模态缺失场景下显著提升性能并减少计算开销。

  • Motivation: 现实场景中常出现模态缺失问题,现有基于提示学习的方法无法有效捕捉跨模态关系且计算开销大。
  • Method: 引入模态共享参数实现跨模态交互,同时保留模态特定参数,保持跨模态交互和模态内灵活性。
  • Result: 在模态缺失场景下平均性能提升5.24%,推理时间仅为SOTA方法的25.90%,可训练参数仅为全微调的0.11%。
  • Conclusion: MoRA在模态缺失场景下实现了高效的多模态视觉识别,平衡了性能和计算效率。

[84] Temporal-Guided Visual Foundation Models for Event-Based Vision

Ruihao Xia,Junhong Cai,Luziwei Leng,Liuyi Wang,Chengju Liu,Ran Cheng,Yang Tang,Pan Zhou

Main category: cs.CV

TL;DR: 提出TGVFM框架,将视觉基础模型与时间上下文融合模块结合,用于事件相机视觉任务,在语义分割、深度估计和目标检测上实现SOTA性能

  • Motivation: 事件相机在挑战性环境中具有独特优势,但处理异步事件流仍具挑战。现有方法依赖专门架构或资源密集型训练,而利用图像数据预训练的视觉基础模型在事件视觉中的潜力尚未充分探索
  • Method: 提出TGVFM框架,包含时间上下文融合块,具有三个关键组件:长程时间注意力建模全局时间依赖、双时空注意力进行多尺度帧关联、深度特征引导机制融合语义-时间特征
  • Result: 在语义分割、深度估计和目标检测任务上分别比现有方法提升16%、21%和16%,达到SOTA性能
  • Conclusion: 这项工作通过时间推理解锁了基于图像的视觉基础模型在事件视觉中的跨模态潜力

[85] Physics-Informed Image Restoration via Progressive PDE Integration

Shamika Likhite,Santiago López-Tapia,Aggelos K. Katsaggelos

Main category: cs.CV

TL;DR: 提出了一种结合物理信息PDE动态的渐进式训练框架,通过平流-扩散方程建模特征演化,在多种先进架构上显著提升运动去模糊性能,仅增加约1%的计算开销。

  • Motivation: 运动模糊会显著降低图像质量并影响下游计算机视觉任务。现有深度学习方法难以捕捉运动模糊模式中的长距离空间依赖关系,传统卷积方法需要极深网络来建模全局空间关系,这促使需要结合物理先验来指导特征演化的替代方法。
  • Method: 提出渐进式训练框架,将物理信息PDE动态集成到最先进的恢复架构中。利用平流-扩散方程建模特征演化,自然捕捉运动模糊的方向性流动特性,同时实现原则性的全局空间建模。
  • Result: 在标准运动去模糊基准测试中,PDE增强的去模糊模型在FFTformer、NAFNet、Restormer和Stripformer四种不同架构上显著提升PSNR和SSIM,仅增加约1%的推理计算量,在感知质量上提供一致改进。
  • Conclusion: 通过基于PDE的全局层融入数学物理原理可以增强基于深度学习的图像恢复,为计算机视觉应用中物理信息神经网络设计确立了有前景的方向。

[86] Gait Recognition via Collaborating Discriminative and Generative Diffusion Models

Haijun Xiong,Bin Feng,Bang Wang,Xinggang Wang,Wenyu Liu

Main category: cs.CV

TL;DR: CoD²是一个结合扩散模型和数据分布建模能力与判别模型语义表示学习优势的步态识别框架,通过多级条件控制策略实现身份一致性和视觉细节保持。

  • Motivation: 虽然判别模型在步态识别领域取得了显著成功,但生成模型的潜力尚未充分探索。本文旨在结合扩散模型的数据分布建模能力和判别模型的语义表示学习优势,提取更鲁棒的步态特征。
  • Method: 提出多级条件控制策略:高层身份感知语义条件指导生成身份一致的步态序列,低层视觉细节(外观和运动)保持一致性。生成的序列促进判别提取器学习更全面的高层语义特征。
  • Result: 在四个数据集(SUSTech1K、CCPG、GREW、Gait3D)上的广泛实验表明,CoD²达到了最先进的性能,并能与现有判别方法无缝集成,带来一致的改进。
  • Conclusion: CoD²框架成功结合了生成和判别模型的优势,在步态识别任务中实现了卓越性能,验证了生成模型在该领域的应用潜力。

[87] AdaDrive: Self-Adaptive Slow-Fast System for Language-Grounded Autonomous Driving

Ruifei Zhang,Junlin Xie,Wei Zhang,Weikai Chen,Xiao Tan,Xiang Wan,Guanbin Li

Main category: cs.CV

TL;DR: AdaDrive是一个自适应协作的慢-快框架,通过动态确定何时以及如何让LLM参与决策,在保持实时效率的同时提升自动驾驶决策精度。

  • Motivation: 现有方法要么过于频繁地激活LLM导致计算开销过大,要么使用固定调度无法适应动态驾驶条件,需要在高级推理和实时效率之间找到平衡。
  • Method: 提出自适应激活损失函数动态决定LLM调用时机,并引入自适应融合策略根据场景复杂度和预测置信度调节LLM的连续影响程度。
  • Result: 在语言驱动的自动驾驶基准测试中,AdaDrive在驾驶精度和计算效率方面都达到了最先进的性能。
  • Conclusion: AdaDrive提供了一个灵活、上下文感知的框架,在不影响实时性能的前提下最大化决策准确性。

[88] VLDrive: Vision-Augmented Lightweight MLLMs for Efficient Language-grounded Autonomous Driving

Ruifei Zhang,Wei Zhang,Xiao Tan,Sibei Yang,Xiang Wan,Xiaonan Luo,Guanbin Li

Main category: cs.CV

TL;DR: VLDrive是一种基于轻量级多模态大语言模型的自动驾驶方法,通过视觉剪枝和特征聚合技术减少参数81%,在CARLA模拟器中实现最先进的驾驶性能。

  • Motivation: 当前基于LLM的自动驾驶方法面临两个关键挑战:视觉表示限制导致的频繁碰撞和障碍,以及LLM庞大参数带来的部署困难。
  • Method: 采用轻量级MLLM架构,通过循环一致性动态视觉剪枝和记忆增强特征聚合生成紧凑视觉标记,并提出距离解耦指令注意力机制来改进视觉-语言特征学习。
  • Result: 在CARLA模拟器中,VLDrive在闭环评估中分别在小、中、长距离上实现了15.4%、16.8%和7.6%的驾驶分数提升,同时参数从7B减少到1.3B。
  • Conclusion: VLDrive通过高效的视觉表示和轻量化设计,在显著减少参数的同时提升了自动驾驶性能,为解决LLM在自动驾驶中的部署挑战提供了有效方案。

[89] Robust Nearest Neighbour Retrieval Using Targeted Manifold Manipulation

B. Ghosh,H. Harikumar,S. Rana

Main category: cs.CV

TL;DR: TMM-NN是一种新的最近邻检索方法,通过评估样本对目标扰动的响应程度来定义邻域,而不是基于绝对几何距离。该方法使用轻量级的查询特定触发补丁来操纵特征流形,实现语义相关的邻居检索。

  • Motivation: 传统的最近邻检索依赖手动调整特征层和距离度量,存在局限性。作者希望重新定义检索概念,通过样本对目标扰动的响应程度来识别语义相关的邻居。
  • Method: 提出TMM-NN方法:1)为查询图像添加轻量级触发补丁;2)弱化地"后门"网络,使带有补丁的输入被导向虚拟类;3)通过样本被分类为虚拟类的置信度来排序候选者,实现语义相关邻居的检索。
  • Result: 鲁棒性分析和基准实验表明,这种基于触发的排序方法在噪声条件下和跨不同任务中都优于传统度量方法。
  • Conclusion: TMM-NN通过特征流形操纵重新定义了最近邻检索,提供了一种更语义化的检索方法,在噪声鲁棒性和任务适应性方面表现优异。

[90] A Mixture-of-Experts Framework with Log-Logistic Components for Survival Analysis on Histopathology Images

Ardhendu Sekhar,Vasu Soni,Keshav Aske,Shivam Madnoorkar,Pranav Jeevan,Amit Sethi

Main category: cs.CV

TL;DR: 提出一个模块化框架,通过全切片病理图像预测癌症特异性生存率,包含四个关键组件:分位数门控补丁选择、图引导聚类、分层上下文注意力以及专家驱动的混合对数逻辑分布框架。

  • Motivation: 开发一个能够从全切片病理图像中准确预测癌症特异性生存率的系统,以改善癌症预后评估。
  • Method: 使用分位数门控补丁选择来识别预后信息丰富的组织区域,图引导聚类捕获表型异质性,分层上下文注意力学习集群内和集群间交互,以及混合对数逻辑分布框架估计复杂生存分布。
  • Result: 在TCGA LUAD、TCGA KIRC和TCGA BRCA数据集上分别达到0.644、0.751和0.752的一致性指数,优于现有最先进方法。
  • Conclusion: 该模块化框架在预测癌症特异性生存率方面表现出色,为病理图像分析提供了有效的解决方案。

[91] LLM-Driven Completeness and Consistency Evaluation for Cultural Heritage Data Augmentation in Cross-Modal Retrieval

Jian Zhang,Junyi Guo,Junyi Yuan,Huanda Lu,Yanlin Zhou,Fangyu Wu,Qiufeng Wang,Dongming Lu

Main category: cs.CV

TL;DR: 提出了C³数据增强框架,通过提升LLM生成描述的完整性和一致性来增强跨模态检索性能,在文化遗产和通用数据集上达到最先进效果

  • Motivation: 文化遗产数据跨模态检索常受限于文本描述不完整或不一致,而LLM生成描述存在幻觉或缺乏视觉基础细节的问题
  • Method: C³框架包含完整性评估模块(使用视觉线索和语言模型输出评估语义覆盖)和马尔可夫决策过程监督的思维链推理(通过自适应查询控制指导一致性评估)
  • Result: 在CulTi、TimeTravel文化遗产数据集以及MSCOCO、Flickr30K通用基准测试中,C³在微调和零样本设置下均达到最先进性能
  • Conclusion: C³框架有效解决了LLM生成描述中的完整性和一致性问题,显著提升了跨模态检索性能

[92] RelightMaster: Precise Video Relighting with Multi-plane Light Images

Weikang Bian,Xiaoyu Shi,Zhaoyang Huang,Jianhong Bai,Qinghe Wang,Xintao Wang,Pengfei Wan,Kun Gai,Hongsheng Li

Main category: cs.CV

TL;DR: 提出了RelightMaster框架,通过构建RelightVideo数据集和引入多平面光图像(MPLI)视觉提示,实现精确可控的视频重照明,解决了现有文本到视频模型在光照控制方面的局限性。

  • Motivation: 现有文本到视频模型缺乏细粒度光照控制,因为文本难以描述光照细节且预训练数据中光照相关提示不足。同时,构建高质量重照明训练数据具有挑战性,真实世界可控光照数据稀缺。
  • Method: 1) 基于Unreal Engine构建RelightVideo数据集;2) 引入多平面光图像(MPLI)作为视觉提示,通过K个深度对齐平面建模3D光源位置、强度和颜色;3) 设计光图像适配器,将MPLI压缩并通过预训练视频VAE注入到视频扩散变换器(DiT)中。
  • Result: RelightMaster能够生成物理上合理的光照和阴影,同时保留原始场景内容,支持多光源场景并泛化到未见过的光照设置。
  • Conclusion: 该框架通过创新的数据集构建、视觉提示设计和模型适配方法,成功实现了精确可控的视频重照明,为视频生成和编辑提供了重要的光照控制能力。

[93] LaneDiffusion: Improving Centerline Graph Learning via Prior Injected BEV Feature Generation

Zijie Wang,Weiming Zhang,Wei Zhang,Xiao Tan,Hongxing Liu,Yaowei Wang,Guanbin Li

Main category: cs.CV

TL;DR: LaneDiffusion是一种基于扩散模型的生成式中心线图学习方法,通过在BEV特征层面生成车道先验,显著提升了中心线检测和拓扑重建的性能。

  • Motivation: 传统的确定性方法在中心线图学习中缺乏空间推理能力,难以处理被遮挡或不可见的中心线,而生成式方法在该领域尚未充分探索。
  • Method: 提出LaneDiffusion框架,包含车道先验注入模块(LPIM)和车道先验扩散模块(LPDM),在BEV特征层面使用扩散模型生成车道先验,然后解码为向量化中心线和拓扑结构。
  • Result: 在nuScenes和Argoverse2数据集上,LaneDiffusion在点级指标(GEO F1, TOPO F1, JTOPO F1, APLS, SDA)和段级指标(IoU, mAP_cf, DET_l, TOP_ll)上均显著优于现有方法,实现了最先进的性能。
  • Conclusion: LaneDiffusion为中心线图学习任务提供了生成式模型的新视角,证明了扩散模型在该领域的有效性。

[94] VideoSSR: Video Self-Supervised Reinforcement Learning

Zefeng He,Xiaoye Qu,Yafu Li,Siyuan Huang,Daizong Liu,Yu Cheng

Main category: cs.CV

TL;DR: 该论文提出了VideoSSR框架,通过自监督方式从视频中生成可验证的训练数据,解决了多模态大语言模型在视频理解中高质量标注数据稀缺的问题。

  • Motivation: 现有的视频数据集复杂度跟不上多模态大语言模型的快速发展,而手动标注高质量数据成本过高,因此需要探索如何利用视频内在信息自生成高质量、可验证的训练数据。
  • Method: 提出了三种自监督预训练任务(异常定位、目标计数、时间拼图),构建了VideoSSR-30K数据集,并开发了VideoSSR视频自监督强化学习框架。
  • Result: 在17个基准测试中,涵盖四个主要视频领域(通用视频问答、长视频问答、时间定位和复杂推理),VideoSSR平均提升超过5%的性能。
  • Conclusion: VideoSSR是一个有效的视频理解基础框架,能够显著提升多模态大语言模型的视频理解能力。

[95] From ACR O-RADS 2022 to Explainable Deep Learning: Comparative Performance of Expert Radiologists, Convolutional Neural Networks, Vision Transformers, and Fusion Models in Ovarian Masses

Ali Abbasian Ardakani,Afshin Mohammadi,Alisa Mohebbi,Anushya Vijayananthan,Sook Sam Leong,Lim Yi Ting,Mohd Kamil Bin Mohamad Fabell,U Rajendra Acharya,Sepideh Hatamikia

Main category: cs.CV

TL;DR: 该研究比较了放射科医生使用O-RADS v2022系统与深度学习模型在卵巢附件病变诊断中的表现,发现ViT模型表现最佳,而人机混合框架能进一步提升CNN模型的诊断准确性。

  • Motivation: O-RADS v2022系统虽然改进了卵巢附件病变的风险分层,但人工判读仍存在变异性和保守阈值问题,需要评估深度学习模型的表现及人机混合框架的诊断增益。
  • Method: 回顾性研究纳入512个卵巢附件肿块图像,训练16个深度学习模型(包括DenseNets、EfficientNets、ResNets、VGGs、Xception和ViTs),并构建结合放射科医生O-RADS评分与DL预测概率的混合模型。
  • Result: 放射科医生单独使用O-RADS的AUC为0.683,准确率68.0%;CNN模型AUC为0.620-0.908,准确率59.2%-86.4%;ViT16-384表现最佳(AUC 0.941,准确率87.4%);人机混合框架显著提升了CNN模型性能。
  • Conclusion: 深度学习模型显著优于放射科医生单独使用O-RADS v2022,专家评分与AI结合可获得最高的诊断准确性和区分度,人机混合范式在标准化盆腔超声判读方面具有重要潜力。

[96] TinyChemVL: Advancing Chemical Vision-Language Models via Efficient Visual Token Reduction and Complex Reaction Tasks

Xuanle Zhao,Shuxin Zeng,Yinyuan Cai,Xiang Cheng,Duzhen Zhang,Xiuyi Chen,Bo Xu

Main category: cs.CV

TL;DR: 提出了TinyChemVL,一种高效的化学视觉语言模型,通过视觉令牌减少和反应级任务来提高模型效率和推理能力,在仅4B参数下在分子和反应任务上表现优异。

  • Motivation: 现有视觉语言模型在化学领域应用有限,主要关注文本而忽略分子结构等视觉信息,且存在计算效率低和任务范围窄的问题。
  • Method: 提出TinyChemVL模型,采用视觉令牌减少技术和反应级任务设计,同时构建ChemRxn-V反应级基准测试集。
  • Result: TinyChemVL在仅4B参数下,在分子和反应任务上表现优异,推理和训练速度更快,仅使用1/16的视觉令牌就超越了ChemVLM。
  • Conclusion: 通过模型架构和任务复杂度的协同设计,构建了高效而强大的化学领域视觉语言模型。

[97] Enhancing Multimodal Misinformation Detection by Replaying the Whole Story from Image Modality Perspective

Bing Wang,Ximing Li,Yanjun Wang,Changchun Li,Lin Yuanbo Wu,Buyu Wang,Shengsheng Wang

Main category: cs.CV

TL;DR: 提出RETSIMD方法,通过文本分割和文本-图像生成来增强多模态虚假信息检测,利用图神经网络融合特征。

  • Motivation: 观察到在多模态虚假信息检测中,文本模态比图像模态更具信息量,因为文本描述完整事件而图像只呈现部分场景。
  • Method: 将文本分割成多个片段,使用预训练文本-图像生成器生成对应图像序列,结合两个辅助目标优化生成器,构建图像间关系图并用图神经网络融合特征。
  • Result: 广泛的实证结果验证了RETSIMD的有效性。
  • Conclusion: RETSIMD方法通过文本分割和图像生成有效提升了多模态虚假信息检测性能。

[98] Learning-Based Vision Systems for Semi-Autonomous Forklift Operation in Industrial Warehouse Environments

Vamshika Sutar,Mahek Maheshwari,Archak Mittal

Main category: cs.CV

TL;DR: 提出基于单摄像头的视觉框架,使用YOLOv8和YOLOv11进行托盘和托盘孔检测与映射,通过超参数优化和空间后处理提升性能,为叉车提供低成本、可改造的感知模块。

  • Motivation: 仓库物料搬运自动化需要低成本、鲁棒的感知系统,现有解决方案成本较高,需要开发经济有效的视觉感知方法。
  • Method: 使用YOLOv8和YOLOv11架构,结合Optuna超参数优化和空间后处理,开发托盘孔映射模块将检测结果转换为可操作的空间表示。
  • Result: YOLOv8在托盘和托盘孔检测上达到高精度,YOLOv11在优化配置下具有更优精度和稳定收敛性,验证了低成本视觉感知模块的可行性。
  • Conclusion: 该方法为仓库自动化提供了可扩展的解决方案,能够促进更安全、经济、智能的物流操作。

[99] SFFR: Spatial-Frequency Feature Reconstruction for Multispectral Aerial Object Detection

Xin Zuo,Yuchen Qu,Haibo Zhan,Jifeng Shen,Wankou Yang

Main category: cs.CV

TL;DR: 提出了一种新颖的空间和频率特征重建方法(SFFR),利用KAN网络在空间和频率域重建互补表示,通过FCEKAN和MSGKAN模块分别处理频率和空间特征,在无人机多光谱目标检测任务中表现出色。

  • Motivation: 当前多光谱目标检测方法主要关注基于CNN或Transformer的空间域特征融合,而频率域特征的潜力尚未充分探索。
  • Method: 提出SFFR方法,包含FCEKAN模块(选择性频率分量交换策略)和MSGKAN模块(多尺度高斯基函数),分别在频率域和空间域重建互补特征表示。
  • Result: 在SeaDroneSee、DroneVehicle和DVTOD数据集上的大量实验证明了该方法在无人机多光谱目标感知任务中的优越性能和显著优势。
  • Conclusion: FCEKAN和MSGKAN模块具有互补性,能有效分别捕获频率和空间语义特征,实现更好的特征融合,显著增强模型对尺度变化的适应性和鲁棒性。

[100] Physics-Informed Deformable Gaussian Splatting: Towards Unified Constitutive Laws for Time-Evolving Material Field

Haoqin Hong,Ding Fan,Fubin Dou,Zhi-Li Zhou,Haoran Sun,Congcong Zhu,Jingrun Chen

Main category: cs.CV

TL;DR: 提出PIDG方法,将3D高斯粒子视为拉格朗日材料点,通过物理约束和光流监督来改进动态场景重建的物理一致性

  • Motivation: 纯数据驱动的3D高斯泼溅在捕捉动态场景中多样化的物理驱动运动模式方面存在困难
  • Method: 采用静态-动态解耦的4D分解哈希编码,施加柯西动量残差作为物理约束,通过时间演化材料场预测粒子速度和本构应力,并将拉格朗日粒子流与相机补偿光流匹配
  • Result: 在自定义物理驱动数据集以及标准合成和真实世界数据集上,物理一致性和单目动态重建质量均有显著提升
  • Conclusion: PIDG方法通过物理约束和光流监督,有效提升了动态场景重建的物理一致性和质量

[101] Adaptive 3D Reconstruction via Diffusion Priors and Forward Curvature-Matching Likelihood Updates

Seunghyeok Shin,Dabin Kim,Hongki Lim

Main category: cs.CV

TL;DR: 提出了一种基于前向曲率匹配(FCM)的扩散采样方法,用于从单视图和多视图图像重建高质量点云,无需重新训练即可适应不同输入模态。

  • Motivation: 现有基于生成模型的方法(特别是直接学习后验的扩散模型方法)存在灵活性不足的问题:需要训练时的条件信号、仅支持固定数量的输入视图、需要为不同测量重新训练。最近的扩散方法尝试通过结合先验模型和似然更新来解决,但依赖启发式固定步长导致收敛慢和重建质量不佳。
  • Method: 将新颖的前向曲率匹配(FCM)更新方法与扩散采样相结合,仅使用前向自动微分和有限差分曲率估计动态确定最优步长,实现似然更新的精确优化。
  • Result: 在ShapeNet和CO3D数据集上的实验表明,该方法在相同或更低的NFEs下实现了优越的重建质量,获得了更高的F-score和更低的CD和EMD。
  • Conclusion: 该方法验证了其在实践应用中的效率和适应性,支持通过简单算子替换实现各种输入模态的高保真重建。

[102] Seq2Seq Models Reconstruct Visual Jigsaw Puzzles without Seeing Them

Gur Elkn,Ofir Itzhak Shahar,Ohad Ben-Shahar

Main category: cs.CV

TL;DR: 该论文提出了一种使用语言模型解决方形拼图的新方法,无需访问原始视觉输入,通过专门的标记化器将拼图块转换为离散标记序列,将拼图重组重构为序列到序列预测任务。

  • Motivation: 探索从视觉角度之外解决拼图问题的新方法,研究语言模型在非本领域问题上的能力,挑战传统基于视觉的拼图解决方案。
  • Method: 引入专门的标记化器将每个拼图块转换为离散标记序列,使用编码器-解码器变换器作为"盲"求解器,仅基于标记序列推理来重建原始布局。
  • Result: 尽管故意限制访问视觉输入,模型在多个基准测试中取得了最先进的结果,通常优于基于视觉的方法。
  • Conclusion: 语言模型具有解决超出其原生领域问题的惊人能力,非常规方法可以为拼图解决研究提供有前景的新方向。

[103] CINEMAE: Leveraging Frozen Masked Autoencoders for Cross-Generator AI Image Detection

Minsuk Jang,Hyeonseo Jeong,Minseok Son,Changick Kim

Main category: cs.CV

TL;DR: CINEMAE是一种基于上下文条件重建不确定性的AIGC图像检测新范式,通过Masked AutoEncoder的重建过程量化局部语义异常,实现了强大的跨生成器泛化能力。

  • Motivation: 现有的基于上下文的文本检测方法泛化能力强,而基于图像的检测器容易过拟合到特定生成器的伪影特征,需要开发能够跨生成器泛化的图像检测方法。
  • Method: 利用Masked AutoEncoder的重建过程,计算条件负对数似然来量化局部语义异常,并通过学习融合将补丁级统计与全局MAE特征结合。
  • Result: 仅使用Stable Diffusion v1.4训练,在GenImage基准测试的8个未见生成器上达到超过95%的准确率,显著优于现有最先进的检测器。
  • Conclusion: 上下文条件重建不确定性为AIGC检测提供了鲁棒且可迁移的信号,证明了将文本检测核心原理适配到视觉领域的有效性。

[104] Improving Multimodal Sentiment Analysis via Modality Optimization and Dynamic Primary Modality Selection

Dingkang Yang,Mingcheng Li,Xuecheng Wu,Zhaoyu Chen,Kaixun Jiang,Keliang Liu,Peng Zhai,Lihua Zhang

Main category: cs.CV

TL;DR: 提出MODS框架,通过图基动态序列压缩器减少音视频模态冗余,自适应主模态选择器动态确定主导模态,以及主模态中心交叉注意力模块增强主导模态并促进跨模态交互,在多模态情感分析任务中优于现有方法。

  • Motivation: 现有方法采用固定主模态策略无法适应不同样本中模态重要性的动态变化,且非语言模态存在序列冗余和噪声问题,导致融合表示次优。
  • Method: 1. 图基动态序列压缩器(GDC)使用胶囊网络和图卷积减少音视频模态的序列冗余;2. 样本自适应主模态选择器(MSelector)动态确定主导模态;3. 主模态中心交叉注意力(PCCA)模块增强主导模态并促进跨模态交互。
  • Result: 在四个基准数据集上的广泛实验表明,MODS优于最先进方法,通过有效平衡模态贡献和消除冗余噪声实现了优越性能。
  • Conclusion: MODS框架能够有效处理多模态情感分析中的模态不平衡和冗余问题,通过动态主模态选择和模态优化显著提升了模型性能。

[105] Label-Efficient 3D Forest Mapping: Self-Supervised and Transfer Learning for Individual, Structural, and Species Analysis

Aldino Rizaldy,Fabian Ewald Fassnacht,Ahmed Jamal Afifi,Hua Jiang,Richard Gloaguen,Pedram Ghamisi

Main category: cs.CV

TL;DR: 该研究探索使用自监督学习和迁移学习来减少对大规模标注数据的依赖,开发了一个统一框架来从激光扫描点云中提取单棵树信息,包括实例分割、语义分割和树种分类任务。

  • Motivation: 为支持精准林业、生物多样性保护和碳测绘,需要获取详细的单棵树结构和物种信息。虽然激光扫描点云是最适合的数据源,但深度学习模型需要大量标注数据,这在复杂森林环境中难以规模化获取。
  • Method: 采用自监督学习和迁移学习架构,结合领域自适应技术,开发了一个统一框架来处理从原始点云到树木分割、结构分析和物种分类的完整流程。
  • Result: 自监督学习结合领域自适应显著提升了实例分割性能(AP50 +16.98%),自监督学习足以改善语义分割(mIoU +1.79%),分层迁移学习能够准确分类未见过的物种(Jaccard +6.07%)。预训练模型减少能耗和碳排放约21%。
  • Conclusion: 该开源贡献旨在加速从激光扫描点云中提取单棵树信息的操作化应用,为林业、生物多样性和碳测绘提供支持,同时通过减少标注数据需求降低了实施门槛。

[106] BuildingWorld: A Structured 3D Building Dataset for Urban Foundation Models

Shangfeng Huang,Ruisheng Wang,Xin Wang

Main category: cs.CV

TL;DR: BuildingWorld是一个全面的3D建筑数据集,包含约500万个LOD2建筑模型,覆盖全球不同地理和建筑风格区域,旨在解决现有数据集建筑多样性不足的问题,支持城市级基础模型训练和分析。

  • Motivation: 现有3D城市建模数据集建筑风格多样性有限,严重影响了模型在异构城市环境中的泛化能力,需要构建一个全球代表性的数据集来支持高保真、可更新的城市数字孪生应用。
  • Method: 从北美、欧洲、亚洲、非洲和大洋洲等不同地理和建筑风格区域收集建筑数据,提供真实和模拟的机载LiDAR点云,并引入Cyber City虚拟城市模型生成无限训练数据。
  • Result: 构建了包含约500万个LOD2建筑模型的BuildingWorld数据集,提供标准化的建筑重建评估指标,支持3D建筑重建、检测和分割等研究。
  • Conclusion: BuildingWorld填补了3D建筑数据集在风格多样性方面的空白,为结构化3D城市环境中的大规模视觉模型和基础模型的训练、评估和比较提供了重要资源。

[107] GazeVLM: A Vision-Language Model for Multi-Task Gaze Understanding

Athul M. Mathew,Haithem Hermassi,Thariq Khalid,Arshad Ali Khan,Riad Souissi

Main category: cs.CV

TL;DR: GazeVLM是一个新颖的视觉语言模型,用于图像中的多任务注视理解,包括人物检测、注视目标检测和注视物体识别。通过融合RGB图像和HHA编码的深度图,在视觉提示引导下实现了最先进的性能。

  • Motivation: 现有研究虽然对视觉场景中的注视线索进行了建模,但仍需要一个统一的系统来使用视觉和语言提示进行注视理解。
  • Method: 提出GazeVLM视觉语言模型,整合视觉(RGB和深度)与文本模态,通过文本提示引导选择性执行人物检测、注视目标检测和注视物体识别任务。
  • Result: 在GazeFollow和VideoAttentionTarget数据集上实现了最先进的评估分数,消融研究表明RGB图像与HHA编码深度图融合效果最佳。
  • Conclusion: GazeVLM是首个将VLM应用于多任务注视理解的系统,通过视觉-语言融合显著提升了注视理解性能。

[108] AesTest: Measuring Aesthetic Intelligence from Perception to Production

Guolong Wang,Heng Huang,Zhiqiang Zhang,Wentian Li,Feilong Ma,Xin Jin

Main category: cs.CV

TL;DR: 提出了AesTest基准测试,用于评估多模态大语言模型的美学感知和生成能力,涵盖10个任务和多种美学查询类型

  • Motivation: 现有图像美学评估基准在感知范围上较窄,缺乏多样性来评估系统性美学生成能力
  • Method: 构建包含10个任务的综合基准,整合专业编辑流程、摄影构图教程和众包偏好等多样化数据源
  • Result: 评估显示在构建美学智能方面存在显著挑战
  • Conclusion: 将公开发布AesTest以支持该领域未来研究

[109] V-Shuffle: Zero-Shot Style Transfer via Value Shuffle

Haojun Tang,Qiwei Lin,Tongda Xu,Lida Huang,Yan Wang

Main category: cs.CV

TL;DR: V-Shuffle是一种零样本风格迁移方法,通过打乱扩散模型自注意力层中的值特征来破坏风格图像的语义内容,同时保留低级风格表示,有效解决了内容泄漏问题。

  • Motivation: 现有的基于注意力注入的风格迁移方法存在内容泄漏问题,即风格图像中不需要的语义内容会错误地出现在风格化输出中。
  • Method: 提出V-Shuffle方法,利用同一风格域的多个风格图像,在扩散模型的自注意力层中打乱值特征来隐式破坏风格图像的语义内容,同时保留低级风格表示;并引入混合风格正则化来补充高级风格纹理。
  • Result: 实证结果表明,V-Shuffle在使用多个风格图像时表现优异,在单张风格图像应用时也优于先前的最先进方法。
  • Conclusion: V-Shuffle有效平衡了内容保持和风格保真度之间的权衡,在风格迁移任务中取得了卓越性能。

[110] InfoAffect: A Dataset for Affective Analysis of Infographics

Zihang Fu,Yunchao Wang,Chenyu Huang,Guodao Sun,Ronghua Liang

Main category: cs.CV

TL;DR: 提出了包含3.5k个样本的情感标注数据集InfoAffect,结合文本内容和真实世界信息图表,通过多模态大语言模型分析情感并验证数据集质量。

  • Motivation: 信息图表广泛用于传达复杂信息,但其情感维度因数据资源稀缺而未被充分探索。
  • Method: 从六个领域收集原始数据,通过预处理、文本优先方法和三种策略保证质量和合规性;构建情感表约束标注;使用五个最先进的多模态大语言模型分析两种模态,通过互惠排名融合算法获得稳健的情感和置信度。
  • Result: 通过用户研究和复合情感一致性指数评估,InfoAffect数据集获得0.986的总体分数,表明高准确性。
  • Conclusion: InfoAffect数据集为信息图表的情感分析提供了高质量资源,验证了其可用性和准确性。

[111] On Modality Incomplete Infrared-Visible Object Detection: An Architecture Compatibility Perspective

Shuo Yang,Yinghui Xing,Shizhou Zhang,Zhilong Niu

Main category: cs.CV

TL;DR: 提出Scarf-DETR模型解决红外-可见光目标检测中的模态缺失问题,通过模态不可知的变形注意力机制和伪模态丢弃策略,使检测器能灵活适应单模态或双模态场景。

  • Motivation: 当前红外-可见光目标检测模型在面对不完整模态数据时性能显著下降,特别是当主导模态缺失时。需要解决模态不完整情况下的鲁棒性问题。
  • Method: 提出Scarf Neck模块,引入模态不可知的变形注意力机制;设计伪模态丢弃策略充分利用多模态信息;建立全面的模态不完整IVOD基准测试。
  • Result: Scarf-DETR在模态缺失场景下表现优异,同时在标准IVOD模态完整基准测试中也取得优越性能。
  • Conclusion: 所提方法能有效解决模态不完整问题,使检测器在单模态和双模态工作模式下都具有兼容性和鲁棒性。

[112] VDNeRF: Vision-only Dynamic Neural Radiance Field for Urban Scenes

Zhengyu Zou,Jingfeng Li,Hao Li,Xiaolei Hou,Jinwen Hu,Jingkun Chen,Lechao Cheng,Dingwen Zhang

Main category: cs.CV

TL;DR: VDNeRF是一种无需相机姿态信息的动态神经辐射场方法,能够同时恢复相机轨迹并学习动态城市场景的时空表示,在相机姿态估计和动态新视角合成方面优于现有方法。

  • Motivation: 解决现有NeRF方法在自动驾驶和机器人感知应用中面临的挑战:难以获取准确相机姿态,以及处理大规模动态环境的能力有限。
  • Method: 使用两个独立的NeRF模型:静态NeRF优化相机姿态和静态背景,动态NeRF结合3D场景流来准确重建动态对象。设计了有效的训练框架来解决相机运动与物体运动之间的歧义。
  • Result: 在主流城市驾驶数据集上的广泛评估表明,VDNeRF在相机姿态估计和动态新视角合成方面超越了最先进的基于NeRF的无姿态方法。
  • Conclusion: VDNeRF能够在不需要额外相机姿态信息或昂贵传感器数据的情况下,准确恢复相机轨迹并学习动态城市场景的时空表示,为自动驾驶和机器人感知应用提供了有效解决方案。

[113] DiffusionUavLoc: Visually Prompted Diffusion for Cross-View UAV Localization

Tao Liu,Kan Ren,Qian Chen

Main category: cs.CV

TL;DR: 提出DiffusionUavLoc框架,通过训练无关的几何渲染合成伪卫星图像作为结构提示,使用无文本条件扩散模型融合多模态结构线索,解决无人机与卫星图像间的视角差异问题,实现GNSS拒止环境下的跨视角定位。

  • Motivation: 低空经济快速发展,无人机在智能巡检系统中成为关键平台,但在GNSS拒止环境中,依赖卫星信号的定位方案容易失效。跨视角图像检索定位是可行替代方案,但无人机斜视图像与卫星正射影像之间存在显著的几何和外观域差距。
  • Method: 使用训练无关的几何渲染从无人机图像合成伪卫星图像作为结构提示;设计无文本条件扩散模型,融合多模态结构线索学习对视角变化鲁棒的特征;在推理时,在固定时间步t计算描述符并使用余弦相似度进行比较。
  • Result: 在University-1652和SUES-200数据集上,该方法在跨视角定位方面表现具有竞争力,特别是在University-1652数据集上的卫星到无人机定位任务中。
  • Conclusion: DiffusionUavLoc框架通过扩散模型和结构提示的有效结合,为GNSS拒止环境下的无人机定位提供了有前景的解决方案,无需复杂网络架构、文本提示或大量标注。

[114] Diagnose Like A REAL Pathologist: An Uncertainty-Focused Approach for Trustworthy Multi-Resolution Multiple Instance Learning

Sungrae Hong,Sol Lee,Jisu Shin,Mun Yong Yi

Main category: cs.CV

TL;DR: 本文提出UFC-MIL方法,通过多分辨率图像和不确定性校准来改进多实例学习,使其更接近病理学家的诊断行为,同时提供可信的校准预测。

  • Motivation: 现有多分辨率MIL方法只关注性能提升,缺乏对校准MIL的研究,无法为临床专家提供可信赖的诊断结果。
  • Method: 提出UFC-MIL方法,包含新颖的patch-wise损失函数学习实例潜在模式并表达不确定性,以及带有邻域patch聚合模块的注意力架构收集分类器特征,通过patch级不确定性校准聚合预测。
  • Result: 在挑战性公共数据集上,UFC-MIL在模型校准方面表现出优越性能,同时实现与最先进方法相当的分类准确率。
  • Conclusion: UFC-MIL成功模拟病理学家检查行为,提供校准的诊断预测,且无需多次迭代推理,具有重要实用优势。

[115] Countering Multi-modal Representation Collapse through Rank-targeted Fusion

Seulgi Kim,Kiran Kokilepersaud,Mohit Prabhushankar,Ghassan AlRegib

Main category: cs.CV

TL;DR: 提出Rank-enhancing Token Fuser框架,利用有效秩来量化和解决多模态融合中的特征崩溃和模态崩溃问题,在动作预测任务中显著优于现有方法。

  • Motivation: 多模态融合方法经常遭受两种表示崩溃:特征崩溃(单个维度失去判别能力)和模态崩溃(一个主导模态压倒其他模态)。现有方法分别处理这两种崩溃,缺乏统一框架。
  • Method: 使用有效秩作为信息度量,提出Rank-enhancing Token Fuser框架,选择性地将一个模态中信息量较少的特征与另一个模态的互补特征融合。构建R3D深度信息融合框架来处理动作预测。
  • Result: 在NTURGBD、UTKinect和DARai数据集上的广泛实验表明,该方法显著优于先前的最先进方法,提升幅度达3.74%。
  • Conclusion: 有效秩是量化表示崩溃的有用度量,深度与RGB融合能保持表示平衡避免模态崩溃,提出的方法能有效提升融合表示的有效秩。

[116] EIDSeg: A Pixel-Level Semantic Segmentation Dataset for Post-Earthquake Damage Assessment from Social Media Images

Huili Huang,Chengeng Liu,Danrong Zhang,Shail Patel,Anastasiya Masalava,Sagar Sadak,Parisa Babolhavaeji,WeiHong Low,Max Mahdi Roozbahani,J. David Frost

Main category: cs.CV

TL;DR: 提出了EIDSeg数据集,这是首个专门用于震后社交媒体图像语义分割的大规模数据集,包含9次大地震的3,266张图像,标注了5类基础设施损坏情况。

  • Motivation: 现有震后损害评估方法依赖昂贵的航空图像和专家标注,只能生成二元损害图。社交媒体地面图像提供了宝贵资源,但缺乏像素级标注数据集。
  • Method: 提出了实用的三阶段跨学科标注协议,使非专家标注者能够进行一致的分割标注,标注者间一致性超过70%。
  • Result: 基准测试了多种最先进的分割模型,确定Encoder-only Mask Transformer (EoMT)为最佳方法,mIoU达到80.8%。
  • Conclusion: 通过解锁社交网络的丰富地面视角,为震后场景中更快、更细粒度的损害评估铺平了道路。

[117] Inpaint360GS: Efficient Object-Aware 3D Inpainting via Gaussian Splatting for 360° Scenes

Shaoxiang Wang,Shihong Zhang,Christen Millerdurai,Rüdiger Westermann,Didier Stricker,Alain Pagani

Main category: cs.CV

TL;DR: Inpaint360GS是一个基于3D高斯泼溅的360°场景编辑框架,支持多目标移除和高质量3D修复,解决了复杂360°场景修复中的关键挑战。

  • Motivation: 现有方法主要针对单目标前向场景修复,复杂360°场景修复仍面临三大挑战:目标识别、严重遮挡处理、跨视角一致性保持。
  • Method: 通过将2D分割蒸馏到3D空间,利用虚拟相机视角进行上下文引导,实现精确的目标级编辑和一致的场景补全。
  • Result: 实验表明Inpaint360GS优于现有基线方法,达到最先进性能。
  • Conclusion: 提出的方法有效解决了360°场景修复的关键问题,并创建了专门的数据集来支持该领域研究。

[118] NOAH: Benchmarking Narrative Prior driven Hallucination and Omission in Video Large Language Models

Kyuho Lee,Euntae Kim,Jinwoo Choi,Buru Chang

Main category: cs.CV

TL;DR: NOAH是一个评估视频大语言模型中叙事先验导致幻觉和遗漏错误的大规模基准,通过构建复合视频和设计多种任务来分析模型错误模式。

  • Motivation: 视频大语言模型在追求叙事连贯性时引入了叙事先验偏差,导致产生幻觉(引入不存在事件)和遗漏(抑制真实事件)的错误,需要系统评估这些错误。
  • Method: 构建NOAH基准,通过将其他来源的片段插入目标视频来创建复合视频,设计字幕任务和三种QA任务(存在性、时序性、叙事性),包含6万多个评估样本。
  • Result: 大多数视频大语言模型都存在叙事先验驱动的幻觉和遗漏错误,错误模式因架构、事件相似性和插入位置而异,帧数减少时对叙事先验的依赖会加剧错误。
  • Conclusion: NOAH是首个标准化评估视频大语言模型中叙事先验导致幻觉和遗漏的基准,为开发更可靠可信的模型奠定了基础。

[119] Zooming into Comics: Region-Aware RL Improves Fine-Grained Comic Understanding in Vision-Language Models

Yule Chen,Yufan Ren,Sabine Süsstrunk

Main category: cs.CV

TL;DR: 提出了AI4VA-FG基准测试,用于评估视觉语言模型在漫画理解方面的能力,发现现有模型表现不佳,并通过后训练策略特别是区域感知强化学习显著提升了模型性能。

  • Motivation: 现有的视觉语言模型在自然图像上表现出色,但在处理风格化线条艺术、拟声词和密集多面板布局的漫画时存在困难,需要专门的基准测试和改进方法。
  • Method: 构建了AI4VA-FG基准测试,评估了GPT-4o、Gemini-2.5、Qwen2.5-VL等模型,并研究了监督微调、强化学习和提出的区域感知强化学习等后训练策略。
  • Result: 现有模型在漫画理解任务上存在显著性能缺陷,而强化学习和区域感知强化学习在Qwen2.5-VL模型上显著提升了低级实体识别和高级故事情节排序能力。
  • Conclusion: 漫画理解仍是一个未解决的挑战,但通过区域感知强化学习等后训练策略可以显著提升视觉语言模型在漫画领域的应用能力。

[120] SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports

Haotian Xia,Haonan Ge,Junbo Zou,Hyun Woo Choi,Xuebin Zhang,Danny Suradja,Botao Rui,Ethan Tran,Wendy Jin,Zhen Ye,Xiyang Lin,Christopher Lai,Shengjie Zhang,Junwen Miao,Shichao Chen,Rhys Tracy,Vicente Ordonez,Weining Shen,Hanjie Chen

Main category: cs.CV

TL;DR: SportR是首个多运动大规模基准测试,旨在训练和评估多模态大语言模型在体育智能推理方面的能力,包含5,017张图片和2,101个视频,提供渐进式问题层次结构和7,118个高质量人工标注的思维链。

  • Motivation: 当前体育基准测试要么覆盖单一运动,要么缺乏详细的推理链和精确的视觉基础,无法在多运动背景下稳健评估模型的核心能力。
  • Method: 构建包含图片和视频的多模态数据集,采用渐进式问题层次结构,从简单违规识别到复杂处罚预测,并提供人工标注的思维链和边界框注释。
  • Result: 最先进的基线模型在最具挑战性的任务上表现不佳,通过监督微调和强化学习训练后分数有所提高但仍相对较低。
  • Conclusion: SportR为社区提出了新的挑战,为推动多模态体育推理的未来研究提供了关键资源。

[121] Video Dataset for Surgical Phase, Keypoint, and Instrument Recognition in Laparoscopic Surgery (PhaKIR)

Tobias Rueckert,Raphaela Maerkl,David Rauber,Leonard Klausmann,Max Gutbrod,Daniel Rueckert,Hubertus Feussner,Dirk Wilhelm,Christoph Palm

Main category: cs.CV

TL;DR: 提出了PhaKIR数据集,包含8个完整腹腔镜胆囊切除术视频,提供手术阶段识别、器械关键点估计和器械实例分割三个任务的帧级标注,是首个多机构联合提供阶段标签、器械姿态信息和像素级器械分割的数据集。

  • Motivation: 现有的机器人辅助微创手术视觉系统开发需要大规模标注数据集,但现有资源往往处理孤立任务、忽略时间依赖性或缺乏多中心变异性。
  • Method: 收集三个医疗中心的8个完整腹腔镜胆囊切除术视频,提供帧级标注:手术阶段识别(485,875帧)、器械关键点估计(19,435帧)和器械实例分割(19,435帧)。
  • Result: 创建了首个多机构数据集,联合提供阶段标签、器械姿态信息和像素级器械分割,同时支持利用时间上下文。该数据集已用于MICCAI 2024的PhaKIR挑战赛。
  • Conclusion: PhaKIR数据集填补了现有资源的空白,为手术场景理解提供了全面的基准,并通过公开可用进一步促进该领域的研究发展。

[122] Spatial-Frequency Enhanced Mamba for Multi-Modal Image Fusion

Hui Sun,Long Lv,Pingping Zhang,Tongdan Tang,Feng Tian,Weibing Sun,Huchuan Lu

Main category: cs.CV

TL;DR: 提出SFMFusion框架,通过空间-频率增强Mamba模块和动态融合机制,解决多模态图像融合中CNN感受野有限和Transformer计算成本高的问题。

  • Motivation: 现有基于CNN和Transformer的多模态图像融合方法存在感受野有限和计算成本高的问题,而Mamba虽然能建模长程依赖但缺乏空间和频率感知能力。
  • Method: 采用三分支结构耦合图像融合和图像重建任务,提出空间-频率增强Mamba模块(SFMB)和动态融合Mamba模块(DFMB)进行特征提取和融合。
  • Result: 在六个多模态图像融合数据集上取得了优于现有最先进方法的结果。
  • Conclusion: SFMFusion框架通过增强Mamba的空间-频率感知能力和动态融合机制,在多模态图像融合任务中表现出色。

[123] On Accurate and Robust Estimation of 3D and 2D Circular Center: Method and Application to Camera-Lidar Calibration

Jiajun Jiang,Xiao Hu,Wancheng Liu,Wei Jiang

Main category: cs.CV

TL;DR: 提出了一种基于几何原理的LiDAR-相机外参标定框架,通过鲁棒的3D圆中心估计器和弦长方差最小化方法,解决了3D-2D圆中心对应关系的挑战。

  • Motivation: 现有方法在LiDAR-相机外参标定中,由于解耦的3D拟合和错误的2D椭圆中心估计,难以实现准确的3D-2D圆中心对应关系。
  • Method: 使用共形几何代数和RANSAC的鲁棒3D圆中心估计器,以及通过弦长方差最小化恢复真实2D投影中心的方法,结合单应性验证或准RANSAC备用方案解决双最小值模糊问题。
  • Result: 在合成和真实数据集上的评估显示,该框架显著优于现有最先进方法,减少了外参估计误差,并在不同传感器和目标类型(包括自然圆形物体)上实现了鲁棒标定。
  • Conclusion: 提出的几何原理框架有效解决了LiDAR-相机外参标定中的圆中心对应问题,具有高精度和鲁棒性,代码将公开以促进可复现性。

[124] Explainable Cross-Disease Reasoning for Cardiovascular Risk Assessment from LDCT

Yifei Zhang,Jiashuo Zhang,Xiaofeng Yang,Liang Zhao

Main category: cs.CV

TL;DR: 提出了一种可解释的跨疾病推理框架,通过单一低剂量胸部CT扫描进行心肺风险评估,模拟临床诊断思维过程,实现准确且可解释的心血管风险预测。

  • Motivation: 现有方法通常将肺部和心脏评估视为独立任务,忽略了它们之间的生理相互作用和共享的影像生物标志物。低剂量胸部CT天然同时捕获肺部和心脏结构,为联合评估提供了独特机会。
  • Method: 框架包含三个协同组件:肺部分析模块总结肺部异常,知识引导推理模块推断其心血管影响,心脏表征模块编码结构生物标志物。通过模拟临床诊断思维过程(感知→推理→判断)进行综合风险评估。
  • Result: 在NLST队列上的实验表明,该框架在心脑血管疾病筛查和死亡率预测方面达到最先进性能,优于单疾病和纯图像基线方法。
  • Conclusion: 这项工作建立了从低剂量胸部CT进行心血管分析的统一且可解释的范式,弥合了基于图像的预测与基于机制的医学解释之间的差距。

[125] DIAL-GS: Dynamic Instance Aware Reconstruction for Label-free Street Scenes with 4D Gaussian Splatting

Chenpeng Su,Wenhua Wu,Chensheng Peng,Tianchen Deng,Zhe Liu,Hesheng Wang

Main category: cs.CV

TL;DR: DIAL-GS是一个用于无标签街景的动态实例感知重建方法,使用4D高斯泼溅技术,通过外观-位置不一致性识别动态实例,实现动态自适应和实例感知的重建。

  • Motivation: 城市场景重建对自动驾驶至关重要,但监督方法依赖昂贵的人工标注且缺乏可扩展性,现有自监督方法常混淆静态和动态元素,无法区分单个动态对象,限制了细粒度编辑。
  • Method: 首先通过变形渲染与实际观测之间的外观-位置不一致性准确识别动态实例;然后使用实例感知的4D高斯作为统一体积表示;引入身份和动态相互增强的互惠机制。
  • Result: 在城市驾驶场景实验中,DIAL-GS在重建质量和实例级编辑方面超越了现有自监督基线方法。
  • Conclusion: DIAL-GS为城市场景建模提供了一个简洁而强大的解决方案,实现了高质量的重建和实例级编辑能力。

[126] UniADC: A Unified Framework for Anomaly Detection and Classification

Ximiao Zhang,Min Xu,Zheng Zhang,Junlin Hu,Xiuzhuang Zhou

Main category: cs.CV

TL;DR: 提出了统一异常检测与分类任务,开发了UniADC模型,通过可控修复网络和多任务判别器同时处理异常检测和分类,在多个数据集上表现优异。

  • Motivation: 现有方法将异常检测和分类作为独立任务处理,忽略了它们之间的内在关联,导致信息共享不足和性能次优。
  • Method: UniADC包含训练免费的可控修复网络和多任务判别器。修复网络通过异常先验引导修复正常区域来合成特定类别的异常图像,多任务判别器在这些合成样本上训练,实现精确的异常检测和分类。
  • Result: 在MVTec-FS、MTD和WFDD三个数据集上的实验表明,UniADC在异常检测、定位和分类方面均优于现有方法。
  • Conclusion: UniADC能够有效统一异常检测和分类任务,即使在只有少量甚至没有异常图像的情况下也能取得良好性能。

[127] FreqGRL: Suppressing Low-Frequency Bias and Mining High-Frequency Knowledge for Cross-Domain Few-Shot Learning

Siqi Hui,Sanping Zhou,Ye deng,Wenli Huang,Jinjun Wang

Main category: cs.CV

TL;DR: 提出FreqGRL框架,通过频域视角解决跨域小样本学习中的数据不平衡问题,包含低频替换、高频增强和全局频率滤波三个模块,在五个基准测试中达到最先进性能。

  • Motivation: 跨域小样本学习中,源域数据丰富而目标域数据稀缺的严重不平衡问题阻碍了有效的表示学习。模型容易偏向源域特定的低频知识,而目标数据稀疏又限制了高频、跨域泛化特征的学习。
  • Method: 提出FreqGRL框架:1)低频替换模块用目标域低频分量替换源任务低频分量;2)高频增强模块在频域中直接学习高频特征;3)全局频率滤波器抑制噪声频率并强调信息频率。
  • Result: 在五个标准CD-FSL基准测试上进行了广泛实验,证明了该频域引导框架实现了最先进的性能。
  • Conclusion: 频域视角为解决跨域小样本学习中的数据不平衡问题提供了有效途径,FreqGRL框架通过频域操作显著提升了跨域泛化能力。

[128] NOVO: Bridging LLaVA and SAM with Visual-only Prompts for Reasoning Segmentation

Kyung-Yoon Yoon,Yeong-Jun Cho

Main category: cs.CV

TL;DR: NOVO是一个通过视觉提示连接视觉语言模型和分割模型的新框架,使用粗掩码和点提示替代文本SEG token嵌入,与SAM兼容并保持预训练能力。

  • Motivation: 解决现有方法将文本派生的SEG token嵌入输入分割模型的问题,通过视觉提示更好地利用SAM的预训练能力。
  • Method: 从VLM输出生成粗掩码和点提示,与SAM兼容;引入无需训练的细化模块提升边界质量和实例级分割;创建RISeg基准进行评估。
  • Result: 在多个指标和模型规模上实现最先进性能,证明了在推理分割中的有效性和可扩展性。
  • Conclusion: NOVO框架通过视觉提示有效连接VLMs和分割模型,在推理分割任务中表现出色且可扩展。

[129] HiMo-CLIP: Modeling Semantic Hierarchy and Monotonicity in Vision-Language Alignment

Ruijia Wu,Ping Chen,Fei Shen,Shaoan Zhao,Qiang Hui,Huanlin Gao,Ting Lu,Zhaoxiang Liu,Fang Zhao,Kai Wang,Shiguo Lian

Main category: cs.CV

TL;DR: HiMo-CLIP通过分层分解和单调性感知对比损失增强CLIP模型,解决了传统模型在处理复杂、组合式和长文本描述时的局限性,在图像-文本检索任务中表现优异。

  • Motivation: 传统对比视觉语言模型(如CLIP)将文本视为扁平序列,无法处理复杂、组合式和长文本描述,特别是缺乏对语言语义层次结构和语义单调性的建模能力。
  • Method: 提出HiMo-CLIP框架,包含两个核心组件:1)分层分解模块通过批量PCA提取文本的潜在语义成分;2)单调性感知对比损失联合对齐全局和成分级表示。
  • Result: 在多个图像-文本检索基准测试中,HiMo-CLIP始终优于强基线模型,特别是在处理长文本或组合式描述时表现突出。
  • Conclusion: HiMo-CLIP通过引入语义层次和单调性建模,有效提升了CLIP类模型处理复杂文本描述的能力,生成了结构化、认知对齐的跨模态表示。

[130] Active Learning for Animal Re-Identification with Ambiguity-Aware Sampling

Depanshu Sani,Mehar Khurana,Saket Anand

Main category: cs.CV

TL;DR: 提出了一种新颖的主动学习动物重识别框架,通过互补聚类方法挖掘嵌入空间中结构模糊区域,仅需0.033%的标注就能显著超越现有基础模型、无监督学习和主动学习方法。

  • Motivation: 动物重识别面临物种间细微差异、新物种处理和开放集特性等挑战,现有基础模型的零样本性能存在显著差距,而无监督和主动学习方法在动物重识别中表现不佳,需要开发更高效的标注策略。
  • Method: 利用互补聚类方法识别嵌入空间中的结构模糊区域,挖掘既具信息性又具广泛代表性的样本对,通过must-link和cannot-link约束进行简单标注,并与无监督学习方法集成进行约束聚类优化。
  • Result: 在13个野生动物数据集上,相比基础模型、无监督学习和主动学习方法,平均mAP分别提升10.49%、11.19%和3.99%,在开放世界设置中对未知个体的性能提升分别为11.09%、8.2%和2.06%。
  • Conclusion: 该主动学习框架通过极少量标注就能显著提升动物重识别性能,为处理物种多样性和开放集挑战提供了有效解决方案,在动物重识别领域达到了最先进水平。

[131] Sim4Seg: Boosting Multimodal Multi-disease Medical Diagnosis Segmentation with Region-Aware Vision-Language Similarity Masks

Lingran Song,Yucheng Zhou,Jianbing Shen

Main category: cs.CV

TL;DR: 提出医学诊断分割任务(MDS),结合医学图像分割与诊断,开发M3DS数据集和Sim4Seg框架,通过RVLS2M模块提升诊断分割性能

  • Motivation: 现有医学图像分割模型很少联合探索分割和诊断任务,但患者需要模型在提供分割结果的同时给出可解释的诊断
  • Method: 提出Sim4Seg框架,包含区域感知视觉语言相似性到掩码(RVLS2M)模块,并研究测试时缩放策略
  • Result: 实验结果表明该方法在分割和诊断方面均优于基线模型
  • Conclusion: 成功开发了医学诊断分割任务及相关数据集和框架,实现了分割与诊断的联合优化

[132] REOcc: Camera-Radar Fusion with Radar Feature Enrichment for 3D Occupancy Prediction

Chaehee Song,Sanmin Kim,Hyeonjun Jeong,Juyeb Shin,Joonhee Lim,Dongsuk Kum

Main category: cs.CV

TL;DR: REOcc是一个新颖的相机-雷达融合网络,通过雷达密度器和雷达放大器组件来丰富雷达特征表示,解决雷达数据稀疏和噪声问题,提升3D占用预测性能。

  • Motivation: 基于视觉的3D占用预测在挑战性环境中表现不佳,相机-雷达融合因其互补优势成为有前景的解决方案,但雷达数据的稀疏性和噪声限制了融合效果。
  • Method: 提出REOcc网络,包含雷达密度器和雷达放大器两个主要组件,通过整合空间和上下文信息来精炼雷达特征,有效增强空间密度和质量。
  • Result: 在Occ3D-nuScenes基准测试上的广泛实验表明,REOcc相比纯相机基线模型取得了显著性能提升,特别是在动态物体类别上。
  • Conclusion: REOcc能够有效缓解雷达数据的稀疏性和噪声问题,使雷达数据更有效地补充相机数据,释放相机-雷达融合在鲁棒可靠3D占用预测中的全部潜力。

[133] Flexible Concept Bottleneck Model

Xingbo Du,Qiantong Dou,Lei Fan,Rui Zhang

Main category: cs.CV

TL;DR: 提出了灵活概念瓶颈模型(FCBM),通过超网络生成预测权重和可学习温度参数的稀疏最大模块,支持动态概念适配而无需重新训练整个模型

  • Motivation: 现有基于视觉语言模型的概念瓶颈模型在涉及新概念时需要完全重新训练,限制了在实际场景中的适应性和灵活性
  • Method: 设计超网络基于概念嵌入生成预测权重,引入带可学习温度参数的改进稀疏最大模块动态选择最相关概念
  • Result: 在五个公共基准测试中达到与最先进基线相当的准确率,仅需一轮微调即可良好泛化到未见概念
  • Conclusion: FCBM展示了强大的适应性和灵活性,支持动态概念适配而无需完全重新训练

[134] AnoStyler: Text-Driven Localized Anomaly Generation via Lightweight Style Transfer

Yulim So,Seokho Kang

Main category: cs.CV

TL;DR: AnoStyler是一种轻量级零样本异常生成方法,通过文本引导的风格转换将正常图像转换为视觉逼真的异常图像,解决了现有方法在视觉真实性、数据依赖性和模型复杂度方面的限制。

  • Motivation: 现有异常生成方法存在视觉真实性不足、依赖大量真实图像、使用内存密集型重型模型架构等局限性,阻碍了实际部署。
  • Method: 提出AnoStyler方法,将零样本异常生成构建为文本引导的风格转换。使用类别无关程序生成异常掩码和两类文本提示,通过轻量级U-Net模型和基于CLIP的损失函数对正常图像进行风格化。
  • Result: 在MVTec-AD和VisA数据集上的广泛实验表明,AnoStyler在生成高质量和多样化异常图像方面优于现有方法,且生成的异常有助于提升异常检测性能。
  • Conclusion: AnoStyler是一种有效的轻量级异常生成方法,能够生成视觉逼真的异常图像,并增强异常检测性能。

[135] SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

Yifan Wang,Yian Zhao,Fanqi Pu,Xiaochen Yang,Yang Tang,Xi Chen,Wenming Yang

Main category: cs.CV

TL;DR: 提出SPAN方法解决单目3D检测中解耦预测导致的几何一致性缺失问题,通过空间点对齐和3D-2D投影对齐来增强几何约束,并采用分层任务学习策略确保训练稳定性。

  • Motivation: 现有单目3D检测器采用解耦预测范式分别估计几何中心、深度、尺寸和旋转角度,但忽略了不同属性间的几何协同约束,导致缺乏几何一致性先验,性能次优。
  • Method: SPAN包含两个关键组件:1) 空间点对齐 - 在预测和真实3D边界框间施加显式全局空间约束;2) 3D-2D投影对齐 - 确保投影的3D框在图像平面上与其对应的2D检测框紧密对齐。采用分层任务学习策略逐步引入空间投影对齐。
  • Result: 该方法可轻松集成到任何成熟的单目3D检测器中,并带来显著的性能提升。
  • Conclusion: SPAN通过引入空间投影对齐机制有效解决了单目3D检测中的几何一致性缺失问题,显著提升了检测性能。

[136] K-Stain: Keypoint-Driven Correspondence for H&E-to-IHC Virtual Staining

Sicheng Yang,Zhaohu Xing,Haipeng Zhou,Lei Zhu

Main category: cs.CV

TL;DR: K-Stain是一个基于关键点的虚拟染色框架,通过层次化空间关键点检测器、关键点感知增强生成器和关键点引导判别器,将H&E图像转换为IHC图像,解决了组织切片不对齐问题。

  • Motivation: 现有虚拟染色方法由于组织切片不对齐而难以有效利用空间信息,需要一种能够精确对齐和整合结构细节的方法。
  • Method: 提出K-Stain框架,包含三个组件:层次化空间关键点检测器识别染色图像中的关键点;关键点感知增强生成器在图像生成过程中整合关键点;关键点引导判别器提高判别器对空间细节的敏感性。
  • Result: 广泛实验表明,K-Stain在定量指标和视觉质量上都优于现有最先进方法。
  • Conclusion: K-Stain通过利用关键点作为空间对应关系的鲁棒指示器,能够生成更准确和视觉一致的IHC图像。

[137] MirrorMamba: Towards Scalable and Robust Mirror Detection in Videos

Rui Song,Jiaying Lin,Rynson W. H. Lau

Main category: cs.CV

TL;DR: 提出MirrorMamba方法,首次将Mamba架构应用于镜像检测领域,通过多线索融合和创新的Mamba-based模块,在视频和图像镜像检测任务中均取得最先进性能。

  • Motivation: 现有视频镜像检测方法性能有限且鲁棒性不足,过度依赖单一不可靠的动态特征,且基于CNN或Transformer的方法分别存在感受野有限或计算复杂度高的问题。
  • Method: 1) 融合感知深度、对应关系和光流等多线索;2) 提出Mamba-based多方向对应关系提取器,利用Mamba的全局感受野和线性复杂度;3) 设计Mamba-based层级边界增强解码器解决深度图模糊导致的边界不清问题。
  • Result: 在基准数据集上超越现有最先进方法,在最具挑战性的图像镜像检测数据集上也取得最先进性能,证明了方法的鲁棒性和泛化能力。
  • Conclusion: MirrorMamba方法通过Mamba架构的首次成功应用,有效解决了现有镜像检测方法的局限性,在视频和图像镜像检测任务中均表现出优越性能。

[138] MRT: Learning Compact Representations with Mixed RWKV-Transformer for Extreme Image Compression

Han Liu,Hengyu Man,Xingtao Wang,Wenrui Li,Debin Zhao

Main category: cs.CV

TL;DR: 提出了一种混合RWKV-Transformer架构,将图像编码为更紧凑的1-D潜在表示,显著提高图像压缩效率

  • Motivation: 现有方法将图像压缩到2-D潜在空间,仍保留大量空间冗余,限制了压缩性能
  • Method: 混合RWKV-Transformer架构,结合线性注意力的RWKV和自注意力Transformer,将图像分窗处理,RWKV捕获窗口间全局依赖,Transformer建模窗口内局部冗余
  • Result: 在比特率低于0.02 bpp时实现优越重建质量,相比最先进的2-D架构GLC,在Kodak和CLIC2020数据集上分别节省43.75%和30.59%的比特率
  • Conclusion: 提出的MRT框架通过1-D潜在表示和层次注意力机制,显著提升了极端图像压缩性能

[139] Relative Energy Learning for LiDAR Out-of-Distribution Detection

Zizhao Li,Zhengkang Xiang,Jiayang Ao,Joseph West,Kourosh Khoshelham

Main category: cs.CV

TL;DR: 提出REL框架用于LiDAR点云的OOD检测,通过相对能量学习和Point Raise数据合成策略,在SemanticKITTI和STU基准上显著优于现有方法。

  • Motivation: 自动驾驶需要可靠的OOD检测来识别超出训练分布的障碍物和意外物体,但现有LiDAR OOD方法难以区分罕见异常和常见类别,导致高误报率和安全风险。
  • Method: REL框架利用正负logit之间的能量差作为相对评分函数,缓解原始能量值的校准问题;提出Point Raise轻量数据合成策略,通过扰动现有点云生成辅助异常样本。
  • Result: 在SemanticKITTI和STU基准测试中,REL大幅超越现有方法,证明了相对能量建模结合简单合成异常的有效性。
  • Conclusion: 相对能量建模与合成异常相结合,为开放世界自动驾驶提供了原则性和可扩展的可靠OOD检测解决方案。

[140] AvatarTex: High-Fidelity Facial Texture Reconstruction from Single-Image Stylized Avatars

Yuda Qiu,Zitong Xiao,Yiwei Zuo,Zisheng Ye,Weikai Chen,Xiaoguang Han

Main category: cs.CV

TL;DR: AvatarTex是一个从单张图像重建高保真面部纹理的框架,能生成风格化和逼真的纹理。它通过三阶段扩散到GAN的流程,结合扩散模型的多样性和GAN的结构化潜在空间,解决了现有方法在风格化头像上的不足。

  • Motivation: 现有方法在风格化头像上表现不佳,主要因为缺乏多样化的多风格数据集,以及在非标准纹理中保持几何一致性的挑战。
  • Method: 提出三阶段扩散到GAN流程:1)基于扩散的修复补全缺失纹理区域;2)基于GAN的潜在优化提升风格和结构一致性;3)基于扩散的重绘增强细节。同时构建了TexHub数据集,包含20,000个多风格UV纹理。
  • Result: AvatarTex在多风格面部纹理重建上达到了新的最先进水平,能够生成高质量、拓扑对齐的纹理,具有艺术和几何一致性。
  • Conclusion: 通过整合扩散模型和GAN的优势,AvatarTex成功解决了风格化纹理重建的挑战,TexHub数据集的发布将促进该领域的未来研究。

[141] Revisiting the Data Sampling in Multimodal Post-training from a Difficulty-Distinguish View

Jianyu Qi,Ding Zou,Wenrui Yan,Rui Ma,Jiaxu Li,Zhijie Zheng,Zhiguo Yang,Rongchang Zhao

Main category: cs.CV

TL;DR: 该论文提出了两种难度感知采样策略(PISM和CMAB)来量化样本难度,并设计了分层训练框架,在六个基准数据集上验证了GRPO应用于难度分层样本的优越性。

  • Motivation: 现有的多模态大语言模型后训练范式存在两个关键问题:缺乏可量化的难度指标来筛选样本进行后训练优化,以及未能联合优化感知和推理能力的次优后训练范式。
  • Method: 提出了渐进式图像语义掩码(PISM)和跨模态注意力平衡(CMAB)两种难度感知采样策略,设计了包含GRPO-only和SFT+GRPO混合训练范式的分层训练框架。
  • Result: 实验表明,相比传统的SFT+GRPO流程,将GRPO应用于难度分层样本具有一致优越性,表明策略性数据采样可以避免监督微调的需求同时提高模型准确性。
  • Conclusion: 策略性数据采样可以替代监督微调,通过难度感知的采样策略和分层训练框架,能够有效提升多模态推理模型的性能。

[142] Argus: Quality-Aware High-Throughput Text-to-Image Inference Serving System

Shubham Agarwal,Subrata Mitra,Saud Iqbal

Main category: cs.CV

TL;DR: Argus是一个高吞吐量的文本到图像推理系统,通过智能选择每个提示的适当近似级别,在保持质量的同时满足固定规模集群的吞吐量目标。

  • Motivation: 文本到图像模型具有独特的计算特性,推理时间非常高,这给设计高吞吐量系统带来了重大挑战。研究发现大部分提示可以使用更快的近似模型来服务,但需要为每个提示仔细校准近似设置以避免质量下降。
  • Method: Argus系统为每个提示选择适当的近似级别,智能地在不同近似策略之间切换,以满足吞吐量和质量要求。
  • Result: 在真实工作负载跟踪上,Argus相比基线实现了10倍更少的延迟SLO违规、10%更高的平均质量和40%更高的吞吐量。
  • Conclusion: Argus通过智能的近似策略选择,成功解决了文本到图像模型的高吞吐量推理挑战,在保持质量的同时显著提升了系统性能。

[143] Rethinking Rainy 3D Scene Reconstruction via Perspective Transforming and Brightness Tuning

Qianfeng Yang,Xiang Chen,Pengpeng Li,Qiyuan Guan,Guiyue Jin,Jiyu Jin

Main category: cs.CV

TL;DR: 提出了OmniRain3D数据集和REVR-GSNet框架,用于解决雨天多视角图像对3D场景重建的影响,通过整合亮度增强、高斯基元优化和雨滴消除实现高质量的干净3D场景重建。

  • Motivation: 现有数据集忽略了真实雨天3D场景的两个关键特征:雨滴在2D图像投影中的视角依赖性变化,以及降雨期间云层覆盖导致的环境亮度降低,这导致重建结果不准确和不完整。
  • Method: 构建了包含视角异质性和亮度动态性的OmniRain3D数据集,提出了REVR-GSNet端到端重建框架,通过递归亮度增强、高斯基元优化和GS引导的雨滴消除的联合交替优化实现统一架构。
  • Result: 广泛的实验证明了数据集和方法的有效性,能够从雨退化的输入中实现干净3D场景的高保真重建。
  • Conclusion: 该数据集和方法为未来多视角图像去雨和雨天3D场景重建研究提供了基础。

[144] SinSEMI: A One-Shot Image Generation Model and Data-Efficient Evaluation Framework for Semiconductor Inspection Equipment

ChunLiang Wu,Xiaochun Li

Main category: cs.CV

TL;DR: SinSEMI是一种新颖的单样本学习方法,能从单张光学图像生成多样且高度逼真的图像,解决了半导体设备开发早期数据稀缺的问题。

  • Motivation: 半导体设备开发早期难以获取大量原始光学图像,这种数据稀缺阻碍了AI解决方案在半导体制造中的发展。
  • Method: 采用多尺度流模型,在采样过程中使用LPIPS能量引导,确保感知真实性和输出多样性。
  • Result: 与多种单样本生成技术相比,SinSEMI在视觉质量、定量指标和下游任务中表现出优越性能。
  • Conclusion: SinSEMI生成的图像具有高保真度和有意义的多样性,适合作为半导体AI应用的训练数据。

[145] Otter: Mitigating Background Distractions of Wide-Angle Few-Shot Action Recognition with Enhanced RWKV

Wenbo Huang,Jinghui Zhang,Zhenghao Chen,Guang Li,Lei Zhang,Yang Cao,Fang Dong,Takahiro Ogawa,Miki Haseyama

Main category: cs.CV

TL;DR: 提出了Otter模型,通过复合分割模块突出关键主体,结合时间重建模块增强时间关系建模,在宽视角小样本动作识别中实现了最先进性能。

  • Motivation: 宽视角视频在少样本动作识别中面临背景干扰问题,现有方法缺乏对主体和背景的全局理解,且时间关系因相似背景帧而退化。
  • Method: 设计复合分割模块(CSM)分割并强调每帧中的关键区域,时间重建模块(TRM)通过双向扫描重建时间关系,结合常规原型和时间增强原型。
  • Result: 在SSv2、Kinetics、UCF101和HMDB51等基准测试中达到最先进性能,在VideoBadminton数据集上进一步验证了在宽视角少样本动作识别中的优势。
  • Conclusion: Otter模型通过主体强调和时间关系重建,有效解决了宽视角少样本动作识别中的背景干扰问题,显著提升了识别性能。

[146] PointCubeNet: 3D Part-level Reasoning with 3x3x3 Point Cloud Blocks

Da-Yeong Kim,Yeong-Jun Cho

Main category: cs.CV

TL;DR: PointCubeNet是一个无需部件标注的多模态3D理解框架,通过全局和局部分支实现部件级推理,在无监督训练下获得可靠结果。

  • Motivation: 现有3D理解方法缺乏部件级分析能力,且通常需要大量标注数据。本文旨在实现无需部件标注的3D对象部件级推理,提升整体3D对象理解能力。
  • Method: 提出PointCubeNet框架,包含全局和局部分支。局部分支采用3x3x3局部块结构,结合伪标签方法和局部损失函数进行无监督训练。
  • Result: 实验结果表明,理解3D对象部件能够增强对整体3D对象的理解,这是首次实现无监督3D部件级推理并获得可靠结果。
  • Conclusion: PointCubeNet成功实现了无需部件标注的3D部件级推理,证明了部件级分析对提升3D对象理解的重要性,为无监督3D理解开辟了新方向。

[147] Image Restoration via Primal Dual Hybrid Gradient and Flow Generative Model

Ji Li,Chao Wang

Main category: cs.CV

TL;DR: 提出了一种基于原始-对偶混合梯度(PDHG)的通用高效PnP算法,将流匹配生成模型作为先验融入图像恢复,支持ℓ₁和ℓ₂范数损失,对非高斯噪声具有鲁棒性。

  • Motivation: 现有PnP方法主要适用于高斯噪声的平滑平方ℓ₂数据保真度,对于更一般的数据保真项适用性不足。需要开发能够处理非高斯噪声(如泊松噪声和脉冲噪声)的通用方法。
  • Method: 将流匹配生成模型作为先验融入PnP框架,基于PDHG方法设计通用高效算法,用生成模型推导的时间相关去噪器替换正则化项的邻近算子。
  • Result: 在去噪、超分辨率、去模糊和修复等图像恢复任务中验证,ℓ₁和ℓ₂保真项在非高斯噪声下优于传统的平方ℓ₂损失。
  • Conclusion: 提出的PDHG启发的PnP算法计算高效、内存友好,支持广泛的保真项,在非高斯噪声环境下表现出色。

[148] Med-SORA: Symptom to Organ Reasoning in Abdomen CT Images

You-Kyoung Na,Yeong-Jun Cho

Main category: cs.CV

TL;DR: 提出了Med-SORA框架,用于腹部CT图像中的症状-器官推理,通过RAG数据集构建、可学习器官锚点的软标签和2D-3D交叉注意力架构来解决现有医学多模态模型的局限性。

  • Motivation: 现有医学多模态模型依赖简单的一对一硬标签,过度简化了临床现实中症状与多个器官相关的复杂性,且主要使用单切片2D特征而缺乏3D信息,限制了完整解剖上下文的捕捉能力。
  • Method: 引入基于RAG的数据集构建方法,使用可学习器官锚点的软标签来捕捉一对多的症状-器官关系,以及2D-3D交叉注意力架构来融合局部和全局图像特征。
  • Result: 实验结果表明,Med-SORA优于现有医学多模态模型,并能实现准确的3D临床推理。
  • Conclusion: 这是医学多模态学习中首个解决症状-器官推理问题的工作,为临床推理提供了更准确的工具。

[149] CAST-LUT: Tokenizer-Guided HSV Look-Up Tables for Purple Flare Removal

Pu Wang,Shuning Sun,Jialang Lu,Chen Wu,Zhihua Zhang,Youshan Zhang,Chenggang Shan,Dianjie Lu,Guijuan Zhang,Zhuoran Zheng

Main category: cs.CV

TL;DR: 提出基于解耦HSV查找表的新网络,通过独立调整HSV分量来解决紫色光晕问题,在首个大规模数据集上验证了方法的优越性。

  • Motivation: 紫色光晕会严重降低图像色调过渡和色彩质量,现有传统方法缺乏灵活性且依赖固定先验,而深度学习面临配对训练数据稀缺的问题。
  • Method: 采用两阶段架构:首先使用色度感知谱标记器将RGB图像转换到HSV空间并独立编码H和V通道;然后HSV-LUT模块根据语义标记动态生成H、S、V三个通道的独立校正曲线。
  • Result: 在构建的首个大规模紫色光晕数据集上,该方法在视觉效果和所有定量指标上都显著优于现有方法,达到最先进性能。
  • Conclusion: 基于解耦HSV查找表的方法有效解决了传统方法中的颜色耦合问题,为紫色光晕校正提供了灵活且高效的解决方案。

[150] Robust and High-Fidelity 3D Gaussian Splatting: Fusing Pose Priors and Geometry Constraints for Texture-Deficient Outdoor Scenes

Meijun Guo,Yongliang Shi,Caiyun Liu,Yixiao Feng,Ming Ma,Tinghai Yan,Weining Lu,Bin Liang

Main category: cs.CV

TL;DR: 针对大场景中弱纹理或重复纹理导致的姿态估计不稳定和场景表示失真问题,提出结合LiDAR-IMU先验姿态约束和3DGS场景表示优化的方法,在保持精度的同时显著提升效率和可视化质量。

  • Motivation: 解决大尺度户外场景中因几何纹理不一致导致的姿态估计不稳定和场景表示失真问题,特别是在弱纹理或重复纹理区域。
  • Method: 1) 姿态估计:利用LiDAR-IMU里程计提供先验姿态约束,结合COLMAP三角化过程进行姿态优化;2) 场景表示:引入法向量约束和有效秩正则化来增强高斯基元的方向和形状一致性,与光度损失联合优化。
  • Result: 在公开和自采数据集上验证:姿态优化时间减少到1/3,同时保持精度和鲁棒性;场景表示质量显著优于传统3DGS方法,在弱纹理区域可视化效果明显提升。
  • Conclusion: 该方法通过结合先验姿态约束和几何一致性优化,有效解决了大场景3D重建中的姿态估计和场景表示问题,在效率和可视化质量上都取得了显著提升。

[151] ConeGS: Error-Guided Densification Using Pixel Cones for Improved Reconstruction with Fewer Primitives

Bartłomiej Baranowski,Stefano Esposito,Patricia Gschoßmann,Anpei Chen,Andreas Geiger

Main category: cs.CV

TL;DR: ConeGS是一个基于图像空间信息的3DGS密度化框架,通过iNGP几何代理估计深度,在优化过程中沿视锥插入新高斯,提高重建质量和渲染性能。

  • Motivation: 传统3DGS的基于克隆的密度化方法导致基元空间分布不理想,限制了场景探索并需要大量基元来覆盖场景。
  • Method: 使用iNGP作为几何代理估计每像素深度,识别高误差像素并沿对应视锥在预测深度处插入新高斯,采用预激活不透明度惩罚移除冗余高斯,通过基元预算策略控制总基元数量。
  • Result: ConeGS在各种高斯预算下一致提升重建质量和渲染性能,在严格基元约束下表现尤为突出。
  • Conclusion: ConeGS通过独立于现有场景几何状态的图像空间信息密度化,有效解决了3DGS基元分布问题,实现了更高效的重建。

[152] TiS-TSL: Image-Label Supervised Surgical Video Stereo Matching via Time-Switchable Teacher-Student Learning

Rui Wang,Ying Zhou,Hao Wang,Wenwei Zhang,Qiang Li,Zhiwei Wang

Main category: cs.CV

TL;DR: TiS-TSL是一个时间可切换的师生学习框架,用于在最小监督下进行视频立体匹配,通过统一模型支持三种预测模式,利用双向时空一致性提高伪标签质量和时间一致性。

  • Motivation: 现有师生学习方法仅限于图像级监督,缺乏时间一致性估计,导致立体匹配预测不稳定和视频帧间闪烁伪影。
  • Method: 提出TiS-TSL框架,包含统一模型(IP、FVP、BVP三种模式)和两阶段学习策略(I2V阶段和V2V阶段),通过比较前后向预测计算双向时空一致性。
  • Result: 在两个公开数据集上,TiS-TSL在TEPE和EPE指标上分别比现有图像级方法至少提升2.11%和4.54%。
  • Conclusion: TiS-TSL通过引入时间可切换的师生学习框架,有效解决了最小监督下视频立体匹配的时间一致性问题,显著提升了性能。

[153] Integrating Reweighted Least Squares with Plug-and-Play Diffusion Priors for Noisy Image Restoration

Ji Li,Chao Wang

Main category: cs.CV

TL;DR: 提出了一种基于生成扩散先验的即插即用图像恢复框架,用于鲁棒地去除包括脉冲噪声在内的各种噪声类型

  • Motivation: 现有的即插即用图像恢复方法主要针对高斯噪声,对于非高斯噪声(如脉冲噪声)的研究较少,需要开发能够处理一般噪声类型的鲁棒方法
  • Method: 在MAP估计框架下,采用广义高斯尺度混合损失函数适应不同噪声模型,使用迭代重加权最小二乘法(IRLS)优化,并通过基于扩散的去噪器执行生成先验的邻近步骤
  • Result: 在基准数据集上的实验结果表明,该方法能有效去除非高斯脉冲噪声,并实现优越的恢复性能
  • Conclusion: 所提出的基于生成扩散先验的即插即用框架能够鲁棒地处理各种噪声类型,包括脉冲噪声,在图像恢复任务中表现出色

[154] MUGSQA: Novel Multi-Uncertainty-Based Gaussian Splatting Quality Assessment Method, Dataset, and Benchmarks

Tianang Chen,Jian Jin,Shilv Cai,Zhuangzi Li,Weisi Lin

Main category: cs.CV

TL;DR: 提出了一种统一的多距离主观质量评估方法和MUGSQA数据集,用于评估基于高斯泼溅的3D重建方法的质量,包含多种输入不确定性的考虑。

  • Motivation: 随着高斯泼溅变体的不断出现,评估不同基于GS方法重建的3D对象的感知质量仍然是一个开放挑战。
  • Method: 提出统一的多距离主观质量评估方法,模拟人类观看行为;构建MUGSQA数据集,考虑输入视图数量与分辨率、视距、初始点云精度等多种不确定性因素。
  • Result: 构建了两个基准测试:一个评估各种基于GS的重建方法在多种不确定性下的鲁棒性,另一个评估现有质量评估指标的性能。
  • Conclusion: 该数据集和基准代码将很快发布,为基于高斯泼溅的3D重建质量评估提供了重要工具。

Zhenjie Liu,Jianzhang Lu,Renjie Lu,Cong Liang,Shangfei Wang

Main category: cs.CV

TL;DR: ConsistTalk是一个强度可控、时序一致的人像说话生成框架,通过解耦外观-运动表示和稳定推理策略,解决了现有方法存在的闪烁、身份漂移和音视频同步问题。

  • Motivation: 当前视频扩散模型在音频驱动的人像动画中仍存在闪烁、身份漂移和音视频同步不佳的问题,主要源于纠缠的外观-运动表示和不稳定的推理策略。
  • Method: 提出三个核心组件:1)光流引导时序模块解耦运动特征;2)通过多模态师生知识蒸馏获得音频到强度模型;3)扩散噪声初始化策略,在推理时对背景一致性和运动连续性施加显式约束。
  • Result: 实验表明ConsistTalk在减少闪烁、保持身份和提供时序稳定的高保真说话头部视频方面显著优于现有方法。
  • Conclusion: ConsistTalk通过解耦外观-运动表示和稳定推理策略,成功解决了音频驱动人像动画中的关键问题,实现了高质量、时序一致的说话头部生成。

[156] NeuroBridge: Bio-Inspired Self-Supervised EEG-to-Image Decoding via Cognitive Priors and Bidirectional Semantic Alignment

Wenjiang Zhang,Sifeng Wang,Yuwei Su,Xinyu Li,Chen Zhang,Suyu Zhong

Main category: cs.CV

TL;DR: 提出NeuroBridge框架,通过认知先验增强和共享语义投影器实现脑电信号与视觉内容的跨模态对齐,在视觉神经解码任务中显著超越现有方法。

  • Motivation: 当前视觉神经解码方法受限于高质量刺激-脑响应配对的稀缺性,以及神经表征与视觉内容之间的语义不匹配问题。受生物系统的感知变异性和共适应策略启发,需要开发更有效的跨模态对齐方法。
  • Method: NeuroBridge包含两个核心组件:认知先验增强(CPA)通过不对称的模态特定变换模拟感知变异性,增强语义多样性;共享语义投影器(SSP)通过共适应策略建立双向对齐过程,将两种模态特征映射到共享语义空间。
  • Result: 在200路零样本检索任务中,NeuroBridge在受试者内场景下达到63.2%的top-1准确率和89.9%的top-5准确率,相比之前最优方法分别提升12.3%和10.2%。在受试者间设置下也表现优异。
  • Conclusion: NeuroBridge框架通过有效的跨模态对齐策略,在视觉神经解码任务中展现出卓越的性能、鲁棒性和可扩展性,为脑机接口和人工智能应用提供了有力工具。

[157] PanoNav: Mapless Zero-Shot Object Navigation with Panoramic Scene Parsing and Dynamic Memory

Qunchao Jin,Yilin Wu,Changhao Chen

Main category: cs.CV

TL;DR: PanoNav是一个仅使用RGB的零样本物体导航框架,通过全景场景解析模块和记忆引导决策机制,在无地图导航中避免局部死锁并提升性能。

  • Motivation: 解决零样本物体导航中现有方法依赖深度传感器或预建地图的问题,以及无地图方法因缺乏历史上下文而导致的短视决策和局部死锁问题。
  • Method: 提出PanoNav框架,包含全景场景解析模块从全景RGB输入解锁MLLMs的空间解析能力,以及记忆引导决策机制通过动态有界内存队列整合探索历史。
  • Result: 在公共导航基准测试中,PanoNav在SR和SPL指标上显著优于代表性基线方法。
  • Conclusion: PanoNav证明了仅使用RGB输入的无地图零样本物体导航的可行性,通过全景解析和记忆机制有效提升了导航性能。

[158] Aerial Image Stitching Using IMU Data from a UAV

Selim Ahmet Iz,Mustafa Unel

Main category: cs.CV

TL;DR: 提出了一种结合IMU数据和计算机视觉技术的无人机图像拼接方法,通过估计位移和旋转、校正透视畸变、计算单应性矩阵来改进传统特征匹配方法,在挑战性场景中表现更优。

  • Motivation: 传统基于特征的图像拼接算法在特征检测和匹配中存在错误和模糊性问题,特别是在无人机拍摄的大位移、旋转和相机姿态变化等挑战性场景中。
  • Method: 结合IMU数据和计算机视觉技术,通过估计无人机连续图像间的位移和旋转、校正透视畸变、计算单应性矩阵,然后使用标准图像拼接算法进行对齐和融合。
  • Result: 实验证明该方法在准确性和可靠性方面优于现有的基于特征的图像拼接算法,特别是在大位移、旋转和相机姿态变化等挑战性场景中表现更稳健。
  • Conclusion: 提出的方法利用IMU数据提供的额外信息,能够校正多种畸变源,易于集成到现有无人机工作流程中,为无人机图像拼接提供了更有效的解决方案。

[159] Gaussian-Augmented Physics Simulation and System Identification with Complex Colliders

Federico Vasile,Ri-Zhao Qiu,Lorenzo Natale,Xiaolong Wang

Main category: cs.CV

TL;DR: 提出了AS-DiffMPM,一个可微分MPM框架,能够在任意形状碰撞体下进行物理属性估计,解决了现有方法局限于平面碰撞体的问题。

  • Motivation: 现有基于可微分MPM的方法仅限于简化的物体-环境交互(平面碰撞体),无法处理与非平面表面碰撞的更具挑战性场景。
  • Method: 扩展现有方法,引入可微分碰撞处理机制,使目标物体能与复杂刚体交互,同时保持端到端优化。
  • Result: AS-DiffMPM能够与各种新视角合成方法轻松对接,作为从视觉观察进行系统识别的框架。
  • Conclusion: 该框架实现了在任意形状碰撞体下的物理属性估计,提升了系统识别的能力。

[160] Distillation Dynamics: Towards Understanding Feature-Based Distillation in Vision Transformers

Huiyuan Tian,Bonan Xu Shijian Li

Main category: cs.CV

TL;DR: 本文分析了基于特征的蒸馏方法在ViT模型压缩中失效的原因,发现这是由于师生模型之间的表示范式不匹配导致的,特别是在后期层中教师模型使用分布式高维编码策略,而学生模型由于通道容量有限无法复制。

  • Motivation: 虽然基于特征的知识蒸馏在CNN压缩中非常有效,但这些技术意外地在ViT上失败,表现甚至不如简单的基于logit的蒸馏方法。本文旨在系统分析这一现象的根本原因。
  • Method: 提出了"蒸馏动力学"分析框架,结合频谱分析、信息熵度量和激活幅度跟踪,研究ViT的信息处理模式和师生模型表示不匹配问题。
  • Result: 发现ViT呈现独特的U形信息处理模式:初始压缩后扩张。教师模型在后期层采用分布式高维编码策略,而学生模型因通道容量有限无法复制,导致后期层特征对齐反而损害学生性能。
  • Conclusion: ViT中成功的知识传递需要超越简单的特征模仿,采用尊重基本表示约束的方法,为设计有效的ViT压缩策略提供了重要理论指导。

[161] Ambiguity-aware Truncated Flow Matching for Ambiguous Medical Image Segmentation

Fanding Li,Xiangyu Li,Xianghe Su,Xingyu Qiu,Suyu Dong,Wei Wang,Kuanquan Wang,Gongning Luo,Shuo Li

Main category: cs.CV

TL;DR: 提出ATFM方法解决医学图像模糊分割中准确性与多样性平衡问题,通过数据层次推理、高斯截断表示和分割流匹配三个创新组件,在LIDC和ISIC3数据集上优于现有方法。

  • Motivation: 解决模糊医学图像分割中准确性与多样性预测之间的权衡挑战,现有截断扩散概率模型存在预测准确性和多样性纠缠、保真度和合理性不足的问题。
  • Method: 1. 数据层次推理:在数据分布和数据样本层面分别增强准确性和多样性;2. 高斯截断表示:将截断分布显式建模为高斯分布;3. 分割流匹配:扩展语义感知流变换以增强预测合理性。
  • Result: 在LIDC和ISIC3数据集上优于最先进方法,GED和HM-IoU指标分别提升高达12%和7.3%,同时实现更高效的推理。
  • Conclusion: ATFM通过新颖的推理范式和专用模型组件,有效解决了模糊医学图像分割中准确性与多样性的平衡问题,在多个指标上显著优于现有方法。

[162] VAEVQ: Enhancing Discrete Visual Tokenization through Variational Modeling

Sicheng Yang,Xing Hu,Qiang Wu,Dawei Yang

Main category: cs.CV

TL;DR: VAEVQ通过变分潜在量化、表示一致性策略和分布一致性正则化三个组件,解决了传统向量量化方法在潜在空间平滑性、表示对齐和域一致性方面的问题,显著提升了重建和生成任务的性能。

  • Motivation: 传统向量量化方法存在潜在空间不平滑、量化前后表示对齐弱、连续域与离散域一致性差等问题,导致码本学习不稳定和利用率低,影响重建和生成任务性能。
  • Method: 提出VAEVQ框架,包含三个关键组件:1)变分潜在量化(VLQ)用VAE替代AE进行量化,利用其结构化平滑潜在空间;2)表示一致性策略(RCS)自适应调节量化前后特征对齐强度;3)分布一致性正则化(DCR)对齐码本分布与连续潜在分布。
  • Result: 在两个基准数据集上的广泛实验表明,VAEVQ优于现有最先进方法。
  • Conclusion: VAEVQ通过改进向量量化的三个关键方面,有效提升了码本利用率和生成模型性能,为连续到离散表示转换提供了更有效的解决方案。

[163] Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions

Eyal Gutflaish,Eliran Kachlon,Hezi Zisman,Tal Hacham,Nimrod Sarid,Alexander Visheratin,Saar Huberman,Gal Davidi,Guy Bukchin,Kfir Goldberg,Ron Mokady

Main category: cs.CV

TL;DR: FIBO是首个基于长结构化描述训练的开源文本到图像模型,通过DimFusion机制处理长描述,并引入TaBR评估协议来直接衡量可控性和表达能力。

  • Motivation: 现有文本到图像模型主要针对短提示词训练,导致在稀疏文本输入和丰富视觉输出之间存在差距,降低了可控性,模型会随意填充缺失细节,偏向平均用户偏好,限制了专业使用的精确度。
  • Method: 训练基于长结构化描述的开源文本到图像模型,每个训练样本都用相同的细粒度属性集进行标注;提出DimFusion融合机制,在不增加标记长度的情况下集成轻量级LLM的中间标记;引入TaBR评估协议,通过标注-生成循环评估真实图像的重建能力。
  • Result: 训练了大规模模型FIBO,在开源模型中实现了最先进的提示对齐效果。
  • Conclusion: 通过长结构化描述训练和新的评估方法,显著提升了文本到图像模型的可控性和表达能力,为专业应用提供了更精确的控制能力。

[164] A Two-Stage System for Layout-Controlled Image Generation using Large Language Models and Diffusion Models

Jan-Hendrik Koch,Jonas Krumme,Konrad Gadzicki

Main category: cs.CV

TL;DR: 提出两阶段系统解决文本到图像扩散模型在物体数量和空间布局控制上的不足:第一阶段用LLM生成结构化布局,第二阶段用布局条件扩散模型合成图像

  • Motivation: 文本到图像扩散模型在生成能力上表现出色,但缺乏对物体数量和空间排列的精确控制
  • Method: 两阶段方法:1) LLM生成结构化布局;2) 布局条件扩散模型合成图像。采用任务分解策略,先生成核心物体再基于规则补充布局
  • Result: 复杂场景中物体召回率从57.2%提升到99.9%。ControlNet保持文本风格控制但存在物体幻觉,GLIGEN提供更好的布局保真度但降低提示可控性
  • Conclusion: 解耦方法在组合控制合成方面具有可行性,能成功生成具有指定物体数量和合理空间排列的图像

[165] Adaptive Morph-Patch Transformer for Arotic Vessel Segmentation

Zhenxi Zhang,Fuchen Zheng,Adnan Iltaf,Yifei Han,Zhenyu Cheng,Yue Du,Bin Li,Tianyong Liu,Shoujun Zhou

Main category: cs.CV

TL;DR: 提出了自适应形态补丁Transformer(MPT),通过形态感知的补丁划分和语义聚类注意力机制,改进了主动脉血管分割的准确性。

  • Motivation: 传统Transformer模型在主动脉血管分割中依赖固定大小的矩形补丁,这会破坏复杂血管结构的完整性,导致分割精度不佳。
  • Method: MPT采用自适应补丁划分策略,动态生成与血管结构对齐的形态感知补丁,并引入语义聚类注意力机制来聚合相似语义特征。
  • Result: 在三个开源数据集(AVT、AortaSeg24和TBAD)上的实验表明,MPT实现了最先进的性能,特别是在复杂血管结构分割方面有显著提升。
  • Conclusion: MPT通过自适应补丁划分和语义聚类注意力,有效解决了传统Transformer在血管分割中的结构完整性破坏问题,提升了分割精度。

[166] Classification of Microplastic Particles in Water using Polarized Light Scattering and Machine Learning Methods

Leonard Saur,Marc von Pawlowski,Ulrich Gengenbach,Ingo Sieber,Hossein Shirali,Lorenz Wührl,Rainer Kiko,Christian Pylatiuk

Main category: cs.CV

TL;DR: 提出了一种基于偏振光散射的反射式方法,用于水体中微塑料的原位分类识别,通过深度学习网络实现了80%的分类准确率。

  • Motivation: 传统微塑料监测方法在水环境中存在局限性,需要开发能够在水体中直接进行原位分类识别的新技术。
  • Method: 使用线偏振激光照射微塑料颗粒,通过偏振敏感相机捕获反射信号,并采用深度卷积神经网络进行图像分类。
  • Result: 成功识别三种常见聚合物类型(高密度聚乙烯、低密度聚乙烯、聚丙烯),测试集平均分类准确率达到80%。AOLP信号比DOLP信号对上下文噪声更鲁棒。
  • Conclusion: 反射式偏振光散射方法为水体微塑料的原位监测提供了可行方案,AOLP和DOLP信号在不同聚合物识别中各具优势。

[167] Mono3DVG-EnSD: Enhanced Spatial-aware and Dimension-decoupled Text Encoding for Monocular 3D Visual Grounding

Yuzhen Li,Min Liu,Zhaoyang Li,Yuan Bian,Xueping Wang,Erbo Zhai,Yaonan Wang

Main category: cs.CV

TL;DR: 提出了Mono3DVG-EnSD框架,通过CLIP-LCA动态掩码高确定性关键词和D2M解耦维度特定文本特征,解决单目3D视觉定位中过度依赖关键词和跨维度干扰的问题。

  • Motivation: 现有方法存在两个关键限制:过度依赖高确定性关键词而忽视空间描述;广义文本特征包含2D和3D信息,导致在文本指导下细化视觉特征时产生跨维度干扰。
  • Method: 提出Mono3DVG-EnSD框架,包含CLIP-LCA(动态掩码高确定性关键词,保留低确定性空间描述)和D2M(从广义文本特征中解耦维度特定特征,指导对应维度的视觉特征)。
  • Result: 在Mono3DRefer数据集上实现SOTA性能,所有指标均有提升,特别是在具有挑战性的Far(Acc@0.5)场景中显著提升+13.54%。
  • Conclusion: 该方法通过增强对空间关系的理解和减少跨维度干扰,有效提升了单目3D视觉定位的性能。

[168] DTTNet: Improving Video Shadow Detection via Dark-Aware Guidance and Tokenized Temporal Modeling

Zhicheng Li,Kunyang Sun,Rui Yao,Hancheng Zhu,Fuyuan Hu,Jiaqi Zhao,Zhiwen Shao,Yong Zhou

Main category: cs.CV

TL;DR: 提出了DTTNet方法,通过视觉语言匹配模块和暗感知语义块解决阴影-背景歧义,使用标记化时序块进行时空解耦学习,实现高精度实时视频阴影检测。

  • Motivation: 视频阴影检测面临两个交织的困难:从复杂背景中区分阴影,以及在变化光照下建模动态阴影变形。
  • Method: 使用VMM和DSB提取文本引导特征区分阴影与暗色物体;引入自适应掩码重加权和边缘掩码;提出TTB将跨帧阴影语义总结为可学习时序标记,实现高效序列编码。
  • Result: 在多个基准数据集上的综合实验展示了最先进的准确性和实时推理效率。
  • Conclusion: 该方法通过语言先验和时空解耦学习,有效解决了视频阴影检测中的关键挑战,实现了高精度和实时性能。

[169] PlantTraitNet: An Uncertainty-Aware Multimodal Framework for Global-Scale Plant Trait Inference from Citizen Science Data

Ayushi Sharma,Johanna Trost,Daniel Lusk,Johannes Dollinger,Julian Schrader,Christian Rossi,Javier Lopatin,Etienne Laliberté,Simon Haberstroh,Jana Eichel,Daniel Mederer,Jose Miguel Cerda-Paredes,Shyam S. Phartyal,Lisa-Maricia Schwarz,Anja Linstädter,Maria Conceição Caldeira,Teja Kattenborn

Main category: cs.CV

TL;DR: PlantTraitNet是一个多模态、多任务深度学习框架,利用公民科学照片预测植物性状,并生成全球性状分布图,在准确性上优于现有方法。

  • Motivation: 现有植物性状地图受限于实地测量成本高和地理覆盖稀疏的问题,而公民科学照片提供了大量未被充分利用的视觉信息资源。
  • Method: 开发了PlantTraitNet框架,使用弱监督从公民科学照片中预测四个关键植物性状(株高、叶面积、比叶面积和氮含量),并通过空间聚合生成全球性状分布图。
  • Result: 与独立植被调查数据和现有全球性状产品相比,PlantTraitNet在所有评估性状上均表现更优,证明了公民科学图像结合计算机视觉和地理空间AI的潜力。
  • Conclusion: 该方法为生态研究和地球系统建模提供了强大新途径,展示了公民科学图像在实现可扩展且更准确的全球性状绘图方面的价值。

[170] From Attribution to Action: Jointly ALIGNing Predictions and Explanations

Dongsheng Hong,Chao Chen,Yanhui Chen,Shanshan Lin,Zhihao Chen,Xiangwen Liao

Main category: cs.CV

TL;DR: ALIGN框架通过联合训练分类器和掩码器,使用高质量掩码作为引导,在提升模型可解释性的同时改善泛化性能,在领域泛化基准测试中表现优异。

  • Motivation: 现有解释引导学习方法依赖外部标注或启发式分割,这些监督信号质量低、噪声大且难以扩展,可能反而降低模型性能。
  • Method: 提出ALIGN框架,迭代式联合训练分类器和掩码器。掩码器学习生成软性、任务相关的掩码,分类器同时优化预测准确性和其显著性图与学习掩码的对齐度。
  • Result: 在VLCS和Terra Incognita两个领域泛化基准测试中,ALIGN在分布内和分布外设置下均优于六个强基线方法,并产生更高质量的解释。
  • Conclusion: ALIGN通过高质量掩码引导,有效提升了模型的可解释性和泛化能力,证明了高质量监督信号对解释引导学习的重要性。

[171] FoCLIP: A Feature-Space Misalignment Framework for CLIP-Based Image Manipulation and Detection

Yulin Chen,Zeyuan Wang,Tianyuan Yu,Yingmei Wei,Liang Bai

Main category: cs.CV

TL;DR: FoCLIP是一个针对CLIP-based图像质量评估指标的特征空间错位攻击框架,通过特征对齐、分数分布平衡和像素保护正则化来生成欺骗性图像,同时提出基于颜色通道敏感性的防御检测方法。

  • Motivation: CLIP-based模型虽然对齐良好,但其图像质量评估指标容易受到多模态对齐脆弱性的攻击,需要研究如何欺骗这类指标并开发相应的防御方法。
  • Method: 基于随机梯度下降技术,整合三个关键组件:特征对齐模块减少图像-文本模态差距,分数分布平衡模块和像素保护正则化,共同优化CLIPscore性能和图像质量的多模态输出平衡。
  • Result: 在十个艺术杰作提示和ImageNet子集上的实验表明,优化图像在保持高视觉保真度的同时显著提高了CLIPscore。灰度转换导致欺骗图像特征退化,CLIPscore显著降低但保持统计一致性。提出的颜色通道敏感性篡改检测机制在标准基准上达到91%准确率。
  • Conclusion: 这项工作为CLIP-based多模态系统中的特征错位攻击建立了实用路径,并提出了相应的防御方法。

[172] PADM: A Physics-aware Diffusion Model for Attenuation Correction

Trung Kien Pham,Hoang Minh Vu,Anh Duc Chu,Dac Thai Nguyen,Trung Thanh Nguyen,Thao Nguyen Truong,Mai Hong Son,Thanh Trung Nguyen,Phi Le Nguyen

Main category: cs.CV

TL;DR: 提出了一种基于扩散模型的CT-free心脏SPECT衰减校正方法PADM,通过物理感知的师生蒸馏机制,仅使用非衰减校正输入就能有效校正衰减伪影。

  • Motivation: 心脏SPECT成像中的衰减伪影严重影响诊断准确性,而混合SPECT/CT系统成本高、可及性差且增加辐射暴露,需要开发无需CT的衰减校正方案。
  • Method: 提出PADM方法,采用扩散生成模型结合物理先验,通过师生蒸馏机制进行训练,仅需NAC输入即可实现衰减校正。同时构建了包含424例患者数据的CardiAC数据集。
  • Result: PADM在定量指标和视觉评估上均优于现有最先进的生成模型,展现出优越的重建保真度。
  • Conclusion: PADM为心脏SPECT提供了一种有效的CT-free衰减校正解决方案,有望在临床中推广应用。

[173] GFix: Perceptually Enhanced Gaussian Splatting Video Compression

Siyue Teng,Ge Gao,Duolikun Danier,Yuxuan Jiang,Fan Zhang,Thomas Davis,Zoe Liu,David Bull

Main category: cs.CV

TL;DR: GFix是一个用于增强3D高斯飞溅视频压缩感知质量的框架,通过单步扩散模型和调制LoRA方案实现高效压缩和视觉质量提升。

  • Motivation: 现有3DGS视频编解码器存在明显视觉伪影和较低压缩比,需要提升感知质量。
  • Method: 提出内容自适应框架GFix,包含单步扩散模型作为神经增强器,以及调制LoRA方案冻结低秩分解并调制中间隐藏状态以实现高效压缩。
  • Result: 实验结果显示GFix在LPIPS指标上比GSVC节省72.1%的BD-rate,在FID指标上节省21.4%。
  • Conclusion: GFix框架有效提升了3DGS视频压缩的感知质量,实现了显著的压缩效率提升。

[174] Learning from the Right Patches: A Two-Stage Wavelet-Driven Masked Autoencoder for Histopathology Representation Learning

Raneen Younis,Louay Hamdi,Lukas Chavez,Zahra Ahmadi

Main category: cs.CV

TL;DR: WISE-MAE是一个轻量级的自监督学习框架,通过小波变换指导的patch选择策略,在数字病理学中改进MAE预训练,提高表示学习质量。

  • Motivation: 数字病理学中的全切片图像尺寸极大且标注稀缺,传统MAE的随机patch采样会包含不相关或噪声区域,限制了模型捕获有意义的组织模式的能力。
  • Method: 采用两阶段粗到细处理:低倍镜下基于小波的筛选定位结构丰富区域,然后高分辨率提取进行详细建模,模拟病理学家诊断流程。
  • Result: 在多个癌症数据集(肺、肾、结直肠组织)上的评估显示,WISE-MAE在弱监督下保持效率的同时,实现了有竞争力的表示质量和下游分类性能。
  • Conclusion: WISE-MAE通过引入结构和生物学相关性的patch选择策略,有效改进了数字病理学中的MAE预训练,为组织病理学表示学习提供了更有效的方法。

[175] Exploring the "Great Unseen" in Medieval Manuscripts: Instance-Level Labeling of Legacy Image Collections with Zero-Shot Models

Christofer Meinecke,Estelle Guéville,David Joseph Wrisley

Main category: cs.CV

TL;DR: 使用先进技术对中世纪手稿页面进行整体分析和描述,为计算机视觉技术创建更丰富的训练数据

  • Motivation: 更全面地理论化中世纪手稿页面及其内容,为计算机视觉技术提供更好的训练数据
  • Method: 使用最先进的技术对手稿页面进行分割和描述,关注实例分割和多模态模型
  • Result: 创建了针对中世纪视觉内容的更丰富训练数据集
  • Conclusion: 该方法有助于提升对中世纪手稿的计算机视觉分析能力

[176] TrueCity: Real and Simulated Urban Data for Cross-Domain 3D Scene Understanding

Duc Nguyen,Yan-Ling Lai,Qilin Zhang,Prabin Gyawali,Benedikt Schwab,Olaf Wysocki,Thomas H. Kolbe

Main category: cs.CV

TL;DR: TrueCity是首个城市语义分割基准数据集,提供厘米级精度的真实世界点云、语义3D城市模型和模拟点云,用于量化合成到真实的域偏移。

  • Motivation: 解决3D语义场景理解中真实标注数据有限的问题,以及合成数据与真实数据之间的域差距问题。
  • Method: 创建包含同步真实和模拟点云的城市语义分割基准,采用与国际3D城市建模标准对齐的分割类别。
  • Result: 通过广泛实验量化了域偏移,并展示了利用合成数据增强真实世界3D场景理解的策略。
  • Conclusion: TrueCity数据集将促进模拟到真实域差距量化方法的进一步发展,并支持可泛化的数据驱动模型开发。

[177] Performance Decay in Deepfake Detection: The Limitations of Training on Outdated Data

Jack Richings,Margaux Leblanc,Ian Groves,Victoria Nockles

Main category: cs.CV

TL;DR: 提出了一种简单的两阶段深度伪造检测方法,在当代深度伪造上AUROC超过99.8%,但性能会随时间快速衰减,6个月后召回率下降超过30%。

  • Motivation: 深度伪造技术的不断发展加剧了虚假信息、欺诈和骚扰的威胁,需要开发有效的检测方法来应对不断演变的威胁。
  • Method: 采用两阶段检测方法,主要利用静态帧级伪影而非时间不一致性进行检测。
  • Result: 在当代深度伪造上达到99.8%的AUROC,但面对6个月后新技术生成的深度伪造时,召回率下降超过30%,显示性能快速衰减。
  • Conclusion: 稳健的深度伪造检测需要持续构建大型多样化数据集,并开发先进的帧级特征检测器,而非依赖时间不一致性。

[178] Certified L2-Norm Robustness of 3D Point Cloud Recognition in the Frequency Domain

Liang Zhou,Qiming Wang,Tianze Chen

Main category: cs.CV

TL;DR: FreqCert是一个新颖的认证框架,通过将鲁棒性分析从空间域转移到频域,为3D点云分类提供结构化认证,抵御全局L2有界扰动。

  • Motivation: 现有认证防御方法限制逐点扰动,但忽略了保持单个点不变却改变整体结构的微妙几何失真,这在安全关键应用中存在风险。
  • Method: 使用图傅里叶变换将点云转换到频域,通过结构化频率感知子采样生成多个子点云,每个子云独立分类后通过多数投票获得最终预测。
  • Result: 在ModelNet40和ScanObjectNN数据集上的实验表明,FreqCert在强扰动下始终实现更高的认证准确率和经验准确率。
  • Conclusion: 频谱表示为实现3D点云识别中可认证鲁棒性提供了有效途径。

[179] 3D-ANC: Adaptive Neural Collapse for Robust 3D Point Cloud Recognition

Yuanmin Huang,Wenxuan Li,Mi Zhang,Xiaohan Zhang,Xiaoyu You,Min Yang

Main category: cs.CV

TL;DR: 3D-ANC是一种利用神经崩溃机制增强3D点云识别模型对抗鲁棒性的新方法,通过ETF对齐分类模块和自适应训练框架解决类别不平衡和几何相似性问题。

  • Motivation: 现有3D点云识别模型对对抗攻击的脆弱性,以及传统防御方法在处理多面攻击模式时的不足,特别是特征空间纠缠导致攻击容易执行的问题。
  • Method: 结合ETF对齐分类模块、表示平衡学习(RBL)和动态特征方向损失(FDL)的自适应训练框架,利用神经崩溃机制构建最大可分离的类别原型。
  • Result: 在ModelNet40数据集上,DGCNN的分类准确率从27.2%提升到80.9%,绝对增益53.7%,比领先基线方法高出34.0%。
  • Conclusion: 3D-ANC能够有效增强现有3D点云识别模型的对抗鲁棒性,构建解纠缠的特征空间,显著提升模型在复杂3D数据分布下的安全性。

[180] From Pretrain to Pain: Adversarial Vulnerability of Video Foundation Models Without Task Knowledge

Hui Lu,Yi Yu,Song Xia,Yiming Yang,Deepu Rajan,Boon Poh Ng,Alex Kot,Xudong Jiang

Main category: cs.CV

TL;DR: 提出了一种针对视频基础模型下游任务的新型对抗攻击方法TVA,无需访问受害者任务、训练数据、模型查询和架构,通过利用视频基础模型的时间表示动态来生成有效扰动。

  • Motivation: 大规模视频基础模型的开放可访问性带来了严重的安全风险,攻击者可以利用这些模型的完整知识发起有效攻击。本文研究了一种新颖且实用的对抗威胁场景:攻击从开源视频基础模型微调的下游模型或多模态大语言模型。
  • Method: 提出了TVA(可转移视频攻击)方法,这是一种时间感知的对抗攻击方法,利用视频基础模型的时间表示动态来制作有效扰动。TVA集成了双向对比学习机制来最大化干净特征和对抗特征之间的差异,并引入了时间一致性损失来利用运动线索增强扰动的顺序影响。
  • Result: 在24个视频相关任务上的广泛实验证明了TVA对下游模型和多模态大语言模型的有效性,揭示了视频模型部署中先前未被充分探索的安全漏洞。
  • Conclusion: TVA避免了训练昂贵的代理模型或访问领域特定数据的需要,从而提供了一种更实用和高效的攻击策略,揭示了视频基础模型生态系统中的安全脆弱性。

[181] Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation

Yuxuan Zhou,Tao Yu,Wen Huang,Yuheng Zhang,Tao Dai,Shu-Tao Xia

Main category: cs.CV

TL;DR: CRDA是一个基于课程强化学习的数据增强框架,通过动态生成对抗样本来提升深度伪造检测器的泛化能力,在多个跨域数据集上超越现有方法。

  • Motivation: 现有深度伪造检测器依赖固定的数据增强策略,无法充分模拟现实世界中不断演变的复杂伪造特征(如面部扭曲、表情操纵等),需要动态适应性的增强方法。
  • Method: 提出CRDA框架:1)使用可配置的伪造操作池合成增强样本;2)基于强化学习代理根据检测器性能动态选择增强动作;3)结合因果推理抑制虚假相关性,关注因果不变特征。
  • Result: 在多个跨域数据集上的广泛实验表明,该方法显著提高了检测器的泛化能力,超越了现有的最先进方法。
  • Conclusion: CRDA通过课程强化学习和因果推理的集成,有效解决了深度伪造检测中的泛化问题,为动态数据增强提供了新思路。

[182] RaLD: Generating High-Resolution 3D Radar Point Clouds with Latent Diffusion

Ruijie Zhang,Bixin Zeng,Shengpeng Wang,Fuhui Zhou,Wei Wang

Main category: cs.CV

TL;DR: RaLD是一个基于潜在扩散模型的框架,用于从稀疏的毫米波雷达频谱生成密集准确的3D点云,解决了雷达点云稀疏低分辨率的问题。

  • Motivation: 毫米波雷达在恶劣条件下具有鲁棒性和低成本优势,但其点云稀疏且分辨率低,限制了在需要密集准确3D感知任务中的应用。现有生成方法依赖密集体素表示,效率低且难以保持结构细节。
  • Method: 集成场景级视锥激光雷达自编码、顺序不变潜在表示和直接雷达频谱条件化,构建更紧凑和表达力强的生成过程。
  • Result: 实验表明RaILD能够从原始雷达频谱生成密集准确的3D点云。
  • Conclusion: RaILD为恶劣环境下的鲁棒感知提供了有前景的解决方案。

[183] ClusterMine: Robust Label-Free Visual Out-Of-Distribution Detection via Concept Mining from Text Corpora

Nikolas Adaloglou,Diana Petrusheva,Mohamed Asker,Felix Michels,Markus Kollmann

Main category: cs.CV

TL;DR: ClusterMine是一种无需预定义正标签的无监督OOD检测方法,通过文本语料库挖掘正标签概念,结合视觉聚类和零样本图像-文本一致性实现最先进的性能。

  • Motivation: 当前大规模视觉OOD检测方法依赖预定义的正标签名称,但这些标签在实际部署中可能不可用、不可靠或变得不相关,限制了方法的实用性。
  • Method: 提出ClusterMine方法,从大规模文本语料库中挖掘正标签概念,结合视觉聚类样本一致性和零样本图像-文本一致性来提取正概念。
  • Result: ClusterMine在多种CLIP模型上具有良好扩展性,在协变量分布内偏移方面达到最先进的鲁棒性,无需正标签即可实现最先进的OOD检测性能。
  • Conclusion: ClusterMine是首个无需正标签就能达到最先进OOD检测性能的方法,为真正无监督的OOD检测提供了可行方案。

[184] LeCoT: revisiting network architecture for two-view correspondence pruning

Luanyuan Dai,Xiaoyu Du,Jinhui Tang

Main category: cs.CV

TL;DR: 提出LeCoT网络,通过空间-通道融合Transformer块和渐进式预测块,无需额外模块即可有效利用全局上下文信息进行两视图对应点剪枝,在多个视觉任务中优于现有方法。

  • Motivation: 现有方法通常使用MLP作为主干网络,并通过额外模块来处理上下文信息,但MLP在处理上下文信息方面存在局限性。本文旨在设计一种无需额外模块就能自然捕获对应点上下文信息的新方法。
  • Method: 设计LeCoT网络,核心是空间-通道融合Transformer块,能有效利用稀疏对应点的空间和通道全局上下文信息。集成渐进式预测块,利用中间阶段特征生成概率集,指导后续学习阶段。
  • Result: 在对应点剪枝、相对位姿估计、单应性估计、视觉定位和3D重建任务中,LeCoT均优于最先进方法。
  • Conclusion: LeCoT通过创新的网络架构设计,无需额外模块就能有效捕获全局上下文信息,在多个计算机视觉任务中表现出色。

[185] Pandar128 dataset for lane line detection

Filip Beránek,Václav Diviš,Ivan Gruber

Main category: cs.CV

TL;DR: Pandar128是最大的128线激光雷达车道线检测公开数据集,包含5.2万相机帧和3.4万激光雷达扫描,提供完整传感器标定和同步里程计。同时提出轻量级基线方法SimpleLidarLane和新的插值感知匹配F1评估指标。

  • Motivation: 解决激光雷达车道线检测领域缺乏大规模公开数据集和标准化评估方法的问题,为研究提供高质量数据和可靠评估基准。
  • Method: 提出SimpleLidarLane方法,结合BEV分割、聚类和折线拟合的模块化流程;同时提出IAM-F1评估指标,在BEV空间进行插值感知横向匹配。
  • Result: 尽管方法简单,但在各种挑战性条件下(如雨天、稀疏点云)表现优异,证明模块化流程配合高质量数据和原则性评估可与复杂方法竞争。
  • Conclusion: 通过发布大规模数据集、轻量级方法和标准化评估指标,支持激光雷达车道线检测的可复现性研究,展示了模块化方法在高质量数据下的竞争力。

[186] How Bias Binds: Measuring Hidden Associations for Bias Control in Text-to-Image Compositions

Jeng-Lin Li,Ming-Ching Chang,Wei-Chao Chen

Main category: cs.CV

TL;DR: 本文研究了文本到图像生成模型中语义绑定导致的偏见放大问题,提出了偏见依从性评分和训练无关的上下文偏见控制框架,在组合生成任务中实现了超过10%的去偏见改进。

  • Motivation: 当前研究主要关注单对象提示的偏见,忽略了语义绑定(对象与属性关联)对偏见的联合影响,导致现有去偏见方法在复杂上下文场景中失效。
  • Method: 引入偏见依从性评分量化对象-属性绑定激活的偏见程度,开发训练无关的上下文偏见控制框架,通过令牌解耦来消除语义绑定中的偏见。
  • Result: 在组合生成任务中实现了超过10%的去偏见改进,分析了不同属性-对象绑定的偏见评分和令牌去相关效果。
  • Conclusion: 现有去偏见方法在处理语义绑定上下文时存在根本性挑战,需要在减少偏见的同时保持必要的语义关系,这暴露了当前偏见缓解策略的关键局限性。

[187] GEWDiff: Geometric Enhanced Wavelet-based Diffusion Model for Hyperspectral Image Super-resolution

Sirui Wang,Jiang He,Natàlia Blasco Andreo,Xiao Xiang Zhu

Main category: cs.CV

TL;DR: 提出GEWDiff框架,通过小波编码器和几何增强扩散过程实现高光谱图像4倍超分辨率重建,解决了传统扩散模型在高光谱图像生成中的内存限制和几何结构保持问题。

  • Motivation: 高光谱图像生成面临三个主要挑战:高光谱维度导致内存密集、传统生成模型缺乏对遥感图像几何结构的理解、扩散模型在噪声级别优化损失函数导致收敛行为不直观。
  • Method: 使用小波编码器-解码器压缩高光谱图像到潜在空间,引入几何增强扩散过程保持几何特征,设计多级损失函数指导扩散过程。
  • Result: 在多个维度上实现了最先进的性能,包括保真度、光谱精度、视觉真实感和清晰度。
  • Conclusion: GEWDiff框架有效解决了高光谱图像超分辨率重建中的关键挑战,提供了高质量的重建结果。

[188] HENet++: Hybrid Encoding and Multi-task Learning for 3D Perception and End-to-end Autonomous Driving

Zhongyu Xia,Zhiwei Lin,Yongtao Wang,Ming-Hsuan Yang

Main category: cs.CV

TL;DR: 提出HENet和HENet++框架,通过混合图像编码网络和同时提取稠密/稀疏特征,解决自动驾驶中多任务3D感知的计算资源限制和特征表示冲突问题。

  • Motivation: 自动驾驶系统中,3D特征提取面临计算资源限制:大图像编码器、高分辨率图像和长期时序输入虽然能提升性能,但在训练和推理中难以兼容;同时不同任务需要不同的特征表示,单一模型难以在保持精度的同时进行端到端多任务推理。
  • Method: 提出混合图像编码网络:短期帧使用大图像编码器,长期帧使用小图像编码器;同时提取稠密和稀疏特征,为不同任务提供更合适的表示;框架兼容现有3D特征提取方法并支持多模态输入。
  • Result: HENet++在nuScenes基准测试中实现了最先进的端到端多任务3D感知结果,并在nuScenes端到端自动驾驶基准测试中获得了最低的碰撞率。
  • Conclusion: 该框架有效解决了多任务3D感知中的计算效率和特征表示问题,在保持高性能的同时实现了端到端的自动驾驶系统。

[189] Sparse4DGS: 4D Gaussian Splatting for Sparse-Frame Dynamic Scene Reconstruction

Changyue Shi,Chuxiao Yang,Xinyuan Hu,Minghao Chen,Wenwen Pan,Yan Yang,Jiajun Ding,Zhou Yu,Jun Yu

Main category: cs.CV

TL;DR: Sparse4DGS是首个用于稀疏帧动态场景重建的方法,通过纹理感知的变形正则化和纹理感知的规范优化,解决了稀疏帧条件下动态重建的挑战。

  • Motivation: 现有动态高斯溅射方法依赖密集帧视频序列进行逼真重建,但在实际场景中由于设备限制,有时只能获取稀疏帧,导致重建失败。
  • Method: 提出纹理感知变形正则化,引入基于纹理的深度对齐损失来调节高斯变形;提出纹理感知规范优化,将基于纹理的噪声纳入规范高斯的梯度下降过程。
  • Result: 在NeRF-Synthetic、HyperNeRF、NeRF-DS和iPhone-4D数据集上的实验表明,在稀疏帧输入下,该方法优于现有的动态或少量样本技术。
  • Conclusion: Sparse4DGS成功解决了稀疏帧动态场景重建问题,特别是在纹理丰富区域表现优异,为实际应用场景提供了有效解决方案。

[190] MPJudge: Towards Perceptual Assessment of Music-Induced Paintings

Shiqi Jiang,Tianyi Liang,Changbo Wang,Chenhui Li

Main category: cs.CV

TL;DR: 提出了一个评估音乐诱导绘画感知一致性的新框架,包括首个大规模音乐-绘画配对数据集MPD和模型MPJudge,通过调制融合机制整合音乐特征,并使用直接偏好优化训练,优于现有方法。

  • Motivation: 现有方法主要依赖情感识别模型评估音乐与绘画的相似性,但这类模型引入大量噪声且忽略了情感之外的更广泛感知线索。
  • Method: 构建MPD数据集(首个大规模音乐-绘画配对专家标注数据集),提出MPJudge模型通过调制融合机制将音乐特征整合到视觉编码器中,并使用直接偏好优化处理模糊案例。
  • Result: 大量实验表明该方法优于现有方法,定性结果显示模型能更准确地识别绘画中与音乐相关的区域。
  • Conclusion: 提出的框架能有效评估音乐诱导绘画的感知一致性,为音乐与视觉艺术的关系研究提供了新视角。

[191] ProcGen3D: Learning Neural Procedural Graph Representations for Image-to-3D Reconstruction

Xinyi Zhang,Daoyi Gao,Naiqi Li,Angela Dai

Main category: cs.CV

TL;DR: ProcGen3D通过生成程序化图抽象来创建3D内容,使用基于图的程序化表示和MCTS引导采样,在图像到3D重建任务中优于现有方法。

  • Motivation: 受生产级3D应用中程序化生成器广泛使用的启发,旨在学习程序化生成器的表示空间,实现基于图像的3D重建。
  • Method: 采用基于边的tokenization编码程序化图,训练transformer先验预测下一个token,并引入MCTS引导采样来提升输出与输入图像的对齐度。
  • Result: 在仙人掌、树木和桥梁等对象上的实验表明,该方法优于最先进的生成式3D方法和领域特定建模技术,且在仅使用合成数据训练的情况下能泛化到真实世界图像。
  • Conclusion: ProcGen3D提供了一种有效的程序化图生成方法,能够创建复杂3D资产并实现更好的图像对齐和泛化能力。

[192] Federated Learning for Video Violence Detection: Complementary Roles of Lightweight CNNs and Vision-Language Models for Energy-Efficient Use

Sébastien Thuau,Siba Haidar,Rachid Chelouah

Main category: cs.CV

TL;DR: 比较了三种联邦学习暴力检测方法:预训练VLM零样本推理、LoRA微调LLaVA-NeXT-Video-7B、个性化联邦学习3D CNN。3D CNN在能耗减半情况下达到92.59% ROC AUC,VLM通过层次类别分组将多类准确率从65.31%提升至81%。

  • Motivation: 深度学习视频监控需要隐私保护架构,但部署大型视觉语言模型(VLM)带来能源和可持续性挑战。联邦学习保护隐私但面临能效问题。
  • Method: 在RWF-2000和RLVS数据集上比较三种策略:1)预训练VLM零样本推理;2)LoRA微调LLaVA-NeXT-Video-7B;3)个性化联邦学习65.8M参数3D CNN。使用层次类别分组提升VLM性能。
  • Result: 所有方法在二元暴力检测中准确率超过90%。3D CNN能耗仅240Wh(LoRA为570Wh),ROC AUC达92.59%。VLM通过层次分组将UCF-Crime多类准确率从65.31%提升至81%。
  • Conclusion: 提出混合部署策略:默认使用高效CNN进行常规推理,选择性使用VLM进行复杂上下文推理。这是首个比较LoRA调优VLM和个性化CNN在联邦暴力检测中的研究,包含明确的能源和CO2e量化。

[193] LiteUpdate: A Lightweight Framework for Updating AI-Generated Image Detectors

Jiajie Lu,Zhenkan Fu,Na Zhao,Long Xing,Kejiang Chen,Weiming Zhang,Nenghai Yu

Main category: cs.CV

TL;DR: LiteUpdate是一个轻量级框架,通过边界样本选择和模型权重融合来解决AI生成图像检测器更新中的低效率和灾难性遗忘问题。

  • Motivation: 生成式AI快速发展导致新模型不断涌现,现有检测方法难以跟上,检测性能显著下降,迫切需要持续更新检测器以适应新生成器。
  • Method: 使用基于图像置信度和梯度判别特征的代表性样本选择模块精确选择边界样本,结合模型融合模块整合预训练、代表性和随机更新的权重。
  • Result: 在AIDE数据集上,Midjourney的平均检测准确率从87.63%提升至93.03%,相对提升6.16%。
  • Conclusion: LiteUpdate能显著提升检测器在各种生成器上的性能,有效平衡对新生成器的适应性和对先前知识的保留。

[194] Automated Estimation of Anatomical Risk Metrics for Endoscopic Sinus Surgery Using Deep Learning

Konrad Reuter,Lennart Thaysen,Bilkay Doruk,Sarah Latus,Brigitte Holst,Benjamin Becker,Dennis Eggert,Christian Betz,Anna-Sophie Hoffmann,Alexander Schlaefer

Main category: cs.CV

TL;DR: 提出了一种自动化深度学习管道,通过热图回归定位关键解剖标志点来自动估计内窥镜鼻窦手术中的颅底解剖风险评分,减少了手动测量的时间消耗。

  • Motivation: 内窥镜鼻窦手术需要术前评估颅底解剖以降低脑脊液漏等风险,现有的Keros、Gera和TMS风险评分需要耗时的手动测量冠状CT或CBCT扫描。
  • Method: 使用深度学习管道,通过热图回归定位关键解剖标志点,比较了直接方法和专门的全局到局部学习策略。
  • Result: 在相关解剖测量上获得平均绝对误差:Keros评分0.506mm,Gera评分4.516°,TMS分类0.802mm/0.777mm。
  • Conclusion: 提出的自动化方法能够准确估计颅底解剖风险评分,为内窥镜鼻窦手术的术前规划提供了高效工具。

[195] Geometric implicit neural representations for signed distance functions

Luiz Schirmer,Tiago Novello,Vinícius da Silva,Guilherme Schardong,Daniel Perazzo,Hélio Lopes,Nuno Gonçalves,Luiz Velho

Main category: cs.CV

TL;DR: 这篇综述回顾了使用隐式神经表示(INRs)来近似有向距离函数(SDFs)的几何INRs方法,重点讨论了如何通过结合微分几何工具(如法线和曲率)来构建损失函数,从而改进3D表面重建。

  • Motivation: 隐式神经表示在低维空间中表示信号方面显示出巨大潜力,但需要确保INR满足SDF应有的全局属性(如单位梯度),因此需要引入几何正则化项来改进3D重建质量。
  • Method: 通过构建包含微分几何工具(法线、曲率)的几何损失函数,在INR训练中加入正则化项,确保函数满足SDF的数学性质,包括从有向点云或姿态图像中采样。
  • Result: 几何INRs在有向点云和姿态图像的表面重建中取得了显著进展,通过几何正则化提高了重建精度和质量。
  • Conclusion: 几何INRs通过结合微分几何工具构建损失函数,为3D表面重建提供了有效的框架,显著提升了从有向点云和姿态图像重建表面的性能。

[196] Breaking the Stealth-Potency Trade-off in Clean-Image Backdoors with Generative Trigger Optimization

Binyan Xu,Fan Yang,Di Tang,Xilin Dai,Kehuan Zhang

Main category: cs.CV

TL;DR: 提出了一种新的干净图像后门攻击方法GCB,通过优化触发器本身来最小化准确率下降,使用条件InfoGAN识别自然图像特征作为隐蔽触发器,仅需少量中毒样本即可实现攻击,CA下降小于1%。

  • Motivation: 现有干净图像后门攻击方法需要较高的中毒率,导致清洁准确率明显下降,影响隐蔽性。需要开发更隐蔽的攻击方法。
  • Method: 使用条件InfoGAN框架识别自然图像特征作为触发器,确保触发器与良性任务特征易于分离,从而仅需极少量中毒样本即可训练后门。
  • Result: 在6个数据集、5种架构和4种任务上成功验证,包括首次在回归和分割任务中实现干净图像后门攻击,对现有防御方法具有强韧性。
  • Conclusion: GCB框架实现了高效隐蔽的干净图像后门攻击,显著降低了攻击所需的毒化率,同时保持清洁准确率几乎不变,具有广泛适用性。

[197] Omni-View: Unlocking How Generation Facilitates Understanding in Unified 3D Model based on Multiview images

JiaKui Hu,Shanshan Zhao,Qing-Guo Chen,Xuerui Qiu,Jialun Liu,Zhao Xu,Weihua Luo,Kaifu Zhang,Yanye Lu

Main category: cs.CV

TL;DR: Omni-View是一个基于多视角图像的3D场景统一多模态理解和生成框架,通过"生成促进理解"的原则,将场景理解、新视角合成和几何估计联合建模,在VSI-Bench基准测试中达到55.4的SOTA分数。

  • Motivation: 探索"生成促进理解"的原则,将3D场景理解与生成任务相结合,通过联合建模实现协同交互,提升对3D场景的整体理解能力。
  • Method: 由理解模型、纹理模块和几何模块组成,采用两阶段训练策略。纹理模块负责外观合成,具有时空建模能力;几何模块提供显式几何约束。
  • Result: 在VSI-Bench基准测试中达到55.4的SOTA分数,优于现有专门的3D理解模型,同时在新视角合成和3D场景生成方面表现优异。
  • Conclusion: Omni-View通过联合建模3D场景理解与生成任务,验证了"生成促进理解"的有效性,在多个任务上实现了卓越性能。

[198] Mapping Reduced Accessibility to WASH Facilities in Rohingya Refugee Camps with Sub-Meter Imagery

Kyeongjin Ahn,YongHun Suh,Sungwon Han,Jeasurk Yang,Hannes Taubenböck,Meeyoung Cha

Main category: cs.CV

TL;DR: 该研究开发了一个基于遥感技术的框架,用于量化罗兴亚难民营中水、环境卫生和个人卫生服务的可及性,发现由于人口增长和设施减少,WASH可及性正在下降,特别是妇女和女童面临更严重的可及性问题。

  • Motivation: 难民营地中的WASH服务可及性是一个重要的公共卫生问题,特别是在像考克斯巴扎尔这样世界上人口最密集的流离失所环境中,需要有效的方法来监测和评估服务可及性。
  • Method: 使用亚米级卫星图像开发半监督分割框架,检测难民庇护所,并分析水井、厕所和沐浴间的可及性,进行性别分层分析。
  • Result: 难民庇护所检测F1分数达76.4%,WASH可及性从2022年每设施25人下降到2025年29.4人,妇女和女童在缺乏安全隔离的设施中可及性更差。
  • Conclusion: 高分辨率遥感和机器学习在检测不平等和为复杂人道主义环境中的公平资源规划提供信息方面具有重要价值,需要需求响应的分配策略来识别服务不足人群。

[199] Noise & pattern: identity-anchored Tikhonov regularization for robust structural anomaly detection

Alexander Bauer,Klaus-Robert Müller

Main category: cs.CV

TL;DR: 提出一种自监督自动编码器方法,通过结构化扰动和噪声正则化来检测工业图像中的结构异常,在MVTec AD基准测试中达到最先进性能。

  • Motivation: 工业自动检测中难以收集所有可能的异常样本,需要一种能够识别细微或罕见缺陷的方法,特别是在结构异常检测方面。
  • Method: 使用自监督自动编码器学习修复被破坏的输入,引入结构化空间连贯的扰动模拟结构缺陷,并在遮挡上添加高斯噪声作为Tikhonov正则化器。
  • Result: 在MVTec AD基准测试中实现了最先进的结果(图像/像素级AUROC:99.9/99.4),验证了理论框架的有效性。
  • Conclusion: 该方法通过结构化扰动和身份锚定正则化,显著提高了异常检测和分割的准确性,为自动工业检测提供了实用解决方案。

[200] Leveraging Text-Driven Semantic Variation for Robust OOD Segmentation

Seungheon Song,Jaekoo Lee

Main category: cs.CV

TL;DR: 提出了一种基于视觉语言模型的OOD分割方法,通过结合视觉语言编码器和Transformer解码器,使用距离基OOD提示和OOD语义增强,在自动驾驶场景中实现强大的异常物体分割。

  • Motivation: 在自动驾驶和机器人领域,确保道路安全和可靠决策严重依赖于OOD分割。虽然已有许多方法检测道路上的异常物体,但利用提供丰富语言知识的视觉语言空间仍是一个未被充分探索的领域。
  • Method: 结合视觉语言模型的编码器与Transformer解码器,采用距离基OOD提示(位于与ID类不同语义距离的位置)和OOD语义增强,通过对齐视觉和文本信息来学习语义多样的对象。
  • Result: 在Fishyscapes、Segment-Me-If-You-Can和Road Anomaly等公开OOD分割数据集上的广泛实验表明,该方法在像素级和对象级评估中都达到了最先进的性能。
  • Conclusion: 基于视觉语言的OOD分割具有增强未来自动驾驶系统安全性和可靠性的潜力。

[201] 4DSTR: Advancing Generative 4D Gaussians with Spatial-Temporal Rectification for High-Quality and Consistent 4D Generation

Mengmeng Liu,Jiuming Liu,Yunpeng Zhang,Jiangtao Li,Michael Ying Yang,Francesco Nex,Hao Cheng

Main category: cs.CV

TL;DR: 4DSTR是一个新颖的4D生成网络,通过时空校正调制生成式4D高斯泼溅,解决了现有方法在时空一致性和快速时间变化适应方面的不足。

  • Motivation: 现有的4D生成方法由于缺乏有效的时空建模,通常难以保持时空一致性,并且对快速时间变化的适应能力较差。
  • Method: 提出4DSTR网络,通过跨生成4D序列的时间相关性来校正可变形尺度和旋转以保证时间一致性;采用自适应空间密集化和修剪策略,根据高斯点的前帧运动动态添加或删除高斯点来处理显著的时间变化。
  • Result: 大量实验表明,4DSTR在视频到4D生成中实现了最先进的性能,在重建质量、时空一致性和快速时间运动适应性方面表现出色。
  • Conclusion: 4DSTR通过有效的时空建模和自适应策略,成功解决了4D生成中的时空一致性和快速变化适应问题,为动态4D内容生成提供了有效的解决方案。

[202] MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

Tianhao Peng,Haochen Wang,Yuanxing Zhang,Zekun Wang,Zili Wang,Ge Zhang,Jian Yang,Shihao Li,Yanghai Wang,Xintao Wang,Houyi Li,Wei Ji,Pengfei Wan,Wenhao Huang,Zhaoxiang Zhang,Jiaheng Liu

Main category: cs.CV

TL;DR: MVU-Eval是首个针对多模态大语言模型的多视频理解评估基准,包含1,824个精心设计的问题-答案对,涵盖4,959个视频,评估8项核心能力,填补了现有基准仅关注单视频理解的空白。

  • Motivation: 现有评估基准局限于单视频理解,无法满足现实场景(如体育分析和自动驾驶)中对多视频理解的需求,因此需要开发专门的多视频理解评估基准。
  • Method: 构建MVU-Eval基准,通过1,824个问题-答案对评估8项核心能力,涵盖基础感知任务和高级推理任务,视频来自多样化领域,并与自动驾驶多传感器融合、跨角度体育分析等实际应用严格对齐。
  • Result: 对最先进的开源和闭源模型进行广泛评估,揭示了当前MLLMs在多视频理解能力方面存在显著性能差距和局限性。
  • Conclusion: MVU-Eval基准将公开发布以促进未来研究,填补了多视频理解评估的重要空白,为MLLMs在现实场景中的应用提供了重要评估工具。

[203] StreamKV: Streaming Video Question-Answering with Segment-based KV Cache Retrieval and Compression

Yilong Chen,Xiang Bai,Zhibin Wang,Chengyu Bai,Yuhan Dai,Ming Lu,Shanghang Zhang

Main category: cs.CV

TL;DR: StreamKV是一个无需训练的视频大语言模型框架,通过动态语义分割、摘要向量计算和指导提示,实现了KV缓存的检索和压缩,显著提升了长视频问答的准确性和效率。

  • Motivation: 现有Video-LLMs在处理长真实世界视频时面临挑战,虽然引入了检索机制,但KV缓存的压缩和检索仍未充分探索,需要更有效的解决方案。
  • Method: StreamKV动态分割视频流为语义片段,计算每个片段的摘要向量用于检索,使用指导提示进行KV缓存压缩,并在单一模块中统一执行检索和压缩。
  • Result: 在StreamingVQA基准测试中,StreamKV显著优于现有在线Video-LLMs,在保持高准确性的同时大幅提升了内存效率和计算延迟。
  • Conclusion: StreamKV通过创新的KV缓存管理策略,为长视频问答提供了高效且准确的解决方案,代码已开源。

[204] Segmentation of Ischemic Stroke Lesions using Transfer Learning on Multi-sequence MRI

R. P. Chowdhury,T. Rahman

Main category: cs.CV

TL;DR: 提出了一种基于Res-Unet架构的自动缺血性卒中病灶分割框架,在ISLES 2015数据集上实现了80.5%的Dice分数和74.03%的准确率。

  • Motivation: 手动分割缺血性卒中病灶耗时且存在观察者间差异,现有自动方法的手工特征难以捕捉病灶的不规则复杂形状。
  • Method: 使用Res-Unet架构在多种MRI序列上进行训练,探索迁移学习效果,并集成多数投票分类器融合各轴分割结果。
  • Result: 在ISLES 2015数据集上获得80.5%的Dice分数和74.03%的准确率,验证了方法的有效性。
  • Conclusion: 提出的自动分割框架能够快速准确地分割缺血性卒中病灶,为临床诊断和治疗提供了可靠工具。

[205] Glioma C6: A Novel Dataset for Training and Benchmarking Cell Segmentation

Roman Malashin,Svetlana Pashkevich,Daniil Ilyukhin,Arseniy Volkov,Valeria Yachnaya,Andrey Denisov,Maria Mikhalkova

Main category: cs.CV

TL;DR: Glioma C6是一个用于胶质瘤C6细胞实例分割的开放数据集,包含75张高分辨率相差显微镜图像和超过12,000个标注细胞,旨在作为深度学习模型的基准测试和训练资源。

  • Motivation: 为生物医学图像分析提供真实测试平台,通过形态学细胞分类增强癌细胞研究中的图像数据利用价值。
  • Method: 数据集分为两部分:第一部分用于基准测试,参数受控;第二部分用于泛化测试,条件变化。评估了多个通用分割模型在数据集上的表现。
  • Result: 实验表明,在Glioma C6上训练能显著提升分割性能,突显了该数据集在开发鲁棒和可泛化模型方面的价值。
  • Conclusion: Glioma C6数据集为研究人员提供了公开可用的资源,有助于推进胶质瘤细胞分割研究。

[206] LMM-IQA: Image Quality Assessment for Low-Dose CT Imaging

Kagan Celik,Mehmet Ozan Unal,Metin Ertas,Isa Yildirim

Main category: cs.CV

TL;DR: 提出基于LLM的低剂量CT图像质量评估系统,生成数值评分和文本描述,系统研究多种推理策略对性能的渐进贡献。

  • Motivation: 低剂量CT降低了辐射剂量但增加了噪声、模糊和对比度损失,需要一致且鲁棒的图像质量评估来保证临床诊断质量。
  • Method: 开发LLM-based质量评估系统,采用零样本学习、元数据集成和错误反馈等多种推理策略,生成数值评分和退化文本描述。
  • Result: 评估结果不仅产生高度相关的评分,还提供可解释的输出,为临床工作流程增加价值。
  • Conclusion: 该系统为低剂量CT图像质量评估提供了有效解决方案,源代码已公开。

[207] VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models

Ying Cheng,Yu-Ho Lin,Min-Hung Chen,Fu-En Yang,Shang-Hong Lai

Main category: cs.CV

TL;DR: VADER是一个基于大语言模型的视频异常理解框架,通过整合关键帧对象关系特征与视觉线索来增强对视频中异常事件的理解能力。

  • Motivation: 传统视频异常检测方法仅关注异常检测和定位,忽略了更深层次的因果关系和对象间交互,这对于理解异常行为至关重要。
  • Method: VADER首先使用异常评分器分配每帧异常分数,然后通过上下文感知采样策略捕获异常事件的因果上下文。关系特征提取器和对比关系编码器共同建模动态对象交互,生成紧凑的关系表示,最后将这些视觉和关系线索与大语言模型集成。
  • Result: 在多个真实世界VAU基准测试上的实验表明,VADER在异常描述、解释和因果推理任务中取得了强劲结果。
  • Conclusion: VADER推进了可解释视频异常分析的前沿,能够生成详细的、基于因果关系的描述并支持稳健的异常相关问答。

[208] Beyond Boundaries: Leveraging Vision Foundation Models for Source-Free Object Detection

Huizai Yao,Sicheng Zhao,Pengteng Li,Yi Cui,Shuo Lu,Weiyu Guo,Yunfan Lu,Yijie Xu,Hui Xiong

Main category: cs.CV

TL;DR: 提出了一种新的无源目标检测框架,利用视觉基础模型作为外部知识源,通过三个模块联合增强特征对齐和标签质量,在六个基准测试中达到最先进性能。

  • Motivation: 现有SFOD方法主要依赖源模型的内部知识,限制了跨域泛化能力并导致有偏伪标签。视觉基础模型具有强大的感知能力和广泛泛化性,但在SFOD场景中潜力尚未充分挖掘。
  • Method: 设计了三个VFM模块:1) 基于补丁相似性加权的全局特征对齐;2) 基于动量更新原型的实例级对比学习;3) 通过熵感知策略融合检测VFM和教师模型预测的双源增强伪标签融合。
  • Result: 在六个基准测试上的广泛实验表明,该方法实现了最先进的SFOD性能,验证了整合VFM同时提高可迁移性和判别性的有效性。
  • Conclusion: 通过利用视觉基础模型作为外部知识源,提出的框架成功解决了SFOD中特征对齐和标签质量问题,显著提升了跨域目标检测性能。

[209] YoNoSplat: You Only Need One Model for Feedforward 3D Gaussian Splatting

Botao Ye,Boqi Chen,Haofei Xu,Daniel Barath,Marc Pollefeys

Main category: cs.CV

TL;DR: YoNoSplat是一个前馈模型,能够从任意数量的无结构图像中重建高质量的3D高斯溅射表示,支持有姿态和无姿态、有标定和无标定的输入。

  • Motivation: 解决从无结构图像集合中进行快速灵活的3D场景重建的挑战,特别是在处理姿态不确定和相机参数未知的情况。
  • Method: 使用前馈网络预测局部高斯和相机姿态,通过混合训练策略解决3D高斯和相机参数联合学习的困难,引入成对相机距离归一化方案解决尺度模糊问题,并嵌入相机内参到网络中。
  • Result: 在NVIDIA GH200 GPU上仅需2.69秒即可从100张视图重建场景,在标准基准测试中在姿态自由和姿态依赖设置下均达到最先进性能。
  • Conclusion: YoNoSplat提供了一种高效、灵活且强大的3D场景重建解决方案,能够处理各种输入条件并实现快速重建。

[210] Garbage Vulnerable Point Monitoring using IoT and Computer Vision

R. Kumar,A. Lall,S. Chaudhari,M. Kale,A. Vattem

Main category: cs.CV

TL;DR: 提出基于物联网和计算机视觉的智能城市垃圾管理系统,用于监测垃圾易堆积点的非法倾倒行为,通过目标检测算法实现高效监控。

  • Motivation: 解决城市地区垃圾易堆积点的非法倾倒问题,需要一种能够快速检测和监控垃圾倾倒的智能系统。
  • Method: 使用街级摄像头和目标检测算法,在印度Sangareddy地区收集数据,并评估YOLOv8、YOLOv10、YOLO11m和RT-DETR等模型性能。
  • Result: YOLO11m模型在垃圾检测中达到92.39%的最高准确率和0.91的mAP@50,能够有效捕捉垃圾倾倒的时、日、周模式。
  • Conclusion: 目标检测模型非常适合用于GVP位置的垃圾倾倒监控和追踪,系统能够实现全天候的全面监控。

[211] Inference-Time Scaling of Diffusion Models for Infrared Data Generation

Kai A. Horstmann,Maxim Clouser,Kia Khezeli

Main category: cs.CV

TL;DR: 提出了一种基于推理时缩放的方法,使用领域适应的CLIP验证器来提升红外图像生成质量,在有限数据条件下改善红外图像生成效果。

  • Motivation: 红外图像在低能见度条件下具有优势,但高质量标注数据稀缺阻碍了下游视觉模型开发。合成红外图像生成可加速模型开发,但受限于数据集规模难以训练基础级生成扩散模型。
  • Method: 采用FLUX.1-dev文本到图像扩散模型,通过参数高效技术在少量红外图像样本上进行微调,训练领域适应的CLIP验证器在推理时指导扩散采样过程。
  • Result: 在KAIST多光谱行人检测基准数据集上,FID分数相比无引导基线样本降低了10%,生成质量得到一致改善。
  • Conclusion: 推理时指导为在低数据红外设置中弥合领域差距提供了一个有前景的方向。

[212] Real-Time LiDAR Super-Resolution via Frequency-Aware Multi-Scale Fusion

June Moh Goo,Zichao Zeng,Jan Boehm

Main category: cs.CV

TL;DR: FLASH是一个新颖的LiDAR超分辨率框架,通过双域处理(空间域和频域)克服了现有方法的局限性,在KITTI数据集上实现了最先进的性能,同时保持实时部署能力。

  • Motivation: 解决低成本低分辨率LiDAR传感器实现高质量3D感知的挑战,克服现有基于transformer的方法仅限于空间域处理且感受野受限的问题。
  • Method: FLASH框架包含两个关键创新:1)频率感知窗口注意力,结合局部空间注意力和通过FFT的全局频域分析;2)自适应多尺度融合,用学习的位置特定特征聚合替换传统跳跃连接,并通过CBAM注意力增强动态特征选择。
  • Result: 在KITTI数据集上的广泛实验表明,FLASH在所有评估指标上都达到了最先进的性能,超越了需要多次前向传播的不确定性增强基线方法。FLASH在保持单次传播效率的同时,性能优于使用蒙特卡洛Dropout的TULIP。
  • Conclusion: FLASH的双域方法通过架构设计而非计算昂贵的随机推理有效处理不确定性,使其适用于自动驾驶系统,在所有距离范围内都表现出持续的优势。

[213] StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation

Tianrui Feng,Zhi Li,Shuo Yang,Haocheng Xi,Muyang Li,Xiuyu Li,Lvmin Zhang,Keting Yang,Kelly Peng,Song Han,Maneesh Agrawala,Kurt Keutzer,Akio Kodaira,Chenfeng Xu

Main category: cs.CV

TL;DR: StreamDiffusionV2是一个无需训练的视频扩散模型实时直播管道,通过SLO感知批处理调度、块调度、滚动KV缓存等技术,在保证低延迟的同时实现高帧率生成。

  • Motivation: 现有图像基础的直播扩散模型存在时间一致性不足的问题,而离线视频生成系统无法满足直播的实时性要求(最小首帧时间、每帧截止时间、低抖动)。
  • Method: 集成SLO感知批处理调度器和块调度器,采用sink-token引导的滚动KV缓存、运动感知噪声控制器等系统级优化,并通过可扩展的管道编排实现跨去噪步骤和网络层的并行化。
  • Result: 在4个H100 GPU上,14B参数模型达到58.28 FPS,1.3B参数模型达到64.52 FPS,首帧渲染时间小于0.5秒,支持1-4步去噪的灵活配置。
  • Conclusion: StreamDiffusionV2使最先进的生成式直播变得实用且可扩展,从个人创作者到企业级平台都能受益。

[214] SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards

Hunar Batra,Haoqin Tu,Hardy Chen,Yuanze Lin,Cihang Xie,Ronald Clark

Main category: cs.CV

TL;DR: SpatialThinker是一个3D感知的多模态大语言模型,通过强化学习结合结构化空间基础和多步推理,在空间理解任务上超越GPT-4o等现有方法。

  • Motivation: 现有的多模态大语言模型在空间理解方面仍存在困难,通常依赖显式3D输入或特定架构修改,且受限于大规模数据集或稀疏监督。
  • Method: 提出SpatialThinker模型,通过构建任务相关对象和空间关系的场景图,结合密集空间奖励进行多步推理。包含两个关键贡献:生成STVQA-7K高质量空间VQA数据集的数据合成流水线,以及使用多目标密集空间奖励的在线强化学习。
  • Result: SpatialThinker-7B在空间理解和真实世界VQA基准测试中优于监督微调和稀疏RL基线,相比稀疏RL几乎使基础模型增益翻倍,并超越GPT-4o。
  • Conclusion: 结果表明,将空间监督与奖励对齐推理相结合,能够在有限数据下实现稳健的3D空间理解,推动多模态大语言模型向人类水平视觉推理迈进。

[215] DIMO: Diverse 3D Motion Generation for Arbitrary Objects

Linzhan Mou,Jiahui Lei,Chen Wang,Lingjie Liu,Kostas Daniilidis

Main category: cs.CV

TL;DR: DIMO是一个从单张图像生成任意物体多样化3D运动的生成方法,通过利用预训练视频模型的运动先验,构建共享潜在空间来表示运动模式。

  • Motivation: 现有方法难以从单张图像生成多样化的3D运动,需要利用视频模型中的丰富运动先验来提取通用运动模式。
  • Method: 首先生成具有多样化运动的多个视频,将每个运动嵌入到潜在向量中,训练共享运动解码器学习由神经关键点轨迹表示的运动分布,然后用3D高斯模型驱动几何和外观。
  • Result: 能够在推理时通过单次前向传播采样多样化3D运动,支持3D运动插值和语言引导的运动生成等应用。
  • Conclusion: DIMO成功构建了紧凑的运动表示空间,实现了从单张图像生成多样化3D运动的能力。

[216] TwinOR: Photorealistic Digital Twins of Dynamic Operating Rooms for Embodied AI Research

Han Zhang,Yiqing Shen,Roger D. Soberanis-Mukul,Ankita Ghosh,Hao Ding,Lalithkumar Seenivasan,Jose L. Porras,Zhekai Mao,Chenjia Li,Wenjie Xiao,Lonny Yarmus,Angela Christine Argento,Masaru Ishii,Mathias Unberath

Main category: cs.CV

TL;DR: TwinOR是一个用于构建手术室数字孪生的框架,通过多视角感知重建静态几何和动态运动,为具身AI研究提供高保真、可控的虚拟环境。

  • Motivation: 手术室的安全规范和操作限制阻碍了具身AI在真实环境中的感知和交互学习,需要创建安全可控的数字孪生环境来支持持续学习和评估。
  • Method: 从预扫描视频重建静态几何,通过多视角感知持续建模人和设备运动,将静态和动态组件融合到沉浸式3D环境中,支持可控模拟和具身探索。
  • Result: TwinOR以厘米级精度重建完整手术室几何,保持工作流程中的动态交互,合成数据上的模型性能接近真实室内数据集报告精度。
  • Conclusion: TwinOR建立了从真实到模拟的管道,构建动态、逼真的手术室数字孪生,为具身AI提供安全、可扩展、数据高效的发展和基准测试环境。

eess.IV

[217] Training-Free Adaptive Quantization for Variable Rate Image Coding for Machines

Yui Tatsumi,Ziyue Zeng,Hiroshi Watanabe

Main category: eess.IV

TL;DR: 提出一种无需训练的自适应量化步长控制方案,用于图像机器编码(ICM),通过单一参数实现连续比特率控制,在保持语义重要区域的同时粗量化次要区域。

  • Motivation: 现有的ICM框架大多使用固定比特率的LIC模型,需要为每个目标比特率单独训练,限制了实际应用。现有的可变比特率方法虽然缓解了这一问题,但仍依赖训练,增加了计算成本和部署复杂度。
  • Method: 利用通道间熵依赖性和超先验网络预测的空间尺度参数,提出无需训练的自适应量化步长控制方案,通过单一参数连续控制比特率。
  • Result: 实验结果表明该方法有效,相比非自适应可变比特率方法实现了高达11.07%的BD-rate节省。
  • Conclusion: 提出的训练自由自适应量化方案成功解决了ICM中的可变比特率控制问题,在保持语义重要性的同时实现了灵活的比特率调整。

[218] HarmoQ: Harmonized Post-Training Quantization for High-Fidelity Image

Hongjun Wang,Jiyuan Chen,Xuan Song,Yinqiang Zheng

Main category: eess.IV

TL;DR: 提出了HarmoQ框架,通过协调权重和激活的量化来解决超分辨率模型后训练量化中的关键问题,在2位量化下比现有方法提升0.46 dB,同时实现3.2倍加速和4倍内存减少。

  • Motivation: 现有后训练量化方法独立处理权重和激活量化,忽略了它们之间的关键相互作用。研究发现权重量化主要影响结构相似性,而激活量化主要影响像素级精度,需要协调处理。
  • Method: HarmoQ框架包含三个协同步骤:结构残差校准主动调整权重以补偿激活引起的细节损失,协调尺度优化通过闭式解分析平衡量化难度,自适应边界细化在优化过程中迭代维持这种平衡。
  • Result: 在激进压缩下取得显著增益,在Set5数据集上2位量化时比现有方法提升0.46 dB,在A100 GPU上实现3.2倍加速和4倍内存减少。
  • Conclusion: 这是首个系统分析超分辨率量化中权重-激活耦合的工作,为高效高质量图像恢复建立了原则性解决方案。

[219] EndoIR: Degradation-Agnostic All-in-One Endoscopic Image Restoration via Noise-Aware Routing Diffusion

Tong Chen,Xinyu Ma,Long Bai,Wenyang Wang,Sun Yue,Luping Zhou

Main category: eess.IV

TL;DR: EndoIR是一个基于扩散模型的端到端内窥镜图像恢复框架,能够处理多种退化类型(如低光照、烟雾、出血等),无需预先知道退化类型,使用单一模型实现多退化恢复。

  • Motivation: 内窥镜图像常受多种退化影响,现有方法多为任务特定且需要先验退化知识,限制了在真实临床环境中的鲁棒性。
  • Method: 提出EndoIR框架,包括双域提示器提取空间-频率特征,自适应嵌入编码共享和任务特定线索,双流扩散架构分别处理干净和退化输入,整流融合块结构化整合,噪声感知路由块动态选择相关特征。
  • Result: 在SegSTRONG-C和CEC数据集上的实验表明,EndoIR在多种退化场景下达到最先进性能,且参数量少于强基线模型,下游分割实验证实了其临床实用性。
  • Conclusion: EndoIR提供了一个退化无关的通用内窥镜图像恢复解决方案,在保持高效性的同时显著提升了多退化场景下的恢复性能。

[220] Cross-Modal Fine-Tuning of 3D Convolutional Foundation Models for ADHD Classification with Low-Rank Adaptation

Jyun-Ping Kao,Shinyeong Rho,Shahar Lazarev,Hyun-Hae Cho,Fangxu Xing,Taehoon Shin,C. -C. Jay Kuo,Jonghye Woo

Main category: eess.IV

TL;DR: 提出了一种参数高效的迁移学习方法,通过3D LoRA技术将预训练于CT图像的大规模3D卷积基础模型适配到MRI数据的ADHD分类任务,显著减少可训练参数并达到最先进性能。

  • Motivation: 儿童ADHD的早期诊断对改善教育和心理健康结果至关重要,但使用神经影像数据诊断ADHD仍面临异质性表现和与其他疾病症状重叠的挑战。
  • Method: 引入3D低秩适应(LoRA),将3D卷积核分解为2D低秩更新,大幅减少可训练参数,实现从CT到MRI的跨模态迁移学习。
  • Result: 在公共扩散MRI数据库的五折交叉验证中,一个模型变体达到71.9%准确率,另一个获得0.716的AUC,仅使用164万个可训练参数(比完全微调少113倍以上)。
  • Conclusion: 这是神经影像中首批成功的跨模态(CT到MRI)基础模型适配之一,为ADHD分类建立了新基准,同时极大提高了效率。

[221] Turbo-DDCM: Fast and Flexible Zero-Shot Diffusion-Based Image Compression

Amit Vaisman,Guy Ohayon,Hila Manor,Michael Elad,Tomer Michaeli

Main category: eess.IV

TL;DR: 本文提出Turbo-DDCM,一种高效的零样本扩散压缩方法,显著加快运行速度同时保持与最先进技术相当的性能。

  • Motivation: 现有的零样本扩散压缩方法虽然取得了显著进展,但存在运行速度慢、计算需求高的问题。
  • Method: 基于DDCM压缩方案进行改进,通过在每个去噪步骤中高效组合大量噪声向量来减少所需去噪操作次数,并结合改进的编码协议。还提出了两种变体:优先感知变体和失真控制变体。
  • Result: Turbo-DDCM在保持性能的同时显著提高了运行速度,被定位为有吸引力、实用且灵活的图像压缩方案。
  • Conclusion: Turbo-DDCM是一种高效、实用的零样本扩散压缩方法,在速度和性能之间取得了良好平衡。

[222] Hierarchical Spatial-Frequency Aggregation for Spectral Deconvolution Imaging

Tao Lv,Daoming Zhou,Chenglong Huang,Chongde Zi,Linsen Chen,Xun Cao

Main category: eess.IV

TL;DR: 提出HSFAUT方法解决光谱解卷积成像中的场景依赖性问题,通过分层空间-频谱聚合展开框架和Transformer实现高效高保真重建

  • Motivation: 传统计算光谱成像方法存在体积庞大和保真度有限的问题,而基于PSF工程的光谱解卷积方法虽然紧凑,但其复合卷积-积分操作导致系数矩阵场景依赖,阻碍成像先验的有效利用和精确重建
  • Method: 提出分层空间-频谱聚合展开框架(HSFAUF),将非线性过程转化为线性映射;设计空间-频率聚合Transformer(SFAT)在迭代优化中整合空间-频谱先验;最终开发基于Transformer的深度展开方法HSFAUT
  • Result: 系统模拟和真实实验表明,HSFAUT在更少内存和计算成本下超越现有最优方法,在不同SDI系统上均表现出最优性能
  • Conclusion: HSFAUT有效解决了SDI中的数据依赖算子问题,实现了高保真紧凑型计算光谱成像

[223] RRTS Dataset: A Benchmark Colonoscopy Dataset from Resource-Limited Settings for Computer-Aided Diagnosis Research

Ridoy Chandra Shil,Ragib Abid,Tasnia Binte Mamun,Samiul Based Shuvo,Masfique Ahmed Bhuiyan,Jahid Ferdous

Main category: eess.IV

TL;DR: 提出了BUET息肉数据集(BPD),包含真实临床条件下的结肠镜图像,用于结直肠癌预防中的息肉检测。

  • Motivation: 现有公共数据集样本量小、图像经过筛选且缺乏真实世界伪影,需要能反映临床实践复杂性的数据集,特别是在资源受限环境中。
  • Method: 使用Olympus 170和Pentax i-Scan系列内窥镜在常规临床条件下收集图像,包含专家标注的二元掩码,涵盖运动模糊、镜面高光、粪便伪影、血液和低光帧等挑战。
  • Result: 数据集包含164名患者的1,288张息肉图像和31名患者的1,657张无息肉图像。基准测试显示VGG16分类准确率达90.8%,InceptionV4-UNet分割Dice分数为0.64,性能低于精选数据集,反映了真实世界图像的难度。
  • Conclusion: BPD数据集提供了真实临床条件下的结肠镜图像基准,有助于开发更稳健的息肉检测算法,特别是在资源受限环境中。

[224] TauFlow: Dynamic Causal Constraint for Complexity-Adaptive Lightweight Segmentation

Zidong Chen,Fadratul Hafinaz Hassan

Main category: eess.IV

TL;DR: TauFlow是一个轻量级医学图像分割模型,通过脑启发机制解决边缘设备部署的两个关键问题:处理病变边界与背景区域的对比度差异,以及极轻量设计(<0.5M参数)时的精度下降问题。

  • Motivation: 解决在边缘设备上部署轻量级医学图像分割模型的两个主要挑战:1)有效处理病变边界与背景区域的强烈对比;2)追求极轻量设计时出现的精度急剧下降问题。
  • Method: 提出TauFlow模型,核心是脑启发动态特征响应策略,包含两个关键创新:卷积长时程细胞(ConvLTC)动态调节特征更新速率,对低频背景"慢速"处理,对高频边界"快速"响应;STDP自组织模块显著缓解编码器与解码器之间的特征冲突。
  • Result: STDP自组织模块将编码器与解码器之间的特征冲突率从约35%-40%降低到8%-10%。
  • Conclusion: TauFlow通过脑启发动态特征响应策略,成功解决了轻量级医学图像分割模型在边缘设备部署中的关键挑战,实现了高效的特征处理和显著降低的特征冲突。

[225] Task-Adaptive Low-Dose CT Reconstruction

Necati Sefercioglu,Mehmet Ozan Unal,Metin Ertas,Isa Yildirim

Main category: eess.IV

TL;DR: 提出了一种任务自适应CT重建框架,通过将预训练的任务网络作为正则化项融入重建损失函数,在保持诊断质量的同时提升解剖细节保留能力。

  • Motivation: 现有深度学习CT重建方法虽然在标准图像质量指标上表现优异,但经常无法保留诊断任务所需的关键解剖细节,限制了其临床应用。
  • Method: 使用冻结的预训练任务网络作为重建损失函数的正则化项,不同于联合训练方法,该方法在保持重建质量的同时利用任务模型指导训练。
  • Result: 在肝脏和肝肿瘤分割任务中,任务自适应模型Dice得分达0.707,接近全剂量扫描性能(0.874),显著优于联合训练方法(0.331)和传统重建方法(0.626)。
  • Conclusion: 该框架可通过简单的损失函数修改集成到任何现有深度学习重建模型中,为临床实践中的任务自适应优化提供了广泛应用的潜力。

[226] CAMP-VQA: Caption-Embedded Multimodal Perception for No-Reference Quality Assessment of Compressed Video

Xinyi Wang,Angeliki Katsenou,Junxiao Shen,David Bull

Main category: eess.IV

TL;DR: CAMP-VQA是一个无需参考的视频质量评估框架,利用大型视觉语言模型的语义理解能力,通过质量感知提示机制结合视频元数据和关键帧片段生成细粒度质量描述,在多个UGC数据集上优于现有方法。

  • Motivation: 用户生成内容(UGC)在YouTube、TikTok等平台上的普及使得无参考视频质量评估变得至关重要。然而,非专业采集和转码特性给NR-VQA带来挑战,现有模型由于缺乏细粒度伪影类型标注,对压缩内容的主观评分建模有限。
  • Method: 提出CAMP-VQA框架,利用BLIP-2预训练方法,通过质量感知提示机制整合视频元数据(分辨率、帧率、码率)和帧间变化提取的关键片段,生成细粒度质量描述。设计统一架构从语义对齐、时间特性和空间特性三个维度建模感知质量。
  • Result: 在多种UGC数据集上的广泛实验表明,该方法持续优于现有NR-VQA方法,在平均排名和线性相关性(SRCC: 0.928, PLCC: 0.938)方面达到最佳性能,无需昂贵的细粒度人工标注。
  • Conclusion: CAMP-VQA通过利用大型视觉语言模型的语义理解能力和质量感知提示机制,有效解决了UGC视频质量评估的挑战,在多个维度上实现了优越的性能表现。

stat.ML

[227] Non-Negative Stiefel Approximating Flow: Orthogonalish Matrix Optimization for Interpretable Embeddings

Brian B. Avants,Nicholas J. Tustison,James R Stone

Main category: stat.ML

TL;DR: NSA-Flow是一个用于可解释表示学习的矩阵估计框架,结合了稀疏矩阵分解、正交化和约束流形学习,通过结构化稀疏性和列间去相关来平衡重构保真度,提供稀疏、稳定且可解释的表示。

  • Motivation: 当前方法在可解释性和模型灵活性之间难以平衡,限制了从复杂数据中提取有意义见解的能力,特别是在高维设置中如神经影像学、基因组学和文本分析。
  • Method: NSA-Flow通过连续平衡重构保真度和列间去相关来强制结构化稀疏性,使用单一可调权重参数化,在Stiefel流形附近作为平滑流操作,具有非负性和自适应梯度控制的近端更新。
  • Result: 在模拟和真实生物医学数据中,NSA-Flow提高了可解释性和泛化能力,在Golub白血病数据集和阿尔茨海默病研究中,与相关方法相比保持或改进了性能。
  • Conclusion: NSA-Flow提供了一个可扩展的通用工具,适用于跨数据科学领域的可解释机器学习,能够平滑优化并无缝集成到现有降维流程中。

cs.LO

[228] Verifying rich robustness properties for neural networks

Mohammad Afzal,S. Akshay,Ashutosh Gupta

Main category: cs.LO

TL;DR: 提出一个统一的神经网络鲁棒性验证框架,使用简单语法定义多种鲁棒性变体,并通过添加额外层实现与现有验证工具的兼容。

  • Motivation: 现有鲁棒性验证方法需要专门编码且忽略神经网络的置信度,需要更通用和考虑置信度的验证框架。
  • Method: 使用简单语法规范框架定义鲁棒性变体,通过添加额外层将验证问题转化为标准神经网络验证问题,兼容现有验证工具。
  • Result: 在8870个基准测试(最大网络1.38亿参数)上验证了多种鲁棒性变体,性能显著优于直接编码方法。
  • Conclusion: 该框架能够统一验证多种鲁棒性变体,考虑网络置信度,且与现有验证工具兼容,具有实际应用价值。

q-bio.QM

[229] Selective Diabetic Retinopathy Screening with Accuracy-Weighted Deep Ensembles and Entropy-Guided Abstention

Jophy Lin

Main category: q-bio.QM

TL;DR: 提出了一种集成深度学习框架,结合不确定性估计来改进糖尿病视网膜病变检测的鲁棒性、透明性和可扩展性。

  • Motivation: 糖尿病视网膜病变是全球可预防性失明的主要原因,但现有诊断方法成本高、资源密集,且深度学习模型缺乏可解释性和不确定性量化,限制了临床可靠性。
  • Method: 集成7种CNN架构(ResNet-50、DenseNet-121、MobileNetV3 Small/Large、EfficientNet B0/B2/B3),采用精度加权多数投票策略融合输出,使用概率加权熵度量量化预测不确定性。
  • Result: 在35,000张EyePACS视网膜图像上训练验证,未过滤准确率达93.70%(F1=0.9376),不确定性过滤后最高准确率达99.44%(F1=0.9932)。
  • Conclusion: 不确定性感知的精度加权集成在不影响性能的情况下提高了可靠性,通过置信度校准输出和可调精度-覆盖权衡,为高风险医疗部署可信AI诊断提供了通用范式。

cs.CR

[230] Identity Card Presentation Attack Detection: A Systematic Review

Esteban M. Ruiz,Juan E. Tapia,Reinel T. Soto,Christoph Busch

Main category: cs.CR

TL;DR: 本文对2020-2025年基于AI的身份文档呈现攻击检测(PAD)进行了系统文献综述,揭示了该领域从CNN到微伪影分析再到基础模型的方法演进,并识别了阻碍进展的"现实差距"和"合成效用差距"两大关键问题。

  • Motivation: 远程身份验证对数字安全至关重要,但面临伪造或篡改身份文档的复杂呈现攻击。尽管深度学习推动了PAD发展,但该领域受限于数据缺乏和模型跨文档类型及新攻击方法的泛化能力差。
  • Method: 采用PRISMA方法进行系统文献综述,全面分析2020-2025年基于AI的身份文档PAD研究现状。
  • Result: 发现方法学从标准CNN转向专业法医微伪影分析,再到大规模基础模型的重要转变。识别出"现实差距"(私有与公共数据集验证结果差异)和"合成效用差距"(合成数据生成未能预测法医效用)两大关键问题。
  • Conclusion: 本综述整合研究发现,识别关键研究空白,并提供了一个规范性路线图框架,旨在开发安全、鲁棒且全球可泛化的PAD系统。

eess.AS

[231] Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models

Umberto Cappellazzo,Xubo Liu,Pingchuan Ma,Stavros Petridis,Maja Pantic

Main category: eess.AS

TL;DR: Omni-AVSR是一个统一的多模态语音识别LLM框架,支持听觉、视觉和视听语音识别任务,通过多粒度训练和参数高效适应实现资源优化。

  • Motivation: 当前基于LLM的语音识别方法通常独立处理不同任务,需要训练多个模型,计算和部署资源消耗大,且缺乏跨任务协同效应。需要统一框架来支持ASR、VSR和AVSR任务,同时实现弹性推理。
  • Method: 采用matryoshka表示学习范式进行多粒度音频和视觉训练,减少训练资源消耗;探索三种基于LoRA的策略来适应骨干LLM,平衡共享和任务特定专业化。
  • Result: 在LRS2和LRS3数据集上的实验表明,Omni-AVSR在训练单个模型的情况下,以显著更低的训练和部署资源消耗,达到或优于最先进基线的准确率。模型在声学噪声下保持鲁棒性,并分析了LLM规模增加时的扩展行为。
  • Conclusion: Omni-AVSR提供了一个统一的音频-视觉LLM框架,能够高效支持多种语音识别任务,在性能和效率之间取得良好平衡。

cs.LG

[232] Adaptive Sample-Level Framework Motivated by Distributionally Robust Optimization with Variance-Based Radius Assignment for Enhanced Neural Network Generalization Under Distribution Shift

Aheer Sravon,Devdyuti Mazumder,Md. Ibrahim

Main category: cs.LG

TL;DR: 提出Var-DRO框架,通过样本级自适应鲁棒性预算解决传统DRO方法过于保守或鲁棒性分配不当的问题,基于在线损失方差识别高风险样本并分配个性化鲁棒性预算。

  • Motivation: 传统经验风险最小化(ERM)在分布偏移和少数子群体上不可靠,而传统分布鲁棒优化(DRO)使用单一全局鲁棒性预算会导致模型过于保守或鲁棒性分配不当。
  • Method: 基于样本在线损失方差自动识别高风险训练样本,为每个样本分配个性化鲁棒性预算;使用KL散度式双边约束,形成凸多面体上的线性内最大化问题,采用高效的水填充算法求解;引入预热阶段和线性斜坡调度稳定训练。
  • Result: 在CIFAR-10-C上达到最高平均准确率;在Waterbirds上提升整体性能;在原始CIFAR-10上保持竞争力;无监督、易实现、理论可靠且计算高效。
  • Conclusion: Var-DRO框架通过样本级自适应鲁棒性预算有效解决了传统DRO方法的局限性,在多个数据集上表现出优越性能,为分布鲁棒优化提供了更精细的解决方案。

[233] MARAuder's Map: Motion-Aware Real-time Activity Recognition with Layout-Based Trajectories

Zishuai Liu,Weihang You,Jin Lu,Fei Dou

Main category: cs.LG

TL;DR: 提出了MARAuder's Map框架,用于从原始未分割传感器流中实时识别人类活动,通过将传感器激活投影到物理平面图生成轨迹感知的图像序列,结合混合深度学习模型处理时空依赖关系。

  • Motivation: 解决智能家居中基于环境传感器的人类活动识别面临的挑战,包括实时推理需求、空间基础推理和上下文感知的时间建模,现有方法通常依赖预分割数据且忽略环境物理布局。
  • Method: 将传感器激活投影到物理平面图生成轨迹感知图像序列,使用混合深度学习模型联合捕捉空间结构和时间依赖,引入可学习时间嵌入模块编码上下文线索,采用基于注意力的编码器选择关注信息丰富的片段。
  • Result: 在多个真实世界智能家居数据集上的广泛实验表明,该方法优于强基线方法,为环境传感器环境中的实时人类活动识别提供了实用解决方案。
  • Conclusion: MARAuder's Map框架通过空间投影和时间建模,有效解决了实时活动识别中的时空依赖问题,在跨活动转换和时间模糊性情况下仍能准确识别,具有实际部署价值。

[234] Test-Time Iterative Error Correction for Efficient Diffusion Models

Yunshan Zhong,Yanwei Qi,Yuxin Zhang

Main category: cs.LG

TL;DR: 提出了一种名为迭代误差校正(IEC)的测试时方法,用于减轻高效扩散模型中的推理时间误差,将误差传播从指数增长降低到线性增长,无需重新训练或架构更改。

  • Motivation: 资源受限设备上对高质量图像生成的需求日益增长,但高效扩散模型存在由效率技术引入的近似误差,这些误差难以在部署后修正,且会随时间步长指数累积,严重影响生成质量。
  • Method: IEC通过在推理过程中迭代细化模型输出来校正误差,可无缝集成到现有扩散模型的推理流程中,实现性能与效率的灵活权衡。
  • Result: 大量实验表明,IEC在各种数据集、效率技术和模型架构上都能持续提升生成质量。
  • Conclusion: IEC是提升高效扩散模型测试时性能的实用且可泛化的解决方案。

[235] CAMP-HiVe: Cyclic Pair Merging based Efficient DNN Pruning with Hessian-Vector Approximation for Resource-Constrained Systems

Mohammad Helal Uddin,Sai Krishna Ghanta,Liam Seymour,Sabur Baidya

Main category: cs.LG

TL;DR: 提出了一种基于Hessian向量近似的神经网络剪枝方法CAMP-HiVe,通过循环配对合并权重,在保持模型性能的同时显著降低计算需求。

  • Motivation: 深度学习算法在资源受限系统上部署需要高效压缩方法,神经剪枝是最快速有效的方法之一,但需要平衡模型准确性和计算效率。
  • Method: 使用Hessian-向量乘积近似损失函数中的曲率信息,通过幂迭代方法识别并保留关键信息,采用循环配对合并权重的方式动态调整权重重要性。
  • Result: 在ResNet18、ResNet56、MobileNetv2等架构和CIFAR10、CIFAR-100、ImageNet等数据集上,显著降低计算需求同时保持高性能,优于现有最先进剪枝方法。
  • Conclusion: CAMP-HiVe方法通过Hessian向量近似和动态权重合并,实现了模型复杂度和性能的良好平衡,为资源受限系统的神经网络部署提供了有效解决方案。

[236] Oh That Looks Familiar: A Novel Similarity Measure for Spreadsheet Template Discovery

Ananad Krishnakumar,Vengadesh Ravikumaran

Main category: cs.LG

TL;DR: 提出一种结合语义嵌入、数据类型和空间位置的混合距离度量方法,用于量化电子表格的结构相似性,在模板发现任务上优于基于图的基线方法。

  • Motivation: 传统方法无法捕捉定义模板的空间布局和类型模式,需要新的相似性度量来识别结构相似的电子表格。
  • Method: 将电子表格转换为单元格级嵌入,然后使用Chamfer和Hausdorff距离等聚合技术计算相似性。
  • Result: 在FUSTE数据集上实现了完美的模板重建(调整兰德指数1.00 vs 0.90),在模板族的无监督聚类中表现优于Mondrian基线。
  • Conclusion: 该方法支持大规模自动化模板发现,为表格集合的检索增强生成、模型训练和批量数据清理等下游应用提供支持。

[237] Preparation of Fractal-Inspired Computational Architectures for Advanced Large Language Model Analysis

Yash Mittal,Dmitry Ignatov,Radu Timofte

Main category: cs.LG

TL;DR: FractalNet是一种受分形启发的计算架构,通过模板驱动的生成器、运行器和评估框架,能高效创建1200多种神经网络变体,用于大规模模型多样性分析。

  • Motivation: 挑战大规模模型多样性问题,探索高效自动化的神经网络架构搜索方法。
  • Method: 使用分形模板实现结构递归和多列路径,系统排列卷积、归一化、激活和dropout层,结合PyTorch、AMP和梯度检查点技术在CIFAR-10数据集上训练。
  • Result: 分形架构展现出强大的性能和计算效率,能够平衡地增加模型的深度和宽度。
  • Conclusion: 分形设计是一种可行且资源高效的自动化架构探索方法。

cs.HC

[238] Towards a Humanized Social-Media Ecosystem: AI-Augmented HCI Design Patterns for Safety, Agency & Well-Being

Mohd Ruhul Ameen,Akif Islam

Main category: cs.HC

TL;DR: 提出人类层AI(HL-AI)作为用户拥有的可解释中介,位于浏览器中平台逻辑与界面之间,赋予用户实时控制权,无需平台合作。

  • Motivation: 社交平台的参与优先算法往往放大压力、错误信息和失控,需要让用户重新获得控制权。
  • Method: 开发Chrome/Edge原型,实现五个代表性模式框架:上下文感知帖子重写器、帖子完整性计、粒度订阅源策展器、微撤回代理和恢复模式,并提供统一的数学公式平衡用户效用、自主成本和风险阈值。
  • Result: 评估涵盖技术准确性、可用性和行为结果,提供了一套人性化控制工具,帮助用户在伤害前重写内容、阅读时获得完整性提示、有意调整订阅源、暂停强迫性循环以及在骚扰时寻求庇护。
  • Conclusion: 该原型为现有订阅源提供了实现安全、自主和福祉的实用路径,邀请进行严格的跨文化用户评估。

[239] Pinching Visuo-haptic Display: Investigating Cross-Modal Effects of Visual Textures on Electrostatic Cloth Tactile Sensations

Takekazu Kitagishi,Chun-Wei Ooi,Yuichi Hiroi,Jun Rekimoto

Main category: cs.HC

TL;DR: 研究视觉纹理呈现如何影响静电布料显示器交互中的触觉感知,发现视觉粗糙度会增强感知摩擦力

  • Motivation: 探索视觉纹理与触觉感知之间的跨模态效应,为虚拟材料界面的触觉反馈设计提供理论基础
  • Method: 开发视觉触觉系统,让用户通过捏合和摩擦虚拟布料感受静电驱动的真实摩擦力;通过用户研究检验视觉粗糙度与感知触觉摩擦力之间的跨模态效应
  • Result: 在相同的静电刺激下,视觉粗糙的纹理会显著增强感知到的摩擦力
  • Conclusion: 视觉纹理对触觉感知具有显著影响,这些发现有助于理解多模态纹理感知,并为虚拟材料界面的触觉反馈设计提供重要见解

[240] Achieving Effective Virtual Reality Interactions via Acoustic Gesture Recognition based on Large Language Models

Xijie Zhang,Fengliang He,Hong-Ning Dai

Main category: cs.HC

TL;DR: 提出了首个基于大语言模型(LLM)的CIR手势识别框架,用于VR/AR系统,通过采集差分CIR数据而非原始CIR数据,在少量样本下实现手势识别。

  • Motivation: 解决VR/AR系统中自然高效交互的挑战,传统视觉手势识别存在计算成本高、对光照敏感和隐私泄露问题,而现有CIR方法需要大量标记数据进行训练,不适合少样本场景。
  • Method: 收集差分CIR数据,构建包含10名参与者、15种手势的真实数据集,采用LLM适配分类器进行手势识别。
  • Result: 在真实数据集上的实验表明,基于LLM的框架达到与经典机器学习基线相当的准确率,且无需领域特定重新训练。
  • Conclusion: 该框架为CIR手势识别提供了少样本和零样本学习能力,在VR/AR系统中具有应用潜力。

cs.RO

[241] Lite VLA: Efficient Vision-Language-Action Control on CPU-Bound Edge Robots

Justin Williams,Kishor Datta Gupta,Roy George,Mrinmoy Sarkar

Main category: cs.RO

TL;DR: 在GPS拒止环境中部署小型视觉语言模型(VLMs)于移动机器人,实现实时场景理解和推理,仅使用板载硬件完成同时移动和推理。

  • Motivation: 自主机器人在GPS拒止环境中需要本地、资源高效的推理能力,现有方法将感知与移动分离,无法在动态环境中同时进行移动和推理。
  • Method: 集成紧凑型VLM与多模态感知,在嵌入式硬件上直接进行上下文解释,消除对云连接的依赖。
  • Result: 实验验证了计算效率、任务准确性和系统响应性之间的平衡,在移动机器人上成功部署小型VLMs实现并发推理和移动。
  • Conclusion: 为服务机器人、灾难响应和国防行动等应用中的可扩展、可靠自主性奠定了基础。

[242] ArtReg: Visuo-Tactile based Pose Tracking and Manipulation of Unseen Articulated Objects

Prajval Kumar Murali,Mohsen Kaboli

Main category: cs.RO

TL;DR: 提出了一种名为ArtReg的视觉-触觉跟踪方法,用于在机器人交互过程中跟踪未知物体(单个、多个或铰接式)的位姿,无需事先了解物体形状或动力学特性。

  • Motivation: 机器人在真实环境中经常遇到具有复杂结构和铰接组件的未知物体,如门、抽屉、橱柜和工具。如何在不了解物体几何形状或运动学特性的情况下感知、跟踪和操纵这些物体仍然是机器人学的基本挑战。
  • Method: ArtReg方法将视觉-触觉点云集成到SE(3)李群中的无迹卡尔曼滤波器公式中,用于点云配准。通过推或拉等有目的的操纵动作检测可能的铰接关节,并开发了闭环控制器进行目标驱动的铰接物体操纵。
  • Result: 在真实机器人实验中广泛评估了该方法,在低光照条件、挑战性视觉背景和不同质心的物体上表现出鲁棒性。在标准铰接物体数据集上的基准测试显示,在位姿精度方面优于最先进方法。
  • Conclusion: 利用视觉-触觉信息进行鲁棒准确的位姿跟踪使机器人能够感知和交互未见过的复杂铰接物体(具有旋转或棱柱关节)。

[243] A Low-Rank Method for Vision Language Model Hallucination Mitigation in Autonomous Driving

Keke Long,Jiacheng Guo,Tianyun Zhang,Hongkai Yu,Xiaopeng Li

Main category: cs.RO

TL;DR: 提出了一种基于低秩分解的自包含方法,仅使用候选字幕本身自动排序多个VLM生成的字幕,根据幻觉水平选择残差最小的作为最无幻觉的字幕。

  • Motivation: 在自动驾驶中,视觉语言模型会产生幻觉,但检测和缓解幻觉在缺乏真实参考和模型内部访问权限时具有挑战性。
  • Method: 构建句子嵌入矩阵,将其分解为低秩共识分量和稀疏残差,使用残差幅度对字幕进行排序。
  • Result: 在NuScenes数据集上达到87%的选择准确率,比未过滤基线提高19%,比多智能体辩论方法提高6-10%,推理时间减少51-67%。
  • Conclusion: 该方法能有效识别幻觉最少的字幕,排序结果与人类判断高度相关,且适合实时自动驾驶应用。

[244] Semi-distributed Cross-modal Air-Ground Relative Localization

Weining Lu,Deer Bin,Lian Ma,Ming Ma,Zhihao Ma,Xiangyang Chen,Longfei Wang,Yixiao Feng,Zhouxian Jiang,Yongliang Shi,Bin Liang

Main category: cs.RO

TL;DR: 提出了一种半分布式的跨模态空地相对定位框架,通过解耦相对定位与状态估计,使用深度学习关键点和全局描述符,在通信带宽受限条件下实现高效准确的位置估计。

  • Motivation: 当前多机器人相对定位方法主要采用相同传感器配置的分布式SLAM系统,与所有机器人的状态估计紧密耦合,限制了灵活性和准确性。
  • Method: UGV和UAV独立执行SLAM并提取深度学习关键点和全局描述符,UGV使用LiDAR、相机和IMU进行局部束调整,采用两阶段优化策略:先优化从LiDAR-惯性里程计插值的相机位姿,再估计UGV与UAV之间的相对相机位姿。
  • Result: 实验结果表明该方法在准确性和效率方面表现优异,通信带宽控制在0.3 Mbps以下,远低于传统传输图像或点云的方法。
  • Conclusion: 该方法实现了高效、准确且灵活的跨模态空地相对定位,为空中-地面协作任务提供了有效的解决方案。

[245] SlotVLA: Towards Modeling of Object-Relation Representations in Robotic Manipulation

Taisei Hanyu,Nhat Chung,Huy Le,Toan Nguyen,Yuki Ikebe,Anthony Gunderman,Duy Nguyen Ho Minh,Khoa Vo,Tung Kieu,Kashu Yamazaki,Chase Rainwater,Anh Nguyen,Ngan Le

Main category: cs.RO

TL;DR: 提出了LIBERO+数据集和SlotVLA框架,通过对象中心的关系表示来实现紧凑、可解释的机器人多任务操作。

  • Motivation: 现有机器人多任务模型依赖密集嵌入,混淆了对象和背景线索,存在效率和可解释性问题。受人类基于离散对象及其关系进行推理的启发,探索对象关系和对象中心表示作为结构化、高效和可解释的视觉运动控制基础。
  • Method: 1) 引入LIBERO+细粒度基准数据集,提供对象中心注释(边界框、掩码标签和实例级时间跟踪);2) 提出SlotVLA框架,使用基于槽注意力的视觉分词器保持时间一致的对象表示,关系中心解码器生成任务相关嵌入,LLM驱动模块将嵌入转换为可执行动作。
  • Result: 在LIBERO+上的实验表明,对象中心槽和对象关系槽表示大幅减少了所需视觉标记数量,同时保持了竞争力的泛化性能。
  • Conclusion: LIBERO+和SlotVLA为推进对象关系中心的机器人操作提供了紧凑、可解释且有效的基础。

[246] Vision-Based System Identification of a Quadrotor

Selim Ahmet Iz,Mustafa Unel

Main category: cs.RO

TL;DR: 该论文研究了基于视觉的系统辨识技术在四旋翼建模与控制中的应用,使用灰箱建模处理不确定性,并验证了基于机载视觉系统构建的LQR控制器的有效性。

  • Motivation: 解决四旋翼建模中的复杂性和局限性,特别是在推力和阻力系数方面,探索基于视觉的技术在增强四旋翼建模和控制方面的潜力。
  • Method: 采用灰箱建模方法减轻不确定性,使用机载视觉系统进行系统辨识,并基于辨识模型设计LQR控制器。
  • Result: 模型间表现一致,验证了基于视觉的系统辨识的有效性,证明了这些技术的可用性和一致性。
  • Conclusion: 基于视觉的技术在增强四旋翼建模和控制方面具有潜力,为未来四旋翼性能提升、故障检测和决策过程研究铺平了道路。

[247] PlanT 2.0: Exposing Biases and Structural Flaws in Closed-Loop Driving

Simon Gerstenecker,Andreas Geiger,Katrin Renz

Main category: cs.RO

TL;DR: 本文提出了PlanT 2.0,一个轻量级的、以对象为中心的规划变换器,用于自动驾驶研究。该模型在CARLA平台上实现了最先进的性能,并通过系统性的扰动分析揭示了模型的关键失败模式,主张转向以数据为中心的开发方法。

  • Motivation: 当前自动驾驶研究过于关注基准性能和方法创新,而缺乏对模型失败、偏见和捷径学习的深入分析。这导致改进有限,无法真正理解当前失败的根本原因。
  • Method: 引入PlanT 2.0,一个轻量级的对象中心规划变换器。通过对象级表示实现可控分析,可以轻松扰动输入(如改变位置或添加/移除对象)。针对CARLA Leaderboard 2.0的挑战性场景进行了多项升级。
  • Result: 在Longest6 v2、Bench2Drive和CARLA验证路线上实现了最先进的性能。分析揭示了关键失败:场景理解不足(障碍物多样性低)、专家行为僵化导致可被利用的捷径、对固定专家轨迹的过拟合。
  • Conclusion: 主张转向以数据为中心的开发方法,重点关注更丰富、更鲁棒、偏见更少的数据集。开源了代码和模型。

[248] Robot Learning from a Physical World Model

Jiageng Mao,Sicheng He,Hao-Ning Wu,Yang You,Shuyang Sun,Zhicheng Wang,Yanan Bao,Huizhong Chen,Leonidas Guibas,Vitor Guizilini,Howard Zhou,Yue Wang

Main category: cs.RO

TL;DR: PhysWorld是一个通过物理世界建模从视频生成中学习机器人操作的框架,将视频生成与物理重建相结合,无需真实机器人数据即可实现零样本泛化操作。

  • Motivation: 现有的视频生成模型可以从语言命令和图像合成逼真的视觉演示,为机器人学习提供了强大的训练信号来源。但直接将生成视频的像素运动重定向到机器人会忽略物理约束,导致操作不准确。
  • Method: 给定单张图像和任务命令,PhysWorld生成任务条件视频并从中重建底层物理世界,通过基于对象的残差强化学习将生成视频的运动转化为物理准确的动作。
  • Result: 在多样化真实世界任务上的实验表明,PhysWorld相比先前方法显著提高了操作准确性。
  • Conclusion: PhysWorld通过视频生成与物理世界建模的协同作用,将隐式视觉指导转化为物理可执行的机器人轨迹,实现了无需真实机器人数据收集的零样本泛化操作。

[249] Lightning Grasp: High Performance Procedural Grasp Synthesis with Contact Fields

Zhao-Heng Yin,Pieter Abbeel

Main category: cs.RO

TL;DR: Lightning Grasp是一种高性能程序化抓取合成算法,实现了数量级的速度提升,支持不规则工具类物体的无监督抓取生成。

  • Motivation: 尽管经过多年研究,灵巧手的实时多样化抓取合成仍然是机器人和计算机图形学中未解决的核心挑战。现有方法存在需要精心调优能量函数和敏感初始化等限制。
  • Method: 通过关键洞察:使用简单高效的数据结构——接触场,将复杂几何计算与搜索过程解耦。这种抽象降低了问题复杂度,实现了前所未有的程序化搜索速度。
  • Result: 实现了比最先进方法快几个数量级的速度提升,同时能够为不规则、工具类物体进行无监督抓取生成。
  • Conclusion: 该方法突破了先前方法的限制,开源系统以推动机器人操作的进一步创新。

cs.CL

[250] Referring Expressions as a Lens into Spatial Language Grounding in Vision-Language Models

Akshar Tumu,Varad Shinde,Parisa Kordjamshidi

Main category: cs.CL

TL;DR: 本文提出使用Referring Expression Comprehension任务来评估视觉语言模型的空间推理能力,通过分析模型在物体检测模糊、复杂空间关系和否定表达等情况下的表现,揭示了不同模型在空间语义理解方面的挑战和差异。

  • Motivation: 当前视觉语言模型在空间推理方面存在困难,现有分析主要基于图像描述和视觉问答任务,需要更深入的空间理解和基础能力评估平台。
  • Method: 使用Referring Expression Comprehension任务作为评估平台,分析模型在三种挑战性情况下的表现:1)物体检测模糊;2)复杂空间关系和长句结构;3)否定表达。
  • Result: 所有模型在该任务中都面临挑战,但相对表现取决于底层模型和具体的空间语义类别(拓扑、方向、邻近等)。
  • Conclusion: 研究结果揭示了视觉语言模型在空间推理方面的挑战和不同行为模式,为未来研究方向提供了见解。

[251] TabRAG: Tabular Document Retrieval via Structured Language Representations

Jacob Si,Mike Qu,Michelle Lee,Yingzhen Li

Main category: cs.CL

TL;DR: TabRAG是一个针对表格密集型文档的解析式RAG管道,通过结构化语言表示解决现有解析方法在表格数据提取上的性能不足问题。

  • Motivation: 现有RAG数据摄入方法存在两难:微调嵌入模型计算成本高,而解析方法在提取表格数据时性能不佳。本文旨在解决解析方法在表格数据处理上的局限性。
  • Method: 提出TabRAG管道,使用结构化语言表示来处理表格密集型文档,改进解析式RAG方法。
  • Result: TabRAG在生成和检索任务上优于现有的流行解析方法。
  • Conclusion: TabRAG为处理表格密集型文档提供了一种有效的解析式RAG解决方案,代码已开源。

[252] A Picture is Worth a Thousand (Correct) Captions: A Vision-Guided Judge-Corrector System for Multimodal Machine Translation

Siddharth Betala,Kushan Raj,Vipul Betala,Rohan Saswade

Main category: cs.CL

TL;DR: 本文提出了一个两阶段方法,通过自动错误检测和修正来解决训练数据质量问题,然后进行参数高效的模型微调,在英语到印度语言翻译任务中取得了BLEU分数的提升。

  • Motivation: 解决训练数据中的质量问题,包括翻译错误和需要视觉消歧的模糊翻译,以提高多语言翻译模型的性能。
  • Method: 使用视觉增强的评判-修正管道,通过多模态语言模型系统识别和修正训练数据中的翻译错误,然后使用LoRA对IndicTrans2模型进行参数高效的微调。
  • Result: 在四个语言对中,修正后的训练数据带来了BLEU分数的稳定提升:英语-孟加拉语评估集提升1.30分,挑战集提升0.70分;英语-奥里亚语评估集提升0.60分;英语-印地语挑战集提升0.10分。
  • Conclusion: 通过自动数据修正和参数高效微调的组合方法,可以有效提升多语言翻译模型的性能,特别是在训练数据存在质量问题的情况下。

q-bio.NC

[253] sMRI-based Brain Age Estimation in MCI using Persistent Homology

Debanjali Bhattacharya,Neelam Sinha

Main category: q-bio.NC

TL;DR: 使用持久同调(特别是Betti曲线)进行脑龄预测和区分健康与病理衰老,应用于ADNI数据集的100个结构MRI扫描。

  • Motivation: 开发一种基于拓扑数据分析的方法来理解大脑结构变化与认知障碍之间的关系,为认知衰退的早期检测和监测提供潜在生物标志物。
  • Method: 使用持久同调中的Betti曲线特征,特别是维度1(连通分量)和维度2(1维孔洞)特征,应用于结构MRI数据。
  • Result: Betti曲线特征能有效捕捉与衰老相关的大脑结构变化,成功区分正常与病理衰老,临床特征与预测脑龄和实际年龄的相关性被分为三类。
  • Conclusion: 该方法为理解大脑结构变化如何导致认知障碍提供了新框架,是开发认知衰退早期检测生物标志物的基础。

[254] ConnectomeBench: Can LLMs Proofread the Connectome?

Jeff Brown,Andrew Kirjner Annika Vivekananthan,Ed Boyden

Main category: q-bio.NC

TL;DR: ConnectomeBench是一个评估多模态大语言模型在连接组学数据校对中三个关键任务表现的基准测试,包括片段类型识别、分裂错误修正和合并错误检测。

  • Motivation: 连接组学数据校对需要大量人工努力,研究探索当前AI系统能否自动化这一重要科学任务,以减轻人类负担。
  • Method: 使用来自小鼠视觉皮层和果蝇大脑的两个大型开源数据集,评估包括Claude、GPT系列在内的专有多模态LLM和开源模型在三个校对任务上的表现。
  • Result: 当前模型在片段识别(52-82%平衡准确率)和分裂错误修正(75-85%准确率)上表现良好,但在合并错误识别任务上普遍表现不佳。
  • Conclusion: 虽然最佳模型仍落后于专家表现,但显示出有前景的能力,未来可能增强甚至替代人类在连接组学中的校对工作。