Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Attention-Enhanced Prototypical Learning for Few-Shot Infrastructure Defect Segmentation
Christina Thrainer,Md Meftahul Ferdaus,Mahdi Abdelguerfi,Christian Guetl,Steven Sloan,Kendall N. Niles,Ken Pathak
Main category: cs.CV
TL;DR: 提出增强型特征金字塔网络(E-FPN)用于基础设施检查中的少样本语义分割,通过原型学习框架解决标注数据稀缺问题
- Motivation: 基础设施检查应用中标注训练样本稀缺且昂贵,现有深度学习框架需要大量标注数据且无法用少量数据学习新缺陷类别
- Method: 使用InceptionSepConv块和深度可分离卷积的自适应E-FPN编码器、带掩码平均池化的原型学习、以及全局自注意力、局部自注意力和交叉注意力的注意力特征表示
- Result: 在8-way 5-shot训练配置下达到82.55% F1分数和72.26% mIoU,自注意力方法带来2.57% F1分数和2.9% mIoU的性能提升
- Conclusion: 该框架能够用有限的新训练数据快速响应基础设施检查系统中的新缺陷类型,实现更高效经济的维护计划
[2] SkinMap: Weighted Full-Body Skin Segmentation for Robust Remote Photoplethysmography
Zahra Maleki,Amirhossein Akbari,Amirhossein Binesh,Babak Khalaj
Main category: cs.CV
TL;DR: 提出了一种新颖的皮肤分割技术,用于改进远程光电容积描记(rPPG)技术,通过优先选择皮肤区域来提高心率监测的准确性,特别是在运动和光照变化等挑战性条件下。
- Motivation: rPPG技术虽然成本低、非接触,但对光照和运动敏感。现有方法在无监督流程中需要先选择皮肤区域来提取rPPG信号,但传统皮肤分割方法容易受到嘴、眼、头发等干扰区域的影响。
- Method: 开发了一种新的皮肤分割技术,能够检测全身皮肤区域,同时去除可能导致干扰的区域(如嘴、眼、头发),从而提高提取信号的质量和对运动的鲁棒性。
- Result: 在公开数据集和新构建的SYNC-rPPG数据集上评估,模型在挑战性条件(如说话和头部旋转)下表现出捕捉心跳的优先能力,保持预测心率与实际心率之间的平均绝对误差(MAE),而其他方法无法做到。同时在不同肤色检测中表现出高准确性。
- Conclusion: 该皮肤分割技术为rPPG在现实世界应用中提供了有前景的解决方案,特别是在运动干扰和不同肤色条件下的鲁棒性表现优异。
[3] DeepAf: One-Shot Spatiospectral Auto-Focus Model for Digital Pathology
Yousef Yeganeh,Maximilian Frantzen,Michael Lee,Kun-Hsing Yu,Nassir Navab,Azade Farshad
Main category: cs.CV
TL;DR: DeepAf是一个结合空间和光谱特征的自动对焦框架,能将传统显微镜转换为高效玻片扫描仪,在对焦时间减少80%的同时保持诊断准确性。
- Motivation: 解决全玻片成像扫描仪成本高、现有低成本方案对焦不一致、需要多张输入图像或缺乏跨组织类型泛化能力的问题。
- Method: 提出DeepAf自动对焦框架,通过混合架构结合空间和光谱特征进行单次对焦预测,自动回归到最佳对焦点的距离并调整控制参数。
- Result: 对焦准确度达0.18μm,与双图像方法相当但输入需求减半;交叉实验室泛化能力强,仅0.72%错误对焦预测;在536个脑组织样本临床研究中,4x放大倍率下癌症分类AUC达0.90。
- Conclusion: 该硬件-软件设计为资源受限环境提供了可访问的实时数字病理解决方案,同时保持了诊断准确性。
[4] Fine-Tuned CNN-Based Approach for Multi-Class Mango Leaf Disease Detection
Jalal Ahmmed,Faruk Ahmed,Rashedul Hasan Shohan,Md. Mahabub Rana,Mahdi Hasan
Main category: cs.CV
TL;DR: 本研究评估了五种预训练CNN模型在芒果叶病害多分类中的性能,DenseNet201表现最佳,准确率达99.33%,特别擅长识别Cutting Weevil和Bacterial Canker。
- Motivation: 芒果是南亚重要水果作物,但叶部病害严重影响产量和品质,需要开发可靠的自动检测方法。
- Method: 使用五种预训练CNN模型(DenseNet201、InceptionV3、ResNet152V2、SeResNet152、Xception)进行迁移学习和微调,评估八类芒果叶病害的分类性能。
- Result: DenseNet201表现最优,准确率99.33%,在Cutting Weevil和Bacterial Canker识别上表现突出。ResNet152V2和SeResNet152也有良好结果,而InceptionV3和Xception在视觉相似类别(如Sooty Mould和Powdery Mildew)上表现较差。
- Conclusion: 微调的迁移学习模型能够实现精确可靠的芒果叶病害多分类检测,适用于智能农业应用。
[5] Mitigating Diffusion Model Hallucinations with Dynamic Guidance
Kostas Triaridis,Alexandros Graikos,Aggelina Chatziagapi,Grigorios G. Chrysos,Dimitris Samaras
Main category: cs.CV
TL;DR: 提出动态引导方法,在生成时选择性锐化导致伪影的分数函数方向,减少扩散模型的幻觉样本,同时保持语义多样性。
- Motivation: 扩散模型经常产生结构不一致的幻觉样本,这些样本超出了真实数据分布的支持范围。虽然语义插值有助于生成多样性,但需要更精细的解决方案。
- Method: 引入动态引导方法,通过仅沿已知导致伪影的预定方向选择性锐化分数函数,来减轻幻觉问题,同时保留有效的语义变化。
- Result: 动态引导在受控和自然图像数据集上都显著减少了幻觉,明显优于基线方法。
- Conclusion: 这是首个在生成时而非通过后处理过滤来解决幻觉问题的方法,能有效平衡幻觉减少和生成多样性。
[6] LightCache: Memory-Efficient, Training-Free Acceleration for Video Generation
Yang Xiao,Gen Li,Kaiyuan Deng,Yushu Wu,Zheng Zhan,Yanzhi Wang,Xiaolong Ma,Bo Hui
Main category: cs.CV
TL;DR: 提出了一种训练免费的视频生成加速方法LightCache,通过分析扩散模型推理过程中的编码、去噪和解码阶段,设计了异步缓存交换、特征分块和切片解码三种策略来降低内存消耗,同时保持加速收益。
- Motivation: 扩散模型推理过程中存在潜在冗余,基于缓存的加速方法往往在去噪和解码阶段导致内存激增,需要解决内存消耗问题。
- Method: 将推理过程分解为编码、去噪和解码三个阶段,针对不同阶段特点设计策略:1) 异步缓存交换 2) 特征分块 3) 切片解码,确保新增时间开销低于加速收益。
- Result: 相比基线方法,实现了更快的推理速度和更低的内存使用,同时将质量下降控制在可接受范围内。
- Conclusion: LightCache方法有效解决了视频生成扩散模型推理中的内存消耗问题,在保持加速效果的同时显著降低了内存需求。
[7] See the past: Time-Reversed Scene Reconstruction from Thermal Traces Using Visual Language Models
Kebin Contreras,Luis Toscano-Palomino,Mauro Dalla Mura,Jorge Bacca
Main category: cs.CV
TL;DR: 提出一种基于热成像和RGB图像的时间反转重建框架,利用热残留痕迹恢复几秒前的场景状态,结合视觉语言模型和约束扩散过程实现语义一致的重建。
- Motivation: 热成像能捕捉人机交互留下的热残留痕迹,这些痕迹包含时间信息,可用于推断过去事件,超越RGB相机的能力,在法医和场景分析中有应用潜力。
- Method: 使用配对的RGB和热图像,耦合视觉语言模型与约束扩散过程:一个VLM生成场景描述,另一个指导图像重建,确保语义和结构一致性。
- Result: 在三个受控场景中评估,证明能够重建最多120秒前的合理过去帧,为基于热痕迹的时间反转成像提供了初步实现。
- Conclusion: 该方法展示了从热残留痕迹恢复过去场景状态的可行性,为时间反转成像开辟了新途径。
[8] Personalizing Retrieval using Joint Embeddings or "the Return of Fluffy"
Bruno Korbar,Andrew Zisserman
Main category: cs.CV
TL;DR: 提出了一种名为pi-map的可训练映射网络,能够将对象实例的图像嵌入转换为文本标记,结合自然语言查询实现个性化图像检索。
- Motivation: 目标是通过结合图像中的对象实例信息和自然文本描述来检索图像,例如检索"独角兽Fluffy在某人头上"这样的复合查询图像。
- Method: 设计映射网络将局部图像嵌入转换为文本标记,结合自然语言查询进行CLIP风格文本编码和图像检索。每个对象实例只需训练一次映射网络。
- Result: 使用可训练的pi-map映射网络配合冻结的CLIP文本和图像编码器,在两个个性化检索基准测试中提升了现有技术水平。
- Conclusion: 该方法能够有效实现结合对象实例和文本描述的复合查询图像检索,在个性化检索任务上表现优于现有方法。
[9] ArchitectHead: Continuous Level of Detail Control for 3D Gaussian Head Avatars
Peizhi Yan,Rabab Ward,Qiang Tang,Shan Du
Main category: cs.CV
TL;DR: ArchitectHead是首个支持连续控制细节层次的3D高斯人头像框架,通过2D UV特征空间参数化高斯点,实现无需重新训练即可动态调整渲染质量和效率。
- Motivation: 现有3DGS头像使用固定数量的高斯点,无法根据应用需求灵活平衡渲染效率与视觉质量,需要可调节的细节层次控制。
- Method: 在2D UV特征空间中参数化高斯点,使用多级可学习特征图构建UV特征场,通过轻量级神经网络解码器将潜在特征转换为3D高斯属性,通过动态重采样特征图控制高斯点数量。
- Result: 在最高细节层次实现SOTA质量,最低细节层次仅使用6.2%的高斯点,质量适度下降(L1 Loss +7.9%等),渲染速度几乎翻倍。
- Conclusion: ArchitectHead成功实现了3D高斯头像的连续细节层次控制,在保持高质量的同时显著提升渲染效率。
[10] Human Action Recognition from Point Clouds over Time
James Dickens
Main category: cs.CV
TL;DR: 提出了一种基于3D点云的动作识别新方法,结合点云分割、人体跟踪和体素映射技术,在NTU RGB-D 120数据集上达到89.3%的准确率。
- Motivation: 随着消费级深度传感器和激光雷达的普及,需要开发利用密集3D数据进行动作识别的新方法,作为骨架识别和视频方法的补充。
- Method: 构建了一个处理3D视频的流水线:分割人体点云、跟踪个体、进行身体部位分割。核心是结合点基技术和稀疏卷积网络的3D动作识别骨干网络,支持深度传感器和单目深度估计的点云输入。
- Result: 在NTU RGB-D 120数据集上表现优异,与现有骨架动作识别算法竞争,在训练和测试使用不同人类主体时达到89.3%的准确率,超越了之前的点云动作识别方法。
- Conclusion: 该方法证明了利用密集3D点云数据进行动作识别的可行性,为动作识别领域提供了第三种有效途径。
[11] Be Tangential to Manifold: Discovering Riemannian Metric for Diffusion Models
Shinnosuke Saito,Takashi Matsubara
Main category: cs.CV
TL;DR: 提出了一种基于黎曼度量的扩散模型插值方法,通过噪声空间的几何结构来保持数据流形对齐,相比现有方法产生更自然和忠实的过渡效果。
- Motivation: 扩散模型缺乏显式的低维潜空间来参数化数据流形,限制了流形感知的分析和操作,现有插值方法通常沿着高密度区域路径,不一定与数据流形对齐,导致感知不自然的过渡。
- Method: 提出了一种新颖的黎曼度量方法,在噪声空间中定义度量,利用得分函数雅可比矩阵捕获局部数据流形切空间的信息,鼓励噪声空间中的测地线保持在或平行于学习到的数据流形。
- Result: 在图像插值实验中,该方法比现有的基于密度的方法和朴素基线产生感知上更自然和忠实的过渡效果。
- Conclusion: 通过利用扩散模型学习的数据流形几何结构,提出的黎曼度量方法能够实现更好的流形感知插值,为扩散模型提供更有效的流形操作能力。
[12] Teamwork: Collaborative Diffusion with Low-rank Coordination and Adaptation
Sam Sartor,Pieter Peers
Main category: cs.CV
TL;DR: Teamwork提出了一种灵活统一的解决方案,通过协调多个基础扩散模型实例(队友)来扩展输入输出通道,无需改变预训练扩散模型架构,支持多种图形任务。
- Motivation: 现有通道扩展方法通常针对特定应用,难以适应不同扩散模型或新任务,需要一种更灵活通用的解决方案。
- Method: 使用多个基础扩散模型实例作为队友,采用改进的低秩适应(LoRA)方法进行联合适应和协调,支持队友的动态激活/停用。
- Result: Teamwork在多种生成和逆向图形任务中表现出色,包括修复、SVBRDF估计、本征分解、神经着色和本征图像合成。
- Conclusion: Teamwork提供了一种高效灵活的通道扩展方法,能够适应多种扩散模型和图形任务,具有良好的通用性和实用性。
[13] Seeing the Big Picture: Evaluating Multimodal LLMs' Ability to Interpret and Grade Handwritten Student Work
Owen Henkel,Bill Roberts,Doug Jaffe,Laurence Holt
Main category: cs.CV
TL;DR: Error
- Motivation: Error
- Method: Error
- Result: Error
- Conclusion: Error
[14] Midway Network: Learning Representations for Recognition and Motion from Latent Dynamics
Christopher Hoang,Mengye Ren
Main category: cs.CV
TL;DR: Midway Network是一种自监督学习架构,首次能够仅从自然视频中同时学习物体识别和运动理解的强视觉表示,通过将潜在动态建模扩展到该领域。
- Motivation: 现有自监督学习方法主要关注识别或运动的单一表示,而物体识别和运动理解是感知中相互补充的关键组件。潜在动态建模在决策制定中已用于学习观察及其随时间变化的潜在表示,但尚未应用于视觉表示学习。
- Method: Midway Network采用中间自顶向下路径推断视频帧间的运动潜在变量,使用密集前向预测目标和分层结构来处理自然视频中复杂的多对象场景。
- Result: 在两个大规模自然视频数据集上预训练后,Midway Network在语义分割和光流任务上相对于先前的自监督学习方法表现出强劲性能。
- Conclusion: Midway Network成功地将潜在动态建模扩展到视觉表示学习领域,能够同时学习物体识别和运动理解的强表示,并通过前向特征扰动分析验证了其学习动态能够捕捉高级对应关系。
[15] HoloScene: Simulation-Ready Interactive 3D Worlds from a Single Video
Hongchi Xia,Chih-Hao Lin,Hao-Yu Hsu,Quentin Leboutet,Katelyn Gao,Michael Paulitsch,Benjamin Ummenhofer,Shenlong Wang
Main category: cs.CV
TL;DR: HoloScene是一个新颖的交互式3D重建框架,通过综合场景图表示和能量优化方法,同时实现几何完整性、物体交互性、物理合理性和真实渲染,用于创建可靠的数字孪生。
- Motivation: 当前3D重建和场景理解方法在几何完整性、物体交互性、物理合理性、真实渲染或可靠动态模拟等方面存在不足,需要一种能同时满足这些要求的解决方案。
- Method: 采用综合交互式场景图表示,编码物体几何、外观和物理属性;将重建表述为基于能量的优化问题,整合观测数据、物理约束和生成先验;使用采样探索和梯度优化的混合方法进行高效优化。
- Result: 生成的数字孪生具有完整精确的几何结构、物理稳定性和新颖视角下的真实渲染效果;在多个基准数据集上表现出优越性能,并在交互游戏和实时数字孪生操作中展示了广泛适用性。
- Conclusion: HoloScene框架成功解决了现有3D重建方法的局限性,为增强现实、虚拟现实、游戏和机器人等领域提供了高质量的交互式数字孪生解决方案。
[16] CalibCLIP: Contextual Calibration of Dominant Semantics for Text-Driven Image Retrieval
Bin Kang,Bin Chen,Junjie Wang,Yulin Li,Junzhi Zhao,Zhuotao Tian
Main category: cs.CV
TL;DR: CalibCLIP是一种无需训练的方法,通过对比视觉增强器和判别概念校准器来解决视觉语言模型中主导令牌过度捕获全局语义的问题,在图像检索任务中取得显著改进。
- Motivation: 现有视觉语言模型存在结构限制,少数低贡献令牌可能过度捕获全局语义,主导信息聚合过程并抑制文本驱动图像检索任务中的判别特征。
- Method: 提出CalibCLIP方法:在视觉空间使用对比视觉增强器将视觉特征解耦为目标和低信息区域,识别主导令牌并动态抑制其表示;在文本空间使用判别概念校准器区分文本查询中的通用和判别概念。
- Result: 在涵盖三个图像检索任务的七个基准测试上均取得一致改进,证明了CalibCLIP的有效性。
- Conclusion: CalibCLIP通过校准主导令牌的抑制效应,有效解决了视觉语言模型中的语义主导问题,在图像检索任务中表现出色。
[17] Improving Chain-of-Thought Efficiency for Autoregressive Image Generation
Zeqi Gu,Markos Georgopoulos,Xiaoliang Dai,Marjan Ghazvininejad,Chu Wang,Felix Juefei-Xu,Kunpeng Li,Yujun Shi,Zecheng He,Zijian He,Jiawei Zhou,Abe Davis,Jialiang Wang
Main category: cs.CV
TL;DR: ShortCoTI是一个轻量级优化框架,通过强化学习减少多模态大语言模型中的思维链冗余,在保持图像生成质量的同时将提示推理长度减少54%。
- Motivation: 现有的思维链推理方法在图像生成中会产生不必要的冗余(视觉过度思考),增加计算成本并可能引入与原始提示矛盾的细节。
- Method: 引入ShortCoTI框架,使用自适应奖励函数根据任务难度鼓励更简洁的思维链,并将其整合到强化学习范式中。
- Result: 在多个基准测试(T2I-CompBench、GenEval)上,推理长度减少54%,同时保持或略微提高质量指标。定性分析显示消除了冗余解释和重复优化。
- Conclusion: ShortCoTI在不影响生成图像保真度或视觉吸引力的前提下提高了计算效率。
[18] HOI-R1: Exploring the Potential of Multimodal Large Language Models for Human-Object Interaction Detection
Junwen Chen,Peilin Xiong,Keiji Yanai
Main category: cs.CV
TL;DR: 提出了HOI-R1方法,首次探索语言模型在人类-物体交互检测任务中的潜力,无需额外检测模块,通过纯文本方式解决HOID任务。
- Motivation: 现有HOID方法依赖视觉语言模型的先验知识,训练策略和模型架构复杂;而多模态大语言模型在人类-物体交互检测中的推理能力未被充分探索。
- Method: 引入HOI推理过程和HOID奖励函数,使用强化学习方法训练MLLMs,通过纯文本方式解决HOID任务。
- Result: 在HICO-DET数据集上,HOI-R1的准确率是基线的2倍,具有出色的泛化能力。
- Conclusion: 证明了语言模型在HOID任务中的潜力,无需复杂检测模块即可实现高性能的交互检测。
[19] Efficient Conditional Generation on Scale-based Visual Autoregressive Models
Jiaqi Liu,Tao Huang,Chang Xu
Main category: cs.CV
TL;DR: 提出了ECM(高效控制模型),一种即插即用的轻量级控制框架,通过分布式架构引入控制信号,显著降低了复杂空间条件生成任务的训练成本。
- Motivation: 当前自回归模型在复杂空间条件生成任务中需要微调预训练模型,导致训练成本高昂。
- Method: 采用轻量级控制模块,包含上下文感知注意力层和共享门控前馈网络,并引入早期中心采样策略和温度调度机制。
- Result: 在基于尺度的自回归模型上验证,实现了高保真度和多样性的图像生成控制,超越现有基线方法。
- Conclusion: ECM框架在保持生成质量的同时,显著提升了训练和推理效率,为复杂条件生成提供了高效解决方案。
[20] PointNSP: Autoregressive 3D Point Cloud Generation with Next-Scale Level-of-Detail Prediction
Ziqiao Meng,Qichao Wang,Zhiyang Dou,Zixing Song,Zhipeng Zhou,Irwin King,Peilin Zhao
Main category: cs.CV
TL;DR: PointNSP提出了一种从粗到细的自回归点云生成框架,通过多尺度分解避免了传统自回归方法对点集施加人工排序的问题,首次在自回归范式中实现了最先进的生成质量。
- Motivation: 传统自回归点云生成方法因对无序点集施加人工排序而存在性能差距,这种顺序偏差强调短程连续性但削弱了捕捉长程依赖的能力,无法有效保持全局结构特性如对称性、一致拓扑和大尺度几何规律。
- Method: 受形状建模中细节层次原则启发,提出PointNSP框架:在低分辨率保持全局形状结构,通过下一尺度预测范式逐步在高尺度细化细粒度几何。这种多尺度分解使自回归目标与点集的排列不变性对齐。
- Result: 在ShapeNet上的实验表明,PointNSP首次在自回归范式中建立了最先进的生成质量,在参数、训练和推理效率方面超越了强扩散基线,在8192点密集生成中优势更加明显。
- Conclusion: PointNSP通过多尺度自回归生成框架成功解决了传统方法的局限性,展示了在自回归范式中实现高质量点云生成的潜力,并具有优异的可扩展性。
[21] TFM Dataset: A Novel Multi-task Dataset and Integrated Pipeline for Automated Tear Film Break-Up Segmentation
Guangrong Wan,Jun liu,Tang tang,Lianghao Shi,Wenjun Luo,TingTing Xu
Main category: cs.CV
TL;DR: 提出了首个用于多任务泪膜分析的TFM数据集,包含15个高分辨率视频和三个视觉任务标注。开发了TF-Net分割模型和TF-Collab集成实时分析流水线,实现了泪膜破裂区域的自动分割和分析。
- Motivation: 泪膜破裂分析对诊断干眼症至关重要,但由于缺乏标注数据集和集成解决方案,自动化的TFBU分割仍然具有挑战性。
- Method: 1) 创建TFM数据集,包含帧级分类、Placido环检测和像素级TFBU区域分割三个任务;2) 提出TF-Net分割模型,使用MobileOne-mini骨干网络和重参数化技术;3) 设计TF-Collab集成流水线,协同利用三个任务的模型进行实时分析。
- Result: 实验结果表明TF-Net和TF-Collab的有效性,为眼表诊断的未来研究奠定了基础。代码和TFM数据集已开源。
- Conclusion: 该研究提供了首个全面的泪膜分析数据集和高效的自动化分析解决方案,有望推动干眼症诊断技术的发展。
[22] InstaGeo: Compute-Efficient Geospatial Machine Learning from Data to Deployment
Ibrahim Salihu Yusuf,Iffanice Houndayi,Rym Oualha,Mohamed Aziz Cherif,Kobby Panford-Quainoo,Arnu Pretorius
Main category: cs.CV
TL;DR: InstaGeo是一个端到端的开源框架,解决了地理空间基础模型部署的两个主要限制:缺乏自动化地理空间数据管道和微调模型体积过大。它集成了自动数据整理、任务特定模型蒸馏和无缝部署功能。
- Motivation: 现有地理空间基础模型缺乏处理原始卫星图像的工作流程,下游适配通常保留原始编码器的全部复杂性,限制了实际部署。
- Method: InstaGeo框架包含三个核心组件:(1)自动数据整理,将原始图像转换为模型就绪数据集;(2)任务特定模型蒸馏,获得紧凑高效模型;(3)无缝部署为交互式网络地图应用。
- Result: 在三个已发表研究的数据集上,训练模型mIoU差异很小:洪水映射-0.73pp,作物分割-0.20pp,沙漠蝗虫预测+1.79pp。蒸馏模型比标准微调模型小8倍,显著减少FLOPs和CO2排放。在更大的作物分割数据集上达到60.65% mIoU,比先前基线提高12pp。
- Conclusion: InstaGeo通过统一数据准备、模型压缩和部署,将研究级地理空间基础模型转变为实用的低碳工具,用于实时大规模地球观测,推动地理空间AI向数据质量和应用驱动创新转变。
[23] Beyond Spectral Peaks: Interpreting the Cues Behind Synthetic Image Detection
Sara Mandelli,Diego Vila-Portela,David Vázquez-Padín,Paolo Bestagini,Fernando Pérez-González
Main category: cs.CV
TL;DR: 该论文通过系统研究挑战了当前深度伪造检测器依赖频谱峰值的普遍假设,提出了一种移除频谱峰值的方法,并开发了仅基于频率峰值的线性检测器作为可解释基线。
- Motivation: 当前基于深度学习的伪造检测器通常被视为黑盒,不清楚它们是否真正依赖频谱域中的周期性峰值特征,这限制了检测器的可解释性和可信度。
- Method: 提出了一种移除图像频谱峰值的方法,并分析了该操作对多种检测器的影响;同时引入了一个仅依赖频率峰值的简单线性检测器作为完全可解释的基线。
- Result: 研究发现大多数检测器并不从根本上依赖频谱峰值,挑战了该领域的普遍假设。
- Conclusion: 这项工作为开发更透明和可靠的取证工具铺平了道路,强调了检测器可解释性的重要性。
[24] Combined Hyperbolic and Euclidean Soft Triple Loss Beyond the Single Space Deep Metric Learning
Shozo Saeki,Minoru Kawahara,Hirohisa Aman
Main category: cs.CV
TL;DR: 提出了CHEST损失函数,结合双曲空间和欧几里得空间的代理损失以及基于双曲层次聚类的正则化损失,在四个基准数据集上实现了最先进的性能。
- Motivation: 双曲空间能表示更丰富的结构(如树结构),但双曲空间中的监督代理损失尚未被报道。代理损失在大规模数据集上具有较低的训练复杂度,因此很有吸引力。
- Method: 提出CHEST损失函数,由双曲空间和欧几里得空间的代理损失以及基于双曲层次聚类的正则化损失组成。
- Result: 在四个基准数据集上评估CHEST损失,实现了新的最先进性能。双曲空间和欧几里得空间的组合提高了DML的准确性和学习稳定性。
- Conclusion: CHEST损失通过结合双曲和欧几里得空间的代理损失以及双曲层次聚类正则化,有效解决了双曲空间中应用代理损失的问题,并提升了深度度量学习的性能。
[25] Ocular-Induced Abnormal Head Posture: Diagnosis and Missing Data Imputation
Saja Al-Dabet,Sherzod Turaev,Nazar Zaki,Arif O. Khan,Luai Eldweik
Main category: cs.CV
TL;DR: 该研究开发了两个深度学习框架:AHP-CADNet用于自动诊断眼源性异常头位,以及基于课程学习的插补框架处理缺失数据,在PoseGaze-AHP数据集上取得了优异性能。
- Motivation: 眼源性异常头位(AHP)的早期诊断很重要,但当前临床评估主要依赖主观判断且受不完整医疗记录影响,需要自动化诊断方法和处理缺失数据的解决方案。
- Method: 提出两个互补框架:1) AHP-CADNet多级注意力融合框架,整合眼部标志点、头部姿态特征和结构化临床属性;2) 基于课程学习的插补框架,逐步利用结构化和非结构化临床数据来增强诊断鲁棒性。
- Result: AHP-CADNet在分类任务中达到96.9-99.0%准确率,连续变量预测MAE为0.103-0.199,R²超过0.93;插补框架在所有临床变量上保持93.46-99.78%准确率,临床依赖建模显著改善性能(p < 0.001)。
- Conclusion: 两个框架在临床环境中对自动诊断和处理缺失数据都表现出有效性,为眼源性异常头位的客观评估提供了可靠解决方案。
[26] EduVerse: A User-Defined Multi-Agent Simulation Space for Education Scenario
Yiping Ma,Shiyu Hu,Buyuan Zhu,Yipei Wang,Yaxuan Kang,Shiqing Liu,Kang Hao Cheong
Main category: cs.CV
TL;DR: EduVerse是首个支持用户自定义的多智能体虚拟教室模拟系统,采用CIE架构实现认知一致性、真实互动和长期演化,在中学语文课堂验证中展现了教学对齐、群体互动和跨会话演化的良好表现。
- Motivation: 现有教育AI方法主要关注短期或单智能体场景,难以系统研究真实教室的复杂性(开放式认知、动态社交互动、情感因素和多会话发展),限制了跨任务重用和系统性研究。
- Method: 提出EduVerse系统,基于分层CIE(认知-互动-演化)架构,支持环境、智能体和会话的自定义,并包含人在回路界面允许真实用户加入,确保个体一致性、真实互动和纵向适应性。
- Result: 在中学语文课堂验证中:教学对齐度(IRF率0.28-0.64)接近真实课堂(0.37-0.49);群体互动网络密度0.27-0.40,约三分之一同伴链接实现;跨会话演化中积极转变率平均增长11.7%,捕捉到行为、情感和认知的纵向变化。
- Conclusion: EduVerse在真实性、可重现性和可解释性之间取得平衡,为教育AI提供了可扩展平台,系统将开源以促进跨学科研究。
[27] SD-MVSum: Script-Driven Multimodal Video Summarization Method and Datasets
Manolis Mylonas,Charalampia Zerva,Evlampios Apostolidis,Vasileios Mezaris
Main category: cs.CV
TL;DR: 提出了SD-MVSum方法,扩展了基于脚本的视频摘要方法,通过加权跨模态注意力机制同时考虑脚本与视频视觉内容和语音文本的关联性。
- Motivation: 现有的脚本驱动视频摘要方法主要关注脚本与视频视觉内容的关联,忽略了视频语音内容的重要性。
- Method: 使用加权跨模态注意力机制建模脚本-视频和脚本-转录之间的依赖关系,利用语义相似性来突出与用户提供脚本最相关的视频片段。
- Result: 实验表明SD-MVSum在脚本驱动和通用视频摘要任务中具有竞争力,优于其他最先进方法。
- Conclusion: 多模态方法能有效提升脚本驱动视频摘要的性能,扩展的数据集为多模态视频摘要研究提供了更好的训练和评估基础。
[28] A Hierarchical Geometry-guided Transformer for Histological Subtyping of Primary Liver Cancer
Anwen Lu,Mingxin Liu,Yiping Jiao,Hongyi Gong,Geyang Xu,Jun Chen,Jun Xu
Main category: cs.CV
TL;DR: ARGUS模型通过捕获肿瘤微环境中的宏观-中观-微观层次信息,提出了一种新的肝脏癌组织学分型方法,在公共和私有队列中实现了最先进的性能。
- Motivation: 肝细胞癌和肝内胆管癌作为肝脏恶性肿瘤的两种主要组织学亚型,在组织形态和细胞结构上比其他常见肿瘤更为复杂。现有的方法未能充分利用全切片图像中的层次金字塔结构、肿瘤微环境和几何表示等关键信息,导致对组织学表征的理解有限和分型性能不佳。
- Method: ARGUS首先通过细胞核间的几何结构构建微几何特征来表示细粒度的细胞级模式;然后设计分层视野对齐模块来建模WSI中固有的宏观和中观层次交互;最后通过几何先验引导融合策略将增强的微几何和视野特征融合为联合表示,以建模整体表型交互。
- Result: 在公共和私有队列上的广泛实验表明,ARGUS在肝脏癌组织学分型中实现了最先进的性能,为临床实践中的原发性肝脏恶性肿瘤提供了有效的诊断工具。
- Conclusion: ARGUS通过有效捕获肿瘤微环境中的多层次信息,显著提升了肝脏癌组织学分型的准确性,为临床诊断提供了可靠的工具。
[29] Teleportraits: Training-Free People Insertion into Any Scene
Jialu Gao,K J Joseph,Fernando De La Torre
Main category: cs.CV
TL;DR: 提出了一种无需训练的框架,利用预训练扩散模型将人物从参考图像无缝插入背景场景,实现真实的人物合成。
- Motivation: 现有方法通常将人物定位和个性化视为独立问题,忽略了它们之间的相互联系,且依赖特定训练。本文旨在开发统一的无训练流程来解决这一挑战。
- Method: 结合反转技术和无分类器引导实现全局编辑,提出掩码引导的自注意力机制来保持人物身份特征,仅需单张参考图像。
- Result: 在多样化合成场景图像中取得了最先进的结果,在背景和人物身份保持方面表现出色。
- Conclusion: 扩散模型本身具备在复杂场景中放置人物的知识,无需任务特定训练即可实现真实的人物插入。
[30] When and How to Cut Classical Concerts? A Multimodal Automated Video Editing Approach
Daniel Gonzálbez-Biosca,Josep Cabacas-Maso,Carles Ventura,Ismael Benito-Altamirano
Main category: cs.CV
TL;DR: 提出了一种用于古典音乐多摄像机录制自动编辑的多模态架构,将问题分解为时间分割(何时剪辑)和空间选择(如何剪辑)两个子任务。
- Motivation: 自动视频编辑在计算机视觉和多媒体领域仍未被充分探索,特别是与视频生成和场景理解相比。本文专注于解决古典音乐多摄像机录制的编辑挑战。
- Method: 使用轻量级卷积-Transformer管道整合音频对数梅尔频谱图、可选图像嵌入和标量时间特征进行时间分割;使用CLIP编码器更新空间选择模型,并将干扰项选择限制在同一音乐会片段内。
- Result: 模型在检测剪辑点方面优于先前基线,并在视觉镜头选择方面提供有竞争力的表现。
- Conclusion: 该方法推进了多模态自动视频编辑的技术水平,为古典音乐多摄像机录制提供了有效的自动编辑解决方案。
[31] Development and Validation of a Low-Cost Imaging System for Seedling Germination Kinetics through Time-Cumulative Analysis
M. Torrente,A. Follador,A. Calcante,P. Casati,R. Oberti
Main category: cs.CV
TL;DR: 开发了一种结合形态和空间特征的图像分析管道,通过时间整合方法在复杂条件下准确识别和量化生菜幼苗,成功评估了立枯丝核菌感染对种子萌发和早期生长的影响。
- Motivation: 研究立枯丝核菌接种对生菜种子萌发和早期发育的影响,探索低成本图像监测系统在植物表型分析中的应用可行性。
- Method: 使用低成本多摄像头系统连续捕获萌发过程图像,开发了结合形态和空间特征的新型图像分析算法,通过时间整合方法在复杂条件下识别和量化幼苗。
- Result: 立枯丝核菌感染显著降低了萌发率和早期幼苗活力。该方法在密集交织生长条件下仍能实现高精度计数,决定系数达0.98,均方根误差为1.12。
- Conclusion: 验证了低成本成像硬件与先进计算工具结合进行非破坏性、可扩展表型数据采集的可行性,时间整合方法在传统分割技术失效的复杂场景中表现优异。
[32] Context Matters: Learning Global Semantics for Visual Reasoning and Comprehension
Jike Zhong,Yuxiang Lai,Xiaofeng Yang,Konstantinos Psounis
Main category: cs.CV
TL;DR: 该论文提出了一种基于对象级别的视觉表示学习方法,通过将视觉对象视为视觉等价于语言中的单词,来提升视觉模型的语义理解和推理能力。
- Motivation: 当前视觉模型在推理和上下文学习方面落后于语言模型,作者认为这是因为当前视觉Transformer训练方案缺乏语义和上下文指导,而语言模型中的单词天然具有语义信息。
- Method: 提出将视觉对象作为视觉等价于语言单词的表示单元,在掩码图像建模框架中应用对象级别的掩码而非随机补丁掩码,迫使模型学习视觉元素之间的全局上下文和语义关系。
- Result: 定性和定量评估表明,对象级别的表示能够帮助学习真实世界分布,而像素平均捷径在没有对象级别表示时容易被学习。在多模态大语言模型的视觉问答任务上显示出更强的推理和上下文理解能力。
- Conclusion: 对象级别的编码是开发更强视觉编码器和分词器的有效方向,能够显著提升视觉模型的语义理解和推理能力。
[33] AgeBooth: Controllable Facial Aging and Rejuvenation via Diffusion Models
Shihao Zhu,Bohan Cao,Ziheng Ouyang,Zhen Li,Peng-Tao Jiang,Qibin Hou
Main category: cs.CV
TL;DR: AgeBooth是一种新颖的年龄特定微调方法,通过年龄条件提示混合和年龄特定LoRA融合策略,增强基于适配器的身份个性化模型的年龄控制能力,无需昂贵的年龄变化数据集。
- Motivation: 现有扩散模型在从参考照片生成身份一致图像时,难以准确控制年龄同时保持身份,且微调通常需要跨年龄的配对图像,成本高昂。
- Method: 利用衰老的线性特性,引入年龄条件提示混合和基于SVDMix矩阵融合技术的年龄特定LoRA融合策略,实现中间年龄肖像的高质量生成。
- Result: AgeBooth从单一参考图像生成不同年龄段的真实且身份一致的人脸图像,在年龄控制和视觉质量方面优于先前最先进的基于编辑的方法。
- Conclusion: AgeBooth通过创新的年龄特定微调方法,有效解决了年龄控制与身份保持的平衡问题,无需依赖大量年龄标记数据。
[34] Data Factory with Minimal Human Effort Using VLMs
Jiaojiao Ye,Jiaxing Zhong,Qian Xie,Yuzhou Zhou,Niki Trigoni,Andrew Markham
Main category: cs.CV
TL;DR: 提出了一种无需训练的数据增强管道,结合预训练的ControlNet和视觉语言模型,生成带有像素级标签的合成图像,用于提升少样本语义分割性能。
- Motivation: 传统数据增强方法难以操作高级语义属性(如材质和纹理),而现有基于扩散模型的方法要么计算成本高,要么性能不足。
- Method: 使用预训练的ControlNet和视觉语言模型构建训练免费管道,通过多路提示生成器、掩码生成器和高质量图像选择模块来提高保真度和多样性。
- Result: 在PASCAL-5i和COCO-20i数据集上取得了有希望的性能,并在一次性语义分割任务中超越了同期工作。
- Conclusion: 该方法无需手动标注即可生成像素级标签的合成图像,显著改善了下游任务性能,为数据增强提供了高效解决方案。
[35] Redefining Generalization in Visual Domains: A Two-Axis Framework for Fake Image Detection with FusionDetect
Amirtaha Amanzadi,Zahra Dehghanian,Hamid Beigy,Hamid R. Rabiee
Main category: cs.CV
TL;DR: 提出了OmniGen基准测试和FusionDetect方法,用于解决合成图像检测中的跨生成器和跨视觉域泛化问题,在多个基准测试上达到新的最先进性能。
- Motivation: 当前合成图像检测工作主要关注跨生成器泛化,但忽略了同样重要的跨视觉域泛化挑战,需要更全面的评估方法。
- Method: 结合CLIP和Dinov2两个冻结基础模型的特征,构建统一特征空间来适应生成器内容和设计的变化。
- Result: FusionDetect在现有基准上比最接近的竞争者准确率高3.87%,平均精度高6.13%,在OmniGen基准上准确率提高4.48%,并对常见图像扰动具有优异鲁棒性。
- Conclusion: 不仅提出了顶级性能的检测器,还建立了新的基准和框架,推动通用AI图像检测的发展。
[36] ALISE: Annotation-Free LiDAR Instance Segmentation for Autonomous Driving
Yongxuan Lyu,Guangfeng Jiang,Hongsi Liu,Jun Liu
Main category: cs.CV
TL;DR: ALISE是一个无需任何标注的LiDAR实例分割框架,通过视觉基础模型生成初始伪标签,结合时空投票和语义监督实现无监督学习,性能甚至超过有监督方法。
- Motivation: 户外LiDAR点云的手动标注成本高昂且耗时,现有方法仍需人工标注。为了完全消除对标注的依赖,需要开发无需任何标注的LiDAR实例分割方法。
- Method: 使用视觉基础模型生成初始伪标签,通过时空投票模块结合2D和3D语义进行优化,引入2D先验损失和原型对比损失进行语义监督,构建判别性特征空间。
- Result: 在无监督3D实例分割中达到最先进性能,mAP达到50.95%,甚至超过了使用2D边界框监督的MWSIS方法(48.42%)。
- Conclusion: ALISE框架成功实现了无需任何标注的高质量LiDAR实例分割,证明了无监督方法的有效性,为点云处理提供了新的解决方案。
[37] OneVision: An End-to-End Generative Framework for Multi-view E-commerce Vision Search
Zexin Zheng,Huangyu Dai,Lingtao Mao,Xinyu Sun,Zihan Liang,Ben Chen,Yuqing Ding,Chenyi Lei,Wenwu Ou,Han Li,Kun Gai
Main category: cs.CV
TL;DR: 提出OneVision端到端生成框架,通过视觉对齐残差量化编码和多阶段语义对齐,解决传统视觉搜索中多阶段级联架构的表示差异问题,在保持效率的同时提升用户体验和转化率。
- Motivation: 传统视觉搜索采用多阶段级联架构,导致查询图像和产品在不同阶段的表示存在差异,难以在用户体验和转化率之间达到帕累托最优。
- Method: 基于VRQ(视觉对齐残差量化编码)构建OneVision框架,采用多阶段语义对齐方案,在保持强视觉相似性先验的同时有效整合用户特定信息。
- Result: 离线评估与在线MCA性能相当,推理效率提升21%;A/B测试显示显著提升:商品点击率+2.15%,转化率+2.27%,订单量+3.12%。
- Conclusion: 以语义ID为中心的生成架构能够统一检索和个性化,同时简化服务路径。
[38] A Novel Technique for Robust Training of Deep Networks With Multisource Weak Labeled Remote Sensing Data
Gianmarco Perantoni,Lorenzo Bruzzone
Main category: cs.CV
TL;DR: 提出了一种利用多源不可靠标签数据训练深度网络的方法,通过嵌入转移矩阵来考虑每个标签源的可靠性,在梯度层面进行加权优化。
- Motivation: 遥感图像场景分类中,深度网络需要大量训练样本但高质量标签获取成本高,而存在许多可靠性较低的标签数据源(如过时的数字地图)。
- Method: 将单个或多个弱标签源与少量可靠数据集结合,利用描述每个源错误统计的转移矩阵来加权标签,在训练过程中根据相关源对每个标签进行加权。
- Result: 在不同数据集上的实验验证了该方法的有效性,证明了其鲁棒性和利用不可靠标签源的能力。
- Conclusion: 该方法能够有效利用不可靠标签源训练深度网络,解决了遥感图像分类中高质量标签稀缺的问题。
[39] Mysteries of the Deep: Role of Intermediate Representations in Out of Distribution Detection
I. M. De la Jara,C. Rodriguez-Opazo,D. Teney,D. Ranasinghe,E. Abbasnejad
Main category: cs.CV
TL;DR: 本文提出利用预训练模型的中间层表示来改进分布外检测,通过基于熵的准则自动选择最具互补信息的层,无需OOD数据即可显著提升检测精度。
- Motivation: 挑战现有方法仅使用预训练模型最终层表示的局限性,发现中间层通过残差连接编码了丰富的分布偏移检测信号。
- Method: 引入基于熵的准则自动识别提供最多互补信息的中间层,在无需训练和无OOD数据的情况下选择性地整合这些中间表示。
- Result: 在远OOD和近OOD基准测试中,相比最先进的无训练方法,检测准确率分别提升高达10%和7%以上,适用于各种模型架构和训练目标。
- Conclusion: 揭示了中间层表示在OOD检测中的潜力,为OOD检测研究开辟了新方向,并展示了不同训练目标和模型架构对基于置信度的OOD检测方法的影响。
[40] Rasterized Steered Mixture of Experts for Efficient 2D Image Regression
Yi-Hsin Li,Thomas Sikora,Sebastian Knorr,Mårten Sjöström
Main category: cs.CV
TL;DR: 提出一种基于光栅化的优化策略,将光栅化高斯核渲染效率与Steered Mixture of Experts的边缘感知门控机制相结合,加速二维图像回归,同时保持模型稀疏性和重建质量。
- Motivation: Steered Mixture of Experts回归框架在图像重建、压缩、去噪和超分辨率方面表现出色,但高计算成本限制了实际应用。
- Method: 用光栅化公式替换全局迭代优化,结合光栅化高斯核渲染效率和Steered Mixture of Experts的边缘感知门控机制,实现更快的参数更新和内存效率更高的模型表示。
- Result: 实现了显著更快的参数更新和更内存高效的模型表示,支持原生超分辨率和图像去噪等应用。
- Conclusion: 光栅化优化与Steered Mixture of Experts边缘感知结构的结合,为二维图像处理任务提供了计算效率与重建保真度之间的新平衡。
[41] Deformable Image Registration for Self-supervised Cardiac Phase Detection in Multi-View Multi-Disease Cardiac Magnetic Resonance Images
Sven Koehler,Sarah Kaye Mueller,Jonathan Kiekenap,Gerald Greil,Tarique Hussain,Samir Sarikouch,Florian André,Norbert Frey,Sandy Engelhardt
Main category: cs.CV
TL;DR: 提出一种自监督深度学习方法,用于在心脏磁共振图像中检测五个关键帧,包括舒张末期和收缩末期,以及三个额外关键帧,实现跨患者和时间对齐的心脏动态分析。
- Motivation: 传统方法仅从左心室容积曲线推导舒张末期和收缩末期帧,无法深入了解心肌运动模式。需要更精确的关键帧检测方法来消除个体心脏周期的复杂性,实现时间对齐分析。
- Method: 使用自监督深度学习,从短轴和四腔长轴电影CMR图像中提取密集可变形配准场,计算一维运动描述符,然后基于特征曲线使用简单规则确定关键帧。
- Result: 在多个公共数据集上评估,相比基于容积的方法,舒张末期和收缩末期检测精度提高30%-51%(短轴)和11%-47%(四腔长轴),所有关键帧的平均循环帧差低于1.31帧(短轴)和1.73帧(长轴)。
- Conclusion: 该方法能够检测五个关键心脏相位,实现不受周期或相位长度影响的跨患者心脏动态分析,为心脏功能评估提供了更深入的运动学洞察。
[42] Flow4Agent: Long-form Video Understanding via Motion Prior from Optical Flow
Ruyang Liu,Shangkun Sun,Haoran Tang,Ge Li,Wei Gao
Main category: cs.CV
TL;DR: Flow4Agent是一个利用光流运动先验来增强LLM长视频理解的新框架,通过时间粒度优化和运动token剪枝来减少视频冗余,在多个基准测试中表现优异。
- Motivation: 长视频理解面临时空内容冗余和MLLM上下文长度有限的挑战,现有方法主要依赖CLIP模型的语义先验,而忽略了运动信息的重要性。
- Method: 提出Flow4Agent框架,包含两个核心模块:TGO利用粗粒度光流先验分组相似视觉内容,再用语义先验过滤无关场景;MTP利用细粒度光流信息剪枝高冗余视频token。
- Result: 在多个视频MLLM基准测试中表现优异,特别是在小时级视频理解任务上,在Video-MME达到64.7%、MLVU达到71.4%、LongVideoBench达到60.4%。
- Conclusion: Flow4Agent通过引入运动先验有效解决了长视频冗余问题,显著提升了视频理解性能,证明了运动信息在长视频分析中的重要性。
[43] acia-workflows: Automated Single-cell Imaging Analysis for Scalable and Deep Learning-based Live-cell Imaging Analysis Workflows
Johannes Seiffarth,Keitaro Kasahara,Michelle Bund,Benita Lückel,Richard D. Paul,Mathias Pesch,Lennart Witting,Michael Bott,Dietrich Kohlheyer,Katharina Nöh
Main category: cs.CV
TL;DR: 开发了acia-workflows平台,整合了自动化活细胞成像分析Python库、可复现的工作流程和实际应用案例,用于处理高通量活细胞成像数据。
- Motivation: 高通量活细胞成像产生大量数据,需要将先进的深度学习分割和追踪工具整合到易用、灵活的工作流程中,以支持生物学研究的常规应用。
- Method: 结合三个关键组件:(1) acia Python库,提供8种深度学习分割和追踪方法;(2) 将分析流程、软件依赖、文档和可视化整合到Jupyter Notebook的工作流程;(3) 展示实际应用能力的应用工作流程集合。
- Result: 开发了包含10多个应用工作流程的开源平台,能够处理从生长率比较到分钟级分辨率定量分析的各种微流控活细胞成像实验。
- Conclusion: acia-workflows平台为活细胞成像分析提供了可访问、可复现和可扩展的工作流程,支持系统研究单细胞动力学。
[44] BioAutoML-NAS: An End-to-End AutoML Framework for Multimodal Insect Classification via Neural Architecture Search on Large-Scale Biodiversity Data
Arefin Ittesafun Abian,Debopom Sutradhar,Md Rafi Ur Rashid,Reem E. Mohamed,Md Rafiqul Islam,Asif Karim,Kheng Cher Yeo,Sami Azam
Main category: cs.CV
TL;DR: BioAutoML-NAS是一个使用多模态数据(图像和元数据)的昆虫分类模型,通过神经架构搜索自动学习最佳网络结构,在BIOSCAN-5M数据集上达到96.81%准确率,优于现有方法。
- Motivation: 昆虫分类对农业管理和生态研究至关重要,但由于昆虫特征复杂、类别不平衡和大规模数据集等问题,该任务仍具挑战性。
- Method: 提出BioAutoML-NAS模型,使用多模态数据(图像和元数据),应用神经架构搜索自动学习每个单元内的最佳操作,通过多模态融合模块结合图像嵌入和元数据,采用交替双层优化训练策略和零操作剪枝。
- Result: 在BIOSCAN-5M数据集上达到96.81%准确率、97.46%精度、96.81%召回率和97.05% F1分数,优于现有方法约16%、10%和8%;在Insects-1M数据集上达到93.25%准确率。
- Conclusion: BioAutoML-NAS提供了准确、可靠的昆虫分类,支持现代可持续农业。
[45] QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection
Yanran Zhang,Bingyao Yu,Yu Zheng,Wenzhao Zheng,Yueqi Duan,Lei Chen,Jie Zhou,Jiwen Lu
Main category: cs.CV
TL;DR: 提出D3QE方法,利用离散分布差异感知的量化误差来检测自回归生成的图像,通过整合动态码本频率统计到注意力机制中,融合语义特征和量化误差潜在表示。
- Motivation: 视觉自回归模型的出现改进了图像生成质量,但也带来了新的合成图像检测挑战。与之前的GAN或扩散方法不同,AR模型通过离散令牌预测生成图像,在其矢量量化表示中表现出独特特征。
- Method: 引入离散分布差异感知的Transformer,将动态码本频率统计集成到注意力机制中,融合语义特征和量化误差潜在表示。构建了包含7个主流视觉AR模型的ARForensics数据集进行评估。
- Result: 实验表明D3QE在不同AR模型上具有优越的检测精度和强泛化能力,对真实世界扰动具有鲁棒性。
- Conclusion: D3QE方法有效利用了AR生成图像中存在的独特模式和码本频率分布偏差,为自回归生成图像检测提供了有效的解决方案。
[46] Efficient Universal Models for Medical Image Segmentation via Weakly Supervised In-Context Learning
Jiesi Hu,Yanwu Yang,Zhiyu Ye,Jinyan Zhou,Jianfeng Cao,Hanyang Peng,Ting Ma
Main category: cs.CV
TL;DR: 提出了弱监督上下文学习(WS-ICL)新范式,使用弱提示(如边界框或点)替代密集标签,显著减少医学图像分割的标注成本,同时保持与常规ICL模型相当的性能。
- Motivation: 现有的通用医学图像分割模型(交互式和上下文学习模型)虽然泛化能力强,但需要大量标注。交互式模型需要为每张图像重复用户提示,而ICL依赖密集的像素级标签。为解决这个问题,需要开发更高效的标注方法。
- Method: 提出WS-ICL范式,利用弱提示(边界框或点)作为上下文,而不是密集标签。这种方法消除了对细粒度掩码的需求,减少了所有图像的重复用户提示需求。
- Result: 在三个保留基准测试上的实验结果表明,WS-ICL在显著降低标注成本的情况下,实现了与常规ICL模型相当的性能。WS-ICL在交互式范式下也表现出高度竞争力。
- Conclusion: WS-ICL是朝着更高效和统一的医学图像分割通用模型迈出的有希望的一步,显著减少了标注工作量,同时保持了良好的分割性能。
[47] Kaputt: A Large-Scale Dataset for Visual Defect Detection
Sebastian Höfer,Dorian Henning,Artemij Amiranashvili,Douglas Morrison,Mariliza Tzes,Ingmar Posner,Marc Matvienko,Alessandro Rennola,Anton Milan
Main category: cs.CV
TL;DR: 提出了一个用于物流场景缺陷检测的大规模数据集,该数据集包含超过23万张图像和2.9万个缺陷实例,比现有数据集MVTec-AD大40倍,包含超过4.8万个不同物体。
- Motivation: 现有工业异常检测数据集主要关注制造场景,姿态控制严格且物体类别有限,而零售物流场景面临物体姿态和外观多样性的新挑战,现有方法在此场景下表现不佳。
- Method: 构建了一个大规模物流缺陷检测数据集,包含大量不同姿态和外观的物体样本,并对多种最先进的异常检测方法进行了广泛评估。
- Result: 在提出的数据集上,现有最先进的异常检测方法最高只能达到56.96%的AUROC分数,远低于在制造场景数据集上的表现(可达99.9%)。
- Conclusion: 该数据集为零售物流异常检测设定了新的基准,展示了现有方法在姿态和外观变化剧烈场景下的局限性,鼓励未来研究解决这一挑战性问题。
[48] Shaken or Stirred? An Analysis of MetaFormer's Token Mixing for Medical Imaging
Ron Keuth,Paul Kaftan,Mattias P. Heinrich
Main category: cs.CV
TL;DR: 本文首次系统研究医学影像中的token mixer,在MetaFormer架构下比较池化、卷积和注意力机制,发现分类任务中低复杂度token mixer足够,分割任务中卷积的局部归纳偏置至关重要。
- Motivation: MetaFormer架构在自然图像中已证明有效,但在医学影像领域应用稀缺,且缺乏不同token mixer的系统比较,可能忽略了更适合医学影像的设计选择。
- Method: 在MetaFormer架构中系统分析池化、卷积和注意力三种token mixer,评估8个医学影像数据集,涵盖分类和分割任务,并研究从自然图像预训练权重的迁移效果。
- Result: 分类任务中低复杂度token mixer(如分组卷积或池化)足够有效;分割任务中卷积token mixer的局部归纳偏置至关重要,分组卷积是首选;预训练权重在领域差异下仍保持有效。
- Conclusion: 医学影像任务需要针对性的token mixer选择:分类任务可用简单mixer,分割任务需卷积的局部偏置,分组卷积在性能和效率间达到最佳平衡。
[49] Diffusion Models for Low-Light Image Enhancement: A Multi-Perspective Taxonomy and Performance Analysis
Eashan Adhikarla,Yixin Liu,Brian D. Davison
Main category: cs.CV
TL;DR: 这篇综述对扩散模型在低光图像增强(LLIE)领域的应用进行了全面分析,提出了包含六个类别的多视角分类法,并与GAN和Transformer方法进行了性能比较,同时讨论了实际部署挑战和未来研究方向。
- Motivation: 低光图像增强在安全关键应用中至关重要,扩散模型因其通过迭代去噪建模复杂图像分布的能力而成为LLIE的有前景方法。本文旨在提供扩散模型在LLIE领域的最新批判性分析。
- Method: 提出了包含六个类别的多视角分类法:固有分解、光谱与潜在、加速、引导、多模态和自主;基于模型机制和条件信号的混合视角进行方法映射。
- Result: 对定性失败模式、基准不一致性以及可解释性、泛化性和推理效率之间的权衡进行了评估,同时讨论了实际部署约束和伦理考量。
- Conclusion: 本综述旨在通过突出趋势和提出开放研究问题,指导下一代基于扩散的LLIE研究,包括新颖条件化、实时适应和基础模型的潜力。
[50] A Dynamic Mode Decomposition Approach to Morphological Component Analysis
Owen T. Huber,Raghu G. Raj,Tianyu Chen,Zacharie I. Idriss
Main category: cs.CV
TL;DR: 提出动态形态成分分析(DMCA)方法,通过动态模式分解特征值聚类来学习自适应视频表示,用于分离视频中结构不同的形态成分。
- Motivation: 传统形态成分分析(MCA)使用预定义的不相干字典,而本文旨在开发数据驱动的自适应字典来更好地处理视频内容的动态变化。
- Method: 扩展MCA算法,引入基于动态模式分解特征值聚类的技术,获得数据驱动的MCA字典,称为动态形态成分分析(DMCA)。
- Result: 在Adobe 240fps数据集上展示了DMCA在视频去噪中的有效性,提高了微弱目标与海况混合信号的信噪比,并成功分离了逆合成孔径雷达图像中的自行车与风杂波。
- Conclusion: DMCA通过自适应视频表示能够有效分离视频中不同的形态成分,在多个应用场景中表现出优越性能。
[51] Diffusion-Based Image Editing for Breaking Robust Watermarks
Yunyi Ni,Finn Carter,Ze Niu,Emily Davis,Bo Zhang
Main category: cs.CV
TL;DR: 扩散模型能够有效破坏原本设计用于抵抗传统扰动的鲁棒图像水印技术,通过图像再生过程擦除水印同时保持视觉内容,理论证明经过足够扩散变换后水印信息会消失。
- Motivation: 随着基于扩散的图像生成和编辑技术的兴起,这些强大的生成模型对现有的鲁棒水印方案构成了新的威胁,需要研究其攻击能力。
- Method: 提出扩散驱动的图像再生过程来擦除水印,并引入引导扩散攻击在生成过程中明确针对水印信号,显著降低水印可检测性。
- Result: 在多个最先进水印方案(StegaStamp、TrustMark、VINE)上评估,攻击后水印恢复率接近零,同时再生图像保持高视觉保真度。
- Conclusion: 当前鲁棒水印技术在面对基于生成模型的攻击时存在根本性脆弱性,在生成AI时代需要新的水印策略。
[52] Detection and Measurement of Hailstones with Multimodal Large Language Models
Moritz Alker,David C. Schedl,Andreas Stöckl
Main category: cs.CV
TL;DR: 使用预训练多模态大语言模型从社交媒体和新闻图片中检测和测量冰雹直径,通过两阶段提示策略提高测量可靠性。
- Motivation: 利用社交媒体图像补充传统冰雹传感器,实现更快速、更详细的恶劣天气事件评估。
- Method: 使用474张奥地利冰雹事件图像数据集,比较四种模型的一阶段和两阶段提示策略,其中两阶段策略利用图像中的参考对象(如人手)作为尺寸线索。
- Result: 最佳模型的平均绝对误差为1.12厘米,两阶段提示提高了大多数模型的可靠性。
- Conclusion: 现成的预训练模型即使不进行微调,也能从社交媒体图像中提取有意义的冰雹信息,为未来冰雹事件的实时评估提供可能。
[53] Continual Learning for Image Captioning through Improved Image-Text Alignment
Bertram Taetz,Gal Bordelius
Main category: cs.CV
TL;DR: 提出一种用于持续图像描述的多损失框架,通过提示学习和对比对齐来缓解灾难性遗忘问题
- Motivation: 在持续学习环境中生成准确连贯的图像描述面临灾难性遗忘和视觉概念与语言对齐困难的挑战
- Method: 基于预训练ViT-GPT-2架构,结合交叉熵损失与三个额外组件:基于提示的余弦相似度损失、CLIP风格损失和语言引导对比损失
- Result: 该方法有效缓解了灾难性遗忘,在语义描述对齐方面优于现有最先进方法
- Conclusion: 提出的多损失框架在持续图像描述任务中表现出色,无需推理时额外开销或提示生成
[54] Emergent AI Surveillance: Overlearned Person Re-Identification and Its Mitigation in Law Enforcement Context
An Thi Nguyen,Radina Stoykova,Eric Arazo
Main category: cs.CV
TL;DR: 通用实例搜索模型在刑事调查中可大幅减少分析监控录像的人工成本,但研究发现这些模型存在意外涌现能力:即使在没有人类主体的数据集上训练,也能识别特定个体。作者评估了两种技术防护措施来限制模型的人员再识别能力,发现结合使用可将人员再识别准确率降至2%以下,同时保持82%的非人物体检索性能。
- Motivation: 研究旨在解决通用实例搜索模型在刑事调查应用中意外涌现的人员识别能力所带来的隐私和监管问题,这些能力可能被滥用于个人识别和分析。
- Method: 评估了两种技术防护措施:索引排除和混淆损失,通过实验测试这些方法在限制人员再识别能力同时保持非人物体检索性能的效果。
- Result: 结合使用索引排除和混淆损失可将人员再识别准确率降至2%以下,同时保持82%的非人物体检索性能。但发现这些缓解措施存在关键漏洞,包括使用部分人物图像可能绕过防护。
- Conclusion: 研究结果凸显了AI治理和数据保护交叉领域的紧迫监管问题:如何对具有涌现识别能力的系统进行分类和监管?以及应要求哪些技术标准来防止看似良性应用中出现识别能力?
[55] Universal Neural Architecture Space: Covering ConvNets, Transformers and Everything in Between
Ondřej Týbl,Lukáš Neumann
Main category: cs.CV
TL;DR: 提出通用神经架构空间(UniNAS),统一卷积网络、Transformer及其混合架构的搜索空间,并开发相应搜索算法,发现优于手工设计架构的新架构。
- Motivation: 现有神经架构搜索(NAS)研究缺乏统一的搜索空间框架,无法系统探索不同类型神经架构的完整谱系。
- Method: 构建统一的图基NAS搜索空间,开发新搜索算法遍历该空间,并建立标准化训练评估工具包。
- Result: 在相同训练设置下,发现的架构优于最先进的手工设计架构。
- Conclusion: 为系统探索神经架构完整谱系开辟了新途径,提供了统一的图基NAS视角。
[56] VideoMiner: Iteratively Grounding Key Frames of Hour-Long Videos via Tree-based Group Relative Policy Optimization
Xinye Cao,Hongcan Guo,Jiawen Qian,Guoshun Nan,Chao Wang,Yuqi Pan,Tianhao Hou,Xiaojuan Wang,Yutong Gao
Main category: cs.CV
TL;DR: VideoMiner通过迭代分割、描述和聚类长视频形成层次树结构,结合T-GRPO强化学习方法,有效解决长视频理解中的冗余信息干扰和关键帧定位问题。
- Motivation: 现有方法在长视频理解中面临两个关键挑战:1) 大量冗余信息的干扰;2) 如何在复杂层次结构中动态适应并准确定位关键帧。
- Method: 提出VideoMiner系统,迭代分割、描述和聚类长视频形成层次树结构;引入T-GRPO(基于树的组相对策略优化)强化学习方法,专门针对树结构设计,整合事件级别的时空信息。
- Result: 在所有长视频理解任务中取得优越性能,模型自发生成推理链,树生长辅助素动态调整扩展深度,获得准确性和效率的提升。
- Conclusion: VideoMiner和T-GRPO方法有效解决了长视频理解中的关键挑战,为多模态大语言模型在长视频分析中的应用提供了新思路。
[57] GLVD: Guided Learned Vertex Descent
Pol Caselles Rico,Francesc Moreno Noguer
Main category: cs.CV
TL;DR: GLVD是一种从少样本图像进行3D人脸重建的混合方法,通过结合逐顶点神经场优化和动态预测3D关键点的全局结构引导,在保持计算效率的同时实现高质量重建。
- Motivation: 现有3D人脸建模方法依赖3D形变模型,限制了表示能力;基于优化的方法质量高但计算昂贵。需要一种既能表达丰富几何细节又高效的方法。
- Method: 扩展学习顶点下降(LVD)方法,集成逐顶点神经场优化与动态预测3D关键点的全局结构引导,采用相对空间编码迭代优化网格顶点,无需密集3D监督。
- Result: 在单视图设置中达到最先进性能,在多视图场景中保持高度竞争力,同时显著减少推理时间。
- Conclusion: GLVD实现了表达性强且适应性好的几何重建,在保持计算效率的同时超越了现有方法。
[58] Medical Vision Language Models as Policies for Robotic Surgery
Akshay Muppidi,Martin Radfar
Main category: cs.CV
TL;DR: 将医学领域专用视觉语言模型MedFlamingo与PPO结合,在腹腔镜手术任务中显著提升了性能,相比标准视觉PPO实现了66.67%到1114.29%的改进。
- Motivation: 解决基于视觉观测的PPO在机器人腹腔镜手术任务中面临的挑战:高维视觉输入、稀疏奖励环境以及从原始视觉数据中提取任务相关特征的困难。
- Method: 集成MedFlamingo医学视觉语言模型与PPO,每回合处理一次任务观测和指令以生成高级规划令牌,将医学专业知识与实时视觉反馈高效结合。
- Result: 在LapGym的五个不同腹腔镜手术任务环境中,MedFlamingo PPO表现优于标准视觉PPO和OpenFlamingo PPO基线,收敛更快,所有环境任务成功率超过70%。
- Conclusion: 医学专业知识在机器人手术规划和决策中具有重要价值,专用医学模型能显著提升手术任务的性能表现。
[59] Reasoning under Vision: Understanding Visual-Spatial Cognition in Vision-Language Models for CAPTCHA
Python Song,Luke Tenyi Chang,Yun-Yun Tsai,Penghui Li,Junfeng Yang
Main category: cs.CV
TL;DR: CAPTCHA被用作评估视觉语言模型空间推理能力的基准,研究发现逐步推理对解决CAPTCHA至关重要,当前商业模型表现不佳(准确率约21.9%),而通过逐步推理方法可将准确率提升至83.9%。
- Motivation: CAPTCHA作为区分人类与机器人的工具,已成为评估视觉语言模型空间推理能力的现实基准。研究发现当前商业模型在此类高难度空间推理任务上表现不佳,需要系统研究其推理能力。
- Method: 引入CAPTCHA-X基准,涵盖七类CAPTCHA,包含逐步动作解决方案和基础标注。提出基于代理的视觉语言模型框架,利用模型固有的推理能力,并定义五个推理导向的评估指标。
- Result: 提出的方法在五种高难度CAPTCHA类型上达到最先进性能,平均解决准确率为83.9%,显著超越现有基线(商业模型准确率约21.9%)。
- Conclusion: 研究揭示了当前模型的局限性,并强调了推理在推进视觉空间挑战中的重要性,逐步推理方法能显著提升模型解决复杂空间任务的能力。
[60] There is More to Attention: Statistical Filtering Enhances Explanations in Vision Transformers
Meghna P Ayyar,Jenny Benois-Pineau,Akka Zemmari
Main category: cs.CV
TL;DR: 提出了一种结合注意力图和统计过滤的方法,为Vision Transformers生成更忠实和可解释的注意力图,并通过类特定变体产生判别性解释。
- Motivation: 现有ViT解释方法依赖注意力权重,但会产生噪声图,因为注意力捕捉的是每层内的token间交互。虽然已有方法结合MLP块,但作者认为经过适当过滤的注意力仍是有价值的可解释信号。
- Method: 结合注意力图与统计过滤(最初为CNN设计)来移除噪声或无信息模式,生成更忠实的解释。还扩展了类特定变体以产生判别性解释。
- Result: 评估显示该方法比流行SOTA方法产生更清晰和可解释的图。除了基于扰动的忠实度指标,还结合人类注视数据评估与人类感知的对齐。在多个数据集上始终优于或与SOTA方法相当,同时保持高效和人类合理性。
- Conclusion: 注意力在适当过滤后仍然是Vision Transformers中有价值的可解释信号,提出的方法能生成更忠实和人类可理解的解释,同时保持高效性。
[61] When Thinking Drifts: Evidential Grounding for Robust Video Reasoning
Mi Luo,Zihui Xue,Alex Dimakis,Kristen Grauman
Main category: cs.CV
TL;DR: 论文发现CoT机制在视频推理中会产生误导性内部独白,导致性能下降,提出Visual Evidence Reward框架来奖励基于视觉证据的推理轨迹
- Motivation: CoT机制在文本任务中表现良好,但在视频理解中应用不足且可能降低性能,存在"视觉思维漂移"现象
- Method: 引入Visual Evidence Reward强化学习框架,明确奖励基于可验证视觉证据的推理轨迹生成
- Result: 在10个多样化视频理解基准测试中,Video-VER始终达到最佳性能
- Conclusion: 揭示了视频中心推理的独特挑战,鼓励开发基于视觉证据推理的AI模型
[62] A public cardiac CT dataset featuring the left atrial appendage
Bjoern Hansen,Jonas Pedersen,Klaus F. Kofoed,Oscar Camara,Rasmus R. Paulsen,Kristine Soerensen
Main category: cs.CV
TL;DR: 提出了首个开源、解剖学一致的高分辨率左心耳、冠状动脉和肺静脉分割数据集,基于ImageCAS的1000个心脏CTA扫描,旨在促进左心耳形态分析的新方法。
- Motivation: 尽管有TotalSegmentator等先进分割框架,但左心耳、冠状动脉和肺静脉的精确分割在医学影像中仍是重大挑战,需要高质量数据集来推动相关研究。
- Method: 使用专门开发的高分辨率左心耳分割框架,在带手动标注的大型私有数据集上训练模型,然后迁移到ImageCAS数据;改进原始冠状动脉标注,并从TotalSegmentator输出中精炼肺静脉分割。
- Result: 创建了包含1000个心脏CTA扫描的公开数据集,提供高质量左心耳、冠状动脉和肺静脉分割标签,并识别了包含常见数据缺陷的扫描列表。
- Conclusion: 该数据集为左心耳形态分析等研究提供了宝贵的开源资源,填补了高质量心脏结构分割数据的空白。
[63] Compact Multi-level-prior Tensor Representation for Hyperspectral Image Super-resolution
Yinjian Wang,Wei Li,Yuanyuan Gui,Gemine Vivone
Main category: cs.CV
TL;DR: 提出了一种新的高光谱图像超分辨率模型,通过块项分解将潜在的高空间-光谱分辨率图像分解为光谱子空间和空间映射,并采用非凸模式混洗张量相关总变分来共同建模高阶空间低秩性和平滑性先验。
- Motivation: 现有基于张量的高光谱图像超分辨率方法通常只能有效利用一个或两个先验,难以同时整合多级先验,因为这会增加模型复杂度并带来权重平衡和多块结构优化的挑战。
- Method: 1. 使用块项分解将图像分解为光谱子空间和空间映射;2. 将空间映射堆叠为空间张量,通过非凸模式混洗张量相关总变分共同建模空间低秩性和平滑性先验;3. 基于线性化交替方向乘子法设计高效优化算法。
- Result: 在多个数据集上的实验证明了所提算法的有效性,理论上在温和条件下证明了其KKT收敛性。
- Conclusion: 该模型紧凑地刻画了高光谱图像的多级先验,通过创新的张量分解和优化方法有效解决了多先验融合的挑战。
[64] Multimodal Feature Prototype Learning for Interpretable and Discriminative Cancer Survival Prediction
Shuo Jiang,Zhuwen Chen,Liaoman Xu,Yanming Zhu,Changmiao Wang,Jiong Zhang,Feiwei Qin,Yifei Chen,Zhu Zhu
Main category: cs.CV
TL;DR: FeatProto是一个基于原型学习的多模态框架,通过整合全切片图像的全局和局部特征与基因组数据,提高癌症生存预测的准确性和可解释性。
- Motivation: 当前生存分析模型难以解释,降低了在临床环境中的实用性。传统原型学习方法关注局部相似性和静态匹配,忽视了肿瘤的全局背景,且缺乏与基因组数据的语义对齐。
- Method: 1) 融合关键图像块与全局背景的稳健表型表示,与基因组数据协调以减少局部偏差;2) 指数原型更新策略(EMA ProtoUp)维持稳定的跨模态关联,并采用游走机制灵活适应肿瘤异质性;3) 分层原型匹配方案捕获全局中心性、局部典型性和队列级趋势。
- Result: 在四个公开癌症数据集上的综合评估表明,该方法在准确性和互操作性方面均优于当前领先的单模态和多模态生存预测技术。
- Conclusion: FeatProto为关键医疗应用中的原型学习提供了新视角,通过建立统一特征原型空间实现了可追溯和可解释的决策过程。
[65] Towards Data-Efficient Medical Imaging: A Generative and Semi-Supervised Framework
Mosong Ma,Tania Stathaki,Michalis Lazarou
Main category: cs.CV
TL;DR: SSGNet是一个结合类别特定生成建模和迭代半监督伪标签的统一框架,用于增强医学图像分类和分割性能,解决标注数据稀缺和不平衡问题。
- Motivation: 医学影像中的深度学习常受限于稀缺且不平衡的标注数据,需要有效的数据增强和标注策略来提升模型性能。
- Method: 结合StyleGAN3生成图像扩展训练数据,并通过迭代半监督伪标签方法精炼标签,作为现有基线的增强框架而非独立模型。
- Result: 在多个医学影像基准测试中,分类和分割性能均获得一致提升,Fréchet Inception Distance分析确认生成样本质量高。
- Conclusion: SSGNet是缓解医学图像分析中标注瓶颈、提升鲁棒性的实用策略。
[66] Discrete Diffusion Models with MLLMs for Unified Medical Multimodal Generation
Jiawei Mao,Yuhan Wang,Lifeng Chen,Can Zhao,Yucheng Tang,Dong Yang,Liangqiong Qu,Daguang Xu,Yuyin Zhou
Main category: cs.CV
TL;DR: MeDiM是首个医学离散扩散模型,通过共享概率空间统一多模态生成任务,无需特定模态组件,实现跨模态的图像-文本翻译和联合生成。
- Motivation: 当前生成式医学模型受限于特定模态场景,无法整合影像、病理和临床笔记等互补证据,限制了其发展成为能够跨生物医学数据学习和推理的基础模型。
- Method: 基于离散扩散框架,采用多模态大语言模型作为扩散主干,引入双向上下文和无因果注意力掩码,注入连续时间步嵌入实现扩散感知。
- Result: 在MIMIC-CXR上FID为16.60,PathGen上FID为24.19;报告生成METEOR分别为0.2650和0.2580;联合生成的图像-报告对显著提升下游性能。
- Conclusion: MeDiM支持连贯且临床基础的多模态输出,展示了在医学生成任务中的高保真度和准确性。
[67] Deforming Videos to Masks: Flow Matching for Referring Video Segmentation
Zanyi Wang,Dengyang Jiang,Liuzhuozheng Li,Sizhe Dang,Chengzu Li,Harry Yang,Guang Dai,Mengmeng Wang,Jingdong Wang
Main category: cs.CV
TL;DR: FlowRVS将视频对象分割重新定义为条件连续流问题,通过语言引导的变形从视频整体表示直接生成目标掩码,在多个基准测试中达到最先进水平。
- Motivation: 现有方法采用'定位-分割'级联设计,存在信息瓶颈和时序一致性差的问题,需要更直接的语言引导分割方法。
- Method: 利用预训练T2V模型,学习从视频整体表示到目标掩码的语言引导变形过程,避免从噪声生成掩码或直接预测掩码。
- Result: 在MeViS上达到51.1的J&F分数(比之前SOTA提高1.6),在零样本Ref-DAVIS17上达到73.3(提高2.7)。
- Conclusion: 将视频理解任务建模为连续变形过程具有显著潜力,单阶段生成方法在RVOS任务中表现优异。
[68] Bimanual 3D Hand Motion and Articulation Forecasting in Everyday Images
Aditya Prakash,David Forsyth,Saurabh Gupta
Main category: cs.CV
TL;DR: 提出从单张图像预测双手3D运动与关节的方法,通过扩散模型将2D关键点序列提升为4D手部运动,并使用扩散损失处理运动分布的多模态性。
- Motivation: 解决日常场景中缺乏3D手部标注数据的问题,提升单手部运动预测的泛化能力。
- Method: 设计标注流程:使用扩散模型将2D手部关键点序列提升为4D手部运动;预测模型采用扩散损失处理运动分布多模态性。
- Result: 在6个数据集上的实验显示:使用增强标注数据训练提升14%;提升模型效果提升42%;预测模型增益16.4%;在零样本泛化到日常图像时表现优异。
- Conclusion: 提出的方法在双手3D运动预测方面显著优于现有基线,特别是在零样本泛化场景下表现突出。
[69] ShapeGen4D: Towards High Quality 4D Shape Generation from Videos
Jiraphon Yenphraphai,Ashkan Mirzaei,Jianqi Chen,Jiaxu Zou,Sergey Tulyakov,Raymond A. Yeh,Peter Wonka,Chaoyang Wang
Main category: cs.CV
TL;DR: 提出原生视频到4D形状生成框架,从视频端到端合成动态3D表示,无需逐帧优化
- Motivation: 从输入视频直接恢复随时间变化的3D几何和视角一致的外观,解决视频条件下4D形状生成问题
- Method: 基于大规模预训练3D模型,引入三个关键组件:时间注意力机制、时间感知点采样和4D潜在锚定、跨帧噪声共享
- Result: 准确捕捉非刚性运动、体积变化甚至拓扑转换,在多样化野外视频中提高鲁棒性和感知保真度
- Conclusion: 相比基线方法,该方法减少了失败模式,实现了更好的时间一致性和生成质量
[70] Drive&Gen: Co-Evaluating End-to-End Driving and Video Generation Models
Jiahao Wang,Zhenpei Yang,Yijing Bai,Yingwei Li,Yuliang Zou,Bo Sun,Abhijit Kundu,Jose Lezama,Luna Yue Huang,Zehao Zhu,Jyh-Jing Hwang,Dragomir Anguelov,Mingxing Tan,Chiyu Max Jiang
Main category: cs.CV
TL;DR: 该研究将端到端驾驶模型与生成式世界模型相结合,提出利用驾驶模型评估生成视频真实性的方法,并通过可控视频生成研究分布差距,证明合成数据能有效提升模型泛化能力。
- Motivation: 解决两个关键问题:生成视频能否真实反映指定条件并用于端到端规划器评估;如何深入理解端到端规划器的偏差并提升其在分布外场景的泛化能力。
- Method: 提出新颖的统计度量方法利用端到端驾驶模型评估生成视频的真实性,通过视频生成模型的可控性进行针对性实验研究分布差距,使用生成模型产生的合成数据改进模型泛化。
- Result: 生成视频能够提供成本效益高的合成数据替代真实数据收集,有效提升端到端模型在现有操作设计域之外的泛化能力,促进自动驾驶服务扩展到新的操作环境。
- Conclusion: 成功搭建了驾驶模型与生成式世界模型之间的桥梁,证明了生成视频在自动驾驶规划器评估和改进中的有效性,为扩展自动驾驶服务提供了新途径。
[71] Fine-grained Defocus Blur Control for Generative Image Models
Ayush Shrivastava,Connelly Barnes,Xuaner Zhang,Lingzhi Zhang,Andrew Owens,Sohrab Amirghodsi,Eli Shechtman
Main category: cs.CV
TL;DR: 提出了一种利用相机元数据(EXIF)控制镜头模糊的文本到图像扩散框架,通过模拟物理成像过程实现精确的散焦效果控制。
- Motivation: 现有文本到图像扩散模型难以整合精细的相机元数据(如光圈设置),无法实现可控的镜头模糊效果。
- Method: 模拟物理成像过程:先生成全焦图像,估计单目深度,用新型焦点距离变换器预测焦点距离,最后使用可微分镜头模糊模型生成散焦图像。通过反向传播学习散焦效果。
- Result: 实验结果表明,该模型能实现优于现有扩散模型的精细控制,且不改变场景内容。
- Conclusion: 该方法实现了基于EXIF数据的精确交互式散焦控制,这是现有扩散模型无法达到的。
[72] Dropping the D: RGB-D SLAM Without the Depth Sensor
Mert Kiray,Alican Karaomer,Benjamin Busam
Main category: cs.CV
TL;DR: DropD-SLAM是一个实时单目SLAM系统,通过三个预训练视觉模块替代深度传感器,实现RGB-D级别的精度,在动态和静态场景中表现优异。
- Motivation: 旨在开发不依赖深度传感器的SLAM系统,利用现代预训练视觉模型提供度量尺度信息,实现更简单、成本更低的SLAM解决方案。
- Method: 使用单目度量深度估计器、学习关键点检测器和实例分割网络三个预训练模块,通过扩张实例掩码抑制动态对象,将静态关键点赋予预测深度值并反投影为3D度量尺度特征,由未修改的RGB-D SLAM后端处理。
- Result: 在TUM RGB-D基准测试中,静态序列平均ATE为7.4厘米,动态序列为1.8厘米,性能匹配或超越最先进的RGB-D方法,在单GPU上运行速度为22 FPS。
- Conclusion: 现代预训练视觉模型可以替代主动深度传感器作为可靠、实时的度量尺度来源,标志着向更简单、成本更低的SLAM系统迈进一步。
[73] EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark
Deheng Zhang,Yuqian Fu,Runyi Yang,Yang Miao,Tianwen Qian,Xu Zheng,Guolei Sun,Ajad Chhatkuli,Xuanjing Huang,Yu-Gang Jiang,Luc Van Gool,Danda Pani Paudel
Main category: cs.CV
TL;DR: EgoNight是首个专注于夜间第一人称视觉理解的基准数据集,以视觉问答为核心任务,包含3658个QA对和90个视频,揭示了现有模型在低光照条件下的性能显著下降。
- Motivation: 现有第一人称视觉基准主要关注白天场景,忽略了现实应用中不可避免的低光照条件,需要填补这一研究空白。
- Method: 收集合成和真实世界的昼夜对齐视频,构建EgoNight-VQA数据集,采用基于日间数据的夜间自动标注引擎,并通过大量人工验证确保质量。
- Result: 评估显示最先进的多模态大语言模型从白天到夜晚的迁移性能大幅下降,凸显了低光照条件下推理的挑战。
- Conclusion: EgoNight为推进应用驱动型第一人称视觉研究提供了坚实基础,有助于开发跨光照域泛化的模型。
[74] Human3R: Everyone Everywhere All at Once
Yue Chen,Xingyu Chen,Yuxuan Xue,Anpei Chen,Yuliang Xiu,Gerard Pons-Moll
Main category: cs.CV
TL;DR: Human3R是一个统一的、前馈式框架,用于从单目视频中在线重建4D人体-场景,能够一次性恢复全局多人SMPL-X身体、密集3D场景和相机轨迹。
- Motivation: 现有方法依赖多阶段流程、迭代的接触感知优化以及繁重的依赖项(如人体检测、深度估计和SLAM预处理),Human3R旨在消除这些依赖,实现统一的前馈重建。
- Method: 基于CUT3R模型,采用参数高效的视觉提示调优,保留丰富的时空先验,同时直接读取多个SMPL-X身体,实现单次前向传递的联合重建。
- Result: 在BEDLAM数据集上仅训练一天,即可实现实时重建(15 FPS),内存占用低(8 GB),在全局人体运动估计、局部人体网格恢复、视频深度估计和相机姿态估计等任务上达到最先进或竞争性性能。
- Conclusion: Human3R作为一个简单而强大的基线,易于扩展用于下游应用,为4D人体-场景重建提供了高效的统一解决方案。
cs.SD
[75] StereoSync: Spatially-Aware Stereo Audio Generation from Video
Christian Marinoni,Riccardo Fosco Gramaccioni,Kazuki Shimada,Takashi Shibuya,Yuki Mitsufuji,Danilo Comminiello
Main category: cs.SD
TL;DR: StereoSync是一个新颖高效的视频对齐音频生成模型,不仅能实现时间同步,还能通过深度图和边界框提取空间线索,生成与视频空间结构动态适应的立体声。
- Motivation: 当前音频生成研究广泛,但视频对齐的音频生成仍相对未被探索,现有方法主要关注时间同步,缺乏空间感知能力。
- Method: 利用预训练基础模型,通过深度图和边界框提取空间线索作为交叉注意力条件,在基于扩散的音频生成模型中实现时空对齐。
- Result: 在Walking The Maps数据集上的实验表明,StereoSync能够实现时间和空间对齐,显著提升了视频到音频生成的技术水平。
- Conclusion: StereoSync通过引入空间感知能力,超越了简单的时间同步,为视频对齐音频生成提供了更沉浸和真实的音频体验。
[76] FoleyGRAM: Video-to-Audio Generation with GRAM-Aligned Multimodal Encoders
Riccardo Fosco Gramaccioni,Christian Marinoni,Eleonora Grassucci,Giordano Cicchetti,Aurelio Uncini,Danilo Comminiello
Main category: cs.SD
TL;DR: FoleyGRAM是一种基于语义条件的视频到音频生成方法,通过多模态编码器对齐实现精确的语义控制
- Motivation: 在现有视频到音频生成技术基础上,强调通过语义条件控制来提升音频与视频内容的语义对齐
- Method: 使用Gramian表示对齐度量(GRAM)对齐视频、文本和音频模态的嵌入,结合扩散模型和波形包络进行音频合成
- Result: 在Greatest Hits数据集上的实验表明,GRAM对齐的多模态编码器能增强生成音频与视频内容的语义对齐能力
- Conclusion: 该方法在视频到音频合成领域取得了最先进的性能,通过语义对齐提升了生成质量
cs.RO
[77] DeLTa: Demonstration and Language-Guided Novel Transparent Object Manipulation
Taeyeop Lee,Gyuree Kang,Bowen Wen,Youngho Kim,Seunghyeok Back,In So Kweon,David Hyunchul Shim,Kuk-Jin Yoon
Main category: cs.RO
TL;DR: DeLTa框架通过整合深度估计、6D姿态估计和视觉语言规划,实现了基于自然语言指令的透明物体长时程精确操作,仅需单次演示即可泛化到新物体。
- Motivation: 透明物体操作研究目前局限于短时程任务和基本抓取能力,现有方法对新物体的泛化能力不足,难以实现精确的长时程机器人操作。
- Method: 提出DeLTa框架,结合深度估计、6D姿态估计和视觉语言规划,采用单次演示方法将6D轨迹泛化到新透明物体,无需类别先验或额外训练。
- Result: 综合评估表明,该方法在长时程场景中显著优于现有透明物体操作方法,特别是在需要精确操作能力的任务中。
- Conclusion: DeLTa框架成功解决了透明物体长时程精确操作的挑战,通过单次演示实现了对新物体的有效泛化,为透明物体操作研究提供了新方向。
math.NA
[78] A Warm-basis Method for Bridging Learning and Iteration: a Case Study in Fluorescence Molecular Tomography
Ruchi Guo,Jiahua Jiang,Bangti Jin,Wuwei Ren,Jianru Zhang
Main category: math.NA
TL;DR: 提出了一种新颖的Warm-Basis迭代投影方法(WB-IPM),将学习方法和迭代方案相结合,显著提高了荧光分子层析成像(FMT)的深度重建精度,同时减少了对高质量配对训练数据的依赖。
- Motivation: FMT在深度重建中面临精度挑战,传统迭代方法z分辨率差,而监督学习方法需要大量高质量配对训练数据,这在实践中难以获取。需要找到将学习方法与迭代方案有效结合的途径。
- Method: 提出了Warm-Basis迭代投影方法(WB-IPM),该方法结合了学习方法和迭代方案,使用仅依赖于地面真实值与神经网络输出之间方向分量的较弱损失函数。
- Result: 该方法比基于学习和基于迭代的方法实现了更准确的重建,显著减少了训练工作量,并通过误差分析以及模拟和真实数据实验验证了这些特性。
- Conclusion: WB-IPM方法成功地将学习方法与迭代方案相结合,在减少训练数据需求的同时显著提高了FMT深度重建的准确性和稳定性。
cs.LG
[79] Discretized Quadratic Integrate-and-Fire Neuron Model for Deep Spiking Neural Networks
Eric Jahns,Davi Moreno,Milan Stojkov,Michel A. Kinsy
Main category: cs.LG
TL;DR: 提出了首个针对高性能深度脉冲神经网络的QIF神经元模型离散化方法,通过分析其动力学特性并推导出稳定的训练梯度窗口,在多个数据集上超越了基于LIF的先进方法。
- Motivation: LIF神经元虽然计算效率高但表达能力受限,而QIF等复杂模型具有更丰富的非线性动力学特性但训练不稳定,因此需要开发既具有丰富动力学特性又能够稳定训练的神经元模型。
- Method: 提出了QIF神经元模型的离散化方法,从离散化参数集直接推导出分析性的替代梯度窗口公式,以最小化梯度失配,确保训练稳定性。
- Result: 在CIFAR-10、CIFAR-100、ImageNet和CIFAR-10 DVS等数据集上的评估表明,该方法能够超越基于LIF的最先进方法。
- Conclusion: 该QIF神经元离散化方法为深度SNN提供了一个有吸引力的LIF替代方案,结合了更丰富的动力学特性和实际可扩展性。
[80] RegMix: Adversarial Mutual and Generalization Regularization for Enhancing DNN Robustness
Zhenyu Liu,Varun Ojha
Main category: cs.LG
TL;DR: 提出两种新的对抗训练正则化策略:加权对抗互正则化和对抗泛化正则化,通过KL散度损失和引入干净目标分布来提升模型鲁棒性。
- Motivation: 传统对抗训练中使用的MSE正则化在优化过程中过于均匀,限制了鲁棒性表现,需要更灵活的正则化方法。
- Method: 1. 加权对抗互正则化:使用分解的对抗互KL散度损失,为主目标和辅助目标分配不等权重;2. 对抗泛化正则化:在对抗训练目标中引入额外的干净目标分布。
- Result: 大量实验表明,所提方法相比现有正则化方法显著提升了对抗鲁棒性。
- Conclusion: 提出的两种正则化策略有效解决了传统对抗训练中MSE正则化的局限性,显著提升了模型鲁棒性。
[81] NEO: No-Optimization Test-Time Adaptation through Latent Re-Centering
Alexander Murphy,Michal Danilowski,Soumyajit Chatterjee,Abhirup Ghosh
Main category: cs.LG
TL;DR: NEO是一种无需超参数调整的测试时自适应方法,通过重新将目标数据嵌入在原点中心化来改善源域和分布偏移样本的对齐,在计算开销极小的情况下显著提升分类精度。
- Motivation: 现有测试时自适应方法通常计算成本高、需要大量数据进行有效适应,或对超参数敏感。基于潜在空间几何理论,发现通过将目标数据嵌入重新中心化到原点可以显著改善源域和分布偏移样本的对齐。
- Method: 提出NEO方法,基于潜在空间几何理论,将目标数据嵌入重新中心化到原点,无需超参数调整,计算开销与普通推理相当。
- Result: 在ImageNet-C上,仅用64个样本就能将ViT-Base的准确率从55.6%提升到59.2%;在512个样本上,在ImageNet-C、ImageNet-R和ImageNet-S上优于所有7种对比方法,在CIFAR-10-C上优于6/7方法,同时计算量最少。在树莓派和Jetson Orin Nano设备上,推理时间减少63%,内存使用减少9%。
- Conclusion: 基于3种ViT架构和4个数据集的实验表明,NEO可以高效有效地用于测试时自适应,具有良好的模型校准性能,并能从1个类适应以改善其他999个类的准确率。
[82] Neighborhood-Adaptive Generalized Linear Graph Embedding with Latent Pattern Mining
S. Peng,L. Hu,W. Zhang,B. Jie,Y. Luo
Main category: cs.LG
TL;DR: 提出了一种基于潜在模式挖掘的邻域自适应广义线性图嵌入模型NGLGE,通过自适应图学习和低秩表示重构,解决了传统方法需要预定义邻域大小和依赖单一模式挖掘的问题。
- Motivation: 当前图构建方法需要预定义邻域大小,限制了数据潜在结构相关性的有效揭示;而使用线性投影的图嵌入方法依赖单一模式挖掘,在不同场景下的适应性较弱。
- Method: 提出NGLGE模型,包含邻域自适应图学习方法、重构的低秩表示,以及对投影矩阵施加ℓ2,0范数约束以灵活探索额外模式信息,并推导了高效的迭代求解算法。
- Result: 在多个不同场景的数据集上进行对比评估,证明该模型相比最先进方法具有更优越的性能。
- Conclusion: NGLGE模型通过邻域自适应图学习和灵活的模式挖掘机制,能够有效揭示数据内在相关性,在不同场景下表现出更好的适应性。
[83] Improving Clinical Dataset Condensation with Mode Connectivity-based Trajectory Surrogates
Pafue Christy Nganjimi,Andrew Soltan,Danielle Belgrave,Lei Clifton,David A. Clifton,Anshul Thakur
Main category: cs.LG
TL;DR: 提出一种使用贝塞尔曲线替代完整SGD轨迹的数据集压缩方法,通过平滑的低损失参数化替代路径来稳定梯度、加速收敛并减少存储开销。
- Motivation: 现有数据集压缩方法使用完整SGD轨迹作为对齐目标,但这些轨迹通常噪声大、曲率高且存储密集,导致梯度不稳定、收敛慢和内存开销大。
- Method: 用连接初始和最终模型状态的二次贝塞尔曲线作为平滑、低损失的参数化替代路径,替代完整的SGD轨迹,提供无噪声、低曲率的监督信号。
- Result: 在五个临床数据集上超越现有最先进的压缩方法,生成的压缩数据集能够支持临床有效模型的开发。
- Conclusion: 贝塞尔模式连接作为SGD路径的有效替代,能够稳定梯度、加速收敛并消除密集轨迹存储需求,在临床数据集压缩中表现优异。
[84] Gaussian Embeddings: How JEPAs Secretly Learn Your Data Density
Randall Balestriero,Nicolas Ballas,Mike Rabbat,Yann LeCun
Main category: cs.LG
TL;DR: JEPA架构中的抗坍塌项不仅防止表示坍塌,还能估计数据密度,从而可用于数据筛选、异常检测等任务。
- Motivation: 揭示JEPA中抗坍塌项的深层作用,证明其能够估计数据密度,扩展JEPA的应用范围。
- Method: 通过理论分析证明JEPA的抗坍塌项可估计数据密度,提出JEPA-SCORE方法利用模型雅可比矩阵高效计算样本概率。
- Result: 在合成数据、受控数据和ImageNet等数据集上验证了理论发现,适用于I-JEPA、DINOv2和MetaCLIP等多种方法。
- Conclusion: JEPA不仅学习下游任务表示,还能提供数据密度估计,为数据管理和分析提供新工具。
eess.SP
[85] Leveraging Vision Transformers for Enhanced Classification of Emotions using ECG Signals
Pubudu L. Indrasiri,Bipasha Kashyap,Pubudu N. Pathirana
Main category: eess.SP
TL;DR: 该论文提出了一种结合CNN和SE模块的改进版Vision Transformer架构,用于从心电图图像中识别情绪状态,在YAAD和DREAMER数据集上超越了现有最先进方法。
- Motivation: 生物医学信号如心电图能够反映情绪状态,传统机器学习方法在情绪识别方面存在局限,需要利用先进的transformer架构来提升性能。
- Method: 采用两阶段方法:1)使用连续小波变换和功率谱密度分析将信号转换为图像;2)提出结合CNN和SE模块的增强版Vision Transformer架构。
- Result: 在YAAD数据集上,该方法在七种情绪状态分类以及效价和唤醒度分类方面优于现有方法;在DREAMER数据集上,在效价、唤醒度和支配度分类方面表现优异。
- Conclusion: 提出的增强版Vision Transformer架构在基于心电图的情绪识别任务中表现出色,验证了transformer架构在该领域的有效性。
eess.IV
[86] nnSAM2: nnUNet-Enhanced One-Prompt SAM2 for Few-shot Multi-Modality Segmentation and Composition Analysis of Lumbar Paraspinal Muscles
Zhongyi Zhang,Julie A. Hides,Enrico De Martino,Abdul Joseph Fofanah,Gervase Tuxworth
Main category: eess.IV
TL;DR: 开发了nnsam2框架,仅使用每个数据集中的单个标注切片进行腰椎旁肌的少样本分割,在MRI和CT上实现了与专家测量统计相当的自动化分割结果
- Motivation: 开发一个高效的少样本分割方法,仅需单个标注切片就能在多模态医学影像上实现准确的腰椎旁肌分割,解决传统方法需要大量标注数据的问题
- Method: 使用单个切片的SAM2提示生成伪标签,通过三个连续的nnU-Net模型进行精炼,在6个数据集的1219个扫描上进行验证,使用Dice系数和统计等效性测试评估性能
- Result: nnsam2在MRI上DSC达到0.94-0.96,CT上达到0.92-0.93,自动化测量与专家测量在肌肉体积、CT衰减和脂肪比率上统计等效,ICC达到0.86-1.00
- Conclusion: nnsam2是一个先进的多模态少样本分割框架,具有高标注效率、强泛化性和可重复性,为腰椎旁肌分割提供了可靠的自动化解决方案
[87] Smartphone-based iris recognition through high-quality visible-spectrum iris image capture.V2
Naveenkumar G Venkataswamy,Yu Liu,Soumyabrata Dey,Stephanie Schuckers,Masudul H Imtiaz
Main category: eess.IV
TL;DR: 提出了一种紧凑的端到端可见光谱虹膜识别系统,通过标准化采集和质量控制,在智能手机上实现了高精度的虹膜识别。
- Motivation: 解决智能手机可见光谱虹膜识别面临的挑战,包括光照变化、色素差异和缺乏标准化采集控制。
- Method: 开发了定制Android应用进行实时取景和质量评估,构建CUVIRIS数据集,设计了轻量级MobileNetV3多任务分割网络LightIrisNet和适配可见光谱的transformer匹配器IrisFormer。
- Result: OSIRIS在FAR=0.01时TAR达到97.9%(EER=0.76%),IrisFormer在CUVIRIS数据集上EER仅为0.057%。
- Conclusion: 标准化采集和可见光谱适配的轻量模型能够实现智能手机上准确实用的虹膜识别。
cs.AI
[88] Beyond Monolithic Rewards: A Hybrid and Multi-Aspect Reward Optimization for MLLM Alignment
Radha Gulhane,Sathish Reddy Indurthi
Main category: cs.AI
TL;DR: 提出混合奖励建模框架,结合模型奖励和规则奖励,通过多维度奖励信号提升多模态大语言模型与人类偏好的对齐效果。
- Motivation: 传统单信号模型奖励方法缺乏跨领域任务的置信度校准,无法捕捉人类偏好的多样性,且需要大量数据标注和奖励模型训练。
- Method: 集成模型奖励(从合成和人类反馈中预测标量或向量分数)和规则奖励(领域特定启发式提供明确正确性信号),并引入多维度奖励和广义长度惩罚奖励。
- Result: 在3B模型家族中,通用和数学推理任务平均提升约9.5%,数学基准测试平均提升约16%。
- Conclusion: 混合奖励建模框架为通过强化学习策略优化对齐MLLMs提供了灵活有效的方法,在不同多模态基准测试中均取得一致改进。
[89] D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI
Suwhan Choi,Jaeyoon Jung,Haebin Seong,Minchan Kim,Minyeong Kim,Yongjun Cho,Yoonshik Kim,Yubeen Park,Youngjae Yu,Yunsung Lee
Main category: cs.AI
TL;DR: D2E框架利用桌面游戏数据预训练机器人AI,通过标准化数据收集、通用行为建模和迁移学习,在物理操作和导航任务中取得优异表现。
- Motivation: 物理轨迹数据收集成本高昂,而桌面游戏环境提供了大规模传感器运动交互,可作为机器人AI的有效预训练基础。
- Method: 开发了OWA工具包统一桌面交互格式,Generalist-IDM实现跨游戏零样本泛化,VAPT将桌面预训练表示迁移到物理任务。
- Result: 使用1300+小时数据,在LIBERO操作任务中达到96.6%成功率,在CANVAS导航任务中达到83.3%成功率。
- Conclusion: 数字交互中的传感器运动基元具有足够的不变性,能够有效迁移到物理具身任务,桌面预训练是机器人学的实用范式。
[90] The Safety Challenge of World Models for Embodied AI Agents: A Review
Lorenzo Baraldi,Zifan Zeng,Chongzhe Zhang,Aradhana Nayak,Hongbo Zhu,Feng Liu,Qunli Zhang,Peng Wang,Shiming Liu,Zheng Hu,Angelo Cangelosi,Lorenzo Baraldi
Main category: cs.AI
TL;DR: 本文对自动驾驶和机器人领域的World Models进行了全面文献综述,特别关注场景和控制生成任务的安全影响,并通过实证分析收集和检查最先进模型的预测结果,识别和分类常见故障(称为病理),并提供结果的定量评估。
- Motivation: 随着具身人工智能的快速发展,需要更先进和集成的模型来感知、解释和预测环境动态。World Models被引入以提供具身代理预测未来环境状态和填补知识空白的能力,从而增强代理规划和执行行动的能力。然而,在处理具身代理时,确保预测对代理和环境都是安全的至关重要。
- Method: 在自动驾驶和机器人领域对World Models进行全面的文献综述,特别关注场景和控制生成任务的安全影响。通过实证分析收集和检查最先进模型的预测结果,识别和分类常见故障(病理),并提供结果的定量评估。
- Result: 通过实证分析收集和检查了最先进模型的预测结果,识别和分类了常见故障(病理),并提供了结果的定量评估。
- Conclusion: World Models在增强具身代理能力方面具有重要作用,但需要特别关注其预测的安全性,以确保对代理和环境都是安全的。
hep-ex
[91] Overlap-aware segmentation for topological reconstruction of obscured objects
J. Schueler,H. M. Araújo,S. N. Balashov,J. E. Borg,C. Brew,F. M. Brunbauer,C. Cazzaniga,A. Cottle,D. Edgeman,C. D. Frost,F. Garcia,D. Hunt,M. Kastriotou,P. Knights,H. Kraus,A. Lindote,M. Lisowska,D. Loomba,E. Lopez Asamar,P. A. Majewski,T. Marley,C. McCabe,L. Millins,R. Nandakumar,T. Neep,F. Neves,K. Nikolopoulos,E. Oliveri,A. Roy,T. J. Sumner,E. Tilly,W. Thompson,M. A. Vogiatzi
Main category: hep-ex
TL;DR: OASIS是一种新的分割回归框架,通过加权损失函数在训练中优先处理物体重叠区域,能够从严重遮挡的物体中提取像素强度和拓扑特征。
- Motivation: 在科学成像中,重叠物体的分离是一个重大挑战。现有的深度学习分割回归算法通常平等对待所有区域,而没有优先处理重叠区域,这些区域中的属性归属最为模糊。
- Method: 提出OASIS框架,采用加权损失函数设计,在训练过程中优先处理物体重叠区域,从而能够从严重遮挡的物体中提取像素强度和拓扑特征。
- Result: 与未加权训练相比,OASIS将低能电子轨迹(4-5 keV)的中值强度重建误差从-32%提高到-14%,并将拓扑交并比得分从0.828提高到0.855。
- Conclusion: OASIS能够有效恢复重叠主导区域中被遮挡的信号,为科学成像提供了一种可推广的方法论,其中像素代表物理量且重叠会掩盖感兴趣的特征。
cs.CL
[92] UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG
Xiangyu Peng,Cab Qin,Zeyuan Chen,Ran Xu,Caiming Xiong,Chien-Sheng Wu
Main category: cs.CL
TL;DR: 提出了UniDoc-Bench,这是首个大规模、真实的多模态检索增强生成基准,基于8个领域的7万页真实PDF文档构建,包含1600个多模态QA对,支持四种范式的公平比较。
- Motivation: 当前多模态检索增强生成评估存在碎片化问题,要么单独评估文本或图像,要么使用简化的多模态设置,无法捕捉文档中心的多模态用例。
- Method: 从真实PDF文档中提取和链接文本、表格、图像证据,生成涵盖事实检索、比较、摘要和逻辑推理的1600个多模态QA对,其中20%经过多标注者和专家验证。
- Result: 实验表明,多模态文本-图像融合RAG系统始终优于单模态和联合多模态嵌入检索,表明单独使用文本或图像都不足够,且当前多模态嵌入仍不充分。
- Conclusion: 该基准不仅用于评估,还揭示了视觉上下文何时以及如何补充文本证据,发现了系统性失败模式,并为开发更强大的MM-RAG管道提供了可行指导。
[93] Advancing Automated Spatio-Semantic Analysis in Picture Description Using Language Models
Si-Ioi Ng,Pranav S. Ambadi,Kimberly D. Mueller,Julie Liss,Visar Berisha
Main category: cs.CL
TL;DR: 提出基于BERT的自动化CIU提取和排序方法,用于认知障碍评估中的视觉叙事路径分析,相比传统方法更高效准确。
- Motivation: 现有认知语言障碍自动评估方法常忽略视觉叙事路径(描述图片元素的顺序和位置),而手动标记或基于词典的方法费时费力。
- Method: 使用基于BERT的管道,通过二元交叉熵和成对排序损失进行微调,从Cookie Theft图片描述中自动提取和排序CIU。
- Result: 5折交叉验证显示:CIU检测中位数精度93%,召回率96%,序列错误率24%;提取的特征与真实值有强相关性,在外部验证中优于词典基线。
- Conclusion: 该方法能有效表征视觉叙事路径用于认知障碍评估,且实现和模型已开源。
cs.NE
[94] From Neural Activity to Computation: Biological Reservoirs for Pattern Recognition in Digit Classification
Ludovico Iannello,Luca Ciampi,Fabrizio Tonelli,Gabriele Lagani,Lucio Maria Calcagnile,Federico Cremisi,Angelo Di Garbo,Giuseppe Amato
Main category: cs.NE
TL;DR: 提出了一种基于生物神经元的储层计算方法,用培养的神经元网络作为计算基质,通过多电极阵列进行刺激和记录,在数字分类任务中验证了其有效性。
- Motivation: 将生物原理整合到机器学习中,探索活体神经系统如何为高效且生物合理的模型设计提供信息,实现人类启发的视觉计算。
- Method: 使用多电极阵列同时刺激和记录培养的神经元网络,将输入图像编码为电刺激信号,利用神经活动训练线性分类器。
- Result: 生物储层能够有效支持分类任务,与人工储层相比表现出可行性,突出了其作为可解释计算基质的潜力。
- Conclusion: 生物储层计算是一种可行且可解释的计算方法,为整合生物原理到机器学习提供了新途径,有助于设计更高效和生物合理的模型。
cs.CR
[95] SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models
Peigui Qi,Kunsheng Tang,Wenbo Zhou,Weiming Zhang,Nenghai Yu,Tianwei Zhang,Qing Guo,Jie Zhang
Main category: cs.CR
TL;DR: SafeGuider是一个针对文本到图像模型的安全防护框架,通过分析[EOS]令牌的语义聚合特性,结合嵌入级识别模型和安全感知特征擦除波束搜索算法,在保持良性提示生成质量的同时,有效防御对抗性攻击。
- Motivation: 文本到图像模型容易受到对抗性提示攻击,绕过安全措施生成有害内容。现有防御策略在保持实用性和鲁棒性方面存在挑战,需要一种既能防御攻击又不影响正常生成质量的解决方案。
- Method: 首先对Stable Diffusion模型的文本编码器进行实证研究,发现[EOS]令牌在良性提示和对抗性提示的嵌入空间中具有不同的分布模式。基于此构建SafeGuider框架,包含嵌入级识别模型和安全感知特征擦除波束搜索算法。
- Result: SafeGuider在各种攻击场景下最大攻击成功率仅为5.48%,显著降低了攻击效果。与拒绝生成或生成黑图不同,该框架能为不安全提示生成安全且有意义的图像,增强了实用性。框架还可应用于其他文本到图像模型如Flux,展现了良好的适应性。
- Conclusion: SafeGuider为安全文本到图像系统的实际部署提供了有效解决方案,在保持高质量图像生成的同时实现了对对抗性攻击的鲁棒防御,具有广泛的适用性和实用价值。
cs.MM
[96] Towards Robust and Realible Multimodal Fake News Detection with Incomplete Modality
Hengyang Zhou,Yiwei Wei,Jian Yang,Zhenyu Zhang
Main category: cs.MM
TL;DR: 提出MMLNet方法,通过多专家协作推理、不完整模态适配器和模态缺失学习三个关键步骤,解决多模态假新闻检测中的模态不完整问题,在真实数据集上表现优于现有方法。
- Motivation: 现实应用中多媒体新闻在传播过程中可能自然丢失部分信息,导致模态不完整性,这对现有模型的泛化性和鲁棒性不利。
- Method: MMLNet包含三个关键步骤:多专家协作推理通过多个专家动态利用互补信息补偿缺失模态;不完整模态适配器利用新特征分布补偿缺失信息;模态缺失学习使用标签感知自适应加权策略通过对比学习学习鲁棒表示。
- Result: 在三个真实世界基准数据集上评估,涵盖两种语言,相比最先进方法表现出优越性能,同时保持相对简单性。
- Conclusion: 通过确保在信息传播导致的不完整模态场景下假新闻检测的准确性,MMLNet有效遏制了恶意虚假信息的传播。
[97] Controllable Audio-Visual Viewpoint Generation from 360° Spatial Information
Christian Marinoni,Riccardo Fosco Gramaccioni,Eleonora Grassucci,Danilo Comminiello
Main category: cs.MM
TL;DR: 提出首个可控音频-视频生成框架,通过全景显著性图、边界框感知距离图和场景描述等条件信号,从360度环境生成视角特定的视频和音频。
- Motivation: 现有方法缺乏从大型沉浸式360度环境生成视角特定内容的细粒度控制能力,限制了创建感知镜头外事件的音频-视觉体验。
- Method: 使用扩散模型,引入全景显著性图识别感兴趣区域、边界框感知有符号距离图定义目标视角、以及整个场景的描述性标题作为条件信号。
- Result: 模型生成具有空间感知的视角视频和音频,这些内容受到更广泛、不可见环境背景的一致影响。
- Conclusion: 该框架为现实和沉浸式音频-视觉生成引入了强大的可控性,填补了该领域的空白。
Powered by Deepseek & arXiv Daily AI Enhanced