Skip to content
每日arXiv - 2025年10月3日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

Alessio Spagnoletti,Andrés Almansa,Marcelo Pereyra

Main category: cs.CV

TL;DR: LVTINO是首个基于视频一致性模型(VCMs)的零样本视频修复方法,通过绕过自动微分实现高效计算,在保持测量一致性和时间平滑性的同时显著提升重建质量

  • Motivation: 现有基于图像LDM的方法在视频修复中会产生时间不一致性,需要开发能够同时恢复空间细节和捕捉时间依赖性的视频修复方法
  • Method: 利用视频一致性模型(VCMs)作为先验,提出条件机制绕过自动微分,仅需少量神经函数评估即可实现高质量视频重建
  • Result: 在多种视频逆问题上相比逐帧应用图像LDM的方法有显著感知质量提升,在重建保真度和计算效率方面都建立了新基准
  • Conclusion: LVTINO通过VCM先验实现了零样本视频修复,在保持时间一致性的同时达到了最先进的性能

[2] Image Generation Based on Image Style Extraction

Shuochen Chang

Main category: cs.CV

TL;DR: 提出了一种基于风格提取的三阶段训练图像生成方法,通过风格编码器和投影层将风格表示与文本表示对齐,实现基于文本提示的细粒度风格引导生成。

  • Motivation: 解决文本到图像生成中细粒度风格难以用自然语言精确描述和控制的问题,以及风格参考图像的引导信息难以与文本条件直接对齐的挑战。
  • Method: 使用风格编码器和风格投影层来提取单张风格参考图像的细粒度风格表示,并将其注入预训练生成模型,不改变下游生成模型的结构框架。构建了包含图像、风格标签和文本描述三元组的Style30k-captions数据集。
  • Result: 实现了细粒度可控的风格化图像生成,能够从单张风格参考图像中提取风格表示并与文本条件对齐。
  • Conclusion: 该方法能够最大化预训练生成模型的生成能力,通过风格提取和投影技术实现基于文本提示的细粒度风格控制。

[3] EvoStruggle: A Dataset Capturing the Evolution of Struggle across Activities and Skill Levels

Shijia Feng,Michael Wray,Walterio Mayol-Cuevas

Main category: cs.CV

TL;DR: 该研究收集了一个包含61.68小时视频、2,793个视频片段和5,385个标注时间段的挣扎检测数据集,用于研究技能学习过程中挣扎行为的演变规律。

  • Motivation: 现有数据集没有关注技能学习过程中挣扎行为随时间的变化,而理解这种演变对于确定用户当前学习阶段和开发有效辅助系统至关重要。
  • Method: 收集了76名参与者完成18个任务的数据,任务分为四类活动(打结、折纸、七巧板、洗牌),每个任务重复5次以捕捉技能演变。将挣扎检测定义为时间动作定位任务。
  • Result: 实验表明时间动作定位模型能够成功学习检测挣扎线索,在未见任务上平均mAP为34.56%,在未见活动上为19.24%,表明挣扎是跨任务可迁移的概念。
  • Conclusion: 挣扎是一个跨各种技能任务的可迁移概念,但挣扎检测仍有改进空间。数据集可用于进一步研究技能学习中的挣扎行为演变。

[4] SPUS: A Lightweight and Parameter-Efficient Foundation Model for PDEs

Abu Bucker Siddik,Diane Oyen,Alexander Most,Michal Kucer,Ayan Biswas

Main category: cs.CV

TL;DR: SPUS是一个紧凑高效的偏微分方程求解基础模型,使用轻量级残差U-Net架构,相比基于复杂Transformer的现有方法显著减少了计算和参数开销。

  • Motivation: 现有PDE基础模型主要基于大型复杂Transformer架构,计算和参数开销高。SPUS旨在探索轻量级U-Net架构作为基础模型的潜力,提供更高效的解决方案。
  • Method: 采用轻量级残差U-Net架构,使用自回归预训练策略模拟数值求解器行为来学习底层物理规律。在多样化流体动力学PDE数据集上进行预训练。
  • Result: 在6个未见下游PDE任务上取得最先进的泛化性能,同时需要显著更少的参数和极少的微调数据。
  • Conclusion: SPUS展示了残差U-Net架构作为参数高效PDE基础模型的巨大潜力,能够解决多样化的偏微分方程系统。

[5] DisCo: Reinforcement with Diversity Constraints for Multi-Human Generation

Shubhankar Borse,Farzad Farhadzadeh,Munawar Hayat,Fatih Porikli

Main category: cs.CV

TL;DR: DisCo是一个基于强化学习的框架,通过多样性约束直接优化多人生成中的身份多样性,解决了文本到图像模型在多人提示下重复面孔、融合身份和计数错误的问题。

  • Motivation: 现有的文本到图像模型在生成逼真图像方面表现出色,但在处理多人提示时会出现面孔重复、身份融合和个体计数错误的问题。
  • Method: 使用Group-Relative Policy Optimization (GRPO)微调流匹配模型,采用组合奖励函数:(i)惩罚图像内面部相似性,(ii)阻止跨样本身份重复,(iii)确保准确的人数计数,(iv)通过人类偏好分数保持视觉保真度。采用单阶段课程学习来稳定训练。
  • Result: 在DiverseHumans测试集上,DisCo实现了98.6%的唯一面孔准确率和接近完美的全局身份分布,超越了开源和专有方法(如Gemini、GPT-Image),同时保持了竞争力的感知质量。
  • Conclusion: DisCo作为一个可扩展、无需额外标注的解决方案,解决了生成模型中长期存在的身份危机问题,并为组合式多人生成设立了新的基准。

[6] GeoSURGE: Geo-localization using Semantic Fusion with Hierarchy of Geographic Embeddings

Angel Daruna,Nicholas Meegan,Han-Pang Chiu,Supun Samarasekera,Rakesh Kumar

Main category: cs.CV

TL;DR: 提出了一种新的视觉地理定位方法,通过将查询图像的视觉表示与分层地理嵌入表示对齐,结合外观特征和语义分割图,在多个基准数据集上实现了22/25指标的最优性能。

  • Motivation: 全球视觉地理定位旨在仅使用图像视觉内容确定其在地球上的地理位置,尽管已有进展,但学习地理表示仍是活跃研究课题。
  • Method: 将地理定位建模为对齐查询图像的视觉表示与学习的地理表示,使用分层地理嵌入表示世界,并有效融合图像外观特征与语义分割图形成鲁棒视觉表示。
  • Result: 在5个基准数据集的25个指标中,22个指标达到了历史最佳性能,优于先前最先进方法和大型视觉语言模型。
  • Conclusion: 消融研究表明性能提升主要源于地理表示和视觉表示的有效结合。

[7] Data Selection for Fine-tuning Vision Language Models via Cross Modal Alignment Trajectories

Nilay Naharas,Dang Nguyen,Nesihan Bulut,Mohammadhossein Bateni,Vahab Mirrokni,Baharan Mirzasoleiman

Main category: cs.CV

TL;DR: XMAS是一种针对大型视觉语言模型的数据高效指令调优方法,通过基于跨模态注意力矩阵相似性聚类来消除训练数据冗余,能在保留模型性能的同时大幅减少训练数据量。

  • Motivation: 现有数据选择方法在大型视觉语言模型上表现不佳,甚至无法超越随机选择,需要开发专门针对LVLM的数据高效学习方法。
  • Method: 证明具有相似跨模态注意力矩阵的示例具有相似梯度,基于此提出XMAS方法:通过聚类注意力矩阵的top奇异值轨迹,从聚类中采样平衡子集来去除冗余。
  • Result: XMAS能丢弃50%的LLaVA-665k数据集和85%的Vision-Flan数据集,完全保持LLaVA-1.5-7B在10个下游基准上的性能,训练速度提升1.2倍,比最佳基线多减少30%数据。
  • Conclusion: XMAS是首个针对LVLM的数据高效指令调优原则性方法,能有效消除大规模训练数据冗余,显著提升训练效率。

[8] Purrception: Variational Flow Matching for Vector-Quantized Image Generation

Răzvan-Andrei Matişan,Vincent Tao Hu,Grigory Bartosh,Björn Ommer,Cees G. M. Snoek,Max Welling,Jan-Willem van de Meent,Mohammad Mahdi Derakhshani,Floor Eijkelboom

Main category: cs.CV

TL;DR: Purrception是一种用于向量量化图像生成的变分流匹配方法,通过在连续嵌入空间中学习速度场,同时为码本索引提供显式分类监督,结合了连续方法的几何感知和分类方法的离散监督优势。

  • Motivation: 现有方法在向量量化图像生成中难以同时保持连续传输动力学和提供明确的分类监督。Purrception旨在通过变分流匹配来弥合连续传输和离散监督之间的差距,提高训练效率。
  • Method: 将变分流匹配适应于向量量化潜在空间,学习码本索引的分类后验分布,同时在连续嵌入空间中计算速度场,实现温度控制的生成和不确定性量化。
  • Result: 在ImageNet-1k 256x256生成任务上,训练收敛速度比连续流匹配和离散流匹配基线更快,同时达到与最先进模型竞争的FID分数。
  • Conclusion: 变分流匹配能够有效桥接连续传输和离散监督,在图像生成中实现改进的训练效率。

[9] AortaDiff: A Unified Multitask Diffusion Framework For Contrast-Free AAA Imaging

Yuxuan Ou,Ning Bi,Jiazhen Pan,Jiancheng Yang,Boliang Yu,Usama Zidan,Regent Lee,Vicente Grau

Main category: cs.CV

TL;DR: 提出一种统一的深度学习框架,通过条件扩散模型和多任务学习,从非对比CT扫描同时生成合成对比增强CT图像并分割主动脉腔和血栓,解决了传统多阶段方法的误差累积问题。

  • Motivation: 传统对比增强CT需要碘对比剂,存在肾毒性、过敏反应和环境危害等风险。现有深度学习方法采用多阶段流程,导致误差累积且无法利用共享的语义和解剖结构。
  • Method: 集成条件扩散模型与多任务学习,实现端到端的图像合成和解剖分割联合优化。无需初始预测,共享编码器和解码器参数,采用半监督训练策略处理缺失分割标签的临床数据。
  • Result: 在264名患者队列中表现优于现有方法:图像合成PSNR达25.61 dB,腔分割Dice分数提升至0.89,血栓分割Dice分数提升至0.53,临床测量误差显著降低。
  • Conclusion: 该统一框架能有效减少对比剂使用,同时提高图像质量和分割精度,在真实临床数据中展现出优越性能。

[10] From Videos to Indexed Knowledge Graphs -- Framework to Marry Methods for Multimodal Content Analysis and Understanding

Basem Rizk,Joel Walsh,Mark Core,Benjamin Nye

Main category: cs.CV

TL;DR: 提出了一个用于多模态内容分析的高效原型框架,将视频转换为时间半结构化数据格式,并进一步转换为可查询的知识图谱表示。

  • Motivation: 多模态内容分析通常计算成本高且需要大量工程努力,现有预训练模型与复杂数据(如视频)的融合具有挑战性。
  • Method: 设计候选流程配方,结合预训练模型将视频转换为时间半结构化数据,再转换为帧级索引知识图谱表示。
  • Result: 创建了支持查询和持续学习的知识图谱表示,能够通过交互方式动态整合新的领域特定知识。
  • Conclusion: 该框架为多模态内容分析提供了高效原型设计能力,支持动态知识整合和查询功能。

[11] WALT: Web Agents that Learn Tools

Viraj Prabhu,Yutong Dai,Matthew Fernandez,Jing Gu,Krithika Ramakrishnan,Yanqi Luo,Silvio Savarese,Caiming Xiong,Junnan Li,Zeyuan Chen,Ran Xu

Main category: cs.CV

TL;DR: WALT框架通过逆向工程将网站功能转化为可重用工具,让Web智能体直接调用高级操作(如搜索、筛选、排序),而不是依赖脆弱的逐步UI交互,从而在浏览器自动化中实现更高成功率和更少步骤。

  • Motivation: 当前Web智能体方法依赖逐步UI交互和大量LLM推理,在动态布局和长任务中表现脆弱。相比之下,人类通过网站提供的高级功能(如搜索、筛选、排序)来完成任务。
  • Method: WALT框架逆向工程网站的潜在功能,将其转化为可调用的工具,涵盖发现(搜索、筛选、排序)、通信(发布、评论、点赞)和内容管理(创建、编辑、删除)等操作。
  • Result: 在VisualWebArena和WebArena测试中,WALT实现了更高的成功率、更少的步骤和更少的LLM依赖推理。
  • Conclusion: WALT建立了一个稳健且可泛化的浏览器自动化范式,将计算负担从脆弱的逐步推理转移到可靠的工具调用上。

[12] MATCH: Multi-faceted Adaptive Topo-Consistency for Semi-Supervised Histopathology Segmentation

Meilong Xu,Xiaoling Hu,Shahira Abousamra,Chen Li,Chao Chen

Main category: cs.CV

TL;DR: 提出了一种用于半监督分割的拓扑一致性框架,通过多扰动预测和结构匹配策略来保持有意义的语义结构,特别适用于密集分布的病理图像分析。

  • Motivation: 在半监督分割中,从未标记数据中捕获有意义的语义结构至关重要,尤其是在病理图像分析中,对象密集分布,这带来了特别的挑战。
  • Method: 利用随机dropout和时间训练快照获得多个扰动预测,通过整合空间重叠和全局结构对齐的新匹配策略,强制这些不同输出之间的拓扑一致性。
  • Result: 大量实验表明,该方法有效减少了拓扑错误,产生了更鲁棒和准确的分割结果,这对可靠的下游分析至关重要。
  • Conclusion: 所提出的拓扑一致性框架通过多预测匹配策略,能够有效区分生物意义结构与噪声伪影,在半监督分割中实现了更鲁棒和准确的结果。

[13] Towards Better Optimization For Listwise Preference in Diffusion Models

Jiamu Bai,Xin Yu,Meilong Xu,Weitao Lu,Xin Pan,Kiwan Maeng,Daniel Kifer,Jian Wang,Yu Wang

Main category: cs.CV

TL;DR: 提出了Diffusion-LPO框架,用于在扩散模型中实现列表式偏好优化,通过利用包含排序信息的用户反馈来更精确地优化模型与人类偏好的一致性。

  • Motivation: 现有的DPO方法主要依赖成对偏好,而人类对图像的偏好反馈通常包含隐含的排序信息,这些信息比成对比较能更精确地传达人类偏好。
  • Method: 基于Plackett-Luce模型,将用户反馈聚合成图像排序列表,并推导出DPO目标的列表式扩展,通过鼓励每个样本优于其所有低排名替代品来增强整个排序的一致性。
  • Result: Diffusion-LPO在文本到图像生成、图像编辑和个性化偏好对齐等任务中均表现出色,在视觉质量和偏好对齐方面持续优于成对DPO基线方法。
  • Conclusion: Diffusion-LPO是一个简单有效的框架,能够利用列表式数据更好地优化扩散模型与人类偏好的一致性。

[14] Growing Visual Generative Capacity for Pre-Trained MLLMs

Hanyu Wang,Jiaming Han,Ziyan Yang,Qi Zhao,Shanchuan Lin,Xiangyu Yue,Abhinav Shrivastava,Zhenheng Yang,Hao Chen

Main category: cs.CV

TL;DR: Bridge是一个纯自回归的统一多模态大语言模型,通过混合Transformer架构和语义到像素的离散表示,在单一框架内实现图像理解和生成,在减少训练数据和训练时间的同时达到竞争性性能。

  • Motivation: 构建统一的多模态大语言模型面临挑战:混合方法破坏了自回归范式,纯自回归方法在语义对齐和像素级保真度之间存在权衡。
  • Method: 采用混合Transformer架构,通过语义到像素的离散表示整合紧凑语义标记和细粒度像素标记,在自回归框架内实现图像理解和生成。
  • Result: 在多种多模态基准测试中,Bridge在理解和生成任务上均取得竞争性或更优结果,序列长度仅增加7.9%。
  • Conclusion: Bridge证明了在单一自回归框架内实现高质量多模态理解和生成的可行性,为统一多模态模型提供了有效解决方案。

[15] Robust Classification of Oral Cancer with Limited Training Data

Akshay Bhagwan Sonawane,Lena D. Swamikannan,Lakshman Tamil

Main category: cs.CV

TL;DR: 提出了一种结合CNN和贝叶斯深度学习的混合模型,用于口腔癌分类,特别适用于小训练数据集。该方法通过变分推理进行不确定性量化,提高了模型在数据稀缺环境下的可靠性和泛化能力。

  • Motivation: 口腔癌是全球高发癌症,早期诊断对降低死亡率至关重要。传统深度学习模型需要大量数据,在医疗资源匮乏地区难以实现,且存在过度自信和泛化能力不足的问题。
  • Method: 结合卷积神经网络(CNN)和贝叶斯深度学习,使用变分推理进行不确定性量化。模型在智能手机拍摄的彩色照片上进行训练,并在三个不同的测试数据集上评估。
  • Result: 在训练数据分布相似的测试集上达到94%准确率,与传统CNN相当。在现实世界照片数据上,尽管存在差异,仍达到88%准确率,显著优于传统CNN的72.94%。置信度分析显示模型对正确分类样本具有低不确定性,对错误分类样本具有高不确定性。
  • Conclusion: 贝叶斯推理在数据稀缺环境下能有效提高口腔癌早期诊断的模型可靠性和泛化能力,为医疗资源匮乏地区的癌症筛查提供了可行解决方案。

[16] Consistent Assistant Domains Transformer for Source-free Domain Adaptation

Renrong Shao,Wei Zhang,Kangyang Luo,Qin Li,and Jun Wang

Main category: cs.CV

TL;DR: 提出CADTrans方法解决无源域自适应问题,通过构建辅助域模块获得多样化表示,使用一致性策略获取不变特征表示,并采用条件多核最大均值差异策略对齐困难样本。

  • Motivation: 现有SFDA方法主要关注评估目标域中与源域相似的不变特征,但容易受到困难样本和域偏差的影响,且无法充分表示多样性。
  • Method: 构建辅助域模块从中间聚合全局注意力获得多样化表示;基于辅助域和目标域,通过多重一致性策略获取不变特征表示;使用条件多核最大均值差异策略对齐困难样本到相应简单样本。
  • Result: 在Office-31、Office-Home、VISDA-C和DomainNet-126等多个基准测试上进行了广泛实验,证明了所提方法带来的显著性能提升。
  • Conclusion: CADTrans通过构建域一致性的不变特征表示,有效解决了SFDA中的困难样本和域偏差问题,在多个数据集上取得了显著性能改进。

[17] Guiding Multimodal Large Language Models with Blind and Low Vision People Visual Questions for Proactive Visual Interpretations

Ricardo Gonzalez Penuela,Felipe Arias-Russi,Victor Capriles

Main category: cs.CV

TL;DR: 开发了一个基于历史BLV用户问题的系统,通过识别相似视觉上下文来指导MLLM生成更相关的描述,提高描述的相关性和用户满意度。

  • Motivation: 现有的多模态大语言模型在视觉解释应用中倾向于提供全面但冗长的描述,缺乏上下文相关性,导致BLV用户需要筛选大量无关信息。
  • Method: 利用VizWiz-LF数据集中的历史BLV用户问题,当给定图像时识别相似视觉上下文,并用相关问题指导MLLM生成更相关的描述。
  • Result: 评估显示上下文感知描述在76.1%的情况下能够预测并回答用户问题,在54.4%的比较中被用户偏好。
  • Conclusion: 基于历史用户问题的上下文感知方法能显著提高MLLM生成描述的相关性,为BLV用户提供更有效的视觉解释服务。

[18] ImageNet-Think-250K: A Large-Scale Synthetic Dataset for Multimodal Reasoning for Vision Language Models

Krishna Teja Chitty-Venkata,Murali Emani

Main category: cs.CV

TL;DR: 开发了ImageNet-Think数据集,包含25万张ImageNet21k图像,提供结构化思维标记和答案,用于训练具有显式推理能力的视觉语言模型。

  • Motivation: 帮助开发具有明确推理能力的视觉语言模型,促进对多模态推理机制的理解。
  • Method: 使用两个最先进的视觉语言模型(GLM-4.1V-9B-Thinking和Kimi-VL-A3B-Thinking-2506)生成合成数据集,每张图像配有两对思维-答案序列。
  • Result: 创建了包含逐步推理过程和最终描述性答案的数据集,为多模态推理模型的训练和评估提供资源。
  • Conclusion: 该数据集将公开可用,旨在推动具有推理/思维能力的多模态视觉语言模型的研究发展。

[19] NPN: Non-Linear Projections of the Null-Space for Imaging Inverse Problems

Roman Jacome,Romario Gualdrón-Hurtado,Leon Suarez,Henry Arguello

Main category: cs.CV

TL;DR: 提出了一种新的正则化方法NPN,通过神经网络在感知矩阵零空间的低维投影中寻找解,而不是在图像域施加结构约束

  • Motivation: 传统先验方法忽略了感知矩阵零空间的特定结构,无法有效利用与感知过程正交的信息
  • Method: 使用神经网络构建感知矩阵零空间的低维投影,将解约束在该投影空间中,可与现有重建框架兼容
  • Result: 在压缩感知、去模糊、超分辨率、CT和MRI等多种成像逆问题中,NPN先验能持续提升重建保真度
  • Conclusion: NPN方法通过关注零空间结构,提供了可解释且灵活的正则化方法,能与传统图像域先验互补,在各种逆问题中表现优异

[20] Automated Genomic Interpretation via Concept Bottleneck Models for Medical Robotics

Zijun Li,Jinchang Zhang,Ming Zhang,Guoyu Lu

Main category: cs.CV

TL;DR: 提出了一种自动化基因组解释模块,将原始DNA序列转化为可解释的决策,适用于医疗自动化和机器人系统。该框架结合混沌游戏表示和概念瓶颈模型,通过生物学概念进行预测,并包含多种可靠性增强技术。

  • Motivation: 为了在基因组医学中建立可靠的自动化和机器人系统基础,需要将原始DNA序列转化为可解释且可操作的决策,同时确保预测的可靠性和临床实用性。
  • Method: 结合混沌游戏表示和概念瓶颈模型,强制预测通过生物学概念(如GC含量、CpG密度、k-mer基序)进行。采用概念保真度监督、先验一致性对齐、KL分布匹配和不确定性校准来增强可靠性。
  • Result: 在HIV亚型分类任务中达到最先进性能,在内部和LANL数据集上均表现出色。系统提供可解释的证据,可验证生物学先验,并通过成本感知推荐层优化决策策略。
  • Conclusion: 该工作弥合了可解释基因组建模与自动化决策之间的差距,为基因组医学中的机器人和临床自动化建立了可靠基础。

[21] VLA-R1: Enhancing Reasoning in Vision-Language-Action Models

Angen Ye,Zeyu Zhang,Boyuan Wang,Xiaofeng Wang,Dapeng Zhang,Zheng Zhu

Main category: cs.CV

TL;DR: VLA-R1通过强化学习从可验证奖励和分组相对策略优化来增强视觉-语言-动作模型的推理能力,提升泛化性能和真实世界表现。

  • Motivation: 当前VLA模型缺乏显式的逐步推理,不考虑功能约束或几何关系,且后训练流程很少强化推理质量,主要依赖监督微调和弱奖励设计。
  • Method: 提出RLVR后训练策略,使用可验证奖励进行区域对齐、轨迹一致性和输出格式优化;开发VLA-CoT-13K高质量数据集,提供与功能和轨迹标注明确对齐的思维链监督。
  • Result: 在领域内、领域外、仿真和真实机器人平台上的广泛评估显示,VLA-R1相比先前VLA方法实现了更优的泛化和真实世界性能。
  • Conclusion: VLA-R1通过系统性优化推理和执行,显著提升了VLA模型的推理鲁棒性和执行准确性,具有更好的泛化能力。

[22] Joint Deblurring and 3D Reconstruction for Macrophotography

Yifan Zhao,Liangchen Li,Yuqi Zhou,Kai Wang,Yan Liang,Juyong Zhang

Main category: cs.CV

TL;DR: 提出了一种联合去模糊和3D重建的方法,用于解决微距摄影中的散焦模糊问题,通过可微分渲染自监督优化3D模型和散焦模糊核。

  • Motivation: 微距摄影具有高分辨率和大放大倍率的优势,但散焦模糊严重阻碍了清晰成像和高质量3D重建。传统方法需要大量图像和标注,且目前没有针对微距摄影的多视角3D重建方法。
  • Method: 从多视角模糊图像出发,联合优化物体的清晰3D模型和每个像素的散焦模糊核。整个框架采用可微分渲染方法,自监督优化3D模型和散焦模糊核。
  • Result: 大量实验表明,从少量多视角图像中,该方法不仅能实现高质量图像去模糊,还能恢复高保真度的3D外观。
  • Conclusion: 该方法成功解决了微距摄影中的散焦模糊问题,实现了联合去模糊和3D重建,为小物体和细节物体的高质量3D建模提供了有效解决方案。

[23] FideDiff: Efficient Diffusion Model for High-Fidelity Image Motion Deblurring

Xiaoyang Liu,Zhengyan Zhou,Zihang Xu,Jiezhang Cao,Zheng Chen,Yulun Zhang

Main category: cs.CV

TL;DR: FideDiff是一种新颖的单步扩散模型,用于高保真图像去模糊。通过将运动模糊重新表述为扩散过程,训练一致性模型实现准确的一步去模糊,在性能上超越了之前的扩散方法。

  • Motivation: 现有基于扩散模型的图像去模糊方法存在推理时间过长和保真度不足的问题,限制了其在真实世界应用中的潜力。
  • Method: 将运动模糊重新表述为扩散过程,每个时间步代表逐渐模糊的图像;训练一致性模型将所有时间步对齐到同一清晰图像;集成Kernel ControlNet进行模糊核估计;引入自适应时间步预测。
  • Result: 在完整参考指标上实现了卓越性能,超越了之前的扩散方法,与其他最先进模型的性能相当。
  • Conclusion: FideDiff为将预训练扩散模型应用于高保真图像恢复任务提供了新方向,为在真实世界工业应用中进一步推进扩散模型建立了坚实基础。

[24] LadderMoE: Ladder-Side Mixture of Experts Adapters for Bronze Inscription Recognition

Rixin Zhou,Peiqiang Qiu,Qian Zhang,Chuntao Li,Xi Yang

Main category: cs.CV

TL;DR: 本文提出了一个用于青铜器铭文识别的两阶段检测-识别流程,通过LadderMoE架构增强CLIP编码器,解决了铭文严重视觉退化、多领域变异和长尾分布等挑战。

  • Motivation: 青铜器铭文是早期中国文字的重要阶段,但由于严重视觉退化、多领域变异(照片、拓片、摹本)和极长尾字符分布,自动识别仍然困难。
  • Method: 构建大规模BI数据集(22454页图像,198598个标注字符),开发两阶段检测-识别流程,使用LadderMoE增强CLIP编码器,实现动态专家专业化和更强鲁棒性。
  • Result: 在单字符和全页识别任务上显著优于最先进的场景文本识别基线,在头部、中部和尾部类别以及所有采集模态上都实现了更高的准确率。
  • Conclusion: 为青铜器铭文识别和下游考古分析建立了坚实基础。

[25] VirDA: Reusing Backbone for Unsupervised Domain Adaptation with Visual Reprogramming

Duy Nguyen,Dat Nguyen

Main category: cs.CV

TL;DR: VirDA提出了一种通过视觉重编程实现参数高效的领域自适应方法,无需微调主干网络参数,仅通过添加领域特定的视觉提示层来适应不同域,大幅减少训练参数和存储需求。

  • Motivation: 现有的UDA方法需要为每个新的源-目标对微调已训练好的主干网络参数,导致训练参数和存储内存随新对线性增长,且无法重用这些主干参数。
  • Method: VirDA在主干网络前添加领域特定的视觉重编程层,生成视觉提示作为纹理偏置,通过优化域内和域间分布差异的目标函数来训练这些层,而不修改主干参数。
  • Result: 在Office-31数据集上达到92.8%的平均准确率,仅需1.5M可训练参数,优于PDA方法1.6%准确率且参数减少54%,相比全主干微调方法仅需1.7%-2.8%的参数。
  • Conclusion: VirDA提供了一种参数高效的领域自适应解决方案,能够在保持高性能的同时大幅减少训练参数,实现主干网络在不同域间的重用。

[26] Discrete Facial Encoding: : A Framework for Data-driven Facial Display Discovery

Minh Tran,Maksim Siniukov,Zhangyu Jin,Mohammad Soleymani

Main category: cs.CV

TL;DR: 提出了一种名为离散面部编码(DFE)的无监督方法,通过残差向量量化变分自编码器从3D网格序列中学习紧凑且可解释的面部表情字典,在多个心理学任务中优于传统FACS系统。

  • Motivation: 现有面部表情编码系统(如FACS)存在覆盖范围有限和手动标注成本高的问题,需要一种数据驱动、可扩展的替代方案。
  • Method: 使用3D可变形模型提取身份不变的表情特征,然后通过残差向量量化变分自编码器(RVQ-VAE)将这些特征编码为来自共享码本的离散标记序列,每个标记捕获特定的可重用面部变形模式。
  • Result: DFE比FACS和其他面部编码方法捕获更精确的面部行为,在压力检测、人格预测和抑郁症检测等心理学任务中,使用简单词袋模型即可持续优于FACS基线和强大的图像/视频表示学习模型。
  • Conclusion: DFE作为一种可扩展且有效的替代方案,具有覆盖更广泛面部显示的潜力,适用于心理学和情感计算应用。

[27] Non-Rigid Structure-from-Motion via Differential Geometry with Recoverable Conformal Scale

Yongbo Chen,Yanhao Zhang,Shaifali Parashar,Liang Zhao,Shoudong Huang

Main category: cs.CV

TL;DR: 提出了一种名为Con-NRSfM的新方法,用于处理共形变形下的非刚性结构恢复问题,能够准确计算局部共形尺度并实现更精确的深度估计。

  • Motivation: 解决单目视觉可变形SLAM中的映射挑战,现有方法依赖严格假设且无法恢复共形尺度,需要消除这些约束。
  • Method: 使用基于图的框架优化2D选定图像扭曲进行逐点重建,采用并行可分离迭代优化策略,并结合自监督学习的编码器-解码器网络生成带纹理的密集3D点云。
  • Result: 在合成和真实数据集上的仿真和实验结果表明,该方法在重建精度和鲁棒性方面优于现有方法。
  • Conclusion: Con-NRSfM方法成功解决了共形变形下的非刚性结构恢复问题,能够准确计算局部共形尺度并实现更精确的深度估计,性能优于现有方法。

[28] UniVerse: Unleashing the Scene Prior of Video Diffusion Models for Robust Radiance Field Reconstruction

Jin Cao,Hongrui Wu,Ziyong Feng,Hujun Bao,Xiaowei Zhou,Sida Peng

Main category: cs.CV

TL;DR: UniVerse是一个统一的鲁棒重建框架,通过视频扩散模型将不一致的多视角图像转换为一致图像,然后进行3D重建,解决了稀疏观测下的鲁棒重建问题。

  • Motivation: 现有方法依赖密集观测来优化模型参数,难以处理稀疏观测下的图像不一致问题。
  • Method: 将鲁棒重建解耦为修复和重建两个子任务:先用视频扩散模型将不一致图像转换为一致图像,再进行3D重建。
  • Result: 在合成和真实数据集上的实验表明,该方法具有强大的泛化能力和优越性能,并能控制重建3D场景的风格。
  • Conclusion: UniVerse通过利用扩散模型学习的大规模场景先验,有效解决了多视角图像不一致的鲁棒重建问题。

[29] An Efficient Deep Template Matching and In-Plane Pose Estimation Method via Template-Aware Dynamic Convolution

Ke Jia,Ji Zhou,Hanxin Li,Zhigan Zhou,Haojie Chu,Xiaojie Li

Main category: cs.CV

TL;DR: 提出轻量级端到端模板匹配框架,将模板匹配重新定义为联合定位和几何回归问题,输出中心坐标、旋转角度和独立缩放比例,在复杂背景下实现高效精确的工业检测。

  • Motivation: 传统方法通过穷举角度和缩放导致效率低下,而深度学习方法仅估计相似度分数而不显式建模几何姿态,无法满足实际部署需求。
  • Method: 采用模板感知动态卷积模块动态注入模板特征,结合深度可分离卷积和像素重排实现高效匹配,通过旋转-剪切增强策略实现无几何标注训练,并使用轻量级细化模块提升精度。
  • Result: 3.07M参数模型在复合变换下实现高精度和14ms推理速度,在小模板和多目标场景中表现出强鲁棒性。
  • Conclusion: 该方法适用于实时工业应用部署,在复杂背景下实现了高效的模板匹配和几何状态估计。

[30] Look Less, Reason More: Rollout-Guided Adaptive Pixel-Space Reasoning

Xuchen Li,Xuzhao Li,Jiahui Gao,Renjie Pi,Shiyu Hu,Wentao Zhang

Main category: cs.CV

TL;DR: 提出了首个自适应像素推理框架,通过动态确定必要的像素级操作来提升视觉语言模型在细粒度视觉任务中的性能,同时显著减少不必要的视觉操作。

  • Motivation: 视觉语言模型在处理需要精确理解细粒度视觉元素的任务时表现不佳,主要由于图像编码过程中的信息丢失或对关键区域关注不足。现有方法虽然引入了像素级信息,但往往过度使用导致效率低下和无关视觉细节的干扰。
  • Method: 首先应用操作感知的监督微调建立文本推理和视觉操作的基础能力,然后设计基于模型自身响应反馈的rollout引导强化学习框架,使VLM能够根据查询难度动态决定何时调用像素操作。
  • Result: 在广泛的多模态推理基准测试中,模型实现了优越性能,同时显著减少了不必要的视觉操作。在HR-Bench 4K上达到73.4%的准确率,工具使用率仅为20.1%,相比之前方法在提高准确率的同时减少了66.5%的工具使用。
  • Conclusion: 提出的自适应像素推理框架有效解决了VLM在细粒度视觉理解中的挑战,通过动态决策机制实现了性能提升和效率优化的平衡。

[31] Uncovering Overconfident Failures in CXR Models via Augmentation-Sensitivity Risk Scoring

Han-Jay Shu,Wei-Ning Chiu,Shun-Ting Chang,Meng-Ping Huang,Takeshi Tohyama,Ahram Han,Po-Chih Kuo

Main category: cs.CV

TL;DR: 提出了一种基于增强敏感性的风险评分框架(ASRS),通过测量放射图像在旋转增强后的嵌入变化来识别易出错的胸部X光病例,提高医学AI的公平性和安全性。

  • Motivation: 深度学习模型在胸部X光解读中性能良好,但在患者亚组间存在准确性不均的问题,现有错误检测方法难以处理分布内的细微错误。
  • Method: 使用临床合理的旋转增强(±15°/±30°),通过RAD-DINO编码器测量嵌入变化,计算敏感性评分将样本分为稳定性四分位数。
  • Result: 高敏感性病例的召回率显著降低(-0.2到-0.3),尽管具有高AUROC和置信度,ASRS能够有效识别易出错样本。
  • Conclusion: ASRS提供了一种无需标签的选择性预测和临床医生审查方法,可改善医学AI的公平性和安全性。

[32] FreeViS: Training-free Video Stylization with Inconsistent References

Jiacong Xu,Yiqun Mei,Ke Zhang,Vishal M. Patel

Main category: cs.CV

TL;DR: FreeViS是一个无需训练的视频风格化框架,通过整合多个风格化参考到预训练的图像到视频模型,生成具有丰富风格细节和强时序一致性的风格化视频。

  • Motivation: 现有视频风格化方法存在时序一致性差、风格细节丢失的问题,而训练专用模型需要配对视频数据且计算成本高。
  • Method: 整合多个风格化参考到预训练I2V模型,使用高频补偿约束内容布局和运动,结合基于光流的运动线索保留低显著性区域的风格纹理。
  • Result: FreeViS在风格化保真度和时序一致性方面优于现有基线方法,获得强烈的人类偏好。
  • Conclusion: 该无需训练的方法为高质量、时序一致的视频风格化提供了实用且经济的解决方案。

[33] MedQ-Bench: Evaluating and Exploring Medical Image Quality Assessment Abilities in MLLMs

Jiyao Liu,Jinjie Wei,Wanying Qu,Chenglong Ma,Junzhi Ning,Yunheng Li,Ying Chen,Xinzhe Luo,Pengcheng Chen,Xin Gao,Ming Hu,Huihui Xu,Xin Wang,Shujian Gao,Dingkang Yang,Zhongying Deng,Jin Ye,Lihao Liu,Junjun He,Ningsheng Xu

Main category: cs.CV

TL;DR: 提出了MedQ-Bench基准测试,用于评估多模态大语言模型在医学图像质量评估中的感知和推理能力,包含2600个感知查询和708个推理评估,涵盖5种成像模态和40多个质量属性。

  • Motivation: 现有医学图像质量评估方法受限于标量评分指标,无法反映专家评估中基于描述的、类人的推理过程,需要建立更符合人类推理的评估范式。
  • Method: 设计MedQ-Bench基准,包含MedQ-Perception(低层感知能力)和MedQ-Reasoning(无参考和比较推理任务)两个互补任务,采用多维评判协议评估模型输出,并与放射科医生进行人机对齐验证。
  • Result: 对14个最先进MLLM的评估显示,模型表现出初步但不稳定的感知和推理技能,准确率不足以可靠临床使用。
  • Conclusion: MLLM在医学图像质量评估方面需要针对性优化,MedQ-Bench将推动进一步探索并释放MLLM在医学图像质量评估中的潜力。

[34] Holistic Order Prediction in Natural Scenes

Pierre Musacchio,Hyunmin Lee,Jaesik Park

Main category: cs.CV

TL;DR: InstaFormer是一个能够通过单次前向传播从RGB图像中预测完整遮挡和深度顺序的网络,无需昂贵的输入格式和推理成本。

  • Motivation: 现有视觉模型在理解实例几何关系方面存在挑战,需要昂贵的输入格式(类别标签、分割掩码)和二次方的前向传播推理成本。
  • Method: InstaFormer利用对象查询和潜在掩码描述符之间的交互,这些描述符语义上表示相同对象但携带互补信息,实现整体顺序预测。
  • Result: 通过全面基准测试和消融实验验证了该方法的有效性,代码和模型已开源。
  • Conclusion: InstaFormer能够高效地从RGB图像中预测场景中所有实例的完整遮挡和深度顺序,解决了现有方法的局限性。

[35] PyramidStyler: Transformer-Based Neural Style Transfer with Pyramidal Positional Encoding and Reinforcement Learning

Raahul Krishna Durairaju,K. Saruladha

Main category: cs.CV

TL;DR: PyramidStyler是一个基于Transformer的神经风格迁移框架,通过金字塔位置编码和强化学习优化,实现了高效的高分辨率图像风格化处理。

  • Motivation: 现有的CNN和Transformer模型在处理复杂风格和高分辨率输入时存在效率问题,需要更高效的风格迁移方法。
  • Method: 提出金字塔位置编码(PPE)来捕获多尺度特征,并结合强化学习动态优化风格化过程,在Microsoft COCO和WikiArt数据集上训练。
  • Result: 在4000轮训练后,内容损失降低62.6%至2.07,风格损失降低57.4%至0.86,推理时间1.39秒;使用强化学习后进一步改善至内容损失2.03、风格损失0.75,推理时间1.40秒。
  • Conclusion: PyramidStyler实现了实时高质量的艺术渲染,在媒体和设计领域具有广泛应用前景。

[36] LOBE-GS: Load-Balanced and Efficient 3D Gaussian Splatting for Large-Scale Scene Reconstruction

Sheng-Hsiang Hung,Ting-Yu Yen,Wei-Fang Sun,Simon See,Shih-Hsuan Hung,Hung-Kuo Chu

Main category: cs.CV

TL;DR: LoBE-GS是一个负载均衡的高效3D高斯泼溅框架,通过深度感知分区和优化策略解决了大规模场景重建中的负载不平衡问题,实现了2倍训练速度提升。

  • Motivation: 现有分治法在扩展3D高斯泼溅到大场景时存在负载不平衡和粗到细管道效率低的问题,需要更高效的解决方案。
  • Method: 提出深度感知分区方法减少预处理时间,使用基于优化的策略平衡可见高斯分布,并引入可见性裁剪和选择性致密化技术。
  • Result: 在大规模城市和户外数据集上,LoBE-GS比现有方法快2倍,保持重建质量,并能扩展到传统方法无法处理的场景。
  • Conclusion: LoBE-GS通过重新设计大规模3DGS流程,有效解决了负载不平衡和效率问题,为大规模场景重建提供了实用解决方案。

[37] Pack and Force Your Memory: Long-form and Consistent Video Generation

Xiaofei Wu,Guozhen Zhang,Zhiyong Xu,Yuan Zhou,Qinglin Lu,Xuming He

Main category: cs.CV

TL;DR: 提出了MemoryPack和Direct Forcing两种方法来解决长视频生成中的长期依赖建模和错误累积问题,提升自回归视频模型的实用性和一致性。

  • Motivation: 长视频生成面临两个主要挑战:需要捕获长期依赖关系,同时防止自回归解码中固有的错误累积。
  • Method: 1. MemoryPack:可学习的上下文检索机制,利用文本和图像信息作为全局指导,联合建模短期和长期依赖关系;2. Direct Forcing:高效的单步近似策略,改善训练-推理对齐,减少推理过程中的错误传播。
  • Result: MemoryPack能够实现分钟级的时间一致性,设计具有良好的扩展性、计算效率和线性复杂度;Direct Forcing有效缓解了错误累积问题。
  • Conclusion: MemoryPack和Direct Forcing共同显著提升了长视频生成的上下文一致性和可靠性,推进了自回归视频模型的实用化进程。

[38] Calibrating the Full Predictive Class Distribution of 3D Object Detectors for Autonomous Driving

Cornelius Schröder,Marius-Raphael Schlüter,Markus Lienkamp

Main category: cs.CV

TL;DR: 该论文提出了两种辅助正则化损失项来改善3D目标检测器的分类置信度校准,重点关注完整预测分布和主导类预测的校准,并在多个模型上验证了方法的有效性。

  • Motivation: 在自主系统中,精确的目标检测和不确定性估计对于自我感知和安全操作至关重要。需要关注完整预测置信度分布在所有类别上的校准,而不仅仅是主导类预测。
  • Method: 提出了两种辅助正则化损失项:一种校准主导预测,另一种校准完整预测向量。结合等渗回归方法,在CenterPoint、PillarNet和DSVT-Pillar等3D目标检测器上进行评估。
  • Result: 结合完整类别预测校准损失项和等渗回归的方法在CenterPoint和PillarNet上实现了最佳校准效果,但DSVT-Pillar无法使用相同方法同时校准主导和次要预测。
  • Conclusion: 完整预测向量校准损失项结合等渗回归是改善3D目标检测器分类置信度校准的有效方法,但不同模型可能需要特定的校准策略。

Giyeol Kim,Sooyoung Yang,Jihyong Oh,Myungjoo Kang,Chanho Eom

Main category: cs.CV

TL;DR: DiffPS是一个新颖的人员搜索框架,利用预训练扩散模型解决现有方法中检测和重识别任务间的优化冲突,通过三个专门模块提升性能。

  • Motivation: 现有人员搜索方法主要使用ImageNet预训练骨干网络,可能无法有效捕捉复杂空间上下文和细粒度身份线索,且共享骨干网络会导致检测和重识别任务间的优化冲突。
  • Method: 提出DiffPS框架,包含三个模块:扩散引导区域提议网络(DGRPN)用于增强人员定位,多尺度频率细化网络(MSFRN)减轻形状偏差,语义自适应特征聚合网络(SFAN)利用文本对齐的扩散特征。
  • Result: 在CUHK-SYSU和PRW数据集上达到了新的最先进水平。
  • Conclusion: 扩散先验知识能有效解决人员搜索中检测和重识别任务的优化冲突,显著提升性能。

[40] Flow-Matching Guided Deep Unfolding for Hyperspectral Image Reconstruction

Yi Ai,Yuanhao Cai,Yulun Zhang,Xiaokang Yang

Main category: cs.CV

TL;DR: 提出了FMU网络,首次将流匹配集成到HSI重建中,通过深度展开框架嵌入生成先验,并引入平均速度损失增强流一致性,显著提升了重建质量。

  • Motivation: 高光谱成像成本高且重建困难,现有压缩感知系统如CASSI在重建精度上仍面临严重退化问题,需要更好的方法来恢复精细光谱细节。
  • Method: 结合流匹配生成先验与深度展开框架,引入平均速度损失来增强流的全局一致性,形成混合设计。
  • Result: 在模拟和真实数据集上的大量实验表明,FMU在重建质量上显著优于现有方法。
  • Conclusion: FMU成功将流匹配集成到HSI重建中,通过混合设计结合了基于优化方法的可解释性和流匹配的生成能力。

[41] Automated Defect Detection for Mass-Produced Electronic Components Based on YOLO Object Detection Models

Wei-Lung Mao,Chun-Chi Wang,Po-Heng Chou,Yen-Ting Liu

Main category: cs.CV

TL;DR: 提出基于深度学习的双列直插封装(DIP)自动缺陷检测系统,使用ConSinGAN生成训练数据,YOLOv7模型在准确率和检测时间上表现最佳。

  • Motivation: 传统工业组件缺陷检测耗时耗力,给质检人员带来沉重负担且难以管理产品质量,需要自动化解决方案。
  • Method: 使用数字相机光学和深度学习模型,采用ConSinGAN生成合适大小的数据集,比较了YOLOv3、v4、v7、v9四种模型,开发了SCADA系统和传感器架构。
  • Result: YOLOv7结合ConSinGAN在准确率(95.50%)和检测时间(285ms)上优于其他YOLO版本,远超过基于阈值的方法。
  • Conclusion: 所提出的自动缺陷检测系统可轻松应用于多种缺陷类型或缺陷数据不足的情况。

[42] Foundation Visual Encoders Are Secretly Few-Shot Anomaly Detectors

Guangyao Zhai,Yue Zhou,Xinyan Deng,Lars Heckler,Nassir Navab,Benjamin Busam

Main category: cs.CV

TL;DR: FoundAD是一个基于基础视觉编码器的少样本异常检测方法,通过学习非线性投影算子来识别图像中的异常区域,在参数较少的情况下实现多类别检测的竞争性能。

  • Motivation: 少样本异常检测在工业安全检查中很重要,但有限样本使得正常与异常特征难以区分,特别是在类别无关条件下。基础视觉编码器的大规模预训练有助于学习正常图像的一般分布。
  • Method: 通过观察图像中异常数量与学习嵌入差异的相关性,设计了一个非线性投影算子,将其投影到自然图像流形上,作为识别图像中分布外区域的有效工具。
  • Result: 大量实验表明,该方法支持多类别检测,在使用比先前方法少得多的参数的情况下实现了竞争性能,并通过多个基础编码器(包括DINOv3)的评估验证了有效性。
  • Conclusion: 该方法拓宽了对基础特征的理解视角,并推动了少样本异常检测领域的发展。

[43] ClustViT: Clustering-based Token Merging for Semantic Segmentation

Fabio Montello,Ronja Güldenring,Lazaros Nalpantidis

Main category: cs.CV

TL;DR: ClustViT通过可训练的聚类模块和再生器模块优化Vision Transformer,在语义分割任务中显著降低计算复杂度,同时保持准确率。

  • Motivation: Vision Transformer在现实机器人系统中应用受限,因其二次注意力复杂度。现有token合并方法适合分类但不适合密集预测任务。
  • Method: 扩展ViT架构,添加可训练的聚类模块根据分割掩码的伪聚类合并相似token,然后通过再生器模块恢复细节信息。
  • Result: 在三个数据集上实现计算量减少2.18倍、推理速度提升1.64倍,同时保持可比较的分割准确率。
  • Conclusion: ClustViT有效解决了ViT在密集预测任务中的计算效率问题,为实际应用提供了可行方案。

[44] Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs

Yongyi Su,Haojie Zhang,Shijie Li,Nanqing Liu,Jingyi Liao,Junyi Pan,Yuan Liu,Xiaofen Xing,Chong Sun,Chen Li,Nancy F. Chen,Shuicheng Yan,Xulei Yang,Xun Xu

Main category: cs.CV

TL;DR: PaDT是一种统一的多模态大语言模型范式,通过视觉参考标记直接生成文本和视觉输出,解决了现有方法依赖间接表示的限制。

  • Motivation: 现有MLLM方法依赖间接表示(如将坐标生成为文本)限制了性能,无法处理密集预测任务如分割。
  • Method: 提出视觉参考标记(VRTs),从查询图像的视觉补丁嵌入中派生,与LLM输出文本标记交织。轻量级解码器将LLM输出转换为检测、分割和定位预测。
  • Result: 在四个视觉感知和理解任务中持续达到最先进性能,即使与显著更大的MLLM模型相比。
  • Conclusion: PaDT通过直接生成视觉输出,为MLLM提供了统一的视觉任务处理范式,显著提升了定位和区分相似对象的能力。

[45] TriAlignXA: An Explainable Trilemma Alignment Framework for Trustworthy Agri-product Grading

Jianfei Xie,Ziyang Li

Main category: cs.CV

TL;DR: 本文提出TriAlignXA可解释AI框架,通过生物自适应、时效优化和经济优化三引擎解决农产品电商中的'信任三角'问题,实现质量、时效和经济性的平衡,提升在线交易信任度。

  • Motivation: 在线生鲜电商存在'信任赤字',主要源于数字交易无法提供产品感官质量感知。传统绝对分级标准存在生物特性、时效性和经济可行性之间的'不可能三角'限制。
  • Method: 构建'信任金字塔'模型,提出'三角信任指数'(TTI),设计TriAlignXA可解释AI框架,包含生物自适应引擎、时效优化引擎和经济优化引擎,通过'预映射机制'将流程数据编码为二维码。
  • Result: 分级任务实验显示准确率显著高于基线模型,实证和理论分析验证了框架在解决'不可能三角'方面的平衡能力。
  • Conclusion: 该研究为构建可信赖的在线农产品生态系统提供了从理论到实践的全面支持,建立了从算法决策到消费者信任的关键路径。

[46] 4DGS-Craft: Consistent and Interactive 4D Gaussian Splatting Editing

Lei Liu,Can Wang,Zhenghao Chen,Dong Xu

Main category: cs.CV

TL;DR: 提出了4DGS-Craft框架,通过4D感知的InstructPix2Pix模型、多视图网格模块和Gaussian选择机制,解决了4D高斯溅射编辑中的视图、时间一致性和复杂文本指令处理问题。

  • Motivation: 现有的4D高斯溅射编辑方法在视图一致性、时间一致性、非编辑区域保持以及复杂文本指令处理方面存在挑战,需要开发更一致和交互式的编辑框架。
  • Method: 1. 引入4D感知的InstructPix2Pix模型,结合4D几何特征;2. 使用多视图网格模块迭代优化多视图输入;3. 提出Gaussian选择机制保护非编辑区域;4. 设计基于LLM的用户意图理解模块。
  • Result: 相比相关工作,该方法实现了更一致和可控的4D场景编辑,能够处理复杂的用户指令并保持编辑质量。
  • Conclusion: 4DGS-Craft框架通过综合的4D感知编辑和用户交互设计,有效解决了4D高斯溅射编辑中的一致性和复杂性挑战,为4D场景编辑提供了实用解决方案。

[47] Pure-Pass: Fine-Grained, Adaptive Masking for Dynamic Token-Mixing Routing in Lightweight Image Super-Resolution

Junyu Wu,Jie Tang,Jie Liu,Gangshan Wu

Main category: cs.CV

TL;DR: 提出Pure-Pass像素级掩码机制,通过固定颜色中心点分类像素,免除纯像素的昂贵计算,集成到ATD-light模型中实现高效超分辨率重建

  • Motivation: 现有轻量级超分辨率方法如CAMixer存在适应性差、掩码粒度粗、空间灵活性不足等问题,需要更精细的计算优化
  • Method: 使用Pure-Pass像素级掩码机制,基于固定颜色中心点对像素分类,识别纯像素并免除其昂贵计算,集成到ATD-light模型中
  • Result: PP-ATD-light在重建质量和参数效率上优于CAMixer-ATD-light,计算量节省相似但性能更优
  • Conclusion: Pure-Pass机制通过像素级掩码实现了精细化的计算优化,在保持自适应灵活性的同时显著提升了超分辨率性能

[48] Generating Findings for Jaw Cysts in Dental Panoramic Radiographs Using GPT-4o: Building a Two-Stage Self-Correction Loop with Structured Output (SLSO) Framework

Nanaka Hosokawa,Ryo Takahashi,Tomoya Kitano,Yukihiro Iida,Chisako Muramatsu,Tatsuro Hayashi,Yuta Seino,Xiangrong Zhou,Takeshi Hara,Akitoshi Katsumata,Hiroshi Fujita

Main category: cs.CV

TL;DR: 使用GPT-4o和自校正循环框架自动生成颌骨囊肿的放射学发现,通过结构化输出和一致性检查提高了准确率

  • Motivation: 利用多模态AI自动生成牙科全景X光片的颌骨囊肿发现,提高诊断效率和准确性
  • Method: 构建自校正循环结构化输出(SLSO)框架,包含10步流程:图像分析、结构化数据生成、牙号提取和一致性检查、不一致时迭代再生、发现生成和重构验证
  • Result: 与CoT方法相比,SLSO在牙号识别准确率提高66.9%,牙齿移动识别提高33.3%,牙根吸收识别提高28.6%,成功案例最多经过5次再生实现结构化输出
  • Conclusion: SLSO框架能强制阴性发现描述、抑制幻觉、提高牙号识别准确率,但对跨多牙的大范围病变识别有限,需进一步改进以实现实用化

[49] LiLa-Net: Lightweight Latent LiDAR Autoencoder for 3D Point Cloud Reconstruction

Mario Resino,Borja Pérez,Jaime Godoy,Abdulla Al-Kaff,Fernando García

Main category: cs.CV

TL;DR: 提出LiLa-Net 3D自编码器架构,仅使用LiDAR点云编码真实交通环境特征,通过简化编码器层数和跳跃连接实现高效性能

  • Motivation: 开发仅依赖LiDAR点云的高效3D特征编码方法,避免使用过多计算资源
  • Method: 采用跳跃连接概念,减少编码器层数并简化跳跃连接结构,构建高效潜在空间
  • Result: 模型能够准确重建原始点云,在跳跃连接信息和潜在编码之间达到有效平衡,提高重建质量
  • Conclusion: LiLa-Net在保持性能的同时实现了高效重建,并展现出强大的泛化能力,能够重建与原始交通环境无关的物体

[50] kabr-tools: Automated Framework for Multi-Species Behavioral Monitoring

Jenna Kline,Maksim Kholiavchenko,Samuel Stevens,Nina van Tiel,Alison Zhong,Namrata Banerji,Alec Sheets,Sowbaranika Balasubramaniam,Isla Duporge,Matthew Thompson,Elizabeth Campolongo,Jackson Miliko,Neil Rosser,Tanya Berger-Wolf,Charles V. Stewart,Daniel I. Rubenstein

Main category: cs.CV

TL;DR: 开发了kabr-tools开源工具包,使用无人机视频和机器学习实现多物种行为自动监测,显著提高行为数据采集效率和精度。

  • Motivation: 传统野外观察方法范围有限、耗时费力,难以评估跨景观的行为响应,需要可扩展的方法来量化复杂多维行为模式。
  • Method: 整合无人机视频与机器学习系统,通过目标检测、跟踪和行为分类提取行为、社交和空间指标,生成时间预算、行为转换、社交互动等关键指标。
  • Result: 相比地面方法,无人机观察显著改善行为粒度,减少15%可见性损失,捕获更多转换且精度和连续性更高。验证了969个行为序列,发现不同物种行为模式差异。
  • Conclusion: kabr-tools通过规模化自动行为监测,为生态系统研究、保护和生态监测提供了强大工具。

[51] GaussianMorphing: Mesh-Guided 3D Gaussians for Semantic-Aware Object Morphing

Mengtian Li,Yunshu Bai,Yimin Chu,Yijun Shen,Zhongmei Li,Weifeng Ge,Zhifeng Xie,Chaofeng Chen

Main category: cs.CV

TL;DR: GaussianMorphing是一个从多视角图像进行语义感知3D形状和纹理变形的框架,通过网格引导的3D高斯泼溅实现高保真几何和外观建模,无需标记数据即可建立无监督语义对应。

  • Motivation: 现有方法通常依赖点云或需要预定义同胚映射来处理无纹理数据,存在局限性。本文旨在克服这些限制,实现更高质量的3D形状和纹理变形。
  • Method: 采用统一变形策略,将3D高斯锚定到重建的网格块上,确保几何一致变换;利用网格拓扑作为几何先验建立无监督语义对应;通过拓扑感知约束保持纹理保真度和结构完整性。
  • Result: 在TexMorph基准测试中,GaussianMorphing显著优于现有2D/3D方法,颜色一致性误差(ΔE)降低22.2%,EI指标降低26.2%。
  • Conclusion: 该框架在变形过程中同时保持了局部细节和全局语义连贯性,无需标记数据即可实现高质量的3D形状和纹理变形。

[52] Zero-shot Human Pose Estimation using Diffusion-based Inverse solvers

Sahil Bhandary Karnoor,Romit Roy Choudhury

Main category: cs.CV

TL;DR: 提出InPose方法,使用预训练扩散模型仅基于旋转测量进行姿态估计,通过似然项引导生成符合传感器位置测量的姿态序列,实现零样本泛化。

  • Motivation: 现有基于条件扩散模型的方法泛化能力差,主要因为位置测量受用户体型影响大,需要解决跨用户泛化问题。
  • Method: 将姿态估计建模为逆问题,使用预训练扩散模型仅以旋转测量为条件,通过从位置测量推导的似然项引导生成过程。
  • Result: 提出的InPose方法能够生成高度可能的姿态序列,准确解释稀疏的身体传感器测量。
  • Conclusion: 该方法通过分离旋转和位置信息,利用扩散模型先验和测量似然,实现了跨用户的零样本泛化能力。

[53] VGDM: Vision-Guided Diffusion Model for Brain Tumor Detection and Segmentation

Arman Behnam

Main category: cs.CV

TL;DR: 提出VGDM框架,结合视觉Transformer和扩散模型进行脑肿瘤检测与分割,通过全局上下文推理和迭代去噪提升分割精度。

  • Motivation: 传统卷积架构如U-Net在捕捉长距离依赖关系方面能力有限,限制了复杂肿瘤结构的分割性能。扩散模型在医学图像生成和边界细化方面展现出强大潜力。
  • Method: 在扩散过程核心嵌入视觉Transformer,利用Transformer建模MRI体积的空间关系,结合扩散细化减少体素级误差并恢复细粒度肿瘤细节。
  • Result: 在MRI脑肿瘤数据集上的实验验证显示,在Dice相似度和Hausdorff距离指标上获得一致提升。
  • Conclusion: Transformer引导的扩散模型为神经肿瘤学提供了改进的鲁棒性和可扩展性路径,有望推动肿瘤分割技术发展。

[54] Mapping Historic Urban Footprints in France: Balancing Quality, Scalability and AI Techniques

Walid Rabehi,Marion Le Texier,Rémi Lemoy

Main category: cs.CV

TL;DR: 开发了一个可扩展的深度学习流水线,从1925-1950年的历史地图中提取法国城市区域,创建了首个全国尺度的城市足迹数据集。

  • Motivation: 1970年代前法国历史城市扩张的定量分析因缺乏全国数字城市足迹数据而受限。
  • Method: 采用双通道U-Net方法处理历史地图的高辐射度和风格复杂性,第一通道生成初步地图识别混淆区域,第二通道使用精炼数据集和第一模型输出最小化辐射噪声。
  • Result: 处理了941个高分辨率图块覆盖整个法国,最终马赛克总体准确率达到73%,有效捕捉了多样城市模式。
  • Conclusion: 公开发布了代码、训练数据集和全国城市栅格数据,支持未来长期城市化动态研究。

[55] When Tracking Fails: Analyzing Failure Modes of SAM2 for Point-Based Tracking in Surgical Videos

Woowon Jang,Jiwon Im,Juseung Choi,Niki Rashidian,Wesley De Neve,Utku Ozbulak

Main category: cs.CV

TL;DR: 系统分析腹腔镜胆囊切除术视频中点跟踪方法的失败模式,发现点跟踪对于手术工具表现良好,但对于解剖目标(如胆囊)表现不佳,主要由于组织相似性和边界模糊导致失败。

  • Motivation: 虽然SAM2等视频对象分割模型在手术视频中提供零样本跟踪能力,但点跟踪在复杂手术环境中的可靠性和失败情况尚未充分了解,需要系统分析。
  • Method: 在腹腔镜胆囊切除术视频中,针对胆囊、抓钳和L型电钩三个手术目标,比较点跟踪与分割掩码初始化的性能表现。
  • Result: 点跟踪对于手术工具具有竞争力,但对于解剖目标表现持续不佳,主要失败原因是组织相似性和模糊边界。
  • Conclusion: 通过定性分析揭示了影响跟踪结果的关键因素,并提供了选择与放置跟踪点的实用建议,以改进手术视频分析性能。

[56] FRIEREN: Federated Learning with Vision-Language Regularization for Segmentation

Ding-Ruei Shen

Main category: cs.CV

TL;DR: 提出FFREEDG任务:在服务器预训练后,仅使用客户端未标记数据进行联邦学习,不再访问源数据。提出FRIEREN框架,利用视觉基础模型和视觉-语言模态集成来解决该挑战。

  • Motivation: 现有联邦学习方法要么不切实际地假设客户端有标记数据,要么未能充分利用现代视觉基础模型的能力。需要解决在客户端仅使用未标记数据且不重新访问源数据的新挑战。
  • Method: 使用视觉-语言解码器,基于CLIP文本嵌入进行语义消歧;采用弱到强一致性学习策略,在伪标签上进行鲁棒的本地训练。
  • Result: 在合成到真实和清晰到恶劣天气基准测试中,框架有效解决了新任务,性能与现有领域泛化和适应方法相当,为未来研究建立了强基准。
  • Conclusion: FRIEREN框架成功解决了FFREEDG这一具有挑战性的任务,展示了利用视觉基础模型和视觉-语言模态在联邦学习中的有效性。

[57] Unlocking Vision-Language Models for Video Anomaly Detection via Fine-Grained Prompting

Shu Zou,Xinyu Tian,Lukas Wesemann,Fabian Waschkowski,Zhaoyuan Yang,Jing Zhang

Main category: cs.CV

TL;DR: 提出了ASK-Hint框架,通过动作中心知识构建结构化提示,提升冻结视觉语言模型在视频异常检测中的性能,在UCF-Crime和XD-Violence数据集上达到最先进水平。

  • Motivation: 现有提示方法过于抽象,忽略了定义复杂异常所需的细粒度人-物交互或动作语义,需要更精确的提示框架来引导模型推理。
  • Method: 将提示组织成语义连贯的组别(如暴力、财产犯罪、公共安全),并制定细粒度的引导问题,使模型预测与判别性视觉线索对齐。
  • Result: 在UCF-Crime和XD-Violence数据集上持续提升AUC,相比现有基线和微调方法达到最先进性能,并展示了强大的跨数据集和VLM骨干网络泛化能力。
  • Conclusion: 提示粒度在视频异常检测中起关键作用,ASK-Hint为可解释的视频异常检测提供了无需训练且可泛化的解决方案。

[58] GeoPurify: A Data-Efficient Geometric Distillation Framework for Open-Vocabulary 3D Segmentation

Weijia Dou,Xu Zhang,Yi Bin,Jian Liu,Bo Peng,Guoqing Wang,Yang Yang,Heng Tao Shen

Main category: cs.CV

TL;DR: GeoPurify通过学生亲和网络和几何引导池化模块,利用3D自监督教师模型提取的几何先验来净化2D VLM生成的3D点特征,有效解决了2D到3D特征转换中的噪声和几何不一致问题。

  • Motivation: 现有的2D视觉语言模型特征向3D语义分割的转换方法存在权衡:直接投影会产生噪声预测,而强制几何一致性需要昂贵的训练流程和大规模标注数据。作者认为问题源于分割-匹配范式未能协调2D语义与3D几何结构。
  • Method: 提出GeoPurify方法:使用小型学生亲和网络,利用从3D自监督教师模型提取的几何先验来净化2D VLM生成的3D点特征;在推理时设计几何引导池化模块进一步去噪并确保语义和结构一致性。
  • Result: 在主要3D基准测试上的广泛实验表明,GeoPurify达到或超越了最先进性能,同时仅使用约1.5%的训练数据,显著提高了数据效率。
  • Conclusion: GeoPurify通过利用潜在几何信息和学习的亲和网络,有效缓解了2D到3D特征转换的权衡问题,实现了优越的数据效率和性能。

[59] Cross-Breed Pig Identification Using Auricular Vein Pattern Recognition: A Machine Learning Approach for Small-Scale Farming Applications

Emmanuel Nsengiyumvaa,Leonard Niyitegekaa,Eric Umuhoza

Main category: cs.CV

TL;DR: 提出了一种基于猪耳静脉模式的非侵入性生物识别方法,使用智能手机采集图像,通过计算机视觉和机器学习实现98.12%的识别准确率,为小规模农户提供经济有效的动物识别方案。

  • Motivation: 传统猪只识别方法(如耳标和微芯片)不可靠、成本高且主要针对纯种猪,对小规模农户不实用。需要开发一种非侵入性、经济有效的替代方案。
  • Method: 收集20头混种猪的800张耳部图像,使用智能手机和简单背光采集。开发多阶段计算机视觉流程增强静脉可见性,提取结构和空间特征生成生物特征签名,使用支持向量机等机器学习模型进行分类。
  • Result: 支持向量机在混种猪群中达到98.12%的识别精度,从图像处理到分类平均耗时8.3秒,证明适合实时农场部署。
  • Conclusion: 用永久性生物标记替代易损物理标识符,为农民提供经济有效、无压力的动物识别方法。耳静脉生物识别技术证实了数字化畜牧管理的实用性,有望将精准农业优势扩展到资源受限的农业社区。

[60] MMDEW: Multipurpose Multiclass Density Estimation in the Wild

Villanelle O'Reilly,Jonathan Cox,Georgios Leontidis,Marc Hanheide,Petra Bosilj,James Brown

Main category: cs.CV

TL;DR: 提出了一种多类别计数框架,使用Twins金字塔视觉transformer骨干网络和专门的多类计数头,通过双任务设计和类别聚焦模块减少类别间干扰,在密集场景中优于现有方法。

  • Motivation: 解决密集和遮挡场景中离散检测方法失效的问题,需要开发能够准确估计多类别对象数量的密度图估计方法。
  • Method: 使用Twins金字塔视觉transformer作为骨干网络,构建专门的多类计数头,采用多尺度解码方法,并添加基于分割的类别聚焦模块来抑制训练时的类别间干扰。
  • Result: 在VisDrone和iSAID基准测试中表现优于先前的多类别人群计数方法(MAE分别降低33%、43%和64%),与YOLOv11对比验证了在密集场景中人群计数方法的必要性。
  • Conclusion: 该方法通过区域损失将多类人群计数扩展到新领域,在生物多样性监测数据集上的应用展示了其在保护工作和可扩展生态洞察方面的潜力。

[61] TempoControl: Temporal Attention Guidance for Text-to-Video Models

Shira Schiber,Ofir Lindenbaum,Idan Schwartz

Main category: cs.CV

TL;DR: TempoControl是一种无需重新训练或额外监督的方法,通过优化交叉注意力图来实现视频生成中的细粒度时间控制。

  • Motivation: 现有生成视频模型缺乏细粒度时间控制,无法让用户指定视觉元素在生成序列中何时出现。
  • Method: 利用文本到视频扩散模型中的交叉注意力图,通过新颖的优化方法指导概念时间安排,包括三个互补原则:通过相关性对齐时间形状、通过能量放大可见性区域、通过熵保持空间焦点。
  • Result: TempoControl能够在确保高质量和多样性的同时,实现对时序的精确控制,适用于多种视频生成应用。
  • Conclusion: 该方法在单对象和多对象的时间重排序、动作和音频对齐生成等应用中表现出有效性。

[62] RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

Sicheng Feng,Kaiwen Tuo,Song Wang,Lingdong Kong,Jianke Zhu,Huan Wang

Main category: cs.CV

TL;DR: 提出了RewardMap框架,通过多阶段强化学习和难度感知奖励设计,解决多模态大语言模型在细粒度视觉推理任务中的稀疏奖励和优化不稳定问题。

  • Motivation: 现有MLLMs在结构化信息丰富的场景(如交通地图)中的空间推理能力不足,标准RL方法因稀疏奖励和优化不稳定而受阻。
  • Method: 构建ReasonMap-Plus数据集提供密集奖励信号,提出RewardMap框架:1)难度感知奖励设计包含细节奖励;2)多阶段RL方案从简单感知任务逐步过渡到复杂推理任务。
  • Result: 在ReasonMap和ReasonMap-Plus上实验表明,RewardMap各组件均带来性能提升,组合使用效果最佳。在6个基准测试中平均提升3.47%。
  • Conclusion: RewardMap有效提升了MLLMs的视觉理解和推理能力,特别是在细粒度视觉推理任务中表现出色。

[63] DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

Zihan Zhou,Shilin Lu,Shuli Leng,Shaocong Zhang,Zhuming Lian,Xinlei Yu,Adams Wai-Kin Kong

Main category: cs.CV

TL;DR: DragFlow是首个利用FLUX强大先验进行拖拽式图像编辑的框架,通过区域编辑范式、个性化适配器和多模态大语言模型,显著超越了现有基线方法。

  • Motivation: 随着生成模型从UNet-based DDPMs转向DiT with flow matching,生成先验变得更强大,但拖拽式编辑尚未从中受益。现有方法在目标区域存在失真问题,因为Stable Diffusion的先验不足以将优化后的潜在空间投影回自然图像流形。
  • Method: 提出区域编辑范式,使用仿射变换提供更丰富一致的特征监督;集成预训练开放域个性化适配器增强主体一致性;使用梯度掩码硬约束保护背景保真度;利用多模态大语言模型解决任务歧义。
  • Result: 在DragBench-DR和ReD Bench上的广泛实验表明,DragFlow超越了基于点和基于区域的基线方法,在拖拽式图像编辑中达到了新的最先进水平。
  • Conclusion: DragFlow成功利用FLUX的强大先验,通过区域编辑范式和多种技术集成,显著提升了拖拽式图像编辑的质量和效果,为该领域设立了新的标杆。

[64] From Frames to Clips: Efficient Key Clip Selection for Long-Form Video Understanding

Guangyu Sun,Archit Singhal,Burak Uzkent,Mubarak Shah,Chen Chen,Garin Kessler

Main category: cs.CV

TL;DR: 本文提出F2C方法,通过选择关键片段而非孤立关键帧来保持视频的时间连贯性,同时使用自适应分辨率策略在固定计算预算内处理更多视频内容。

  • Motivation: 现有视频大语言模型面临"大海捞针"问题:原始视频帧产生的大量视觉标记耗尽模型上下文窗口。现有解决方案通过选择稀疏帧来减少标记数量,但丢弃了基本的时间动态信息,导致对运动和事件连续性的推理效果不佳。
  • Method: 提出F2C方法:1)从孤立关键帧扩展到关键片段选择;2)采用自适应分辨率策略,动态平衡空间分辨率和片段长度,确保每个视频的标记数量恒定;3)无需训练即可应用。
  • Result: 在三个长视频基准测试上,F2C方法相比均匀采样分别提升了8.1%(Video-MME)、5.6%(LongVideoBench)和10.3%(MLVU)。
  • Conclusion: 保持时间连贯性在帧选择中至关重要,F2C方法为将视频大语言模型扩展到实际视频理解应用提供了实用途径。

[65] Paving the Way Towards Kinematic Assessment Using Monocular Video: A Preclinical Benchmark of State-of-the-Art Deep-Learning-Based 3D Human Pose Estimators Against Inertial Sensors in Daily Living Activities

Mario Medrano-Paredes,Carmen Fernández-González,Francisco-Javier Díaz-Pernas,Hichem Saoudi,Javier González-Alonso,Mario Martínez-Zarzuela

Main category: cs.CV

TL;DR: 该研究比较了基于单目视频的3D人体姿态估计模型与惯性测量单元(IMUs)在临床相关日常活动中的性能,发现MotionAGFormer表现最佳,两种技术都适用于实验室外的运动学评估。

  • Motivation: 利用机器学习和可穿戴传感器的进步,在真实条件下准确评估人体运动对于远程医疗、运动科学和康复至关重要。
  • Method: 使用VIDIMU数据集,比较了MotionAGFormer、MotionBERT、MMPose 2D-to-3D姿态提升和NVIDIA BodyTrack等深度学习框架与基于IMU数据的关节角度计算。
  • Result: MotionAGFormer表现最优,总体RMSE为9.27±4.80度,MAE为7.86±4.18度,Pearson相关系数0.86±0.15,决定系数R²为0.67±0.28。
  • Conclusion: 两种技术都可行,但存在成本、可访问性和精度之间的权衡,为研究人员和临床医生开发远程医疗解决方案提供了指导。

[66] NeuroSwift: A Lightweight Cross-Subject Framework for fMRI Visual Reconstruction of Complex Scenes

Shiyi Zhang,Dong Liang,Yihang Zhou

Main category: cs.CV

TL;DR: NeuroSwift是一个从fMRI数据重建视觉信息的新方法,通过结合AutoKL和CLIP适配器,实现了跨被试的准确视觉刺激重建,仅需少量参数微调和1小时训练时间。

  • Motivation: 解决从大脑活动重建视觉信息时面临的跨被试变异性挑战和计算需求高的问题,特别是处理神经表征的个体差异和大脑对复杂视觉输入的抽象语义编码。
  • Method: 提出NeuroSwift方法,集成互补适配器:AutoKL处理低级特征,CLIP处理语义特征。CLIP适配器在Stable Diffusion生成图像和COCO标题上训练以模拟高级视觉皮层编码。采用预训练加微调策略,仅微调17%参数(全连接层)。
  • Result: 在轻量级GPU(三块RTX 4090)上,每个被试仅需1小时训练即可达到最先进性能,超越了现有方法。
  • Conclusion: NeuroSwift通过创新的适配器集成和高效的参数微调策略,成功解决了跨被试视觉重建的挑战,实现了高性能且计算效率高的视觉信息解码。

[67] microCLIP: Unsupervised CLIP Adaptation via Coarse-Fine Token Fusion for Fine-Grained Image Classification

Sathira Silva,Eman Ali,Chetan Arora,Muhammad Haris Khan

Main category: cs.CV

TL;DR: microCLIP是一个自训练框架,通过细粒度线索联合优化CLIP的视觉和文本表示,在13个细粒度基准测试中平均准确率提升2.90%

  • Motivation: CLIP在细粒度图像分类中依赖粗粒度全局特征,性能受限;现有方法忽视了空间精度,需要提升对微观局部线索的敏感性
  • Method: 提出Saliency-Oriented Attention Pooling (SOAP)构建显著性引导的[FG]token,与全局[CLS]token融合;采用双头LLM派生分类器,结合Dynamic Knowledge Aggregation迭代优化伪标签
  • Result: 在13个细粒度基准测试中平均准确率提升2.90%,仅需轻量级适配
  • Conclusion: microCLIP有效挖掘CLIP中的潜在细粒度信号,通过粗-细粒度对齐显著提升细粒度分类性能

[68] VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL

Kyoungjun Park,Yifan Yang,Juheon Yi,Shicheng Zheng,Yifei Shen,Dongqi Han,Caihua Shan,Muhammad Muaz,Lili Qiu

Main category: cs.CV

TL;DR: VidGuard-R1是首个通过多模态大语言模型和群体相对策略优化实现的高精度视频真实性检测器,不仅能准确分类AI生成视频,还能提供可解释的推理过程。

  • Motivation: 随着AI生成视频技术的快速发展,迫切需要有效的检测工具来应对错误信息和声誉损害等社会风险,同时检测模型需要提供可解释的说明以确保监管机构和终端用户的透明度。
  • Method: 使用群体相对策略优化(GRPO)微调多模态大语言模型(Qwen-VL),构建包含14万真实和AI生成视频的挑战性数据集,并设计两个专门针对时间伪影和生成复杂度的奖励模型。
  • Result: VidGuard-R1在现有基准测试中实现了最先进的零样本性能,额外训练后准确率超过95%,并能产生精确且可解释的预测理由。
  • Conclusion: VidGuard-R1成功解决了AI生成视频检测的准确性和可解释性挑战,为监管和用户提供了可靠的检测工具,代码已公开可用。

[69] Self-Forcing++: Towards Minute-Scale High-Quality Video Generation

Justin Cui,Jie Wu,Ming Li,Tao Yang,Xiaojie Li,Rui Wang,Andrew Bai,Yuanhao Ban,Cho-Jui Hsieh

Main category: cs.CV

TL;DR: 提出了一种无需长视频监督或重新训练的方法,通过利用教师模型的丰富知识为自生成长视频提供指导,有效缓解长视频生成中的质量退化问题。

  • Motivation: 扩散模型在图像和视频生成方面取得了突破,但基于transformer架构的计算成本过高,特别是在生成长视频时。现有自回归方法在超出训练范围时会出现明显的质量退化问题。
  • Method: 利用教师模型的知识为自生成的长视频提供指导,保持时间一致性,无需重新计算重叠帧,可扩展视频长度达教师能力的20倍。
  • Result: 能够生成长达4分15秒的视频,相当于基础模型位置嵌入支持的最大跨度的99.9%,比基线模型长50倍以上,在保真度和一致性方面显著优于基线方法。
  • Conclusion: 该方法有效解决了长视频生成中的质量退化问题,无需长视频教师监督或重新训练,在标准基准测试中表现出色。

[70] Learning to Generate Object Interactions with Physics-Guided Video Diffusion

David Romero,Ariana Bermudez,Hao Li,Fabio Pizzati,Ivan Laptev

Main category: cs.CV

TL;DR: KineMask是一种基于物理引导的视频生成方法,通过两阶段训练策略实现逼真的刚体控制和物体交互,在合成和真实场景中都显著提升了物体交互的质量。

  • Motivation: 当前视频生成模型在物理合理的物体交互方面仍存在困难,缺乏基于物理的控制机制。为了解决这一限制,需要开发能够实现逼真刚体控制和交互的视频生成方法。
  • Method: 提出两阶段训练策略,通过物体掩码逐步移除未来运动监督,训练视频扩散模型。结合低级运动控制和高级文本条件,通过预测性场景描述支持复杂动态现象的合成。
  • Result: 在合成简单交互场景上训练后,在真实场景中显著改善了物体交互效果。相比同类规模的最新模型取得了显著改进,消融研究突出了低高级条件在视频扩散模型中的互补作用。
  • Conclusion: KineMask通过物理引导的视频生成实现了逼真的刚体控制、交互和效果,为机器人学和具身决策提供了有前景的世界模拟器。

[71] MultiModal Action Conditioned Video Generation

Yichen Li,Antonio Torralba

Main category: cs.CV

TL;DR: 提出了一种多模态细粒度动作模拟方法,通过整合本体感觉、动觉、力触觉和肌肉激活等感官信息,提升机器人精细控制的仿真精度。

  • Motivation: 现有视频模型缺乏精细控制能力,无法作为世界模型使用,而通用家庭机器人需要实时精细运动控制来处理精细任务和紧急情况。
  • Method: 开发了特征学习范式来对齐多模态感官信息,同时保留各模态的独特信息;提出了正则化方案来增强动作轨迹特征在表示复杂交互动态时的因果性。
  • Result: 实验表明,整合多模态感官信息提高了仿真精度并减少了时间漂移;广泛的消融研究和下游应用证明了方法的有效性和实用性。
  • Conclusion: 多模态细粒度动作模拟方法能够有效提升机器人精细控制的仿真性能,为通用家庭机器人的实际应用提供了可行的解决方案。

[72] VideoNSA: Native Sparse Attention Scales Video Understanding

Enxin Song,Wenhao Chai,Shusheng Yang,Ethan Armand,Xiaojun Shan,Haiyang Xu,Jianwen Xie,Zhuowen Tu

Main category: cs.CV

TL;DR: VideoNSA通过原生稀疏注意力机制改进视频语言模型,在长视频理解、时序推理和空间基准测试中表现优于现有方法,能可靠扩展到128K tokens。

  • Motivation: 解决多模态语言模型中视频理解受限于上下文长度的问题,模型常错过关键过渡帧且难以在长时间尺度上保持连贯性。
  • Method: 将原生稀疏注意力(NSA)适配到视频语言模型,采用硬件感知的混合注意力方法:文本使用密集注意力,视频使用NSA,在216K视频指令数据集上进行端到端训练。
  • Result: 相比token压缩和无训练稀疏基线,VideoNSA在长视频理解、时序推理和空间基准测试中表现更优,能可靠扩展到128K tokens。
  • Conclusion: 研究发现:1)可靠扩展到128K tokens;2)固定预算下存在最优的全局-局部注意力分配;3)任务相关的分支使用模式;4)可学习的组合稀疏注意力有助于诱导动态注意力汇聚点。

[73] NoiseShift: Resolution-Aware Noise Recalibration for Better Low-Resolution Image Generation

Ruozhen He,Moayed Haji-Ali,Ziyan Yang,Vicente Ordonez

Main category: cs.CV

TL;DR: NoiseShift是一种无需训练的方法,通过根据分辨率大小重新校准去噪器的噪声水平,显著提升文本到图像扩散模型在低分辨率下的生成质量。

  • Motivation: 解决文本到图像扩散模型在固定分辨率训练后无法很好泛化到低分辨率的问题,为不需要高分辨率图像的用户提供经济高效的替代方案。
  • Method: 识别噪声调度器在不同分辨率下具有不等的感知效果这一关键洞察,提出NoiseShift方法重新校准去噪器的噪声水平,无需改变模型架构或采样计划。
  • Result: 在LAION-COCO数据集上,NoiseShift将SD3.5的FID提升15.89%,SD3提升8.56%,Flux-Dev提升2.44%;在CelebA数据集上,分别提升10.36%、5.19%和3.02%。
  • Conclusion: NoiseShift能有效缓解分辨率相关的伪影,显著提高低分辨率图像生成质量,且与现有模型兼容。

[74] Inferring Dynamic Physical Properties from Video Foundation Models

Guanqi Zhan,Xianzheng Ma,Weidi Xie,Andrew Zisserman

Main category: cs.CV

TL;DR: 该研究探索从视频中预测动态物理属性的任务,包括弹性、粘度和动态摩擦,通过收集新数据集并比较三种推断方法:基于经典计算机视觉的oracle方法、使用预训练视频模型的prompt机制,以及多模态大语言模型方法。

  • Motivation: 研究从视频中推断需要时间信息才能判断的动态物理属性,如弹性、粘度和动态摩擦,这些属性在现实世界应用中具有重要意义。
  • Method: 收集了三个新的视频数据集;探索了三种推断方法:(a) 使用经典计算机视觉技术的oracle方法,(b) 基于预训练视频生成和自监督模型的prompt机制,(c) 多模态大语言模型的prompt策略。
  • Result: 生成式或自监督训练的视频基础模型表现相似,但落后于oracle方法;多模态大语言模型目前表现较差,但通过合适的prompt可以改善性能。
  • Conclusion: 视频基础模型在预测动态物理属性方面有一定能力,但仍有改进空间;多模态大语言模型需要更好的prompt策略来提升性能。

Mengyu Yang,Yiming Chen,Haozheng Pei,Siddhant Agarwal,Arun Balajee Vasudevan,James Hays

Main category: cs.CV

TL;DR: 提出声音物体检测任务,通过多模态对象感知框架从第一人称视角视频中学习,使用自动分割管道和槽注意力视觉编码器来识别产生声音的物体。

  • Motivation: 日常物体交互产生独特声音,但现有模型难以将声音与具体物体关联。受人类感知启发,需要开发能够识别声音来源物体的模型。
  • Method: 开发自动分割管道计算交互物体的分割掩码,使用槽注意力视觉编码器强化物体先验,从野外第一人称视频中学习多模态对象感知框架。
  • Result: 在新任务和现有多模态动作理解任务上均达到最先进性能。
  • Conclusion: 提出的对象感知框架能有效识别声音来源物体,在声音物体检测任务上表现优异。

[76] StealthAttack: Robust 3D Gaussian Splatting Poisoning via Density-Guided Illusions

Bo-Hsu Ke,You-Zhe Xie,Yu-Lun Liu,Wei-Chen Chiu

Main category: cs.CV

TL;DR: 本文分析了3D高斯溅射(3DGS)对图像级投毒攻击的脆弱性,提出了一种新颖的密度引导投毒方法,通过在低密度区域注入高斯点来嵌入视角依赖的虚幻物体。

  • Motivation: 随着3D场景表示方法如NeRF和3DGS在新视角合成中的广泛应用,解决其安全漏洞变得至关重要。本文旨在分析3DGS对图像级投毒攻击的鲁棒性。
  • Method: 提出密度引导投毒方法,通过核密度估计识别低密度区域,策略性地注入高斯点来嵌入视角依赖的虚幻物体;同时引入自适应噪声策略破坏多视角一致性。
  • Result: 大量实验证明该方法相比现有技术具有优越性能,能够有效在投毒视图中嵌入清晰可见的虚幻物体,同时对无辜视图影响最小。
  • Conclusion: 本文不仅提出了有效的3DGS投毒攻击方法,还建立了基于KDE的系统性评估协议,为未来研究提供了客观的基准测试框架。

[77] Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity

Eric Tillmann Bill,Enis Simsar,Thomas Hofmann

Main category: cs.CV

TL;DR: 提出了首个理论框架和两种架构无关算法来解决文本到图像模型在多主体生成中的属性泄漏、身份纠缠和主体遗漏问题,通过随机最优控制方法提升多主体保真度。

  • Motivation: 现有文本到图像模型在单主体提示上表现优秀,但在多主体描述中经常出现属性泄漏、身份纠缠和主体遗漏等问题,需要专门的方法来提升多主体生成质量。
  • Method: 通过随机最优控制视角看待流匹配,提出了两种算法:无需训练的单次更新测试时控制器,以及轻量级微调规则Adjoint Matching。还提出了FOCUS方法,统一了先前的注意力启发式方法。
  • Result: 在Stable Diffusion 3.5、FLUX和Stable Diffusion XL等模型上,两种算法都显著提升了多主体对齐效果,同时保持了基础模型的风格。测试时控制可在普通GPU上高效运行,微调控制器在有限提示上训练后能泛化到未见过的提示。
  • Conclusion: FOCUS方法在多个模型上实现了最先进的多主体保真度,为多主体文本到图像生成提供了有效的理论框架和实用算法。

cs.HC

[78] Development and Evaluation of an AI-Driven Telemedicine System for Prenatal Healthcare

Juan Barrientos,Michaelle Pérez,Douglas González,Favio Reyna,Julio Fajardo,Andrea Lara

Main category: cs.HC

TL;DR: 提出了一种人机协作AI系统,帮助助产士在资源匮乏地区使用盲扫协议获取诊断相关的胎儿图像,通过AI识别关键帧来减少专家审查负担。

  • Motivation: 解决低收入和中等收入国家农村地区产科超声检查资源有限的问题,特别是在产前影像获取方面。
  • Method: 开发了包含分类模型和基于网络平台的AI系统,支持异步专家审查,使用低成本POCUS设备由经过基础培训的助产士采集盲扫视频。
  • Result: 系统在识别非专家采集的盲扫视频中的标准胎儿平面方面表现出良好性能,现场评估显示可用性良好且认知负荷低。
  • Conclusion: 该系统有潜力在服务不足地区扩大产前影像的可及性,通过AI辅助减少专家工作量。

q-bio.NC

[79] Aligning Video Models with Human Social Judgments via Behavior-Guided Fine-Tuning

Kathy Garcia,Leyla Isik

Main category: q-bio.NC

TL;DR: 研究发现预训练视频模型在捕捉人类社交视频感知相似性方面存在模态差距,语言嵌入比视频模型更符合人类判断。通过人类行为数据微调视频模型可以显著改善这种对齐。

  • Motivation: 探索AI模型是否能像人类一样感知视觉场景中的复杂社交信号,以及如何利用人类行为数据来改善模型的社会感知能力。
  • Method: 构建包含49,000多个三元组相似性判断的基准数据集,使用混合三元组-RSA目标通过LoRA微调TimeSformer视频模型,使其成对距离与人类相似性对齐。
  • Result: 微调后的视频模型在保持视频上的对齐度显著提升,与语言嵌入共享方差增加,并能解释语言模型未捕捉的独特方差。在社交情感属性编码方面也有所增强。
  • Conclusion: 预训练视频模型在社交识别方面存在差距,基于行为指导的微调能够使视频表示更接近人类的社会感知。

[80] Uncovering Semantic Selectivity of Latent Groups in Higher Visual Cortex with Mutual Information-Guided Diffusion

Yule Wang,Joseph Yu,Chengrui Li,Weihan Li,Anqi Wu

Main category: q-bio.NC

TL;DR: 提出了MIG-Vis方法,利用扩散模型可视化并验证神经潜在子空间中编码的视觉语义属性,揭示了高级视觉皮层中结构化语义表征的证据。

  • Motivation: 理解高级视觉区域中神经群体如何编码以物体为中心的视觉信息是计算神经科学的核心挑战。现有方法无法直接揭示神经群体本身的结构和组织方式。
  • Method: 使用变分自编码器推断神经群体的组间解缠神经潜在子空间,然后提出互信息引导的扩散合成过程来可视化每个潜在组编码的特定视觉语义特征。
  • Result: 在两只猕猴的下颞叶皮层多会话神经放电数据集上验证,结果显示该方法识别出对多样化视觉特征具有清晰语义选择性的神经潜在组,包括物体姿态、类别间转换和类内内容。
  • Conclusion: 这些发现为高级视觉皮层中结构化语义表征提供了直接、可解释的证据,并推进了我们对其编码原理的理解。

cs.AI

[81] On the Role of Domain Experts in Creating Effective Tutoring Systems

Sarath Sreedharan,Kelsey Sikes,Nathaniel Blanchard,Lisa Mason,Nikhil Krishnaswamy,Jill Zarestky

Main category: cs.AI

TL;DR: 论文探讨了领域专家提供的精炼知识在创建有效辅导系统中的重要性,提出了利用可解释AI技术自动生成课程和基于专家指定课程开发自适应辅导系统的两种方法。

  • Motivation: 当前AI教育社区往往忽视了领域专家提供的精炼知识在创建有效辅导系统中的作用,本文旨在强调这一主题的重要性。
  • Method: 1. 使用可解释AI技术结合专家指定的解题规则自动生成课程;2. 基于专家指定的学习课程开发自适应辅导系统。
  • Result: 通过传粉者识别辅导系统的案例研究,证明了这些方法的可行性和重要性。
  • Conclusion: 领域专家的精炼知识对于创建新颖教育系统至关重要,能够提升学习体验并提高算法效率。

[82] VaPR -- Vision-language Preference alignment for Reasoning

Rohan Wadhawan,Fabrice Y Harel-Canada,Zi-Yi Dou,Suhaila Shakiah,Robinson Piramuthu,Nanyun Peng

Main category: cs.AI

TL;DR: 提出了VaPR框架,通过LLM引导的响应编辑生成硬负样本,解决了合成偏好标注中的风格和长度偏差问题,显著提升了LVLM的性能。

  • Motivation: 现有偏好微调方法忽略了合成偏好标注中普遍存在的风格和长度偏差噪声,需要更有效的负样本生成方法来提升模型对齐效果。
  • Method: 基于LLM引导的响应编辑框架,生成具有目标错误的被拒绝响应,同时保持与接受响应在风格和长度上的相似性。
  • Result: VaPR模型在十个基准测试中显著提升性能:LLaVA平均提升6.5%,Qwen2VL提升4.0%,Qwen2.5VL提升1.5%,特别是在推理任务上表现突出。
  • Conclusion: VaPR框架有效解决了LVLM中的偏好标注偏差问题,能够显著提升模型性能,且具有良好的可扩展性和泛化能力。

[83] The Reasoning Boundary Paradox: How Reinforcement Learning Constrains Language Models

Phuc Minh Nguyen,Chinh D. La,Duy M. H. Nguyen,Nitesh V. Chawla,Binh T. Nguyen,Khoa D. Doan

Main category: cs.AI

TL;DR: RLVR方法在提升大语言模型推理能力时反而会缩小推理边界,研究发现存在负干扰和赢家通吃现象,提出针对低概率问题的数据筛选算法来改善Pass@k性能。

  • Motivation: 尽管RLVR被用于提升大语言模型的推理能力,但近期证据表明它可能反而会缩小推理边界而非扩展,这促使研究者深入分析其学习动态。
  • Method: 通过理论分析和在多个数学推理基准上的实证研究,揭示了RLVR中的负干扰和赢家通吃现象,并提出了专注于低概率问题的数据筛选算法。
  • Result: 研究发现RLVR存在负干扰(学习某些问题会降低其他问题的解决概率)和赢家通吃现象(过度强化高概率问题而抑制低概率问题),导致Pass@k性能下降。
  • Conclusion: 基于这些发现,提出的专注于低概率问题的数据筛选算法能够显著改善Pass@k性能,为解决RLVR的推理边界缩小问题提供了有效方案。

[84] The Unreasonable Effectiveness of Scaling Agents for Computer Use

Gonzalo Gonzalez-Pumariega,Vincent Tu,Chih-Lun Lee,Jiachen Yang,Ang Li,Xin Eric Wang

Main category: cs.AI

TL;DR: 提出了Behavior Best-of-N (bBoN)方法,通过生成多个执行轨迹并使用行为叙述来选择最佳轨迹,显著提高了计算机使用代理在复杂任务中的成功率和鲁棒性。

  • Motivation: 计算机使用代理在自动化日常数字任务方面具有潜力,但其不可靠性和高方差阻碍了在长期复杂任务中的应用。
  • Method: bBoN方法通过生成多个执行轨迹,并使用描述代理行为轨迹的叙述来进行选择,实现了广泛的探索和原则性的轨迹选择。
  • Result: 在OSWorld基准测试中达到69.9%的新SOTA,接近人类水平的72%,并在WindowsAgentArena和AndroidWorld上展示了强大的泛化能力。
  • Conclusion: 当正确实施时,扩展计算机使用代理具有显著效果,有效的扩展需要结构化的轨迹理解和选择,bBoN为此提供了一个实用框架。

eess.SP

[85] JaneEye: A 12-nm 2K-FPS 18.9-μJ/Frame Event-based Eye Tracking Accelerator

Tao Han,Ang Li,Qinyu Chen,Chang Gao

Main category: eess.SP

TL;DR: JaneEye是一种用于XR设备的基于事件的节能眼动追踪硬件加速器,通过轻量级神经网络和硬件优化实现了高精度、低延迟和低功耗的眼动追踪。

  • Motivation: 传统基于帧的眼动追踪系统在XR应用中难以满足高精度、低延迟和低功耗的要求,而事件相机提供了超高的时间分辨率和低功耗的替代方案。
  • Method: 提出超轻量级神经网络架构,采用新颖的ConvJANET层简化传统ConvLSTM,仅保留遗忘门以减半计算复杂度;使用自定义线性激活函数近似和定点量化;通过软硬件协同设计实现ASIC实现。
  • Result: 在3ET+数据集上达到2.45像素误差的高精度,仅使用17.6K参数,事件帧率高达1250 Hz;12nm ASIC实现以400 MHz运行,端到端延迟0.5ms(相当于2000 FPS),能效为18.9 μJ/帧。
  • Conclusion: JaneEye为下一代XR可穿戴设备设定了低功耗、高性能眼动追踪解决方案的新基准。

cs.GR

[86] MPMAvatar: Learning 3D Gaussian Avatars with Accurate and Robust Physics-Based Dynamics

Changmin Lee,Jihyun Lee,Tae-Kyun Kim

Main category: cs.GR

TL;DR: MPMAvatar是一个从多视角视频创建3D人体化身的框架,支持高度真实、鲁棒的动画和自由视角的光线真实渲染。它使用基于物质点法的模拟器来准确建模服装动力学,并结合3D高斯溅射渲染技术。

  • Motivation: 现有基于物理模拟的方法在建模宽松服装的物理合理动态时存在精度有限或对新动画输入鲁棒性不足的问题。
  • Method: 使用定制的物质点法模拟器,结合各向异性本构模型和新型碰撞处理算法来建模复杂服装变形和身体接触;结合使用3D高斯溅射渲染的规范化身。
  • Result: 在动力学建模精度、渲染精度、鲁棒性和效率方面显著优于现有最先进的基于物理的化身方法;能够以零样本方式泛化到未见过的交互。
  • Conclusion: MPMAvatar在创建具有物理合理动态的3D人体化身方面取得了重要进展,特别是在处理宽松服装和复杂交互方面表现出色。

[87] ROI-GS: Interest-based Local Quality 3D Gaussian Splatting

Quoc-Anh Bui,Gilles Rougeron,Géraldine Morin,Simone Gasparini

Main category: cs.GR

TL;DR: ROI-GS是一种对象感知的3D高斯泼溅框架,通过对象引导的相机选择、针对性对象训练和高质量对象重建的无缝集成,在感兴趣区域实现更高细节的3D场景重建,同时减少模型大小并保持实时性能。

  • Motivation: 现有3D高斯泼溅方法在场景中均匀分配资源,限制了感兴趣区域的精细细节,导致模型尺寸膨胀。需要一种能够优先处理选定对象高分辨率细节的方法。
  • Method: 提出ROI-GS框架,包括对象引导的相机选择、针对性的对象训练,以及将高质量对象重建无缝集成到全局场景中。
  • Result: 实验显示ROI-GS显著提高局部质量(PSNR提升达2.96 dB),同时将整体模型大小减少约17%,对于单对象场景训练速度更快,优于现有方法。
  • Conclusion: ROI-GS通过对象感知的方法有效提升了3D场景重建的局部细节质量,同时优化了模型效率和训练速度。

[88] Spec-Gloss Surfels and Normal-Diffuse Priors for Relightable Glossy Objects

Georgios Kouros,Minye Wu,Tinne Tuytelaars

Main category: cs.GR

TL;DR: 提出了一种可重光照框架,将微表面BRDF与高光-光泽度参数化集成到2D高斯泼溅中,通过延迟着色实现更物理一致的材料分解,在复杂光泽场景中实现高质量几何和材质重建。

  • Motivation: 光泽物体的精确重建和重光照是一个长期挑战,现有神经渲染方法依赖简化的BRDF模型或耦合漫反射和镜面反射分量的参数化,限制了材质恢复的准确性和重光照保真度。
  • Method: 将微表面BRDF与高光-光泽度参数化集成到2D高斯泼溅中,采用延迟着色;使用基于扩散的表面法线和漫反射颜色先验指导早期优化;采用环境贴图的由粗到精优化策略。
  • Result: 在复杂光泽场景上的广泛实验表明,该方法实现了高质量的几何和材质重建,相比现有高斯泼溅方法,在新光照下提供了更真实和一致的重光照效果。
  • Conclusion: 所提出的框架通过物理一致的材质分解和有效的优化策略,显著提升了光泽物体重建和重光照的质量与保真度。

cs.MM

[89] Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation

Chetwin Low,Weimin Wang,Calder Katyal

Main category: cs.MM

TL;DR: Ovi是一个统一的音频-视频生成范式,通过双DiT模块的块级跨模态融合,将两种模态建模为单一生成过程,实现自然同步,无需单独流程或后处理对齐。

  • Motivation: 传统的音频-视频生成通常依赖复杂的多阶段架构或声音与视觉的顺序合成,需要独立的流程和后处理对齐,这限制了生成的自然性和效率。
  • Method: 使用块级跨模态融合的双DiT模块,初始化与预训练视频模型架构相同的音频塔,通过联合训练视频和音频塔,在大量视频语料上进行时间(缩放RoPE嵌入)和语义(双向交叉注意力)的块级交换。
  • Result: 模型能够生成具有自然语音和准确、上下文匹配音效的电影级视频片段,音频塔学会了生成逼真的音效以及传达丰富说话者身份和情感的语音。
  • Conclusion: Ovi提供了一种统一的音频-视频生成方法,通过单一生成过程实现自然同步,为电影级视频生成提供了有效解决方案。

q-bio.QM

[90] MorphGen: Controllable and Morphologically Plausible Generative Cell-Imaging

Berker Demirel,Marco Fumero,Theofanis Karaletsos,Francesco Locatello

Main category: q-bio.QM

TL;DR: MorphGen是一个基于扩散模型的荧光显微镜图像生成模型,能够跨多种细胞类型和扰动进行可控生成,通过匹配OpenPhenom的表型嵌入来保持生物学意义,并联合生成完整的荧光通道以保留细胞器细节。

  • Motivation: 加速基于高内涵图像的药物发现和基因编辑实验,通过计算机模拟细胞对干预的响应,需要生成生物学一致的荧光显微镜图像。
  • Method: 使用扩散生成模型,结合对齐损失使其表示与OpenPhenom生物基础模型的表型嵌入匹配,联合生成完整的荧光通道而非压缩为RGB图像。
  • Result: 通过CellProfiler特征验证了与真实图像的生物学一致性,FID分数比之前最先进的MorphoDiff模型降低了35%以上,且MorphoDiff仅能生成单细胞类型的RGB图像。
  • Conclusion: MorphGen在生成生物学一致的荧光显微镜图像方面表现出色,能够保留细胞器特异性细节,为药物发现和基因编辑研究提供了有效的模拟工具。

[91] A Multicentric Dataset for Training and Benchmarking Breast Cancer Segmentation in H&E Slides

Carlijn Lems,Leslie Tessier,John-Melle Bokhorst,Mart van Rijthoven,Witali Aswolinskiy,Matteo Pozzi,Natalie Klubickova,Suzanne Dintzis,Michela Campora,Maschenka Balkenhol,Peter Bult,Joey Spronck,Thomas Detone,Mattia Barbareschi,Enrico Munari,Giuseppe Bogina,Jelle Wesseling,Esther H. Lips,Francesco Ciompi,Frédérique Meeuwsen,Jeroen van der Laak

Main category: q-bio.QM

TL;DR: BEETLE是一个用于乳腺癌H&E染色全玻片图像多类语义分割的数据集,包含587个活检和切除样本,涵盖所有分子亚型和组织学分级,特别关注现有数据集中代表性不足的形态学特征。

  • Motivation: 现有的乳腺癌分割数据集缺乏形态多样性,无法支持模型泛化性和在异质性患者队列中进行稳健的生物标志物验证。
  • Method: 通过多样化的标注策略,收集了来自三个临床中心和两个公共数据集的587个样本,使用七种扫描仪数字化,标注了四个类别:浸润性上皮、非浸润性上皮、坏死和其他。
  • Result: 创建了一个包含多样化形态学特征的数据集,特别关注导管原位癌和分散的小叶肿瘤细胞等代表性不足的形态,并提供了精心策划的多中心外部评估集。
  • Conclusion: BEETLE数据集的高多样性和与自动化生物标志物量化领域的相关性确保了其高重复使用潜力,为乳腺癌分割模型提供了标准化基准测试。

cs.RO

[92] VENTURA: Adapting Image Diffusion Models for Unified Task Conditioned Navigation

Arthur Zhang,Xiangyun Meng,Luca Calliari,Dong-Ki Kim,Shayegan Omidshafiei,Joydeep Biswas,Ali Agha,Amirreza Shaban

Main category: cs.RO

TL;DR: VENTURA是一个视觉语言导航系统,通过微调互联网预训练的扩散模型进行路径规划,生成视觉路径掩码而非直接预测动作,实现了在开放世界环境中的多样化机器人行为。

  • Motivation: 解决现有视觉语言模型在机器人导航任务中难以迁移的问题,因为动作空间差异和预训练目标不同阻碍了向机器人任务的转移。
  • Method: 使用图像扩散模型生成路径掩码作为视觉规划,通过轻量级行为克隆策略将视觉规划转化为可执行轨迹,利用自监督跟踪模型和VLM增强的标注进行训练。
  • Result: 在真实世界评估中,VENTURA在物体到达、障碍物避让和地形偏好任务上优于最先进的基础模型基线,成功率提高33%,碰撞率降低54%,并展现出对未见任务组合的泛化能力。
  • Conclusion: VENTURA通过视觉路径规划方法有效解决了视觉语言模型在机器人导航中的迁移问题,展示了强大的泛化能力和组合能力。

[93] ActiveUMI: Robotic Manipulation with Active Perception from Robot-Free Human Demonstrations

Qiyuan Zeng,Chengmeng Li,Jude St. John,Zhongyi Zhou,Junjie Wen,Guorui Feng,Yichen Zhu,Yi Xu

Main category: cs.RO

TL;DR: ActiveUMI是一个便携式VR遥操作系统,通过捕捉人类在真实环境中的双手操作演示来训练机器人策略,特别强调主动自我中心感知的重要性。

  • Motivation: 为了解决复杂双手操作任务中机器人策略训练的数据收集问题,需要一种能够捕捉人类在真实环境中自然操作行为的方法,同时记录操作者的视觉注意力信息。
  • Method: 开发了包含便携式VR遥操作套件和传感器控制器的系统,通过精确姿态对齐桥接人机运动学,采用沉浸式3D模型渲染、自包含可穿戴计算机和高效校准方法。
  • Result: 在六个挑战性双手任务上评估,仅使用ActiveUMI数据训练的策略在分布内任务上达到70%平均成功率,在新物体和新环境中保持56%成功率,表现出强泛化能力。
  • Conclusion: 便携式数据收集系统与学习到的主动感知相结合,为创建可泛化且能力强的真实世界机器人策略提供了有效且可扩展的途径。

[94] DisCo-Layout: Disentangling and Coordinating Semantic and Physical Refinement in a Multi-Agent Framework for 3D Indoor Layout Synthesis

Jialin Gao,Donghao Zhou,Mingjian Liang,Lihao Liu,Chi-Wing Fu,Xiaowei Hu,Pheng-Ann Heng

Main category: cs.RO

TL;DR: DisCo-Layout是一个解耦物理和语义精炼的3D室内布局合成框架,通过语义精炼工具和物理精炼工具独立优化,并采用多智能体协作实现智能协调,生成真实、连贯且可泛化的布局。

  • Motivation: 传统方法因固定数据集而泛化能力差,现有LLM和VLM方法语义丰富但缺乏鲁棒灵活的优化机制,导致布局质量不佳。
  • Method: 提出解耦协调框架:语义精炼工具(SRT)修正抽象对象关系,物理精炼工具(PRT)通过网格匹配算法解决具体空间问题;多智能体框架协调工具使用,包括规划器、设计器和评估器。
  • Result: 实验证明DisCo-Layout达到最先进性能,能生成真实、连贯且可泛化的3D室内布局。
  • Conclusion: DisCo-Layout通过解耦物理和语义精炼,结合多智能体协作,有效解决了3D室内布局合成的泛化和优化问题。

[95] Do You Know Where Your Camera Is? View-Invariant Policy Learning with Camera Conditioning

Tianchong Jiang,Jingtian Ji,Xiangshan Tan,Jiading Fang,Anand Bhattad,Vitor Guizilini,Matthew R. Walter

Main category: cs.RO

TL;DR: 通过将策略显式地条件化在相机外参上,研究视角不变模仿学习。使用Plucker嵌入的像素射线,证明条件化外参显著提升了标准行为克隆策略在跨视角的泛化能力。

  • Motivation: 解决模仿学习策略在视角变化时的鲁棒性问题,避免策略依赖静态背景等视觉线索来推断相机姿态,这在真实场景中会导致性能下降。
  • Method: 使用Plucker嵌入表示像素射线,将相机外参作为条件输入到策略中。在RoboSuite和ManiSkill中构建了6个操作任务,包含固定和随机化场景变体,以分离背景线索和相机姿态的影响。
  • Result: 实验表明,不条件化外参的策略在固定场景中会利用静态背景推断相机姿态,但在工作空间几何或相机位置变化时性能崩溃。条件化外参恢复了性能,实现了仅使用RGB的鲁棒控制。
  • Conclusion: 显式条件化相机外参是实现视角不变模仿学习的关键,能够显著提升策略在真实视角变化下的鲁棒性,无需深度信息。

physics.optics

[96] Towards Photonic Band Diagram Generation with Transformer-Latent Diffusion Models

Valentin Delchevalerie,Nicolas Roy,Arnaud Bougaham,Alexandre Mayer,Benoît Frénay,Michaël Lobet

Main category: physics.optics

TL;DR: 本文提出了首个基于扩散模型的光子能带图生成方法,通过结合Transformer编码器和潜在扩散模型,能够高效生成任意三维结构的光子能带图,解决了传统计算方法在优化循环中计算成本高的问题。

  • Motivation: 光子晶体在纳米尺度上精确控制光传播,在光子和量子技术发展中起核心作用。光子能带图是研究此类非均匀结构材料中光传播的关键工具,但传统计算方法需要求解大量麦克斯韦方程,数值计算成本高昂,特别是在逆设计技术的优化循环中。
  • Method: 方法结合Transformer编码器和潜在扩散模型:Transformer编码器从输入结构中提取上下文嵌入,潜在扩散模型生成对应的光子能带图。该方法能够捕捉光子学中固有的复杂干涉和散射现象。
  • Result: 成功开发了基于扩散模型的光子能带图生成方法,该方法具有扩展到任意三维结构的能力,为光子学领域提供了新的替代建模策略。
  • Conclusion: Transformer和扩散模型非常适合捕捉光子学中的复杂物理现象,该方法为光子能带图的高效计算提供了新途径,特别是在优化和逆设计应用中具有重要意义。

cs.CL

[97] Model Merging to Maintain Language-Only Performance in Developmentally Plausible Multimodal Models

Ece Takmaz,Lisa Bylinina,Jakub Dotlacil

Main category: cs.CL

TL;DR: 该论文研究了在低资源多模态语言模型中如何保持纯语言任务能力,通过模型融合方法将多模态模型与纯语言模型参数进行加权线性插值,缓解多模态模型在语法等纯语言任务上的性能下降问题。

  • Motivation: 解决当前最先进的视觉-语言模型参数量庞大、训练数据远超儿童语言习得数据量的问题,同时应对多模态模型在纯语言任务上表现不佳的挑战。
  • Method: 在低资源设置下开发纯语言和多模态模型,使用发展合理的数据集,并通过模型融合方法将多模态模型与纯语言模型参数进行加权线性插值。
  • Result: 多模态模型在BabyLM基准测试中表现优于之前的基线,但确实在语法等纯语言任务上表现不佳;模型融合方法能在一定程度上缓解这个问题,同时保持多模态性能。
  • Conclusion: 多模态模型在纯语言基准测试(特别是语法任务)上表现不佳,而通过与纯语言模型进行参数融合可以部分解决这一问题,同时维持多模态能力。

[98] From Behavioral Performance to Internal Competence: Interpreting Vision-Language Models with VLM-Lens

Hala Sheta,Eric Huang,Shuyu Wu,Ilia Alenabi,Jiajun Hong,Ryker Lin,Ruoxi Ning,Daniel Wei,Jialin Yang,Jiawei Zhou,Ziqiao Ma,Freda Shi

Main category: cs.CL

TL;DR: VLM-Lens是一个用于系统化基准测试、分析和解释视觉语言模型(VLMs)的工具包,支持从开源VLMs的前向传播过程中提取任何层的中间输出。

  • Motivation: 为了促进对视觉语言模型的深入理解和改进,需要系统化的分析工具来提取和比较不同模型的中间表示。
  • Method: 提供统一的YAML可配置接口,抽象模型特定复杂性,支持16种最先进的基座VLM及其30多个变体,核心逻辑无需修改即可扩展新模型。
  • Result: 通过两个简单的分析实验展示了工具的使用,揭示了VLM隐藏表示在不同层和目标概念上的系统性差异。
  • Conclusion: VLM-Lens作为开源项目发布,旨在加速社区对VLM的理解和改进工作。

cs.CR

[99] ZK-WAGON: Imperceptible Watermark for Image Generation Models using ZK-SNARKs

Aadarsh Anantha Ramakrishnan,Shubham Agarwal,Selvanayagam S,Kunwar Singh

Main category: cs.CR

TL;DR: ZK-WAGON是首个使用ZK-SNARKs技术为图像生成模型添加水印的系统,能在不暴露模型权重或敏感信息的情况下验证图像来源,通过选择性层电路创建和LSB隐写术实现高效安全的水印嵌入。

  • Motivation: 随着图像生成模型能力增强,合成媒体的真实性、所有权和滥用问题日益严重。传统水印方法会降低图像质量、易被移除或需要访问模型内部信息,无法满足安全可扩展部署需求。
  • Method: 提出选择性层ZK电路创建(SL-ZKCC)方法,将图像生成模型的关键层转换为电路,显著减少证明生成时间。使用ZK-SNARKs生成可验证来源证明,并通过LSB隐写术将证明不可感知地嵌入生成图像中。
  • Result: 在GAN和Diffusion模型上成功演示了该系统,提供了一个安全、模型无关的可信AI图像生成流水线。
  • Conclusion: ZK-WAGON为图像生成模型提供了安全、可验证的水印解决方案,解决了传统方法的局限性,支持可信AI图像生成的实际部署。

eess.IV

[100] An Efficient Quality Metric for Video Frame Interpolation Based on Motion-Field Divergence

Conall Daly,Darren Ramsook,Anil Kokaram

Main category: eess.IV

TL;DR: 提出PSNR_DIV,一种基于运动发散加权的视频帧插值质量评估指标,在保持高效的同时显著提升评估准确性

  • Motivation: 现有视频帧插值质量评估指标要么忽略时间一致性,要么计算效率低下,限制了实际应用
  • Method: 通过运动发散加权增强PSNR,该方法源自档案胶片修复中检测时间不一致性的技术,突出运动场中的奇点来加权图像误差
  • Result: 在BVI-VFI数据集上,PSNR_DIV相比FloLPIPS提升0.09皮尔逊相关系数,速度快2.5倍,内存使用减少4倍,在所有内容类别中表现一致
  • Conclusion: PSNR_DIV的高效性和准确性使其能够快速评估质量,并可作为训练视频帧插值神经网络的损失函数

[101] Median2Median: Zero-shot Suppression of Structured Noise in Images

Jianxu Wang,Ge Wang

Main category: eess.IV

TL;DR: 提出Median2Median(M2M)零样本去噪框架,专门针对结构化噪声设计,无需干净图像训练数据,通过伪独立子图像对采样策略有效去除相关噪声。

  • Motivation: 现实图像常受强各向异性相关结构化噪声影响,现有数据驱动方法需要大量高质量标签且泛化性有限,而零样本方法仅适用于独立同分布噪声,无法处理结构化噪声。
  • Method: M2M引入新颖采样策略:1)方向插值和广义中值滤波生成伪独立子图像对;2)随机分配策略扩大采样空间消除系统偏差;3)适用于Noise2Noise训练。
  • Result: 在真实模拟研究中,M2M在独立同分布噪声下与最先进零样本方法表现相当,在相关噪声下始终优于现有方法。
  • Conclusion: M2M是结构化噪声抑制的高效、无数据解决方案,标志着零样本去噪首次突破严格独立同分布假设限制。

[102] GFSR-Net: Guided Focus via Segment-Wise Relevance Network for Interpretable Deep Learning in Medical Imaging

Jhonatan Contreras,Thomas Bocklitz

Main category: eess.IV

TL;DR: GFSR-Net是一种通过少量人工标注引导深度学习模型关注医学图像中诊断相关区域的方法,提高模型的可解释性和可靠性。

  • Motivation: 深度学习在医学图像分析中取得了显著成功,但在临床实践中由于缺乏可解释性而应用受限。模型可能依赖与疾病无关的图像区域或现实条件下不存在的视觉线索,这会降低信任度并增加误诊风险。
  • Method: GFSR-Net使用少量人工标注来近似人类在图像中直觉关注的区域,不需要精确边界或详尽标记。在训练过程中,模型学习将其关注点与这些区域对齐,逐步强调具有诊断意义的特征。
  • Result: 实验表明GFSR-Net在保持相当或更优准确率的同时,产生的显著性图能更好地反映人类期望,减少对无关模式的依赖。
  • Conclusion: 该方法提高了对自动化诊断工具的信心,适用于不同类型的自然和医学图像,包括胸部X光、视网膜扫描和皮肤病图像。

[103] SpurBreast: A Curated Dataset for Investigating Spurious Correlations in Real-world Breast MRI Classification

Jong Bum Won,Wesley De Neve,Joris Vankerschaver,Utku Ozbulak

Main category: eess.IV

TL;DR: 提出了SpurBreast数据集,这是一个专门设计的乳腺MRI数据集,包含故意引入的伪相关性,用于评估这些相关性对深度学习模型性能的影响。

  • Motivation: 现有的医学影像数据集没有系统性地研究伪相关性问题,主要由于许可限制和患者数据有限。深度学习模型在医学影像中容易学习非临床特征而非有意义的医学模式。
  • Method: 分析超过100个涉及患者、设备和成像协议的特征,识别出两个主要的伪相关信号:磁场强度(影响整个图像的全局特征)和图像方向(影响空间对齐的局部特征)。通过受控的数据集分割来评估模型性能。
  • Result: 研究表明深度学习模型可以利用这些非临床信号,在验证集上获得高准确率,但在无偏测试数据上泛化失败。
  • Conclusion: SpurBreast数据集使研究人员能够系统研究临床相关和不相关特征、不确定性估计、对抗鲁棒性和泛化策略,填补了医学影像中伪相关性研究的空白。

[104] Measurement-Guided Consistency Model Sampling for Inverse Problems

Amirreza Tanevardi,Pooria Abbas Rad Moghadam,Sajjad Amini

Main category: eess.IV

TL;DR: 提出一种改进的一致性采样方法,用于解决逆问题重建,通过测量一致性机制指导采样器的随机性,在保持高效生成的同时确保与测量数据的保真度。

  • Motivation: 扩散模型在逆成像问题中表现强大但采样速度慢,一致性模型虽然能实现快速生成但直接应用于逆问题的研究不足。
  • Method: 修改一致性采样方法,引入与测量算子相关的测量一致性机制来指导采样器的随机性。
  • Result: 在Fashion-MNIST和LSUN Bedroom数据集上的实验显示,相比基线一致性采样,在感知和像素级指标(FID、KID、PSNR、SSIM)上均有持续改进。
  • Conclusion: 该方法仅需少量步骤就能获得竞争性或更优的重建结果,实现了高效且高质量的逆问题重建。

cs.LG

[105] From 2D to 3D, Deep Learning-based Shape Reconstruction in Magnetic Resonance Imaging: A Review

Emma McMillian,Abhirup Banerjee,Alfonso Bueno-Orovio

Main category: cs.LG

TL;DR: 这篇综述系统回顾了基于深度学习的2D MRI到3D形状重建方法,涵盖点云、网格、形状感知和体积模型四大类技术,分析了各方法的理论基础、局限性和临床应用,并探讨了数据集、计算需求和评估指标等关键问题。

  • Motivation: 3D形状重建在医学疾病诊断、治疗规划和计算建模中日益重要,需要系统梳理当前深度学习方法的现状,为研究人员提供结构化概览,推动更鲁棒、可泛化和临床影响力的解决方案发展。
  • Method: 采用综述研究方法,系统分析四大类3D重建方法:点云模型、网格模型、形状感知模型和体积模型,涵盖从心脏到神经到肺部成像的广泛应用,并考察临床适用性、训练测试数据影响等关键因素。
  • Result: 提供了当前3D MRI重建方法学的全面概览,识别了各方法的优缺点,分析了在疾病解剖结构上的临床应用效果,总结了公开数据集、计算需求和评估标准。
  • Conclusion: 该综述为研究人员提供了结构化框架来理解当前3D重建方法,指出了多模态集成和跨模态框架等新兴研究方向,有助于推动深度学习在医学影像重建领域的发展。

[106] Ultra-Efficient Decoding for End-to-End Neural Compression and Reconstruction

Ethan G. Rogers,Cheng Wang

Main category: cs.LG

TL;DR: 提出了一种基于低秩表示和向量量化的神经压缩重建框架,显著降低解码器计算复杂度,消除解码瓶颈,同时保持高质量图像重建。

  • Motivation: 当前神经压缩方法虽然压缩率高,但基于卷积的解码器计算复杂且成本高,阻碍了实际应用。
  • Method: 在带有向量量化的自编码器中引入低秩表示,通过对学习到的潜在表示执行一系列计算高效的低秩操作来重建数据。
  • Result: 该方法大幅减少了神经压缩/重建中解码阶段的计算开销,在保持高保真图像输出的同时基本消除了解码器计算瓶颈。
  • Conclusion: 提出的低秩表示框架有效解决了神经压缩中的解码器瓶颈问题,为实际应用提供了可行的解决方案。

[107] Beyond Simple Fusion: Adaptive Gated Fusion for Robust Multimodal Sentiment Analysis

Han Wu,Yanming Sun,Yunhe Yang,Derek F. Wong

Main category: cs.LG

TL;DR: 提出了自适应门控融合网络(AGFN),通过基于信息熵和模态重要性的双门融合机制自适应调整特征权重,以解决多模态情感分析中模态质量变化导致的性能下降问题。

  • Motivation: 多模态情感分析中,简单的融合技术往往无法处理模态质量变化(如噪声、缺失或语义冲突),导致在识别细微情感时性能不佳。
  • Method: 采用双门融合机制,基于信息熵和模态重要性自适应调整特征权重,在单模态编码和跨模态交互后优先选择信息量大的线索,减少噪声模态的影响。
  • Result: 在CMU-MOSI和CMU-MOSEI数据集上的实验表明,AGFN在准确率上显著优于强基线,能有效识别细微情感,并具有鲁棒性能。可视化分析显示AGFN通过减少特征位置与预测误差的相关性,学习更广泛的特征分布,增强了泛化能力。
  • Conclusion: AGFN通过自适应门控融合机制有效提升了多模态情感分析的性能,特别是在处理模态质量变化和识别细微情感方面表现出色,并创建了更鲁棒的多模态特征表示。

[108] Unsupervised Dynamic Feature Selection for Robust Latent Spaces in Vision Tasks

Bruno Corcuera,Carlos Eiras-Franco,Brais Cancela

Main category: cs.LG

TL;DR: 提出了一种无监督动态特征选择方法,通过移除图像中的误导性或冗余信息来增强潜在表示,提高模型的泛化性能。

  • Motivation: 视觉任务中的潜在表示常受到噪声或无关特征的影响,这会降低模型性能和泛化能力。
  • Method: 使用无监督动态特征选择方法,为每个实例识别并移除图像中的误导或冗余信息,确保只有最相关特征贡献于潜在空间。
  • Result: 在图像数据集上的实验表明,配备无监督DFS的模型在各种任务(包括聚类和图像生成)中实现了显著的泛化性能改进,同时计算成本增加最小。
  • Conclusion: 无监督动态特征选择方法能有效增强潜在表示,提高模型性能,且不依赖标注数据,具有广泛适用性。

[109] G2RPO: Granular GRPO for Precise Reward in Flow Models

Yujie Zhou,Pengyang Ling,Jiazi Bu,Yibin Wang,Yuhang Zang,Jiaqi Wang,Li Niu,Guangtao Zhai

Main category: cs.LG

TL;DR: 提出了G²RPO框架,通过奇异随机采样策略和多粒度优势集成模块,解决了现有方法在扩散模型强化学习中奖励信号稀疏和窄化的问题,实现了更精确全面的采样方向评估。

  • Motivation: 现有方法虽然能有效探索高价值样本,但由于稀疏和狭窄的奖励信号,导致偏好对齐效果不佳。需要解决奖励信号不精确和固定粒度去噪偏差的问题。
  • Method: 1) 奇异随机采样策略:支持逐步随机探索,同时强制奖励与注入噪声之间的高相关性;2) 多粒度优势集成模块:聚合多个扩散尺度的优势计算,产生更全面鲁棒的采样方向评估。
  • Result: 在各种奖励模型上的实验表明,G²RPO显著优于现有的基于流的GRPO基线方法,证明了其有效性和鲁棒性。
  • Conclusion: G²RPO框架通过精确的奖励评估和全面的采样方向分析,成功提升了扩散模型与人类偏好的对齐效果。

[110] Test-Time Anchoring for Discrete Diffusion Posterior Sampling

Litu Rout,Andreas Lugmayr,Yasamin Jafarian,Srivatsan Varadharajan,Constantine Caramanis,Sanjay Shakkottai,Ira Kemelmacher-Shlizerman

Main category: cs.LG

TL;DR: 提出了Anchored Posterior Sampling (APS)方法,用于预训练离散扩散基础模型的后验采样,解决了现有离散扩散后验采样方法面临的挑战,在逆问题上取得了最先进的性能。

  • Motivation: 离散扩散模型提供了统一的框架来联合建模分类数据(如文本和图像),具有更快的推理速度、更精细的控制和无训练贝叶斯推理等优势,特别适合后验采样。但现有方法面临无导数引导信号稀疏、连续松弛限制应用、分裂吉布斯采样器维度灾难等问题。
  • Method: 提出了Anchored Posterior Sampling (APS)方法,基于两个关键创新:在离散嵌入空间中使用量化期望实现类似梯度的引导,以及使用锚定重掩码进行自适应解码。
  • Result: 在标准基准测试中,在线性和非线性逆问题上取得了离散扩散采样器中最先进的性能,并在无训练风格化和文本引导编辑中展示了优势。
  • Conclusion: APS方法成功克服了现有离散扩散后验采样方法的局限性,为预训练离散扩散基础模型的后验采样提供了有效的解决方案。

[111] Continual Personalization for Diffusion Models

Yu-Chien Liao,Jr-Jen Chen,Chi-Pin Huang,Ci-Siang Lin,Meng-Lin Wu,Yu-Chiang Frank Wang

Main category: cs.LG

TL;DR: CNS是一种新颖的扩散模型增量学习方法,通过识别与目标概念相关的神经元进行微调,在保持零样本生成能力的同时避免灾难性遗忘。

  • Motivation: 在现实应用中增量更新扩散模型具有实用性但计算挑战大,需要解决灾难性遗忘问题同时保持零样本生成能力。
  • Method: 提出概念神经元选择(CNS)方法,识别扩散模型中与目标概念相关的神经元,以增量方式微调这些神经元并联合保留先前概念的知识。
  • Result: 在真实数据集上的评估显示,CNS以最少的参数调整实现了最先进的性能,在单概念和多概念个性化任务中都优于先前方法,且无需融合操作。
  • Conclusion: CNS是一种简单有效的持续学习方法,能够减少内存存储和处理时间,实现高效的扩散模型持续个性化。

[112] Equilibrium Matching: Generative Modeling with Implicit Energy-Based Models

Runqian Wang,Yilun Du

Main category: cs.LG

TL;DR: 提出Equilibrium Matching (EqM)框架,通过平衡动力学视角构建生成模型,学习隐式能量景观的平衡梯度,在推理时采用基于优化的采样过程。

  • Motivation: 传统扩散和基于流的生成模型使用非平衡、时间条件动力学,EqM旨在通过平衡动力学视角改进生成建模。
  • Method: EqM摒弃传统模型的时间条件动力学,学习隐式能量景观的平衡梯度,在推理时使用梯度下降采样,可调整步长、自适应优化器和计算。
  • Result: EqM在ImageNet 256×256上达到FID 1.90,超越了扩散/流模型的生成性能,并能处理部分噪声图像去噪、OOD检测和图像合成等任务。
  • Conclusion: EqM通过统一平衡景观替代时间条件速度,在流模型和能量基模型之间建立更紧密联系,提供优化驱动推理的简单途径。