因果推理与视觉表征学习的结合一项前瞻性研究
随着大量异构多模态数据(包括图像、视频、文本/语言、音频和多传感器数据)的出现,基于深度学习的方法在各种计算机视觉和机器学习任务中表现出了良好的性能,例如视觉理解、视频理解、视觉语言分析和多模态融合。
然而,现有的方法严重依赖于数据分布的拟合,并且往往会捕获来自不同模态的虚假相关性,因此无法学习具有良好泛化和认知能力的多模态知识背后的本质因果关系。
受计算机视觉社会中的大多数数据都是独立同分布(iid)这一事实的启发,大量文献采用了数据增强、预训练、自我监督和新颖的架构来提高状态的鲁棒性最先进的深度神经网络架构。然而,有人认为这种策略只能从数据中学习基于相关性的模式(统计依赖性),并且在没有iid设置的保证的情况下可能无法很好地概括。
由于其强大的能力能够揭示数据生成过程的底层结构知识,从而使干预措施能够在不同的任务和环境中很好地推广,因果推理为相关学习提供了一种有前途的替代方案。
最近,因果推理在计算机视觉和机器学习的众多高影响领域中引起了越来越多的关注,例如可解释的深度学习、因果特征选择、视觉理解、视觉鲁棒性、视觉问答和视频理解。这些因果方法的一个共同挑战是如何建立一个强大的认知模型,能够充分发现因果关系和时空关系。
在他们的论文中,研究人员旨在全面概述视觉表征学习的因果推理,吸引注意力,鼓励讨论,并强调开发新颖的因果关系引导的视觉表征学习方法的紧迫性。
尽管有一些关于因果推理的调查,但这些作品旨在用于一般表征学习任务,例如去混杂、分布外(OOD)泛化和贬低。
该工作发表在《机器智能研究》杂志上。
独特的是,本文侧重于对因果推理、视觉表示学习及其整合的相关工作、数据集、见解、未来挑战和机遇进行系统和全面的调查。为了更简洁、清晰地表达综述,本文根据相关著作的来源、出版年份、影响以及对本文调查主题的不同方面的覆盖范围来选择和引用相关著作。
总的来说,这项工作的主要贡献如下。
首先,介绍了因果关系的基本概念、结构因果模型(SCM)、独立因果机制(ICM)原理、因果推理和因果干预。然后,基于分析,本文进一步给出了对视觉表示学习任务进行因果推理的一些方向。这篇论文可能是第一篇提出因果视觉表征学习潜在研究方向的论文。
其次,引入前瞻性回顾,根据现有工作在上述方向上的努力,系统地、结构性地评估现有工作,以更有效地进行因果视觉表征学习。研究人员关注视觉表征学习与因果推理之间的关系,更好地理解现有因果推理方法为何以及如何有助于视觉表征学习,并为未来的研究提供灵感。
第三,新论文探索和讨论了与使用因果推理方法解决视觉表示学习相关的未来研究领域和开放问题。这可以鼓励和支持相关领域研究的拓宽和深化。
第二节提供预备知识,包括五个部分。它的第一部分是因果关系的基本概念。因果学习与统计学习不同,统计学习旨在发现统计关系之外的因果关系。学习因果关系需要机器学习方法不仅能够预测独立同分布实验的结果,而且能够从因果角度进行推理。
第二部分是SCM,它考虑因果关系风格的制定。第三部分是ICM原则,描述了因果机制的独立性。第四部分是因果推理,其目的是估计不同治疗的结果变化(或效果)。最后一部分是因果干预,旨在捕捉干预措施(即变量)的因果效应,并利用数据集中的因果关系来提高模型性能和泛化能力。
传统的特征学习方法通常学习混杂因素引入的虚假相关性。这将降低模型的稳健性并使模型难以跨领域泛化。因果推理是一种从结果中揭示真正因果关系的学习范式,克服了相关学习的本质缺陷,学习鲁棒、可重用且可靠的特征。
在第3节中,研究人员回顾了最近用于一般特征学习的代表性因果推理方法,主要包括三个主要范式:1)嵌入结构因果模型(SCM),2)应用因果干预/反事实,3)马尔可夫边界(MB))基于特征选择。
视觉表示学习近年来取得了长足的进步,可以利用空间或/和时间信息来完成特定的任务,包括视觉理解(目标检测、场景图生成、视觉基础、视觉常识推理)、动作检测和识别、视觉问答等
在第四节中,研究人员介绍了这些代表性的视觉学习任务,并讨论了将因果推理应用于视觉表征学习的现有挑战和必要性。
根据上述讨论的视觉表示学习方法,当前的机器学习,尤其是表示学习,面临着几个挑战:1)缺乏可解释性,2)泛化能力差,3)过度依赖数据分布的相关性。因果推理为解决这些挑战提供了一种有前途的替代方案。
因果关系的发现有助于揭示数据背后的因果机制,让机器更好地理解原因,并通过干预或反事实推理做出决策。
在第五节中,研究人员总结了一些最近的因果视觉表征学习方法。视觉表征学习是一个新兴的研究课题,自2020年代以来就出现了。相关任务可以大致分为几个主要方面:1)因果视觉理解,2)因果视觉鲁棒性,3)因果视觉问答。在本节中,研究人员讨论了学习任务的这三种具有代表性的因果视觉表示。
基于相关性的模型在现有数据集中可能表现良好,并不是因为这些模型具有很强的推理能力,而是因为这些数据集不能完全支持模型推理能力的评估。这些数据集中的虚假相关性可以被模型利用来进行欺骗,这意味着该模型只专注于表面相关性学习,而不是真正的因果推理,仅近似数据集的分布。
例如,在VQAv1.0数据集中进行VQA任务时,模型在看到“Doyouseea…”问题时简单地回答“yes”,这将达到近90%的准确率。由于当前数据集的这一缺陷,研究人员需要建立能够评估模型真实因果推理能力的基准。
在第六节中,研究人员以图像问答基准和视频问答基准为例,分析了相关因果推理数据集的研究现状,并给出了一些未来的方向。
第7节提出并讨论了一些未来的研究方向。视觉表示学习的因果推理有多种应用。对各种任务进行因果推理建模可以更好地感知现实世界。在本节中,研究人员从图像/视频分析、可解释人工智能、推荐系统、人机对话与交互、人群智能分析五个方面介绍了这些应用。
他们还讨论了因果推理如何使各种现实世界的应用受益。
一些研究人员已经成功地实现了视觉表征学习的因果推理,以发现因果关系和视觉关系。然而,视觉表征学习的因果推理仍处于起步阶段,许多问题仍未解决。因此,第8节强调了几个可能的研究方向和开放问题,以激发对该主题进一步广泛和深入的研究。
因果视觉表征学习的潜在研究方向可概括为:
更合理的因果关系建模
干预分布的更精确近似
更合适的反事实合成过程
大规模基准和评估管道
本文对视觉表征学习的因果推理进行了全面的调查。研究人员希望这项调查能够帮助引起关注,鼓励讨论,并凸显开发新颖的因果推理方法、公开可用的基准以及建立共识标准的紧迫性,以更有效地进行可靠的视觉表示学习和相关的现实世界应用。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。