AI综述专栏 | 多模态机器学习综述

AI综述专栏简介

参考文献：šaitis,,"MultimodalMachineLearning:ASurveyandTaxonomy,"inIEEETransactionsonPatternAnalysisandMachineIntelligence（TPAMI）,,,,1

关键字：多模态机器学习介绍综述

1介绍

2、为了让人工智能在了解我们周围的世界方面取得进展，它需要能够解释和推理多模态信息。多模态机器学习旨在建立能够处理和关联来自多个模态的信息的模型。从早期的视听语音识别研究到最近对语言和视觉模型的兴趣激增，多模态机器学习是一个充满活力的多学科领域，并且重要性日益提高，潜力巨大。

3、由于数据的异构性，多模态机器学习的研究领域给计算研究者带来了一些独特的挑战。从多模态信息源中学习提供了捕获模态之间的对应关系并获得对自然现象深入理解的可能性。本文对多模态机器学习的五个核心技术挑战（及其相关子挑战）进行了识别和探讨。

它们是多模态学习的中心，需要处理才能促进该领域发展。我们的综述超越了典型的早期和晚期融合分割，包括以下五个挑战：

翻译：第二个挑战是如何将数据从一种模式转换(映射)到另一种模式。不仅异构数据，而且模式之间的关系往往是开放的或主观的。例如，有许多正确的方法来描述一个图像，一个完美的映射可能不存在。

融合：第四个挑战是连接来自两个或多个模式的信息来执行预测。例如，在视听语音识别中，将唇动的视觉描述与语音信号融合，预测语音单词。来自不同模式的信息可能具有不同的预测能力和噪声拓扑结构，其中至少有一种模式可能丢失数据。

共同学习：第五个挑战是在模态、它们的表示和它们的预测模型之间传递知识。这一点可以用协同训练、概念基础和零样本学习的算法来举例说明。协同学习探索了从一个模态中学习知识如何帮助在不同模态中训练的计算模型。当其中一种模式的资源有限（例如，注释数据）时，这一挑战尤其重要。

针对这五个挑战中的每一个，我们定义了分类和子类，以帮助构建多模态机器学习这一新兴研究领域的最新工作。我们首先讨论多模态机器学习的主要应用(第2节)，然后讨论多模态机器学习面临的五个核心技术挑战的最新发展:表示(第3节)、翻译(第4节)、对齐(第5节)、融合(第6节)和共同学习(第7节)。最后，我们将在第8节进行讨论。

表一：多模态机器学习的应用概述。对于每个应用领域，我们都确定了为了解决它而需要解决的核心技术挑战

2应用：历史视角

1、多模式机器学习可以实现广泛的应用：从视听语音识别到图像描述。在本节中，我们简要介绍了多模应用的历史，从视听语音识别的开始到最近对语言和视觉应用的新兴趣。

2、多模态研究最早的例子之一是视听语音识别（audio-visualspeechrecognitionavsr）[243]。它的灵感来自麦格克效应（McGurkeffect）[138]——在语音感知过程中听觉和视觉之间的相互作用。当受试者在观看一个人说/ga-ga/时听到音节/ba-ba/，他们感觉到第三个声音是/da-da/。在给自愿者放映的一部影片中，一个音节“ga”在配音时发作了“ba”，而自愿者称听到的音节是却是“da”。这样一来，视听信息联手创造出了第三种全新的声音，这个过程现在被叫做“麦格克效应”。这是大脑对于来自眼睛和耳朵所提供的矛盾信息的努力猜测，这个理论也证明眼睛（视觉信息）对于大脑意识与知觉的影响比其他感觉器官所提供的信息更大。另一项研究发现，视觉信息的不一致可以改变对于口语发音的感知，这表明了麦格克效应可能在人们生活中许多外在感知上产生影响。

这些结果激发了许多来自言语社区的研究者们用视觉信息来扩展他们的研究方法。考虑到隐藏马尔可夫模型(hiddenMarkovmodel,HMMs)在当时的语音社区中的突出地位[95]，AVSR的许多早期模型基于各种HMM扩展[24]、[25]就不足为奇了。虽然目前对AVSR的研究并不常见，但它已经引起了深度学习界的新兴趣[151]。

3、虽然AVSR的原始视觉是为了提高语音识别性能（例如，字错误率），但实验结果表明，视觉信息的主要优点提现在当语音信号有噪声（即，低信噪比）时[75]、[151]、[243]。换言之，模式之间的相互作用是增补的而不是补充(叠加式而非互补式)。两种方法都获得了相同的信息，提高了多模态模型的鲁棒性，但没有改善无噪声场景下的语音识别性能。

最近，出现了一种强调语言和视觉的多模态应用新类别:媒体描述。最具代表性的应用程序之一是图像描述，其中的任务是生成输入图像的文本描述[83]。这是由这种系统帮助视障人士完成日常任务的能力。媒体描述面临的主要挑战是评价:如何评价预测描述的质量。视觉问答(visualquestion-answering,VQA)的任务最近提出，以解决一些评价挑战的[9]，其中的目标是回答有关图像的特定问题。

为了将上述的一些应用带到现实世界中，我们需要解决多模态机器学习所面临的一些技术挑战。我们在表1中总结了上述应用领域的相关技术挑战。最重要的挑战之一是多模态表示，这是我们下一节的重点。

3、多模态表示

良好的表示对于机器学习模型的性能非常重要，这一点在语音识别和视觉对象分类系统的性能最近的飞跃中得到了证明。Bengio等人的[18]识别了许多良好表示的属性:平滑性、时间和空间相干性、稀疏性和自然聚类等。Srivastava和Salakhutdinov[198]确定了多模态表示的其他理想属性:表示空间中的相似性应该反映出相应概念的相似性，即使在没有一些模态的情况下也应该很容易得到表示，最后，在给定观察到的模态的情况下，应该有可能补全缺失的模态。

单模态表示的发展已被广泛研究[5]，[18]，[122]。在过去的十年中，已经出现了从手工设计的特定应用到数据驱动的转变。例如，本世纪初最著名的图像描述符之一，尺度不变特征变换(SIFT)是人工设计的[127]，但目前大部分的视觉描述都是通过神经网络(CNN)等神经结构从数据中学习的[109]。类似地，在音频领域，诸如梅尔频率倒谱系数（MFCC）之类的声学特征已被语音识别中的数据驱动的深度神经网络[79]和用于语言分析的递归神经网络所取代[207]。在自然语言处理中，文本特征最初依赖于计算文档中的单词出现次数，但已被利用单词上下文的数据驱动的单词嵌入(wordembeddings)所取代[141]。虽然在单模态表示方面有大量的工作，但直到最近，大多数多模态表示都涉及单模态的[50]的简单连接，但这种情况正在迅速变化。

为了帮助理解工作的广度，我们提出了两类多模态表示:联合和协调。联合表示将单模态信号组合到同一个表示空间中，而协调表示单独处理单模态信号，但对其施加一定的相似性约束，使其达到我们所说的协调空间。图1展示了不同的多模态表示类型。在数学上，联合表示为:

xm=f(x1xn)(1)

其中，多模态表示xm使用依赖于单模态表示x1…xn的函数f(例如，深度神经网络、受限玻尔兹曼机或递归神经网络)计算.

协调表示如下：f(x1)∼g(x2)（2）

其中每个模态都有对应的投影函数(f和g)，将其映射到一个协调的多模态空间。而投影到每个形态的多通道空间是独立的,但它们之间产生的结果空间是协调的(表示为∼)。这种协调的例子包括最小化余弦距离[61]，最大化相关[7]，以及在结果空间之间强制执行偏序[212]。

图一：联合表示和协调表示的结构。联合表示使将关节表示投影到同一空间，作为输入的模式。协调表示存在于各自的空间中，但通过相似性（例如欧几里得距离）或结构约束（例如部分顺序）进行协调。

3.1联合表示

我们从将单模表示投影到多模空间（方程式1）的联合表示开始讨论。联合表示法主要（但不是唯一）用于在训练和推理步骤中同时存在多模态数据的任务。联合表示的最简单示例是单个模态特征的串联（也称为早期融合[50]）。在本节中，我们讨论了创建联合表示的更先进的方法，首先是神经网络，然后是图形模型和循环神经网络（代表性工作见表2）。

神经网络已成为一种非常流行的单模态数据表示方法。它们用于表示视觉、声学和文本数据，并且越来越多地用于多模态领域[151]、[156]和[217]。在本节中，我们将描述如何使用神经网络来构建联合多模态表示，如何训练它们，以及它们提供了哪些优势。

一般来说，神经网络由连续的内积构建块和非线性激活函数组成。为了使用神经网络来表示数据，首先要训练它执行特定的任务（例如识别图像中的对象）。由于深层神经网络的多层性，假设每一层后续的神经网络以更抽象的方式来表示数据[18]，因此通常使用最后一层或倒数第二层神经网络作为一种数据表示形式。为了使用神经网络构建一个多模态表示，每个模态都从几个单独的神经层开始，然后是一个隐藏层，该层将模态投射到一个共同空间[9]，[145]，[156]，[227]。

表二：多模表示技术综述。我们确定了三个联合表示的子类型（第3.1节）和两个协调表示的子类型（第3.2节）。对于模态+表示组合模态

然后，联合多模态表示通过多个隐含层本身或直接用于预测。这种模型可以进行端到端训练——学习如何表示数据和执行特定任务。在神经网络中，多模态表示学习与多模态融合有着密切的关系。

由于神经网络需要大量带标签的训练数据，因此通常使用自动编码器对无监督数据进行预训练[80]。Ngiam等人提出的模型[151]将使用自动编码器的思想扩展到多模域。他们使用堆叠式去噪自动编码器分别表示每个模态，然后使用另一个自动编码器层将它们融合成多模态表示。同样，Silberer和Lapata[184]提议使用多模自动编码器来完成语义概念基础的任务（见第7.2节）。除了使用重构损失训练表示，它们还将一个术语引入到使用表示来预测对象标签的损失函数中。由于使用AutoEncoder构造的表示是通用的，不一定是针对特定任务优化的，因此通常对手头特定任务的结果表示进行微调[217]。

基于神经网络的联合表示的主要优势在于其通常具有优越的性能，并且能够在无监督的情况下对表示进行预训练。然而，性能的提高取决于可用于训练的数据量。缺点之一是模型不能自然地处理丢失的数据——尽管有一些方法可以缓解这个问题[151]，[217]。最后，深度网络往往很难训练[69]，但该领域在更好的训练技术方面正在取得进展[196]。

概率图形模型是另一种通过使用潜在随机变量来构造表示的常用方法[18]。在本节中，我们将描述如何使用概率图模型来表示单模和多模数据。基于图形模型的表示最流行的方法是受限玻尔兹曼机：deepBoltzmannmachines(DBM)[176]，将restrictedBoltzmannmachines(RBM)[81]堆叠起来作为构建块。与神经网络类似，DBM的每个连续层都期望在更高的抽象级别上表示数据。DBMs的吸引力来自于他们不需要监督数据进行训练的事实[176]。由于它们是图形模型，因此数据的表示是概率的，但是可以将它们转换为确定性神经网络——但这就失去了模型的生成方面[176]。

Srivastava和Salakhutdinov[197]的工作引入了多模态深度信念网络作为多模态表征。Kim等[104]对每一种模态都使用了一个深度信念网络，然后将其组合成联合表征进行视听情感识别。HuangandKingsburyAVSR[86]采用了类似的模型，Wu等[225]基于音频和骨骼关节的手势识别。

Srivastava和Salakhutdinov[198]将多模态深度信念网络扩展到了多模态DBMs中。多模态DBMs能够从多种模态中学习联合表示，方法是使用隐藏单元的二进制层合并两个或多个无向图。由于模型的无向性，它们允许每个模态的低级表示在联合训练后相互影响。Ouyang等[156]探讨了多模态DBMs在多视图数据人体姿态估计中的应用。他们证明，在单模态数据经过非线性转换后的后期对数据进行集成对模型是有益的。同样，Suk等[199]利用多模态DBM表示法从正电子发射断层扫描和磁共振成像数据中对阿尔茨海默病进行分类。使用多模态DBMs学习多模态表示的最大优点之一是其生成特性，这允许以一种简单的方式处理丢失的数据——即使整个模态丢失，模型也有一种自然的处理方法。它还可以用于在另一种模态存在的情况下生成一种模态的样本，或者从表示中生成两种模态的样本。与自动编码器类似，可以以非监督的方式对表示进行训练，从而支持使用未标记的数据。DBMs的主要缺点是训练困难，计算成本高，需要使用近似变分训练方法[198]。

3.2协同表示

联合多模表示的一种替代方法是协同表示。我们不是将模态一起投影到一个联合空间中，而是为每个模态学习单独的表示，但是通过一个约束来协调它们。我们从强调表示之间的相似性的协调表示开始讨论，接着讨论在结果空间上加强结构的协调表示(表2中可以看到不同协调表示的代表性作品)。相似模型最小化了协调空间中模态之间的距离。例如，这种模型鼓励“狗”和“狗”两个词的表示，它们之间的距离小于“狗”和“汽车”两个词之间的距离[61]。最早的例子之一就是韦斯顿等人的研究。在WSABIE（通过图像嵌入的网络比例注释）模型中，为图像及其注释构建了一个协调的空间。WSABIE从图像和文本特征构造了一个简单的线性映射，这样相应的注释和图像表示在它们之间会比不相关的注释和图像表示有更高的内积（更小的余弦距离）。

结构化协调表示的另一个例子来自图像和语言的顺序嵌入[212]，[249]。Vrov等[212]提出的模型强制执行了一个不对称的不相似度量，实现了多模态空间中的偏序概念。其思想是捕获语言和图像表示的部分顺序——在空间上强制执行层次结构;例如“遛狗的女人”的形象→文本“遛狗的女人”→文本“女人走路”。Young等人[238]也提出了一个使用符号图的类似模型，其中符号图用于诱导部分排序。最后，Zhang等人提出了如何利用文本和图像的结构化表示以一种无监督的方式创建概念分类[249]。

结构协调空间的一个特殊情况是基于正则相关分析（CCA）的情况[84]。CCA计算一个线性投影，该投影最大化了两个随机变量(在我们的例子中是模态)之间的相关性，并强制新空间的正交性。CCA模型被广泛用于跨模态检索[76]，[106]，[169]和视听信号分析[177]，[187]。对CCA的扩展试图构造一个最大相关非线性投影[7][116]。核正则相关分析(Kernelcanonicalcorrelationanalysis,KCCA)[116]使用复制核希尔伯特空间进行投影。但是，由于该方法是非参数的，因此它与训练集的大小之间的伸缩性很差，并且与非常大的实际数据集之间存在问题。引入了深正则相关分析（DCCA）[7]作为KCCA的替代方法，解决了可扩展性问题，并给出了更好的相关表示空间。类似的通信自动编码器[58]和深度通信RBMS[57]也被提议用于跨模式检索。

CCA、KCCA和DCCA是无监督的技术，只优化表示上的相关性，因此主要捕获跨模式共享的内容。深层规范相关的自动编码器[220]还包括一个基于自动编码器的数据重建术语。这促使表示也能捕获模态特定的信息。语义相关最大化方法[248]也鼓励语义相关性，同时保留相关最大化和由此产生的空间的正交性-这导致了CCA和跨模式散列技术的结合。

3.3讨论

在本节中，我们确定了两种主要的多模态表示形式——联合和协调。联合表示将多模态数据投射到一个公共空间中，最适合在推理过程中出现所有模态的情况。它们被广泛用于AVSR、情感和多模手势识别。另一方面，协调表示法将每个模态投影到一个单独但协调的空间中，使其适用于测试时只有一个模态的应用，例如：多模态检索和翻译（第4节）、接地（第7.2节）和零镜头学习（第7.2节）。最后，虽然联合表示用于构建两种以上模态的表示，但到目前为止，协调空间主要限于两种模态。

表3:多模态翻译研究的分类。对于每个类和子类，我们都包含了带有引用的示例任务。我们的分类还包括翻译的方向性:单向(⇒)和双向(⇔)。

4翻译（以下部分翻译的较好）

另一方面，生成模型构建了一个能够产生翻译的模型。这种区别类似于非参数和参数机器学习方法之间的区别，如图2所示，表3总结了代表性示例。

生成模型可能更具挑战性，因为它们需要生成信号或符号序列(例如句子)的能力。这对于任何形式来说都是困难的——视觉的、听觉的或口头的，尤其是当需要生成时间上和结构上一致的序列时。这导致了许多早期的多模态翻译系统依赖于基于实例的翻译。但是，随着能够生成图像[171]、[210]、声音[157]、[209]和文本[12]的深度学习模型的出现，这种情况一直在发生变化。

图2:基于实例和生成式多模态翻译概述。前者从字典中检索最佳翻译，而后者首先在字典上训练翻译模型，然后使用该模型进行翻译。

4.1基于实例

基于实例的算法受到训练数据字典的限制(见图2a)。我们确定了这类算法的两种类型:基于检索的算法和基于组合的算法。基于检索的模型直接使用检索到的转换，而不需要修改它，而基于组合的模型依赖于更复杂的规则来基于大量检索到的实例创建转换。

基于检索的模型可以说是多模态翻译的最简单形式。它们依赖于在字典中找到最接近的样本，并将其用作翻译结果。检索可以在单模态空间或中间语义空间进行。

基于组合的模型进一步采用了基于检索的方法。它们不只是从字典中检索示例，而是以一种有意义的方式将它们组合起来，以构建更好的翻译。基于组合的媒体描述方法的出发点是图像的句子描述具有共性和简单性可以利用的结构。组合规则通常是手工制定的或基于启发式的。Kuznetsova等[114]首先检索描述视觉上相似的图像的短语，然后将它们组合起来，使用整数线性规划和一些手工规则生成查询图像的新描述。Gupta等[74]首先找到k个与源图像最相似的图像，然后使用从其标题中提取的短语生成一个目标句子。Lebret等[119]使用基于cnn的图像表示来推断描述它的短语。然后使用三元模型将预测的短语组合起来。基于示例的翻译方法面临的一个大问题是，模型是整个词典——使得模型变大，推理变慢（不过，诸如散列之类的优化可以缓解这个问题）。基于实例的翻译面临的另一个问题是，除非任务简单或字典很大，否则期望与源示例相关的完整和准确的翻译总是存在于字典中是不现实的。这部分由能够构建更复杂结构的组合模型来解决。然而，它们只能在一个方向上执行翻译，而基于语义空间检索的模型可以同时执行这两种方式。

4.2生成方法

在给定单模源实例的情况下，多模翻译的生成方法构造了能够执行多模翻译的模型。这是一个具有挑战性的问题，因为它需要同时理解源模态和生成目标序列或信号的能力。正如下面一节所讨论的，由于可能的正确答案空间很大，这也使得这些方法更难评估。

我们确定了三大类生成模型：基于语法的、编码器-解码器和连续生成模型。基于语法的模型通过使用语法限制目标域来简化任务，例如，通过基于subject,object,verb模板生成受限制的句子。编码器-解码器模型首先将源模态编码为潜在的表示形式，然后由解码器使用该表示形式生成目标模态。连续生成模型是在源模态输入流的基础上连续生成目标模态适用于时间序列之间的转换，如文本到语音。

为了描述图像，Yao等[235]提出使用基于and或图形的模型，结合领域特定的词汇化语法规则、有针对性的视觉表示方案和层次知识本体。Li等[121]首先检测对象、视觉属性和对象之间的空间关系。然后在视觉提取的短语上使用n-gram语言模型生成subject、preposition、object样式的语句。Mitchell等人[142]使用了更复杂的基于树的语言模型生成语法树而不是填充模板，从而导致更多样化的描述。

大多数方法都将整个图像联合起来表示为一袋视觉对象，而不捕获它们的空间和语义关系。为了解决这个问题，Elliott等人[51]建议显式建模对象的邻近关系，以生成图像描述。

基于语法的方法的一个优点是，当它们使用预定义模板和受限制的语法时，它们更有可能生成语法上(对于语言)或逻辑上正确的目标实例。然而，这限制了他们产生公式化，而不是创造性翻译。此外，基于语法的方法依赖于复杂的管道进行概念检测，每个概念都需要单独的模型和单独的训练数据集。

基于生成注意的神经网络也被用于从句子中生成图像的任务[132]，尽管其结果仍远未达到照片真实感，但显示出了很大的前景。近年来，利用生成对抗性网络生成图像的研究取得了很大进展[71]，该网络已被用于替代RNNs从文本生成图像[171]。

虽然基于神经网络的编码器-解码器系统已经取得了很大的成功，但仍然面临许多问题。Devlin等人[49]认为，网络可能是在记忆训练数据，而不是学习如何理解和生成视觉场景。

隐马尔可夫模型（HMM）也被用于视觉语音生成[203]和文本语音转换[245]任务。它们还被扩展到使用集群自适应训练，以允许对多个扬声器、语言和情感进行训练，从而在生成语音信号[244]或视觉语音参数[6]时实现更大的控制。

4.3模型评价与讨论

多模态翻译方法面临的一个主要挑战是很难对其进行评价。虽然语音识别等任务只有一个正确的翻译，但语音合成和媒体描述等任务没有。有时，就像在语言翻译中一样，多个答案都是正确的，决定哪个翻译更好往往是主观的。幸运的是，在模型评估中有许多近似的自动度量。

通常，评价主观任务的理想方法是通过人的判断。那就是让一组人评估每一个翻译。这可以在Likert量表上进行，在该量表中，每个翻译都在一定的维度上进行评估：语音合成的自然度和平均意见分数[209]、[244]、视觉语音合成的现实性[6]、[203]以及媒体描述的语法和语义正确性、相关性、顺序和细节[38]、[112]、[142]、[213]。另一种选择是进行偏好研究，即向参与者提供两个(或多个)翻译以进行偏好比较[203]，[244]。然而，虽然用户研究的结果将得出最接近人类判断的评价，但它们是费时和昂贵的。此外，在构建和引导它们时需要小心，以避免流畅性、年龄、性别和文化偏见。

虽然人类研究是评估的黄金标准，但已经为媒体描述的任务提出了许多自动替代方案：BLUE[160]、ROUGE[124]、Meteor[48]和CIDEr[211]。这些指标直接取自(或基于)机器翻译中的工作，并计算出度量两者之间相似性的得分生成的和基本的真实文本。

视觉问答(Visualquestion-answer,VQA)[130]任务的提出部分是由于图像字幕评价面临的问题。VQA是一项任务，其中给定一个映像和一个关于其内容的问题，系统必须回答它。由于有了正确的答案，评估这样的系统就更容易了。然而，它仍然面临着某些问题和答案的模糊性和问题倾向性等问题。

我们认为，解决评价问题对多式翻译系统的进一步成功至关重要。这样不仅可以更好地比较各种方法，而且可以优化更好的目标。

5对齐

我们将多模态对齐定义为从两个或多个模态中查找实例子组件之间的关系和对应。例如，给定一幅图像和一个标题，我们希望找到与标题的单词或短语对应的图像区域[98]。另一个例子是，给定一部电影，将其与剧本或书中它所基于的章节进行比对[252]。

表4：多模式对齐挑战的分类汇总。对于分类法的每个子类，我们都包含参考引文和对齐的模式

5.1显式对齐

如果论文的主要建模目标是来自两个或多个模式的实例子组件之间的对齐，那么我们将其归类为执行显式对齐。显式对齐的一个非常重要的部分是相似性度量。大多数方法依赖于以不同模式度量子组件之间的相似性作为基本构建块。这些相似性可以手动定义，也可以从数据中学习。

我们确定了两种处理显式对齐的算法——无监督算法和(弱)监督算法。第一种类型不使用直接对齐标签(即来自不同模式的实例之间的通信。第二种类型可以访问这些(有时是弱)标签。

无监督的多模式校准解决了模式校准而无需任何直接校准标签。大多数方法都是从早期的统计机器翻译校准工作[28]和基因组序列[3]，[111]中得到启发的。为了使任务更简单，这些方法假定了对对齐的某些约束，例如序列的时间顺序或模式之间存在相似性度量。

用于对齐的DTW和图形模型方法都允许对对齐进行限制，例如时间一致性、时间无大跳跃和单调性。虽然DTW扩展允许共同学习相似性度量和对齐，但基于图形模型的方法需要专家知识来构造[44]，[239]。

监督对齐方法依赖于标记对齐的实例。它们用于训练用于对齐模式的相似性度量。

基于深度学习的方法越来越流行于显式对齐(特别是用于度量相似性)，这是因为最近在语言和视觉社区中出现了对齐的数据集[133]和[161]。Zhu等。[252]通过培训CNN来测量场景和文本之间的相似性，使书籍与相应的电影/剧本保持一致。毛等人。[133]使用LSTM语言模型和CNN视觉模型来评估引用表达式和图像中对象之间匹配的质量。Yu等人[242]将该模型扩展到包括相对外观以及上下文信息，以便更好地消除同一类型对象之间的歧义。最后，Hu等人[85]使用基于LSTM的评分函数查找图像区域及其描述之间的相似性。

5.2隐对齐

与显式对齐相反，隐式对齐用作另一个任务的中间(通常是隐藏)步骤。这使得在许多任务中，包括语音识别、机器翻译、媒体描述和视觉问答，可以获得更好的性能。这类模型不显式地对齐数据，也不依赖于监督对齐示例，而是学习如何在模型培训期间对数据进行隐式对齐。我们确定了两种类型的隐式对齐模型:早期基于图形模型的工作和更现代的神经网络方法。

图形模型已经看到了一些早期的工作，用于更好地对齐机器翻译语言之间的单词[216]和语音音素与其转录的对齐[186]。但是，它们需要手动构造模式之间的映射，例如，将电话映射到声学特性的生成电话模型[186]。构建这样的模型需要培训数据或人类专业知识来手动定义它们。

Karpathy等人提出了另一种将图像与标题对齐以进行跨模式检索的神经替代方法。〔98〕，〔99〕。他们提出的模型使用图像区域和词表示之间的点积相似度度量将句子片段与图像区域对齐，虽然它不使用注意，但通过训练检索模型间接学习的相似度度量，提取出形式之间潜在的对齐。

5.3讨论

多模态对齐面临许多困难:1)具有显式标注对齐的数据集较少;2)两种模式之间的相似度指标难以设计;3)可能存在多种可能的对齐方式，一种模式中的元素不一定在另一种模式中都有对应关系。早期关于多模对准的工作主要集中在以无监督的方式使用图形模型和动态编程技术。

它依赖于手工定义的模式之间相似性的度量，或者在无监督的情况下学习它们。随着最近标签训练数据的可用性，监督学习模式之间的相似性已经成为可能。然而，无监督的技术学习联合起来对齐、转换或融合数据也变得流行起来。

6融合

多模态融合是多模态机器学习中最早提出的课题之一，以往的研究主要侧重于早期、晚期和混合融合方法[50][247]。在技术术语中，多模态融合是将来自多种模态的信息集成在一起，并以预测结果为目标的概念:通过分类来预测一个类别(例如，快乐vs.悲伤)，或者通过回归来预测一个连续值(例如，情绪的积极性)。这是25年前工作的多模态机器学习中研究最多的方面之一[243]。

对多模态融合的兴趣来自于它能提供的三个主要好处。首先，能够访问观察同一现象的多种模式，可能会使预测更加可靠。

AVSR社区尤其探索和利用了这一点[163]。其次，能够访问多种模式可能允许我们捕获互补的信息——一些在单独的模式中不可见的信息。第三，当其中一种模态缺失时，多模态系统仍然可以运行，例如，当一个人不讲[50]时，从视觉信号中识别情绪。

虽然之前的一些研究使用多模态融合这一术语来包含所有的多模态算法，但在本文的研究中，我们将在预测后期进行多模态融合的方法归为融合类，目的是预测结果度量。在最近的工作中，多模态表示和融合之间的界限已经变得模糊，例如深度神经网络，其中表示学习与分类或回归目标交织在一起。正如我们将在本节中描述的那样，这条线对于其他方法(如图形模型和基于内核的方法)更加清晰。

我们将多模态融合分为两大类:不直接依赖于特定机器学习方法的模型不可知方法(第6.1节);以及在构建中显式处理融合的基于模型的方法(第6.2节)，例如基于内核的方法

方法，图形模型和神经网络。这些方法的概述见表5。

表5:多模态融合方法的分类总结。输出类型(类-分类或reg-回归)、临时-是时间建模的可能。

6.1模型不可知论方法

历史上，绝大多数多模融合都是用模型不可知论方法完成的[50]。这种方法可以分为早期（即基于特征）、晚期（即基于决策）和混合融合[11]。早期融合在提取特征后立即集成特征（通常只需将其表示连接起来）。另一方面，后期融合在每种模式做出决定（例如分类或回归）后执行集成。最后，混合融合结合了早期融合的输出和单个单模态预测因子。模型不可知方法的一个优点是，它们几乎可以使用任何单模态分类器或回归器来实现。

早期融合可以看作是多模态研究人员进行多模态表示学习的初步尝试，因为它可以学习利用每种模态的低层特征之间的相关性和相互作用。此外，它只需要单个模型的训练，这使得训练管道比后期和混合融合更容易。

相比之下，延迟融合使用单模态决策值，并使用平均[181]、投票方案[144]、基于信道噪声[163]和信号方差[53]的加权等融合机制将其融合，或者使用学习模型[68]、[168]。它允许对每个模态使用不同的模型，因为不同的预测器可以更好地为每个单独的模态建模，从而提供更多的灵活性。此外，当13种模式中的一种或多种缺失时，可以更容易地进行预测，甚至可以在没有并行数据可用时进行培训。然而，晚期融合忽略了模式之间的低水平相互作用。

混合融合试图在公共框架中利用上述两种方法的优点。它已成功地用于多模态扬声器识别[226]和多媒体事件检测(MED)[117]。

6.2基于模型的方法

虽然使用单模态机器学习方法很容易实现模型不可知的方法，但是它们最终使用的技术不是设计用来处理多模态数据的。在本节中，我们将描述用于执行多模态融合的三种方法:基于内核的方法、图形模型和神经网络。

多核学习(multikernellearning,MKL)方法是对内核支持向量机(kernelsupportvectormachines,SVM)的扩展，它允许对数据的不同模式/视图使用不同的内核[70]。由于内核可以看作是数据点之间的相似函数，MKL中特定于模式的内核可以更好地融合异构数据。

MKL方法是一种特别流行的融合视觉描述符用于对象检测[31]的方法[66]，直到最近才被用于任务的深度学习方法所取代[109]。它们也被用于多模态情感识别[36]，[90]，[182]，多模态情绪分析[162]和多媒体事件检测(MED)[237]。此外，McFee和Lanckriet[137]提出使用MKL从声学、语义和社会视角数据对音乐艺术家进行相似性排序。最后，Liu等[125]在阿尔茨海默病分类中使用MKL进行多模态融合。它们的广泛适用性证明了这些方法在不同领域和不同模式中的优势。

除了内核选择的灵活性之外，MKL的优点是损失函数是凸函数，允许使用标准优化包和全局最优解进行模型训练[70]。此外，mkl可以用于执行回归和分类。mkl的一个主要缺点是在测试期间依赖于训练数据（支持向量），从而导致推理缓慢和内存占用大。

图形模型是多模态融合的另一种常用方法。在本节中，我们概述了使用浅层图形模型进行多模态融合的工作。深度图形模型的描述，如深度信念网络，可以在3.1节中找到。大多数图形模型可分为两大类：生成-建模联合概率；或判别-建模条件概率[200]。最早使用图形模型进行多模态融合的方法包括生成模型，如耦合[149]和阶乘隐马尔可夫模型[67]以及动态贝叶斯网络[64]。最近提出的多流HMM方法提出了AVSR模式的动态加权[75]。

可论证的是，生成模型的受欢迎程度不如条件随机场(CRF)等判别模型[115]，条件随机场牺牲了联合概率的建模来获得预测能力。CRF模型通过结合图像描述的视觉和文本信息来更好地分割图像[60]。CRF模型已经扩展到使用隐藏的条件随机字段来模拟潜在状态[165]，并已应用于多模态会议分割[173]。潜在变量判别图形模型的其他多模态应用包括多视图隐藏CRF[194]和潜在变量模型[193]。最近Jiang等[93]展示了多模态隐藏条件随机域在多媒体分类任务中的优势。虽然大多数的图形模型都是以分类为目的的，但CRF模型已经扩展到连续版本进行回归[164]，并应用于多模态设置[13]进行声像情感识别。

图形化模型的优点是能够方便地利用数据的空间和时间结构，使其在时间建模任务(如AVSR和多模态影响识别)中特别受欢迎。它们还允许将人类的专家知识构建到模型中。并经常导致可解释的模型。

神经网络在多模态融合中得到了广泛的应用[151]。使用神经网络进行多模态融合的最早例子来自AVSR的研究[163]。

神经网络也被用于融合时间多模态信息通过使用RNNs和LSTMs。较早的此类应用之一是使用双向LSTM进行视听情绪分类[224]。最近，Wollmer等人[223]使用–lstm模型进行连续多模态情绪识别，显示了其优于图形模型和SVM。同样，Nicolaou等人[152]使用LSTMS进行持续情绪预测。他们提出的方法使用一个lstm来融合模态特定（音频和面部表情）lstms的结果。接近形态融合通过递归神经网络被用于各种图像字幕任务,例如模型包括:神经图像字幕[214],CNN是使用一种LSTM语言解码图像表示模型,gLSTM[91]包含了图像数据的句子一起解码在每一个时间步融合视觉和句子中的数据联合表示。最近的一个例子是Rajagopalan等人提出的多视图LSTM(mvc-LSTM)模型[166]。MV-LSTM模型通过显式地建模特定于模态和跨模态的交互，允许灵活地融合LSTM框架中的模态。深度神经网络方法在数据融合方面的一大优势是能够从大量数据中学习。其次，最近的神经结构允许对多模态表示组件和融合组件进行端到端训练。最后，与基于非神经网络的系统相比，它们表现出了良好的性能，并且能够学习其他方法所面临的复杂决策边界。

神经网络方法的主要缺点是缺乏可解释性。很难判断这种预测依赖于什么，以及哪种模式或特征起着重要作用。此外，神经网络需要大的训练数据集才能成功。

6.3讨论

多模态融合是一个被广泛研究的课题，提出了许多方法来解决它，包括模型不可知方法、图形模型、多核学习和各种类型的神经网络。每种方法都有自己的优点和缺点，有些方法更适合于较小的数据集，有些方法在嘈杂的环境中性能更好。

最近，神经网络已经成为处理多模态融合的一种非常流行的方法，然而图形模型和多核学习仍在使用，特别是在训练数据有限或模型可解释性很重要的任务中。

尽管取得了这些进展，多模态融合仍然面临以下挑战:1)信号可能不是时间对齐的(可能是密集连续信号和稀疏事件);2)难以建立利用补充信息而不仅仅是补充信息的模型;3)每种模态可能在不同的时间点表现出不同的类型和不同程度的噪声。

7协同学习

见表6，数据并行性总结见图3。

图3:用于共同学习的数据并行性类型:并行模式来自相同的数据集，实例之间存在直接对应关系;非并行模式来自不同的数据集，没有重叠的实例，但在一般类别或概念上有重叠;混合——实例或概念通过第三种模式或数据集进行桥接。

7.1平行数据

协同训练是在多模态问题[21]中只有少量的标记样本时，生成更多标记样本的过程。基本算法在每个模态中构建弱分类器，以便为未标记的数据彼此引导标签。研究表明，在Blum和Mitchell的开创性工作[21]中，人们发现了更多基于网页本身和超链接的网页分类培训样本。根据定义，该任务需要并行数据，因为它依赖于多模态样本的重叠。

联合训练已用于统计分析[178]以构建更好的视觉检测器[120]和视听语音识别[40]。它还可以通过过滤不可靠的样本[41]来处理两种模式之间的不一致。虽然联合训练是一种生成更多标记数据的强大方法，但它也会导致训练样本偏置，导致过拟合。转移学习是利用并行数据协同学习的另一种方法。多模表示学习（第3.1节）方法，如多模深Boltzmann机器[198]和多模自动编码器[151]将信息从一种形式的表示转移到另一种形式的表示。这不仅会导致多模态表示，而且会导致更好的单模态表示，在测试期间只使用一种模态[151]。Moon等[143]展示了如何将信息从语音识别神经网络(基于音频)传输到唇读神经网络(基于图像)，从而获得更好的视觉表征，并建立了一个在测试期间无需音频信息即可进行唇读的模型。同样，Arora和Livescu[10]利用CCA在声学和发音(嘴唇、舌头和下巴的位置)数据上构建了更好的声学特征。他们只在CCA构建期间使用发音数据，在测试期间只使用产生的声学(单模态)表示。

7.2非并行数据

依赖于非并行数据的方法不需要模式具有共享实例，而只需要共享类别或概念。非并行协同学习方法在学习表示时可以提供帮助，允许更好地理解语义概念，甚至可以执行不可见的对象识别。

概念基础是指学习语义意义或概念，不仅仅是基于语言，还包括视觉、听觉、甚至是嗅觉[16]等附加形式。虽然大多数概念学习方法都是纯语言为基础的，但人类对意义的表征不仅是我们语言暴露的产物，而且也是通过我们的感觉运动经验和感知系统[17]而建立起来的[126]。人类的语义知识在很大程度上依赖于感知信息[126]，许多概念是建立在感知系统的基础上的，并非纯粹的符号[17]。这意味着单纯从文本信息中学习语义意义可能不是最优的，并会激发使用视觉或听觉线索来为我们的语言表征奠定基础。

从工作由冯和Lapata[59],接地通常是由之间找到一个共同的潜在空间表征[59],[183](并行数据集的情况下)或通过学习单峰表示分开,然后导致一个多通道连接[29],[101],[172],[181](对于非并行数据)。一旦构建了多模态表示，它就可以用于纯语言任务。Shutovaetal.[181]和Brunietal.[29]使用扎根表征对隐喻和字面语言进行了更好的分类。这种表示法也有助于衡量概念上的相似性和关联性——确定两个词在语义上或概念上是如何相关的[30]、[101]、[183]或行为[172]。此外，概念不仅可以使用视觉信号，还可以使用声学信号，这使得概念在与听觉相关的单词上有更好的表现[103]，对于与嗅觉相关的单词甚至可以使用嗅觉信号[102]。最后，多模对齐和概念性接地之间有很多重叠，因为将视觉场景与其描述对齐会导致更好的文本或视觉表示[108]、[161]、[172]、[240]。

概念基础已被发现是一种有效的方法，以提高性能的一些任务。它还表明，语言和视觉(或音频)是互补的信息源，将它们组合在多模态模型中通常可以提高性能。但是，必须小心，因为接地并不总是能带来更好的性能[102]，[103]，并且只有当接地与任务相关时才有意义-例如，使用图像进行接地以获得视觉相关概念。

零距离学习(Zeroshotlearning,ZSL)指在没有明确看到任何例子的情况下识别概念。例如，在没有见过(标记的)猫的图像的情况下对图像中的猫进行分类。这是一个需要解决的重要问题，例如在许多任务中，如可视化对象分类：为每一个感兴趣的可想象对象提供培训示例是非常昂贵的。

ZSL主要有两种类型——单模态和多模态。单模态ZSL查看对象的组成部分或属性，如用于识别未听过的单词的音素，或用于预测未见的可视类[55]的视觉属性，如颜色、大小和形状。多模zsl通过第二模态的帮助识别主模态中的对象——在第二模态中，对象已经被看到。根据定义，zsl的多模式版本是一个面临非并行数据的问题，因为所见类的重叠在模式之间是不同的。Socher等[190]将图像特征映射到概念词空间，能够对可见和不可见的概念进行分类。然后，看不见的概念可以分配给一个接近视觉表示的单词——这是通过在一个单独的数据集上训练语义空间来实现的，该数据集看到了更多的概念。而不是学习从视觉到概念空间的映射，Frome等[61]学习概念之间的协调多模态表示以及支持ZSL的图像。Palatucci等人[158]根据功能磁共振图像对人们正在思考的单词进行预测，他们展示了如何通过中间语义空间预测看不见的单词。Lazaridou等人[118]提出了一种通过神经网络将提取的视觉特征向量映射到基于文本的向量的快速映射方法。

7.3混合数据

在混合数据设置中，两个非并行模式由共享模式或数据集桥接（见图3c）。最值得注意的例子是桥接相关神经网络[167]，它使用一个中心模态来学习存在非并行数据的协调多模态表示。例如，在多语言图像标题的情况下，图像模式在任何语言中总是与至少一个标题配对。这些方法也被用来连接那些可能没有并行语料库但可以访问共享的枢轴语言的语言，例如机器翻译[148]、[167]和文档音译[100]。

7.4讨论

多模态联合学习允许一种模态影响另一种模态的训练，利用跨模态的互补信息。需要注意的是，联合学习是独立于任务的，可以用于创建更好的融合、转换和对齐模型。以协同训练、多模态表示学习、概念基础和零镜头学习(zeroshotlearning,ZSL)等算法为例，在视觉分类、动作识别、视听语音识别和语义相似度估计等领域得到了广泛的应用。

8总结

作为综述的一部分，我们介绍了多模式机器学习的分类法：表示、翻译、融合、对齐和共同学习。其中一些，如融合，已经研究了很长时间，但最近对表示和翻译的兴趣导致了大量新的多模态算法和令人兴奋的多模态应用。我们相信，我们的分类法将有助于编目未来的研究论文，并更好地理解多模机器学习所面临的遗留问题。

@琪瑞

本文版权归《琪瑞》，转载请自行联系。